Computational Protein Design with Deep Learning Neural Networks

本文使用深度神经网络完成计算蛋白质设计去预测20种氨基酸概率。

Introduction

针对特定结构和功能的蛋白质进行工程和设计，不仅加深了对蛋白质序列结构关系的理解，而且在化学、生物学和医学等领域都有广泛的应用。在过去的三十年里，蛋白质设计取得了显著的成功，其中一些设计是由计算方法指导的。最近一些成功的计算蛋白设计的例子包括新折叠，酶设计，疫苗，抗体，新的蛋白质组装，配体结合蛋白和膜蛋白。

Results

Networks architecture, input, and training

数据集：数据集来源于PDB且具有如下特征：

（1）用x射线晶体学确定结构;

（2）分辨率优于$$2 \r A $$;

（3）链长大于50;

（4）结构没有任何DNA/RNA分子。

移除同源蛋白质后分为三个数据集非别是30%、50%、90%（SI30,SI50,SI90）

输入：对于每个数据集，提取每个残基及其基于Cα-Cα距离的N(N=10、15、20、25、30)最近邻残基为聚类。

过程：目标残基及其领域的残基的特征作为一个input输入到残基概率网络得到目标残基的概率（图A），同时也将input输入到权重网络中得到一个权重输出（图B）。残差概率网路和权重网络本文模型架构的子网络，将这两个输出concat后输入到后续网络最终输出概率。

训练：线性层ReLU作为所有层的激活函数。训练采用交叉熵（categorical cross entropy ）作为损失函数，采用随机梯度下降法进行优化，学习率为0.01，批处理大小为40,000，epoch是1000。

Overall and amino acid specific accuracy

表神经网络在不同邻域残基的不同数据集上的交叉验证的总体精度

Indentity cutoff	N=10	N=15	N=20	N=25	N=30
30%	0.329 $$(0.001)^*$$	0.340 $$\mathbf{(0.005)} $$	0.333 $$(0.009)$$	0.331 $$(0.006)$$	0.321 $$(0.015)$$
50%	0.353 $$(0.003) $$	0.364 $$\mathbf{(0.005)} $$	0.358 $$(0.005) $$	0.359 $$(0.006) $$	0.342 $$(0.007) $$
90%	0.367 $$(0.001) $$	0.383 $$\mathbf{(0.004)} $$	0.382 $$(0.006) $$	0.379 $$(0.007) $$	0.352 $$(0.013) $$

*括号中为标准差

正如预期的那样，由于更多的数据样本和样本之间的相似性，具有更高蛋白质确定率的数据集显示出更好的准确性。但从SI30到SI90数据集的数据样本数量几乎翻了一番，精度的提高并不显著。N=15时准确性最好，小于15时较少的相邻残基可能不足以代表目标残基的环境，而大于15时包含太多的领域残基会在输入中产生噪声。

针对总体精度最好的SI90N15分析每种氨基酸的召回率和精确度。其中Gly(甘氨酸)和Pro（脯氨酸）的召回率和准确率都较好。因为Pro具有特殊的刚性构象，而Gly在主链二面体方面具有高度的灵活性。召回、精度较低的氨基酸在训练集中的丰度通常较低，例如Met、Gln和His。

计算了每个天然氨基酸被预测为20个氨基酸的概率，并将其绘制在二维天然氨基酸和预测的热图中（如上图）。x轴和y轴上的氨基酸是根据它们的性质和彼此之间的相似性来排序的。正如预期的那样，对角线网格显示出更高的概率。有趣的是，沿着对角线有几个组，包括

网络的输出是20个氨基酸的概率在一个目标位置，除了上面提到的准确性，也可以计算top-K精度：如果源氨基酸在top-K预测(K氨基酸概率最高)，预测被认为是正确的。在SI90N15数据集上训练的网络的前2、3、5和10个准确率分别达到54.3%、64.0%、76.3%和91.7%。

表 Rosetta固定主干设计在三个蛋白质有/没有残基类型约束的平均序列准确率

Protein	No-restrain*	Top 1	Top 3*	Top 5*	Top 10*
2B8I	$$0.276 \pm 0.033 $$	0.337	$$0.306 \pm 0.017$$ (0.558)	$$\mathbf{0.354 \pm 0.021} $$ (0.688)	$$0.293 \pm 0.037 $$ (0.883)
1HOE	$$0.408 \pm 0.026 $$	0.338	$$\mathbf {0.473 \pm 0.018} $$ (0.635)	$$0.441 \pm 0.018 $$ (0.689)	$$0.416 \pm 0.028 $$ (0.851)
2IGD	$$0.409 \pm 0.034$$	0.475	$$0.473 \pm 0.023 $$ (0.705)	$$0.401 \pm 0.028 $$ (0.754)	$$0.408 \pm 0.032 $$ (0.967)

应用Top-3、5和10预测限制设计三个蛋白质包括all-α蛋白(2B8I60)，all-β蛋白质(1HOE61)和混合αβ蛋白(2IGD),这些蛋白质都不包含在训练集中。蛋白质的晶体结构被用作在SI90N15数据集上训练的神经网络的输入。每个位置的固定主干设计程序中的Top-3、5和10个氨基酸作为约束条件。作为对照，列出了这些蛋白质上神经网络的最高准确性，并且进行了固定主干设计（每个位置允许所有20种天然氨基酸）。由于fixbb使用了一种随机设计算法，为每个蛋白质生成了500个序列，并计算出与天然蛋白质的平均序列一致性。

PS

特征包括基本的几何和结构属性的残留，如Cα-Cα距离，主干二面体φ，ψ，ω的$$cos$$和$$sin$$的值，通过一个中心$$C_{\alpha} $$残基到领域$$C_{\alpha}$$残基的单位向量确定相邻残基和目标残基的相对位置，三种二级结构（螺旋、片状和环状），主链骨架氢键的数量，和溶剂访问骨干原子的表面积。

召回是正确预测（恢复）的原生残基的百分比，精度是正确预测的百分比。