物理化学是否被AI取代?诺贝尔化学奖也颁给了AI,因揭秘蛋白质结构获奖,一起揭秘探索蛋白质结构模型AlphaFold

举报
码上开花_Lancer 发表于 2024/10/10 17:01:59 2024/10/10
【摘要】    在2024年诺贝尔物理学奖尘埃落定之后,人工智能领域再次迎来喜讯。10月9日,瑞典皇家科学院揭晓了2024年诺贝尔化学奖的得主,美国生物化学家David Baker以及谷歌DeepMind的创始人兼CEO Demis Hassabis和首席科学家John Jumper共同荣获此奖项,以表彰他们在解析蛋白质结构上的划时代贡献。David Baker,华盛顿大学西雅图分校的教授及霍华德·休...

   在2024年诺贝尔物理学奖尘埃落定之后,人工智能领域再次迎来喜讯。10月9日,瑞典皇家科学院揭晓了2024年诺贝尔化学奖的得主,美国生物化学家David Baker以及谷歌DeepMind的创始人兼CEO Demis Hassabis和首席科学家John Jumper共同荣获此奖项,以表彰他们在解析蛋白质结构上的划时代贡献。David Baker,华盛顿大学西雅图分校的教授及霍华德·休斯医学研究所的研究员,因其在创造新型蛋白质方面的成就而受到赞誉,被形容为“完成了一项几乎不可能的任务”。他开发的Rosetta软件集成了深度学习技术,在蛋白质结构预测和设计领域发挥了重要作用,广泛应用于药物研发和疫苗设计等多个领域。

   48岁的Demis Hassabis自2010年共同创立DeepMind以来,一直担任公司的首席执行官,主导了AlphaGo、AlphaFold等重大项目。39岁的John Jumper自2017年加入DeepMind,作为高级研究科学家,他也是AlphaFold项目的核心负责人。2014年,谷歌以超过5亿美元的价格收购了DeepMind,并在2023年将其与Google Brain合并,形成了Google DeepMind。这个合并后的团队成为了谷歌在全球AI竞赛中的关键力量,以实现通用人工智能为目标,涉足AI技术研  究、基础科学研究、游戏AI等多个领域,并推出了包括AlphaGo和AlphaFold在内的多个知名项目。

   诺贝尔奖委员会在公告中提到,Demis Hassabis和John Jumper在2020年推出的AlphaFold2模型,能够预测几乎所有已知的2亿种蛋白质的结构。这一成果自发布以来,已被来自190个国家的超过200万研究人员使用,极大地推动了对抗生素耐药性的理解以及塑料分解酶的开发。今年5月,谷歌DeepMind发布了最新版的AlphaFold 3,该模型不仅能预测蛋白质结构,还能高精度预测包括DNA、RNA在内的所有生命分子的结构和相互作用。这一进步标志着AlphaFold 3已经超越了蛋白质领域,进入更广泛的生物分子领域,为开发生物可再生材料和加速药物设计等领域带来了新的变革。得知获奖消息后,Demis Hassabis向媒体表示:“我一直致力于推动人工智能的发展,因为我相信它有潜力改善数十亿人的生活。”John Jumper也发表声明,认为这一奖项证明了人工智能能够加速科学研究,帮助我们更好地理解疾病并开发治疗方法。在诺贝尔化学奖公布前夕,物理学奖也被授予了人工智能领域的两位先驱,其中包括被誉为“AI教父”的Geoffrey Hinton。在社交媒体上,Demis Hassabis迅速向这位“好朋友和前谷歌同事”表示祝贺,赞扬他在深度学习领域的基础性贡献。不久后,Demis Hassabis自己也获得了化学奖。尽管有人对将物理学奖授予计算机科学领域的AI研究提出质疑,但诺贝尔奖委员会对将化学奖授予AI相关研究的解释则更为明确。他们认为,蛋白质是生命中的化学工具,控制着所有构成生命的化学反应。而AlphaFold能够根据氨基酸序列预测蛋白质结构,解决了长期的研究难题,为未来的研究开辟了新的可能性。可以说,谷歌因其多位前员工和现员工的获奖,成为了今年诺贝尔奖的最大赢家。那获奖背后的AlphaFold模型为什么这么厉害?我们一起揭秘背后的原理。

  这里我不得不提Demis Hassabis 和 John Jumper 在2020年提出的 AI 模型 AlphaFold 2 是一种革命性的蛋白质结构预测工具。AlphaFold 2 通过深度学习技术,能够准确预测蛋白质的三维结构,这在生物学和医学研究中具有重要意义。这里有发表一篇论文《Highly accurate protein structure prediction with AlphaFold》有详细的讲到其中的背景和原理。

主要内容:

  • 背景:蛋白质的功能与其结构密切相关,了解蛋白质的三维结构对于生物学研究至关重要。传统的实验方法(如 X 射线晶体学和核磁共振)耗时且成本高昂。
  • AlphaFold 2 的创新:该模型利用了深度学习和神经网络,能够从氨基酸序列中预测蛋白质的折叠结构。它通过大量的已知蛋白质结构数据进行训练,形成了强大的预测能力。
  • 成果:AlphaFold 2 在国际蛋白质结构预测竞赛 CASP14 中表现出色,成功预测了几乎所有2亿种已知蛋白质的结构。这一成就被认为是生物信息学领域的一次重大突破,这篇文章介绍了AlphaFold,这是一个由DeepMind开发的革命性的蛋白质结构预测工具。AlphaFold使用深度学习技术,能够仅根据氨基酸序列预测蛋白质的三维结构,即使在没有已知相似蛋白质结构的情况下也能实现原子级别的精度。这一成就在CASP14比赛中得到了验证,AlphaFold在预测准确性上远超其他方法,为结构生物信息学和相关领域的研究提供了强大的工具。AlphaFold的成功不仅展示了深度学习在解决复杂科学问题上的潜力,也为未来在药物设计、疾病理解和生物技术等领域的应用开辟了新的可能性。


    主要内容:
    1. 蛋白质结构预测的两条路径

      • 基于物理相互作用的方法:这种方法尝试通过热力学或动力学模拟来预测蛋白质的三维结构,但因为计算复杂性高、蛋白质稳定性依赖于环境因素以及难以产生足够准确的蛋白质物理模型,这使得该方法在中等大小的蛋白质上也面临巨大挑战。
      • 基于进化历史的生物信息学方法:这种方法通过分析蛋白质的进化历史、同源结构和成对的进化相关性来预测蛋白质结构。随着蛋白质数据库(PDB)中实验蛋白质结构的稳步增长、基因组测序的爆发以及深度学习技术的发展,这种方法得到了极大的促进。
    2. AlphaFold模型的创新

      • AlphaFold是第一个能够以接近实验精度预测蛋白质结构的计算方法。它在CASP14评估中的表现远超其他方法,这是一个每两年举行一次的盲测,使用未公开的最近解决的结构作为测试数据,是结构预测准确性的黄金标准。
    3. AlphaFold在CASP14中的表现

      • AlphaFold在CASP14中的结构预测精度远高于其他竞争方法。AlphaFold的中位数主链精度为0.96埃(Å)的均方根偏差(r.m.s.d.95),而表现第二好的方法为2.8埃。AlphaFold的全原子精度为1.5埃,相比之下最佳替代方法为3.5埃。
      • AlphaFold不仅能够预测非常准确的域结构,而且在主链非常准确时,还能产生高度准确的侧链,即使在有强模板可用时也显著优于基于模板的方法。
      • AlphaFold能够扩展到非常长的蛋白质,具有准确的域和域包装,并且能够为每个残基提供精确的可靠性估计,这应该能够使这些预测的自信使用。


a. AlphaFold在CASP14数据集上的表现

  • 内容:AlphaFold在CASP14评估中对87个蛋白质域的预测表现相对于前15名的参赛者(总共146个参赛者)。
  • 数据:提供了中位数和95%的置信区间,这些数据是通过10,000次自助抽样估算得出的。这表明AlphaFold在结构预测方面的准确性和可靠性。

b. CASP14目标T1049的预测

  • 内容:展示了AlphaFold对CASP14目标T1049(PDB 6Y4F)的预测结果(蓝色)与真实的实验结构(绿色)进行比较。
  • 细节:指出晶体结构中C端的四个残基是B因子异常值,因此未被描绘。这表明AlphaFold在大多数情况下能够准确预测蛋白质结构,但在某些特定区域可能存在不确定性。

c. CASP14目标T1056的示例

  • 内容:展示了CASP14目标T1056(PDB 6YJ1)的预测结果。
  • 细节:强调了一个准确预测的锌结合位点,尽管AlphaFold没有明确预测锌离子,但其侧链的预测依然准确。这说明AlphaFold在处理金属离子结合位点时的有效性。

d. CASP目标T1044的预测

  • 内容:展示了CASP目标T1044(PDB 6VR4),这是一个2180个残基的单链蛋白质。
  • 细节:预测结果显示正确的域包装,且该预测是在CASP之后使用AlphaFold进行的,没有干预。这表明AlphaFold能够处理非常长的蛋白质并保持准确性。

e. 模型架构

  • 内容:描述了AlphaFold的模型架构。
  • 细节:箭头表示各种组件之间的信息流。括号中显示了数组的形状,其中s表示序列数量(Nseq),r表示残基数量(Nres),c表示通道数量。这提供了对AlphaFold如何处理输入数据和生成输出的深入理解。


在PDB结构上的表现

  • 内容:作者在图2a中展示了AlphaFold在CASP14中展示的高准确度同样适用于最近发布的一大批PDB结构。
  • 数据集:这个数据集中的所有结构都是在AlphaFold的训练数据截止后存入PDB的,并且作为完整的链进行分析。
  • 补充材料:提供了更多的细节,包括方法、补充图15和补充表6。

侧链准确性

  • 内容:当主链预测准确时(图2b),观察到高度的侧链准确性。

置信度量

  • 内容:展示了AlphaFold的置信度量——预测的局部距离差异测试(pLDDT)能够可靠地预测相应的预测的Cα局部距离差异测试(lDDT-Cα)的准确性(图2c)。

全局叠加度量

  • 内容:还发现全局叠加度量模板建模得分(TM-score)可以被准确估计(图2d)。

准确性和可靠性的验证

  • 内容:总的来说,这些分析验证了AlphaFold在CASP14蛋白质上的高准确度和可靠性也转移到了最近PDB提交的未经筛选的集合上,这是预期的结果。
  • 补充材料:补充方法1.15和补充图11进一步确认了这种高准确度扩展到了新的折叠结构。

总结

这段文字强调了AlphaFold不仅在CASP14评估中表现出色,而且在最新的PDB结构数据上也显示出了高准确度和可靠性。这表明AlphaFold的预测能力不仅在特定的评估数据集上有效,而且可以推广到更广泛的蛋白质结构预测中。通过pLDDT和TM-score等度量,AlphaFold能够提供对其预测准确性的可靠估计,这对于蛋白质结构研究和相关应用领域具有重要意义。

其中的详细原理到底是怎么样的?请听我娓娓道来。

a. 主链均方根偏差(r.m.s.d.)的直方图

  • 内容:分析了比训练集中任何结构都要新的结构。为了减少冗余,应用了进一步的筛选。
  • 直方图:展示了全链主链(Cα)在95%覆盖率下的均方根偏差。
  • 误差棒:表示95%的置信区间(泊松分布)。
  • 数据集:排除了训练集中与模板(通过hmmsearch识别)有超过40%序列相似度且覆盖超过1%链长的蛋白质(共3,144个蛋白质链)。
  • 中位数:整体中位数为1.46埃(95%置信区间为1.40–1.56埃)。
  • 注意:这个测量对域包装和域准确性非常敏感;对于某些包装不确定或有包装错误的链,预期会有较高的r.m.s.d.

b. 主链准确性与侧链准确性的相关性

  • 内容:分析了主链准确性与侧链准确性之间的相关性。
  • 筛选:筛选了有观测到的侧链且分辨率优于2.5埃的结构(共5,317个蛋白质链);侧链进一步筛选为B因子<30埃²。
  • 正确性分类:如果预测的扭转角在40°内,则将旋转子分类为正确。
  • 数据点:每个数据点汇总了一定范围的lDDT-Cα,当lDDT-Cα超过70时,箱大小为2单位,否则为5单位。
  • 误差棒:表示每个残基基础上的平均准确性的95%置信区间(学生t检验)。

c. 置信度量与真实准确性的比较

  • 内容:比较了置信度量(pLDDT)与真实准确性(lDDT-Cα)。
  • 线性拟合:最小二乘线性拟合方程为lDDT-Cα = 0.997 × pLDDT − 1.17(皮尔逊相关系数r = 0.76)。
  • 数据集:共10,795个蛋白质链。
  • 置信区间:线性拟合的阴影区域表示从10,000个自助样本估计的95%置信区间。

d. pTM与全链TM-score的相关性

  • 内容:比较了预测的TM-score(pTM)与全链TM-score之间的相关性。
  • 线性拟合:最小二乘线性拟合方程为TM-score = 0.98 × pTM + 0.07(皮尔逊相关系数r = 0.85)。
  • 数据集:共10,795个蛋白质链。
  • 置信区间:线性拟合的阴影区域表示从10,000个自助样本估计的95%置信区间。

。。。。。。

这里我摘取了部分论文引用的内容,详细论文见:https://www.nature.com/articles/s41586-021-03819-2

然后我们仔细看下AlphaFold,揭秘他的神秘面纱。

1、背景

蛋白质是生物体内一类重要的生物大分子,其结构复杂多样,蛋白质的结构对于理解其功能和参与的生物学过程具有重要意义。从生物学角度上看,蛋白质的结构可以分为四个层次:初级结构、二级结构、三级结构和四级结构。

初级结构:初级结构是蛋白质的氨基酸序列,即蛋白质由多个氨基酸按照特定的顺序连接而成。氨基酸是蛋白质的基本组成单位,共有20种常见氨基酸,它们的不同排列形成了蛋白质的初级结构。

二级结构:二级结构是蛋白质中局部区域的空间排列方式。常见的二级结构包括α-螺旋和β-折叠。α-螺旋是由多个氨基酸沿着螺旋状排列而成,而β-折叠是由氨基酸链的不同区域之间的相互作用形成的折叠结构。

三级结构:三级结构是整个蛋白质分子的空间结构。这个结构由蛋白质的二级结构在整个分子中的排列和折叠所决定。各种相互作用力,如氢键、离子键、范德华力和疏水效应等,参与了蛋白质分子的三级结构的稳定。

四级结构:四级结构是由多个蛋白质分子相互组合而成的复合体,通常称为蛋白质的多聚体。多个蛋白质分子通过各种力和作用结合在一起,形成功能更为复杂的生物大分子。

其中初级结构一般可以通过Edman降解法和质谱法进行确定,而二级结构及三级结构通常需要如X射线晶体学、电镜等高度专业的设备和技术来确定,其需要极高人工及金钱成本。而AlphaFold通过深度学习技术解决蛋白质的二级结构及三级结构的预测问题,极大地提高了蛋白质结构解析效率,因此也被认为是诺奖级跨时代的工作。

2、特征输入


前文我们提到,AlphaFold根据深度学习技术,通过输入蛋白质一级结构来解析二级结构及三级结构,而一级结构为一组蛋白质氨基酸序列,但是AlphaFold的特征并不只是输入蛋白质氨基酸序列,而包含了多种相关信息。

单氨基酸序列:其中f为21维氨基酸的one-hot向量(20种常见氨基酸+1种未知默认),r表示序列长度

氨基酸序列标号在一个氨基酸序列中,如果 r=1,则 residue_index[1] 可能指的是序列中的第一个氨基酸

同类MSA特征:MSA特征主要表示同类特征,表示同类的数量,r表示序列长度,表示聚类特征长度

非同类MSA特征

氨基酸序列交互特征:主要用于反映氨基酸序列中各氨基酸之间的位置关系特征

氨基酸序列交互特征:主要用于反映氨基酸序列中各氨基酸本身残基的角度关系。

上述所有特征再经过一个特征预处理模块,得到最终融合的MSA representation特征及Pair representation特征进入后续的编解码过程。



3、模型输出

.
    AlphaFold的输出包含了两个部分,一个是氨基酸本身的在三维空间的旋转方向关系一般通过3x3的矩阵来表示,另一个是氨基酸之间的空间关系可以用一个三维向量表示,因此根据数学关系,一个氨基酸在蛋白质结构中的旋转+空间位置关系也可以通过3+3的六维向量整体表示,由于刚体空间结构不变性,从空间某个指定位置开始,已知下一个氨基酸同上一个氨基酸的空间位置关系,就可以组成整个序列的空间结构,因此整体的蛋白质做旋转或者位移,不会对变换系数产生影响。


4、模型结构


AlphaFold的模型结构分为了两个部分,分别是Encoder模块和Decode模块,在Encoder模块主要是生成蛋白质的氨基酸序列的新特征表示,而Decode模块输出蛋白质中各氨基酸的相对的旋转+空间位置关系。

4.1 Encoder模块


4.1.1 行列门控attention模块


self-attention是一种高效的序列特征抽取器,而一般的attention组件只能支持二维向量,而AlphaFold通过两组attention模块分别抽取行列维向量叠加从而实现了三维的attention抽取器。

此外引入了一个门控组件,其通过一个简单的线性网络来控制行列信息的引入,添加该组件的一个可能原因是因为MSA是通过某种先验的聚类方法来生成的,不同蛋白质之间并不像语句具有较强的信息关系,因此通过门控来排除干扰信息是有必要的。

4.1.2 MSA Transition


MSA Transition模块类似于Transformer结构中的attention之后FC网络。

4.1.3 Outer product mean


该模块主要通过根据MSA特征来计算不同氨基酸之间的相关性特征,其会同通过template计算的初级的相关性特征进行融合,之后还会经过多层结构,得到更为深层次的氨基酸对之间的相关性特征表示。

4.1.4 三角乘法更新模块


如果说上面的Outer product模块建立了不同氨基酸之间的直接关系,通过三角乘法更新模块主要建立了两个氨基酸之间的间接关系,其通过了两个行列不同方向模块来建模两种不同的关系流向。

4.1.5 Pair行列门控attention模块


其同4.1.1 行列门控attention模块是类似的,是三维的attention模块实现

4.2 解码器


解码器中的主要结构为不动点注意力模块(IPA),对于下图所示的IPA模块,如果我们只看红色部分,其是一个典型的attention模块,IPA模块最大的特色是其整合了三部分的特征:

  • 目标蛋白质的氨基酸特征表示序列
  • 氨基酸对间的特征表示序列
  • 叠加空间位置变换后的氨基酸特征

其中第三部分叠加空间位置变换后的氨基酸特征(绿色部分)也是为什么被称为 IPA (Invariant point attention)的原因,因此理论上可以不需要该部分直接输出结果。

因为模型需要输出是同整体全局变换无关的氨基酸之间的相对关系,而如果直接生成时,整体全局变换可能会影响到输出结果。因此其考虑到两个基本几何变换原理。

  • 计算两个点之间的L2距离时,对点坐标做同样的全局变换后L2距离不变。
  • 在做多次空间变换时,全局变换和全局逆变换之间的作用可以抵消。

通过每个模块产出的空间位置变化,进行重复的加强叠加,最终可以消除全局变换的影响,有点类似于ResNet的效果

5、模型训练


5.1 损失函数


主要损失函数为FAPE损失(Frame aligned point erro),实际是衡量氨基酸的预测位置和真实位置之间MSE损失。

5.2 训练方法


自蒸馏学习:先在PDB有label的数据集上训练一个模型,然后去预测一个更大的没有label的数据集,将其中预测比较置信的数据筛选出来,和之前有label的数据拼成一个更大的数据集,再重新训练一个模型,这样循环训练多次,达到充分利用数据的目的。在扩充没有label的数据集的时候,会有一些加噪声的细节,例如对预测的label做一些扰动。

自监督学习:类Bert训练,在MSA序列特征随机屏蔽mask或变换一些氨基酸元素,然后像Bert一样去预测这些元素,在训练的时候加上这个任务会对整个序列建模的效果起到更好的作用。


以上就是AlphaFold模型原理的介绍,欢迎点赞关注。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。