AI抗体解读之"A Review of Deep Learning Methods for Antibodies"

AI Medicine 发表于 2022/03/26 18:32:09 2022/03/26
【摘要】 继CV/NLP领域的成功后,深度学习开始逐步进入生物领域,例如细胞影像分类,基因组研究等。在药物研发及蛋白工程领域,设计具备成药潜力的分子是重要的目标,AI与小分子药物结合的研究已较多,目前AI方法亦逐渐被用于生物药物的研发,例如抗体药物。本篇综述简要介绍了抗体及深度学习的背景,然后深入介绍了数种深度学习算法,该类型算法主要用于抗体结构/Affinity/互作/Target研究等。



微信截图_20220326182717.png



摘要


继CV/NLP领域的成功后,深度学习开始逐步进入生物领域,例如细胞影像分类,基因组研究等。在药物研发及蛋白工程领域,设计具备成药潜力的分子是重要的目标,AI与小分子药物结合的研究已较多,目前AI方法亦逐渐被用于生物药物的研发,例如抗体药物。本篇综述简要介绍了抗体及深度学习的背景,然后深入介绍了数种深度学习算法,该类型算法主要用于抗体结构/Affinity/互作/Target研究等


文章主要结构

1 主要脉络.png



第1部分 背景介绍


从抗体药物的重要性入手,引入计算的方法可以提高优化速度,更好地设计抗体,降低成本等



1 背 景 介 绍.png





第2.1部分 基础概念-抗体


  • 系统介绍了抗体的结构,并引出CDR区域中的H3 CDR区域较为特殊,预测比较难,是第一个挑战;

  • 预测抗体和抗原间的结合是第二个挑战,因为抗体抗原间的互作特点与蛋白-蛋白的互作特点不同。

2 基 础 概 念 - 抗 体.png



第2.2部分 基础概念-深度学习


深度学习具备学习复杂特征的能力,具备解决抗体研究中问题的能力。抗体研究中遇到的3类计算任务:1)序列到结构建模,(2)预测相互作用及docking等,(3)辨别靶点


2基 础 概 念 - 深 度 学 习.png





第3部分 为什么需要深度学习?


传统方法主要基于理论能量函数和统计量等,不能基于复杂的生物特征精准预测结构等,且需要消耗大量计算资源。但深度学习可以有效提炼复杂的高级特征,例如已在CV领域取得成功。蛋白质结构可以采用类似的方式,例如通过graph, 3D voxel及manifold,深度学习经过特定数据训练后将会适应该特定领域。


3 为什么用深度学习 解决这些问题.png




4.1部分 深度学习方法之sequence to structure


  • 抗体结构预测方面,主要预测CDRs结构。

  • 传统的同源建模方法,non-H3 CDRs预测性能已挺好。

  • 机器学习方法包括GBM及PSSM。

  • 深度学习方法多集中于预测H3 CDR结构,例如DeepH3,基于残基间的距离和方向角等,预测H3环的潜在结构,并排序选择最优的。

  • 蛋白结构预测方面,深度学习方法主要有AlphaFold系列,Recurrent Geometric Network以及trRosetta,采用的方法思路不同。

4 Sequence  to  structure.png


第4.2部分 深度学习方法之Interaction prediction及Affinity maturation


  • Mason提出的基于序列的方法优化选择antibody,通过在H3 CDR区域引入突变增加大量数据,结合LSTM/RNN/CNN等方法预测是否binding,能够选出较强粘附性的潜在抗体。

  • Ens-Grad方法通过ensemble6个神经网络,并结合gradient ascent优化output,预测目标为该序列的粘附性。使用的数据来自噬菌体文库数据。可生成更丰富的种子序列,且能学习到更高level的特征。

  • DeepInterface主要用于分类protein complexes,通过voxel grid consturct构造输入数据,并结合生成的negative samples,再结合CNN等网络结构实现分类任务。

  • MaSIF-Search基于几何深度学习,预测PPI进行分类。从protein graph上选择点/邻接点及其属性构建patch,并生成蛋白的一维表示。最小化正样本间的距离,最小化负样本间的距离。

  • TopNetTree把antibody-antigen结合作为PPI的一个特殊cases。该方法把持久同源性技术作为将蛋白质结构表示为一维特征的主要方法,可以提取多方面/多角度的一维特征,被用作下游卷积神经网络的输入。



4 深度学习方法-Interaction Prediction Affinity Maturation.png



第4.3部分 深度学习方法之Target identification


  • Antibody Specific B-Cell Epitope Predictions方法能够预测序列中的残基与已知真实抗原决定簇overlap的比例。通过对residue及表面暴露的neighbors构造一维信息,结合卷积网络,预测overlap的值。

  • MaSIF-site可以基于表面位点产生的一维fingerprint,结合特定的specific layers。例如用于相互作用的分类预测。

  • DRREP方法及saha等人提出的方法,可以用于预测氨基酸序列为线性抗原决定簇的概率。输入是氨基酸序列或者固定长度的序列,然后接不同的神经网络层,预测成为epitopes的概率。


4 Target Identification.png




第5部分 数据集


列举了多类数据库及相关描述信息,包括抗体-抗原结构数据库抗原相关数据库蛋白-蛋白数据库相关比赛数据集等。


5 数 据 集.png






第6部分 讨论与展望


抗体-抗原结合是PPI的一个特殊case,具体特有的性质。基于深度学习预测抗体-抗原结合,常缺少通用数据集,需要持续发展基准数据集;迁移学习可作为一种策略,利用相似的蛋白数据。同时,建模分析时也要考虑affinity相关的信息构建负样本等。


总体看,深度学习分析生物学数据需要新的模型结构和方法,目前现有的问题同时可以利用序列/结构/相互作用/属性相似性等数据


挑战在于:

  • 序列数据不够大量

  • 结构数据很少

  • 负样本很难确定

  • 无标准数据集


未来研究方向可以集中于:

  • 结构的表示

  • 标准数据集的构建

  • 生成方法

  • 分子动力学


6 讨 论 及 展 望.png

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区),文章链接,文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:cloudbbs@huaweicloud.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。