AI抗体解读之"A Review of Deep Learning Methods for Antibodies"
摘要
文章主要结构
第1部分 背景介绍
第2.1部分 基础概念-抗体
-
系统介绍了抗体的结构,并引出CDR区域中的H3 CDR区域较为特殊,预测比较难,是第一个挑战;
-
预测抗体和抗原间的结合是第二个挑战,因为抗体抗原间的互作特点与蛋白-蛋白的互作特点不同。
第2.2部分 基础概念-深度学习
第3部分 为什么需要深度学习?
第4.1部分 深度学习方法之sequence to structure
-
抗体结构预测方面,主要预测CDRs结构。
-
传统的同源建模方法,non-H3 CDRs预测性能已挺好。
-
机器学习方法包括GBM及PSSM。
-
深度学习方法多集中于预测H3 CDR结构,例如DeepH3,基于残基间的距离和方向角等,预测H3环的潜在结构,并排序选择最优的。
-
蛋白结构预测方面,深度学习方法主要有AlphaFold系列,Recurrent Geometric Network以及trRosetta,采用的方法思路不同。
第4.2部分 深度学习方法之Interaction prediction及Affinity maturation
-
Mason提出的基于序列的方法优化选择antibody,通过在H3 CDR区域引入突变增加大量数据,结合LSTM/RNN/CNN等方法预测是否binding,能够选出较强粘附性的潜在抗体。
-
Ens-Grad方法通过ensemble6个神经网络,并结合gradient ascent优化output,预测目标为该序列的粘附性。使用的数据来自噬菌体文库数据。可生成更丰富的种子序列,且能学习到更高level的特征。
-
DeepInterface主要用于分类protein complexes,通过voxel grid consturct构造输入数据,并结合生成的negative samples,再结合CNN等网络结构实现分类任务。
-
MaSIF-Search基于几何深度学习,预测PPI进行分类。从protein graph上选择点/邻接点及其属性构建patch,并生成蛋白的一维表示。最小化正样本间的距离,最小化负样本间的距离。
-
TopNetTree把antibody-antigen结合作为PPI的一个特殊cases。该方法把持久同源性技术作为将蛋白质结构表示为一维特征的主要方法,可以提取多方面/多角度的一维特征,被用作下游卷积神经网络的输入。
第4.3部分 深度学习方法之Target identification
-
Antibody Specific B-Cell Epitope Predictions方法能够预测序列中的残基与已知真实抗原决定簇overlap的比例。通过对residue及表面暴露的neighbors构造一维信息,结合卷积网络,预测overlap的值。
-
MaSIF-site可以基于表面位点产生的一维fingerprint,结合特定的specific layers。例如用于相互作用的分类预测。
-
DRREP方法及saha等人提出的方法,可以用于预测氨基酸序列为线性抗原决定簇的概率。输入是氨基酸序列或者固定长度的序列,然后接不同的神经网络层,预测成为epitopes的概率。
第5部分 数据集
第6部分 讨论与展望
挑战在于:
-
序列数据不够大量
-
结构数据很少
-
负样本很难确定
-
无标准数据集
未来研究方向可以集中于:
-
结构的表示
-
标准数据集的构建
-
生成方法
-
分子动力学
- 点赞
- 收藏
- 关注作者
评论(0)