CORE | AAAI2020:分子自动优化模型
今天介绍美国佐治亚理工学院计算机学院的Jimeng Sun团队在AAAI2020的论文,该研究提出了一种分子生成模型的优化策略——CORE(Copy & Refine Strategy),其核心思想是:在每个生成步骤中,CORE将决定是从输入分子复制子结构(Copy)还是加入新的子结构(Refine)。
背景
设计具有所需特性的分子或化合物是药物研究中的基本任务, 由于类药物分子的数量很大,估计在10^23至10^60之间,因此传统方法如高通量筛选(HTS)具有局限性。药物发现中的一项任务称为前导优化:研究者先通过HTS找出候选分子(命中),然后通过前导优化找到属性比原始命中更好的前导化合物。为了将前导优化建模为机器学习问题,训练数据是成对的分子。这些分子对包括X和Y,X是输入分子,Y是X映射到具有更理想属性的目标分子Y,训练的目的是学习到可以从输入分子生成具有更好属性的目标分子的模型。
近年来,因为成功使用了深度生成模型,分子自动生成算法取得了很大的进步。由于分子可以用SMILES字符串表示,因此早期是将分子的生成归结为序列生成问题。但是,许多这类的算法都会生成许多无效的SMILES字符串,这些字符串与任何有效的分子都不对应。
针对上述问题,研究者提出了基于图的方法,这些方法将分子生成任务重新定义为图到图转换的问题,从而避免了生成SMILES字符串的需要。它们的核心思想是将输入分子图划分为子结构(例如环,原子和化学键)的骨架树,并学习生成这种树。但是,图生成方法仍然有不尽人意的地方,大量可能的树节点意味着产生大量可能的子结构,例如ZINC数据库中有约800个独一无二的子结构。
这就使模型面临着挑战,一方面,在每个生成步骤中,模型都必须从大量可能的子结构中确定要添加的子结构。另一方面,根据实际数据,该团队观察到以下关于目标分子的两个原理:
稳定原理:目标分子中绝大多数子结构都来自输入分子。
新型原理:大多数目标分子中都存在新的子结构。
基于上述结论,研究人员提出了一种新的分子优化方法,称为Copy与Refine(CORE)。其核心思想是:在每个生成步骤中,CORE将决定是从输入分子复制子结构(Copy)还是加入新的子结构(Refine)。
方法
给定一个分子对(输入X和目标Y),首先训练编码器,利用图(或树)上的信息传递算法将输入X的分子图G和骨架树TG嵌入到向量表示中。最后,引入两级解码器以创建新的骨架树和相应的分子图。CORE方法主要工作在解码器模块,通过该方法创建符合新型原理和稳定原理的分子。
编码器
为了构建无循环的结构,所以将G的某些顶点收缩为单个节点来生成骨架树TG。通过将骨架树视为图,输入分子图和骨架树都可以通过信息传递网络(MPN)进行编码。编码器为骨架树或输入分子图中的每个节点生成嵌入向量。
解码器
解码器分为骨架树解码器与图解码器,CORE方法对于骨架树解码器具有较好的优化作用。
骨架树解码器
骨架树解码器的目的是从编码器生成的嵌入中产生新的骨架树。总体思路是从一棵空树开始,一次生成一个子结构,并且每次由CORE方法决定是扩展当前节点还是回溯到其父节点(拓扑预测),以及添加哪个子结构(子结构预测)。一旦达到从根回溯的条件,该骨架树的生成将终止。
拓扑预测
当解码器访问节点时,CORE必须对节点进行预测是“扩展一个新节点”还是“回溯到它的父节点”。思路是:首先通过基于树的RNN加强对其节点的嵌入,然后使用加强后嵌入来预测是扩展还是回溯。给定骨架树,树解码器使用具有注意机制的RNN进一步改善从原始信息传递嵌入中学习到的嵌入信息。信息向量的更新函数为:
在节点处扩展或回溯的概率是通过计算得到:
子结构预测
如果解码器决定扩展,必须通过从原始输入复制或从全局子结构集中来选择要扩展的子结构。本文作者根据经验认为这一步骤最具挑战性,因为它是导致正确率降低的重要原因。首先,使用注意力机制根据当前信息向量和节点嵌入来计算上下文向量:
然后基于注意力向量和信息向量,在此基础上,添加具有softmax激活函数的全连接神经网络来预测子结构:
越大意味着越有可能成为被添加的子结构。
然而,所有可能的子结构的数量通常都非常大,这使得预测更加困难,特别是对于罕见的子结构。受指针网络的启发,作者设计了一种类似的方法,将一些输入序列复制到输出中。 但是,指针网络不能处理目标分子包含输入外(OOI)子结构的情况,即新型子结构不是输入分子的一部分。针对这一问题,作者借用从序列到序列模型中的思想设计了一种方法来预测生成新型OOI子结构的权重。
假设权重不仅取决于输入的分子(全局信息)和当前在解码器中的位置(局部信息),用z表示输入分子的全局信息:
通过计算OOI子结构的权重使得输入分子中的每个子结构都有一个注意力权重(进行过归一化处理,所以总和为1),用它衡量子结构对解码器的贡献,即用它来表示选择每个子结构的概率。
第t次迭代的预测被表示为如下混合形式:
图解码器
图解码器的目标是将骨架树中的节点组装在一起,形成正确的分子图,在学习过程中,所有候选分子结构{Gi}都被列举,并被划分为一个分类问题,其目标是使正确子结构Go的打分函数最大化。
对抗学习
通过对抗训练来进一步提高该模型的性能,其中将整个编码器-解码器体系结构视为生成器G(·),将目标分子Y视为真实样本,将鉴别器D(·)用来区分实际的分子和由解码器生成的分子。G(·)是一个多层前馈网络。
实验
分子数据库
从ZINC数据库提取的25万个药物分子,表中列出了数据集的基本统计信息。
分子属性
在药物开发中,某些属性对于评估所产生药物的有效性至关重要,本文主要关注以下三个属性:
DRD2:DRD2分数用于衡量分子对称为多巴胺2型受体(DRD2)的生物靶标的生物活性,DRD2分数范围从0到1。
QED:QED评分是药物相似性的指标,范围从0到1。
Penalized LogP:Penalized LogP是一个logP得分,它说明了环尺寸和分子合成的可能性。
对于ZINC中的每个SMILES字符串,使用Rdkit包生成QED,DRD2和LogP分数。对于所有这三个分数,越高越好。因此,对于训练数据对(X,Y),X是得分较低的输入分子,而Y是基于X生成的得分较高的分子。
分子对的产生
对于训练数据集的分子对(X,Y),其中X是输入分子,Y是具有所需特性的目标分子。X和Y必须满足两个规则:
(1)它们足够相似;
(2)Y相对于X特性具有显着的改善。
罕见子结构
根据研究的观察,如果某个子结构在训练集中出现的次数少于2000次,作者将其称为“罕见子结构”,否则称为“常见子结构”,本文尤其关注罕见子结构的预测。
对比方法
JTVAE:一种深度生成模型,可学习潜在空间以生成所需分子,与CORE一样,它也在骨架树和图级别上使用编码器-解码器体系结构。
Graph-to-Graph:前文提到过的模型,本文就是基于该模型改进的。
GCPN:使用图卷积网络生成具有特定属性的分子结构。
该研究团队还尝试了在SMILES字符串上使用“序列到序列”模型,但是生成的模型生成了太多无效的SMILES字符串,无法与所有其他基于图的方法进行比较,这进一步证实了图生成是分子优化的更有效的方法。
评价指标
相似性:评估了输入分子和生成的分子之间的分子相似性,通过在摩根指纹上的Tanimoto相似性来测量。
生成分子属性:分子属性可以包括使用Rdkit评估的QED-score,DRD2-score和LogP-score。
成功率:该评价标准是同时考虑相似性和属性改进的评价标准。由于任务是生成一个分子,该分子与输入分子相似,并且同时具有改善的特性,所以设计了一个标准来判断它是否满足这两个条件:
(a)输入和生成的分子足够相似,
(b)优化足够大,即
在这些评价标准中,相似性和属性优化是最基本的评价。对于除了运行时间和模型大小之外的所有评价标准,值都是越大越好。
实验结果
与其他方法相比,在所有评价指标中,CORE均表现更好。具体而言,当用成功率SR进行衡量时,CORE绝对比最佳基准提高了约2%。当用SR2进行测量时,它可以在QED和DRD2上实现10%以上的相对改进。
具有罕见子结构的测试子集更具挑战性,因为对于所有方法,性能都会在罕见子集上降低。在罕见子结构的测试子集上进行测量时,与完整测试集相比,CORE可以实现更显着的改进。具体而言,CORE在QED和DRD2中的成功率(SR2)相对提高了21%和18%,而SR(SR1和SR2两者)绝对提高了3%以上。简而言之,与整个测试集相比,CORE在稀有子结构方面获得了更大的改进。
参考资料
Fu T, Xiao C, Sun J. Core: Automatic molecule optimization using copy & refine strategy[J]. arXiv preprint arXiv:1912.05910, 2019.
https://arxiv.org/abs/1912.05910
文章来源: drugai.blog.csdn.net,作者:DrugAI,版权归原作者所有,如需转载,请联系作者。
原文链接:drugai.blog.csdn.net/article/details/104489308
- 点赞
- 收藏
- 关注作者
评论(0)