Nat. Commun | 结合二维深度神经网络和迁移学习 预测RNA二级结构

举报
DrugAI 发表于 2021/07/15 04:40:38 2021/07/15
【摘要】   研究背景 RNA分子是生物体内参与各种如细胞分化、代谢、记忆存储等重要生命活动的一类大分子,其常见的种类有rRNA、mRNA、tRNA。近年来越来越多的实验表明RNA似乎无处不在、无所不能,而事实上,编码用的mRNA才占1.5%,而非编码RNA则占据了人类基因组的75%。但是我们对绝大多数的非编码RNA了解甚少,主要原因是缺乏结构信息,因...

 


研究背景

RNA分子是生物体内参与各种如细胞分化、代谢、记忆存储等重要生命活动的一类大分子,其常见的种类有rRNA、mRNA、tRNA。近年来越来越多的实验表明RNA似乎无处不在、无所不能,而事实上,编码用的mRNA才占1.5%,而非编码RNA则占据了人类基因组的75%。但是我们对绝大多数的非编码RNA了解甚少,主要原因是缺乏结构信息,因为结构决定功能,不知道结构,我们就无法推测其功能。

RNA的三维结构往往是在先形成的二级结构的框架上堆叠而成的,所以知道二级结构对于RNA结构建模和理解其功能机制至关重要。二级结构是指RNA序列各个位置有氢健互补配对的碱基(例如第i个碱基与第j个碱基(i:j)有氢健相连),而邻近不间断多个配对碱基的堆积(i:j ,i-1:j+1,i-2:j+2等)所形成的螺旋长茎区是二级结构稳定的关键。如下图所示,二级结构的二维描述是螺旋茎区加无碱基配对的各种环状结构(Hairpin Loop发夹环;Multiple Loop多环;Internal Loop内环;Bulge Loop凸环),它也可以通过一维的碱基连接图来显示。

虽然二级结构是关于碱基的配对,但碱基的配对不仅仅有二级结构的信息。RNA序列通常是由四个碱基(A,C,G,U)的排列组合所组成。在两个碱基配对里,AU和GC配对最稳定、被称为Watson-Crick配对,GU是次稳定的配对(Wobble base pair)。其它碱基之间也能配对,它们被称为非规范碱基对,往往需要靠三维结构才能稳定下来。需要三维结构来稳定的还有孤碱基对(没有多个配对碱基的堆积)以及各种假结结构(Pseudoknot)(例如,一个茎环结构的茎的一半插入了另一个茎环结构的茎结构,相吻发卡(kissing hairpin),发卡-突环接触等,图二)。所以,完整的RNA碱基配对信息只有通过昂贵而且费时的三维结构测定才能精确获得。

但是最近十多年来,预测二级结构的精度一直在一个水平上徘徊不前(50%的覆盖率,75-83%的精确度),这主要是下列原因:1)目前几乎所有的方法是基于折叠的算法(folding algorithm),需要一个能量函数来寻找最低自由能的状态,但目前的能量函数过于简单,无法描述复杂的RNA相互作用,2)大多数二级结构预测只关心长螺旋茎区的规范碱基对(AU,GC,和GU),而不考虑孤碱基对和非规范碱基对,这无疑会对寻找最低自由能带来不利的影响,3)没有什么好的方法来获得假结,因为假结对环境非常敏感。

与RNA二级结构预测对应的是蛋白质氨基酸残基间的接触图预测(contact map prediction)。最近几年来,通过深度学习,蛋白质二级结构和接触图预测的精确度有了极大的改善,并且提出了Raptor-X和SPOT-Contact等方法。本文受这些方法的启发,提出了一种可以用于预测RNA二级结构的深度学习模型—SPOT-RNA。该方法在预测假节、孤碱基对、和非规范碱基对(需要三维结构稳定的碱基对)上的改进更大。这个结果表明,用折叠算法来预测RNA二级结构的精确度上限可以用折叠以外的方法(深度学习+迁移学习)来打破。

方法介绍与结果展示

SPOT-RNA主要包括两个部分:(1)初始训练,通过从bpRNA (具有超过100,000个自动注释二级结构的RNA序列的大型数据库)构建非冗余RNA序列集来训练ResNets和LSTM模型(2)迁移学习,将第一步训练后的模型迁移到另一个高分辨率非冗余RNA序列数据集进行进一步训练和预测。

1

初始训练(Initial training by bpRNA)

初始训练是使用包含13,419个RNA的数据集,进一步随机分成三部分,10,814个RNA作为训练集(TR0),1300个RNA作为验证集(VL0)和1,305个RNA作为测试集(TS0)。将数据以ont-hot形式输入,训练了多个参数不同的深度学习模型,并挑选和集成了在VL0上表现最好的五个模型,结果如下表所示。模型在验证集和测试集上的MCC相差不大,验证了模型良好的鲁棒性。

2

迁移学习(Transfer learning with RNA structures)

将初始训练得到的模型转移到高分辨率非冗余的新数据集上,新数据集的训练集(TR1)、验证集(VL1)以及测试集(TS1)分别为120、30和67个RNA,并且使用CD-HIT-EST和BLAST-N对数据进行了进一步处理来消除序列同源性。如下图所示,迁移学习的各项指标都全面超过初始训练和直接训练,验证了迁移学习的有效性。

3

RNA二级结构预测方法的比较

如下图所示,a展示了集成迁移模型和其他十二种方法在TS1上的召回率曲线,b展示了各种方法在单个RNA上F1值的分布情况,方框的中心和上下边框分别表示中位数、75百分位数和25百分位数,离群点(outliers)用“+”来表示。

4

去除非规范碱基对后模型性能比较

上述比较实验对于SPOT-RNA来说比较有优势,因为几乎所有的其他方法都只能对标准碱基对进行预测,其中也包括Watson-Crick碱基对和Wobble碱基对。所以为了证明SPOT-RNA的有效性,本文将数据集中的非规范碱基对剔除后再一次进行了实验对比,实验结果表示SPOT-RNA仍然具有最佳的表现,相比于第二名至少有6%的效果提升,结果如下图所示:

5

与假节关联的碱基对预测问题

与假节关联的碱基对一直是个十分具有挑战性的问题,因为他们往往与难以预测的三级相互作用相关。为了能够进行更加直观的比较,论文将假结对定义为移除后便成为无假结二级结构的最小碱基对数。下图给出了各种方法的实验效果对比,尽管所有模型在假节上的效果都表现不佳,但SPOT-RNA的F1得分相比于第二名仍然提高了52%。

6

在不同基元的二级结构上的性能比较

RNA的二级结构根据不同的基元具有不同的结构类型,使用bqRNA对每一个二级结构根据基元来分类就能得到不同的类别,针对这些类别分别进行实验,虽然在某些类别上的F1得分略低于其他方法,但是在大多数类别上均优于其他方法。

7

在TS2上的性能比较

为了进一步验证模型性能,使用NMR构建了另一个包含39个RNA二级结构的测试集TS2,与TS1相同,TS2也使用CD-HIT-EST和BLAST-N消除了冗余性。下图a展示了SPOT-RNA以及其他方法在TS2上的精度-召回率曲线,SPOT-RNA的表现仍然最佳。此外,下图b展示了F1评分在中位数、25百分位和75百分位数上的分布。SPOT-RNA以最小波动率达到最高的中位F1评分。但在此处没有对假节预测的效果进行比较,原因是TS2的假节中碱基对数量太少(仅有21对),无法进行有说服力的实验。

8

在最新的6个RNA上的性能比较

作者还收集了近期刚得知其二级结构的6个RNA,并在其上进行了对比实验,实验结果如下,除了d和f以外,SPOT-RNA的F1得分均高于其他方法。

结论

本文提出了一个基于RNA序列来预测其二级结构的深度学习模型—SPOT-RNA,该方法的主要优点是可以对所有的碱基对进行训练和预测,而相比之下,基于折叠的方法则必须有精确的能量参数来捕获非正则碱基对,并且需要复杂的算法来进行全局最小搜索来对假节点配对进行解释。作者还在多个数据集上用不同的评价指标分别进行了对比实验,证明了SPOT-RNA的鲁棒性和有效性。

参考资料

 

论文链接

https://www.nature.com/articles/s41467-019-13395-9

 

bpRNA数据链接

https://github.com/hendrixlab/bpRNA

 

数据和在线服务器

http://sparks-lab.org/jaswinder/server/SPOT-RNA/

 

数据及其源码

https://github.com/jaswindersingh2/SPOT-RNA

 

 

 

文章来源: drugai.blog.csdn.net,作者:DrugAI,版权归原作者所有,如需转载,请联系作者。

原文链接:drugai.blog.csdn.net/article/details/105683780

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。