HDC.Cloud2021 | 知识计算助力医学科研探索,辅助提升新冠药物筛选效率

举报
费袆 发表于 2021/06/21 10:45:13 2021/06/21
【摘要】 去年,在华为开发者大会2020(Cloud)期间, 华为云发布了企业级知识图谱云服务及应用套件,提供一站式知识图谱构建管理及应用平台,赋能各行业企业高效进行知识化转型。经过一年的发展,华为云通过知识图谱云服务提供更好的算法套件及应用能力,进一步提升知识图谱构建及应用效率,让传统企业客户可高效完成知识图谱的场景化落地。新冠科研知识计算平台,高效助力医学科研工作者,提升药物筛选及知识获取效率随着...

去年,在华为开发者大会2020Cloud)期间, 华为云发布了企业级知识图谱云服务及应用套件,提供一站式知识图谱构建管理及应用平台,赋能各行业企业高效进行知识化转型。

经过一年的发展,华为云通过知识图谱云服务提供更好的算法套件及应用能力,进一步提升知识图谱构建及应用效率,让传统企业客户可高效完成知识图谱的场景化落地。

新冠科研知识计算平台,高效助力医学科研工作者,提升药物筛选及知识获取效率

随着疫情的发展,医学研究人员迫切需要能够系统梳理和整合新型冠状病毒的相关知识,加速对新冠病毒的机制研究及抗病毒药物研发筛选。例如,新冠病毒所属的病毒族系是什么,新冠病毒的重要属性有哪些,抗病毒药物与病毒靶点之间的关系是什么,以及病毒亲缘关系等。以上这些知识存在于众多的知识库或者最新发表的学术文献中,很难被科研人员系统的检索和使用。

为了解决这一问题,华为云知识计算团队自研医学领域AI算法模型,并结合华为云知识图谱云服务,实现从公开发表的新冠学术文献及公开数据库中快速构建新冠科研知识图谱,并提供知识搜索、可视化分析、知识问答及智能关系预测等应用,协助科研人员更快速、有效的开展抗疫科学研究和药物研发筛选。

1 新冠科研知识图谱构建及应用架构图

新冠科研知识计算平台包括面向医学领域知识图谱的构建及应用两部分,如图1所示。知识图谱构建部分包括数据准备和知识建模两部分,其中数据准备部分完成本体设计、数据预处理以及数据标注工作。知识建模主要提供信息抽取算法模型并结合人工审核流程完成知识图谱的构建和部署,包括信息抽取模型训练优化、实体链接、知识融合等内容。基于构建好的医学领域知识图谱,知识计算平台提供基于知识图谱的问答KBQA、知识搜索可视化以及智能关系预测等应用,面向药物研发等科研场景,华为云提供知识图谱、ModelArts以及大数据云服务等完备平台工具,高效支撑数据准备、知识建模以及知识应用。

在知识图谱构建过程中,数据准备包括本体设计、数据预处理以及数据标注。其中,本体设计需要医学领域专家与知识图谱专家合作完成,例如:定义“病毒”、“药物”、“蛋白”、“疫病”等实体类型及相应的属性内容,同时定义各实体类型之间的语义关系,“病毒”-“引发”-“疾病”,“药物”-“靶点”-“蛋白”等。数据预处理则需要根据数据来源和格式,完成数据解析以及转换等工作。数据标注需要借助标注工具,通过人工标注的形式来完成,如华为云ModelArts标注工具或开源标注工具等。

知识图谱构建的核心是知识建模工作,而知识建模的核心是信息抽取算法及模型。信息抽取的目的是通过算法模型完成三元组的自动抽取,如图2所示,在科研文献中,抽取“SARS-CoV-specific monoclonal antibodies-effect-2019nCoV”这种形式的三元组结果,即Drug-effect-Virus类型三元组。

 


2 三元组标注抽取示例

信息抽取的难点在于如何实现高精度的领域实体识别及关系抽取(即三元组抽取)。当前主流的方法是基于机器阅读理解的端到端深度学习算法,通过模型级联的改进以及医学领域预训练模型的结合,可以有效提升新冠科研信息抽取的效果。与此同时,由于三元组标注较为繁琐,工作量较大,一般很难标注大量的训练样本。因此,我们基于领域词典数据库等已有知识库,通过远程监督及小样本学习技术,进行样本数据扩充,并利用无监督语料在样本数量较少情况下构建模型,最终通过多轮迭代+人工审核的方式(Snowball滚雪球方式)快速的积累标注训练数据,最终在较短时间实现效果优异的信息抽取模型。

在知识应用方面,新冠科研知识计算平台提供多轮知识图谱问答KBQA、智能关系自动预测以及搜索可视化等应用,基于以上智能化知识化应用服务,可以有效辅助科研工作者在药物筛选、知识获取以及病毒机制分析等工作,整体效率提升70%以上。

多轮知识图谱问答:包括在线和离线两部分,离线部分主要进行模板学习,获得查询匹配模板和模型。在线部分完成每一轮问答交互的在线计算及回复,通过实体识别、实体链接、本体识别等一系列技术完成意图的识别和答案的获取,最终返回每一轮的答案回复。

智能关系预测应用:基于TransE该类知识图谱表示学习方法,设计了AutoTransX 自适应算法,通过结合AutoML、集成学习思想并优化损失函数,在病毒-蛋白-药物等关系预测方面,Hit@10指标提升约10%,可以有效用于辅助药物筛选的工作。


3 新冠科研图谱-知识搜索及可视化

 

4 新冠科研图谱-知识图谱问答

 

华为云知识计算解决方案,加速企业知识+AI落地,助力企业知识化转型

华为云发布业界首个全生命周期知识计算解决方案。知识计算解决方案是行业知识与AI结合的一条全新且有效的路径,通过将行业知识与AI技术相结合,实现机器控制更加精准,实现辅助高效分析和决策,帮助行业专家专注业务创新性工作,助力企业实现知识传承与共享,提升人员培养效率。


5 知识计算解决方案逻辑视图

华为云知识计算解决方案依托于华为云在自然语言处理长期积累和实践上的优势,能够有效减少知识图谱构建时的信息损失,可以一站式完成知识获取、知识建模、知识管理、知识应用,覆盖知识在企业的生产环节中获取到应用的全生命周期。企业可以基于华为云知识计算解决方案打造专属的知识计算平台,通过主动推荐知识、辅助推理与决策 ,从而进而提高企业的经营效率。

华为云知识计算解决方案已在石油、化纤、煤焦化、钢铁、汽车等行业落地,赋能企业构建知识计算平台,广泛运用于研发、生产、运营、销售、售后服务等企业核心流程。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。