【云驻共创】知识计算如何让新冠药物筛查效率提升70%

kungeer 发表于 2021/07/09 10:25:21 2021/07/09
【摘要】 知识计算如何让新冠药物筛查效率提升70%目前全球疫情严重,医学科研工作者对新冠肺炎展开医学研发工作——新冠药物研发。为此,华为云语音语义创新Lab高级专家郑毅为大家带来《知识计算如何让新冠药物筛选效率提升70%》主题演讲,为医学科研工作者提供知识工具、AI能力,让科研工作者能够更高效的完成药物研发,和病毒机理的研究。当前新冠药物筛选的痛点1、病毒机制,药物作用机制等研究,需要查询大量的科研文...

目前全球疫情严重,医学科研工作者对新冠肺炎展开医学研发工作——新冠药物研发。为此,华为云语音语义创新Lab高级专家郑毅为大家带来《知识计算如何让新冠药物筛选效率提升70%》主题演讲,为医学科研工作者提供知识工具、AI能力,让科研工作者能够更高效的完成药物研发,和病毒机理的研究。

1.png

当前新冠药物筛选的痛点

1、病毒机制,药物作用机制等研究,需要查询大量的科研文献,数据库等知识,知识获取效率低,不全面,当前知识文化水平及服务需求非常迫切。

2、抗病毒药物,病毒蛋白,病毒种类非常多,关系错综复杂,如何通过AI技术辅助科研人员进行药物筛选,提升药物筛选效率,是当前的难点和挑战之一。

3、医学数据种类繁多,未有效融合,缺少高效检索能力、交互式关联分析、智能化关系预测等知识化服务。

2.png

新冠科研图谱构建与应用,助力科研工作者提能增效

面对以上新冠医疗场景诉求,华为云推出了端到端的知识计算平台——DeepKG,那围绕新冠药物研究打造知识计算平台,需要怎么做呢?三步帮助医学科研工作者完成医学、药物等知识工具构建。

3.png

第一步:初步准备包括面向数据做数据准备、预处理,知识体系定义、样本进行标注。本体是知识图谱的范畴,需要抽取到知识图谱当中的实体关系,并对其进行严格的定义。比如,新冠科研知识图谱,那么应该包括哪些知识、病毒知识呢? 对权威的科研文献网站,权威的数据库等等,需要把数据源进行很好的整理和准备,对数据进行预处理,甚至数据格式转换;最后,对样本进行标注。

第二步,知识建模做好知识抽取,知识体系定义,图谱构建。知识建模说白了就是要基于算法模型,做信息抽取,目的是能构建出来知识图谱,基于机器学,机器阅读理解信息抽取模型、语言模型、预训练模型,领域系列模型,例如medicalknowledgeknowledge

第三步,知识应用通过应用的形式让知识可视化,能够让科研工作者更好的去搜索,检索相关的知识,知识问答、关系预测(所谓的关系预测,例如已知a病毒和b蛋白可能有关系,但是a病毒跟c蛋白可能没有关系,基于智能化算法,对abc进行关系预测,或者说推荐预测,给的医学工作者有指向性的建议) 。

知识建模优化方式有多种:

  • 医学预监督信息抽取模型:华为云CHIEF框架,针对医学数据特点融入多类医学数据,优化信息抽提模型;
  • 三元组信息抽取:基于联合学习的算法,预训练的模型的拼接,整个过程其实分为,主语的抽取部分和宾语加谓语的联合抽取的部分,主语抽取部分就是深度学习框架,去做主语的抽取
  • 小样本学习优化:在少量标注的数据的情况下,比如说每类别关系只有3~5个标注样本的情况下,就可以启动抽取的工作,小样本抽取完之后可以滚出来更多的训练的数据,再进入到第二步联合学习模型,通过滚雪球的方式,可以很快把信息抽取的工作,快速的收敛,基本上就能达到非常不错的效果。
  • 预训练模型优化:基于通用的语料(新闻、资讯)做预训练的模型。

知识建模经验总结:

4.png

第一点,远程监督技术是非常有用,可以基于词典,权威的数据库做远程监督,它的目的就是基于技术衍生出来更多的标注数据。通过小样本学习技术,启动信息抽取工作,然后迭代更新模型。

第二点,数据增强,指小样本技术,可以在标志数据很少的情况下,也可以启动工作,同时模型预训练加人工矫正思想也是可以复用的。

第三点,预训练模型,知识抽取要结合行业的特点,运用领域场景语料训练模型。

除此之外,新冠科研图谱构建与应用还需要运用到多轮知识图谱问答、图谱关系自动预测模型(智能关系预测)。

5.png

那要如何提升知识计算的效率呢?这就需要用到知识图谱,华为云知识计算平台提供多轮知识图谱问答能力,包含离线模块,模块主要是用来做模板学习,生成的查询模板,意图匹配的模型。例如,问题进来后需要做实体识别,概念识别,包括意图的理解和匹配,对话策略,对话状态的记录等。多轮知识图谱问答属于后端技术,在前端展示是以一种对话问答的机器人形式。

6.png

智能关系预测主要用途是挖掘出来某些病毒和蛋白之间的关系,比如说新冠病毒跟哪些蛋白有关系?然后蛋白又跟哪些药物有关系?目的就是说能够找到某个药物是不是真的能够作用到某些蛋白,再继续作用到某些病毒。这里运用到 了AutoML自研的算法,把整个网络结构自动的去做学习,同时还引入了 softmax函数,增强它的随机性,最后就是集成思想,提升模型能力。

总的来说,面向医疗行业的端到端知识计算平台提供能力如下:

  • 提供统一的知识图谱底座,,给不同的科研机构,科研人员提供共享支持、应用。
  • 医学科研者可以在搜索窗搜自己想要的东西,提供问答、机器人能力。
  • 在算法方面,提供科研文献三元组抽取算法。

同时,知识计算平台还可以灵活结合多类下游的应用,辅助提升科研工作效率。对于开发者支持API调用,通过统一的知识底座,提供可视化能力。整体的平台能力包括搜索、问答、智能关系预测,通过应用的形式帮助科研工作者,提升工作效率达70%

华为云知识计算解决方案,实现行业知识与AI结合的新路径

7.png

AI其实已经进入到很多的行业了,AI能力对于企业的降本增效,创收,盈利起到了非常大的价值。那么当前行业知识要如何和AI更好地结合呢?

华为云知识计算解决方案,利用计算机和人工智能技术,实现机器对知识的获取、建模、管理、应用等方面。围绕知识生命周期进行抽象和划分的,主要分为:

  • 知识的获取:行业数据解析器、网页解析器、语音识别、专家标注、多模态信息抽取、文字识别等
  • 知识建模:用合适的方式运用AI技术完成相应建模知识表征、图谱构建、知识融合、多模态表征、图嵌入、机理建模
  • 知识管理:通过知识图谱或规则库,进行生命周期管理、质量管理、知识补全和维护
  • 知识应用:最后体现的价值是在业务价值,业务价值体现在应用能力,包含知识搜索、智能对话、知识推荐、预测分析、知识推理等。

8.png

华为云知识图谱云服务,提供多人流水线的形式工具,可以让开发者或企业技术人员快速构建属于自己的知识图谱。本体设计通过可视化形式进行快速构建,信息抽取嵌入了预制信息抽取算法的模板,知识服务面向企业场景,可通过一键开启的形式,提供搜索、实体链接、问答以及可视化等主流的应用。

企业知识计算案例分享,从行业知识+AI到知识计算平台及应用

除了运用在药物科研领域,华为云知识计算平台,还可以应用在金融领域知识问答、汽车维修知识计算、汽车对话机器人构建Demo、油气领域知识计算等场景

金融领域知识问答:主要面向网点咨询场景,首先给银行构建网点邮件时间,办理业务等等知识图谱,提供问答应用,多轮多场景的自由式交互,同时也支持语义方面的理解。

汽车维修知识计算:通过平台和工具,快速把问答应用构建,通过知识图谱的形式,把分散在各地的数据进行汇总和建模,提供多轮问答的应用,最后维修技师通过语音的形式和应用完成交互。

汽车对话机器人构建Demo不仅运用到了知识图谱技术,还用到了ocr技术,通过ocr技术扫描车的参数,、型号、发动机类型等纸质信息进行电子化,做表格的抽取,进行知识图谱的构建,基于结构化数据,自动构建本体。问答对话机器人应用自动一键开启。

油气领域知识计算:油气开采涉及到如何精准识别哪个深度有油?此场景下,主要用到知识图谱的图嵌入表示,即是知识表征技术,然后结合深度学习预测方法预测结果,做一定的人工的分析,模型还要结合其他的相关的报告给专家做辅助,目的是让他们能够在测井解释过程当中,提升效率,节省时间的开销。

结语:

AI作为新的通用目的技术,正在进入千行百业,未来的人工智能将会把知识、数据、算法和算力四要素结合同时发力,才能够构建出更好的AI,让AI落地到各行各业当中。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区),文章链接,文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:cloudbbs@huaweicloud.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。