建议使用以下浏览器,以获得最佳体验。 IE 9.0+以上版本 Chrome 31+ 谷歌浏览器 Firefox 30+ 火狐浏览器
设置昵称

在此一键设置昵称,即可参与社区互动!

确定
我再想想
选择版块
AI活动 主题:754帖子:123690

【AI人工智能全栈成长计划】

【问答官3阶段】NLP在医疗领域有什么应用吗,可以举个例子吗

烟雨十年 2020/11/20 1801

回复7

2020/11/20 14:40

比如如何把一些复杂的医学专业名词 变成简单易动的解析文字的呢?

2020/11/21 14:34

自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。在各个领域都有其应用。


    其在生物医学领域迅速发展,已经成为当前的研究热点 。临床医学信息大量的以非结构化(或半结构化)文本形式存储于信息系统中,NLP是从医疗文本中提取有用信息的关键技术。通过自然语言处理,这些非结构化的医疗文本被转化为包含重要医学信息的结构化数据,科研人员才可以从这些结构化的数据中发现有用医学信息,从而提高医疗系统的运行质量,减少运行成本。
    在美国,临床医学领域NLP的研究开始于20世纪60年代。早期的研究基于有限的电子医疗文本验证了NLP在医疗领域的可行性。到80年代和90年代,大量的医学数据和领域知识库被逐渐建立起来。例如SNOMED ——被广泛应用的临床医学术语知识库之一,UMLS(The Unified Medical Language System)——一体化医学信息系统,集成了150多种常用医学术语知识库。随后,大量的临床医学NLP系统开始出现,代表性的临床医学NLP系统有MedLEE、MetaMap、cTAKES、MedEx、KnowledgeMap等。这些临床医学NLP系统的应用覆盖了医学信息抽取、医学文本分类、医疗决策支持、病人信息管理、医疗信息问答、医学知识挖掘及知识库建立等诸多领域。
    以
医疗知识挖掘
为例,医疗数据多以自然语言文本形式出现, 这些医学文本资料中的知识是不同国家、不同时代人们智慧的结晶,展现的是大量未整理的文献资料以及诊疗记录。
    由于人的学习能力有限, 因此学者们尝试通过自然语言处理 (NLP) 辅助完成汇总中医知识的过程, 将知识提炼出来, 提取其中有用的诊疗信息, 最终形成知识本体或者知识网络,从而为后续的各种文本挖掘任务提供标 准和便利。NLP属于人工智能的子领域, 其核心目 的是使得计算机能够理解和生成人类的自然语言, 任务主要包括信息抽取、 机器翻译、 情感分析、 摘要提取等, 所用到的技术包括命名体识别、 语义消 歧、 指代消解、 词性标注、 结构分析等。 大量医学 文本资料中含有的病史、 诊断、 治疗方法、 药物等 名词, 给NLP的应用提供了可能性。 利用 NLP技术 将隐藏在文本中的知识挖掘出来, 对医学的发展具有重要意义。


    除了医学文献外,病人信息也用到了NLP,形成了电子病历管理体系。


    电子病历(EMR,Electronic Medical Record)也叫计算机化的病案系统或称基于计算机的病人记录(CPR,Computer-Based Patient Record)。它是用电子设备(计算机、健康卡等)保存、管理、传输和重现的数字化的病人的医疗记录,取代手写纸张病历。它的内容包括纸张病历的所有信息。美国国立医学研究所将其定义为:EMR是基于一个特定系统的电子化病人记录, 该系统提供用户访问完整准确的数据、警示、提示和临床决策支持系统的能力。
    电子病历是随着医院计算机管理网络化、信息存储介质–光盘和IC 卡等的应用及Internet的全球化而产生的。它是信息技术和网络技术在医疗领域的必然产物,是医院病历现代化 管理的必然趋势,其在临床的初步应用,极大地提高了医院的工作效率和医疗质量,但这还仅仅是电子病历应用的起步。
    自然语言处理在医学影像领域也表现出良好的应用前景。一项医疗决策需要众多医疗信息支持,而医学影像是疾病筛查和诊断、治疗的最主要的信息来源,通过人工方式对医疗影像进行标注构建训练数据集具有非常大的挑战性,标注者需要具备相当程度的医学专业知识,不能像普通的图像标注任务一样进行众包。病灶的人工识别过程往往需要仔细阅片,并尽可能地发现和准确标注微小病灶,标注速度慢,标注成本高,因此很多情况下标注的准确度往往不令人满意。使用自然语言处理技术从这些文本中提取有价值的标签,对相关的影像进行标注,是自动化生成有标注影像数据集的一种有效途径。比如利用人工智能算法,构建并训练的深度学习模型,根据影像自动生成标注信息,实现分层次的CNN网络模型生成不同层级的输出词汇,或使用迁移学习算法模型生成数个词汇的描述。
    通过人工智能算法自动生成医学影像标注信息有望通过人在环路( human-in-the-loop)的方法,迭代构建基于临床数据的有标注、标准化、大规模数据。

2020/11/21 19:43

https://www.cnblogs.com/flippedkiki/p/7688825.html

可以看一下这篇博客,介绍的还是蛮详细的

2020/11/21 23:05

NLP在医疗领域方面已经有了很多应用,比如:虚拟助理,通过人机交互,解决语音电子病历等多种需求,还比如智能导诊机器人,可以询问机器人手续办理,病房所在等等需求。。。类似的例子还有很多

Felix666
0 0
2020/11/22 16:51

医疗领域目前更多的还是CV的技术。NLP更多的是在CV结论的基础上对文字进行信息提取和结构化,从而自动生成一些报告和统计数据。如在课程中可对CT图像生成分析文字,协助医生诊断病人病情。

xia1111
0 0
2020/11/22 17:01

用做自动数据标注?

比如在在线问诊的过程中,用户在平台输入症状,AI系统将自动识别用户输入的文本,然后将患者对于自身的描述自动在数据库中进行查询,给出诊断结果

2020/11/30 10:43

文本挖掘

1)研究背景:生物医学文本挖掘可以帮助人们从爆炸式增长的生物医学自然语言文本数据中抽取出特定的事实信息( 主要是生物实体如基因、蛋白质、药物、疾病之间的关系) ,对整个生物知识网络的建立、生物体关系的预测、新药的研制等均具有重要的意义。

2)典型应用及应用方法

  • 命名实体识别

1)研究背景

生物命名实体识别,就是从生物医学文本中识别出指定类型的名称,比如基因、蛋白质、核糖核酸、脱氧核糖核酸、疾病、细胞、药物的名称等。由于生物医学文献的规模庞大,各种专有名词不断涌现,一个专有名词往往有很多同义词,而且普遍存在大量的缩写词,人工识别费时费力,因此如何对命名实体进行识别就变得尤为重要。命名实体识别是文本挖掘系统中的一个重要的基础步骤,命名实体识别的准确程度是其他文本挖掘技术如信息提取或文本分类等的先决条件。
2)典型应用及应用方法

目前,使用比较多的生物命名实体识别的研究方法主要有以下几种:基于启发式规则的方法、词典匹配的方法以及机器学习的方法,如支持向量机(SVM)、最大熵、条件随机场 (CRF)以及隐马尔科夫(HMM)等。

  • 关系抽取

1)研究背景

关系抽取( Relationship extraction,RE) 的目标是检测一对特定类型的实体之间有无预先假设的关系。生物医学文本挖掘抽取的就是基因、蛋白质、药物、疾病、治疗之间的关系。

2)典型应用及应用方法

主要有基于模版的方式( 手动、自动) 、基于统计的方式和基于自然语言处理的方式。基于自然语言的方法就是把自然语言分解为可从中提取出关系的结构。Friedman等人通过提出了GENIES系统,它从生物学文献中提取和构建关于细胞途径的信息。

  • 文本分类

1)研究背景
文本分类( Text classification) 就是将文本自动归 入预先定义好的主题类别中,是有监督的机器学习 方法,主 要应用于自动索引、文本过滤、词义消歧 ( WSD) 和 Web 文档分类等。

2)典型应用及应用方法
目前,文本分类的方法有很多,典型且效果较好 的有朴素贝叶斯分类法( Na Bayes) 、K 最近邻( K - NN) 、支持向量机( SVM) 、决策树等,还有基于关联的分类( CBA) 及基于关联规则的分类( ARC) 。Eskin E使用 SVM 算法和基因序列 kernel 预测蛋白质在细胞质中的位置,达到了 87 % 的查准率和 71% 的 查全率。

  • 文本聚类

1)研究背景

文本聚类( Text clustering) 是根据文本数据的特征将一组对象集合按照相似性归纳为不同类的过 程,与文本分类的区别是分类的对象有类别标记。

2)典型应用及应用方法

常见的聚类算法可归纳为平面划分法( 如 K - 均值算法、K - 中心点算法) ,层次聚类法( 可分为凝 聚层 次 聚 类 和 分 割 聚 类) ,基 于 密 度 的 方 法 ( 如 DBSCAN 算法) ,基于网格的方法( 如 STING 算法) ,基于 模 型 的 方 法。

Groth P 根据显型的描述,利用文本聚类 将基因聚类成簇,利用这些簇预测基因功能,采用客观标准选择一个子类团,从生物过程次本体中预测GO-术语注释,得到了 72. 6% 的查准率和 16. 7% 的 查全率。

  • 共现分析

1)研究背景

共现( Co-occurrence) 分析主要是对隐性知识的挖掘,在生物医学领域主要用于诸如 DNA 序列的数据分析、基因功能相似聚类、基因和蛋白质的功能信息提取、提高远程同源性搜索、基因与确定疾病关系预测等。如果在大规模语料( 训练语料) 中,两个词经常共同出现( 共现) 在同 一窗口单元( 如一定词语间隔、一句话、一篇文档等)中,则认为这两个词在语义上是相互关联的。而且, 共现的频率越高,其相互间的关联越紧密。

 2)典型应用及应用方法

基于共现关系的假定,通过对训练语料的统计,计算得到词与词之间的互信息( Mutual information) ,就可以对词与词之间的相关性进行量化比较,获得对文本词汇 语义级别的关联认识。如Pub-Gene系统使用共现方法建立了一个包含基因和基因交互关系的数据库,实验结果达到了60%的精确率和51%的召回率。当仅考虑5篇或5篇以上文章中的基因对关系时,精确率上升到72%。

 

决策支持系统

1)研究背景

  在医学临床实践中,对于医务人员来说,作为一个理智、情感共存的个体,在医学实践中难免会犯错,这导致了医患双方关系的紧张、甚至生命健康的负面影响。为了降低出错的概率以及提高工作效率,临床决策支持系统应运而生,它可以对医务人员进行诊疗方面的指导。

2)典型应用及应用方法

医疗决策支持系统的建立主要分为以下三个步骤:

  • 知识库的建立

  • 语言处理

  按照中文自然语言处理的一般步骤,进行分句、分词、语义分析、形成文本摘要。

  • 临床决策支持系统

 

信息提取

1)研究背景

信息抽取(Information Extraction,IE)是指从文本中抽取指定的一类事实信息,形成结构化的数据储存在数据库中,以供用户对信息的查询或进一步分析利用的过程。如一位生物医学科学家要从海量的生物医学文献中寻求关于某种疾病的新的治疗方案,借助于信息抽取系统抽取出的蛋白质、基因或药物等的交互关系信息,就有可能从中发现有价值的治疗线索或方法。

2)典型应用及应用方法

  •   信息抽取技术在电子病历中的应用

  由哥伦比亚大学的Carol Friedman等人设计的MEDLEE系统也是一个很成功的医学信息抽取系统,作为临床信息系统(CIS)的一个独立模块在纽约长老会医院使用,它将文本形式的病历报告转换成编码数据以促进乳腺癌研究,有利于病人看护质量的提高。息抽取技术在电子病历中的成功,将克服临床决策支持、临床路径管理等前沿医疗信息发展所面临的诸多瓶颈问题,提升我国医疗信息技术产业的核心竞争力。

  •   信息抽取技术在医学文献中的应用

  国内对生物医学文献信息抽取研究相对较多,极大地促进了生物医学的现代化进程,如从中药复方的临床文献进行复方名称的抽取;利用信息抽取技术从Web形式的中医药文献资料中抽取结构化中医临床诊疗信息的中医临床诊疗垂直搜索系统TCMVSE。

  •   信息抽取技术在生物医学网络资源中的应用

  针对网络上分布散乱的生物医学资源,可以用基于HTML结构的信息抽取方法实现对生物医学资源的抽取,将其转换成结构化的数据存储到数据库中。

 


自动问答系统

1)研究背景

随着大数据时代的到来,对于传统的信息检索来说,由于医学专业的特殊性,面对网络上质量参差不齐的医学信息,非医学专业人员在查找、理解及获取方面存在诸多困难和障碍。而基于自动问答的医学信息搜寻模式作为更智能的医学信息资源获取工具,不仅对海量数据资源的有效利用具有重大意义,而且在一定程度上可缓解医患之间信息不对称、提高医疗资源利用效率,同时能更好地体现“以病人为中心”服务理念的转变。

2)典型应用及应用方法

  •  基于传统搜索技术的问答系统

基于传统搜索技术的问答系统,在问题分析中将问题的关键词和数据资源中的关键词进行匹配,进而获取可能相关的答案片段。 

应用方法如下:

基于传统搜索技术的问答系统的核心技术包括三个主要组成模块:问题处理、信息检索和答案抽取。

  • 基于语义技术的问答系统

基于语义技术的问答系统,对自然语言问题进行语义处理,实现从语义层面理解用户提出的问题。

应用方法如下:

基于语义技术的问答系统在基于传统搜索技术的问答系统的基础上,可在问题处理模块和答案抽取模块加入对句子的结构进行分析(即句法分析)的方法。

在问题处理模块里需要通过对问句结构进行分析,根据问句的结构确定问句的类型,同时抽取句子关键词。

在答案抽取阶段,可对答案的候选句子进行结构分析,进行句子相似度的计算,去除重复或相近的候选答案,最后根据问题类型抽取出答案实体。

 

医学影像的信息提取和分析

1)研究背景

医学影像报告是电子健康病历 (electronic health record,EHR)中包含大量数字信息的重要组成部分。医学影像中使用NLP的总体目标是挖掘诊断报告中结构化信息,并将其应用于临床诊治过程。

2)典型应用及应用方法

根据信息提取的对象和目的不同,NLP可用于患者个体信息分析、患者群体信息分析和医学影像流程信息分析等。

1.患者个体影像诊断信息提取和分析,对患者个体疾病处理提供帮助

(1)提示“危急发现(critical findings)”:NLP检出影像报告中描述的、可能导致严重后果的影像征象,提醒处理该患者的医师注意。目前NLP可提示的危急情况有阑尾炎、急性肺损伤、肺炎、血栓栓塞性疾病及各类潜在恶性病变等。

(2)提示随访建议:NLP检出报告中应提示临床进行后续操作的内容,自动生成随访建议,提示后续检查或治疗。

2.患者群体影像诊断信息提取和分析,构建患者队列,用于流行病学研究、行政管理等

(1)流行病学研究队列的构建:使用NLP可高效率地分析大数量、患者群体的影像报告,得到群体的特征性数据,从而提高流行病学研究效率,为循证影像医学研究提供帮助。

3.医学影像流程信息的提取和分析,用于医学影像报告质量评价和改进

(1)报告质量评价和报告规范的建立:NLP可识别医学影像学的流程和质量指标,判断影像报告是否符合相关指南或诊断规则。同时可用于评价报告的完整性和规范,是否给出正确的建议,是否及时进行危急情况的预警,报告信息是否用于疾病的诊断等方面。

(2)影像检查全流程的改进:NLP可对各类影像的综合信息进行分析,将报告中的检查结果和建议等信息与全面的临床信息相互关联,如检查适应证、疾病种类、患者年龄、性别、申请 科室、申请医师及患者类型(住院或门诊)等。这种大规模的数据分析在经过验证后,可得到预测模型,形成适合本地情况的临床决策支持系统(clinical decision support system,CDSS),应可应用到计算机医嘱系统(computerized physician order entry,CPOE)中去。



上划加载中
直达楼层
标签
您还可以添加5个标签
  • 没有搜索到和“关键字”相关的标签
  • 云产品
  • 解决方案
  • 技术领域
  • 通用技术
  • 平台功能
取消

采纳成功

您已采纳当前回复为最佳回复

烟雨十年

发帖: 43粉丝: 0

发消息 + 关注

发表于2020年11月20日 14:10:43 1801 7
直达本楼层的链接
楼主
显示全部楼层
[AI人工智能全栈成长计划] 【问答官3阶段】NLP在医疗领域有什么应用吗,可以举个例子吗

如题

举报
分享

分享文章到朋友圈

分享文章到微博

采纳成功

您已采纳当前回复为最佳回复

emilyleungbaby

发帖: 53粉丝: 5

发消息 + 关注

发表于2020年11月20日 14:40:33
直达本楼层的链接
沙发
显示全部楼层

比如如何把一些复杂的医学专业名词 变成简单易动的解析文字的呢?

点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复

franco52576

发帖: 31粉丝: 0

发消息 + 关注

发表于2020年11月21日 14:34:32
直达本楼层的链接
板凳
显示全部楼层

自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。在各个领域都有其应用。


    其在生物医学领域迅速发展,已经成为当前的研究热点 。临床医学信息大量的以非结构化(或半结构化)文本形式存储于信息系统中,NLP是从医疗文本中提取有用信息的关键技术。通过自然语言处理,这些非结构化的医疗文本被转化为包含重要医学信息的结构化数据,科研人员才可以从这些结构化的数据中发现有用医学信息,从而提高医疗系统的运行质量,减少运行成本。
    在美国,临床医学领域NLP的研究开始于20世纪60年代。早期的研究基于有限的电子医疗文本验证了NLP在医疗领域的可行性。到80年代和90年代,大量的医学数据和领域知识库被逐渐建立起来。例如SNOMED ——被广泛应用的临床医学术语知识库之一,UMLS(The Unified Medical Language System)——一体化医学信息系统,集成了150多种常用医学术语知识库。随后,大量的临床医学NLP系统开始出现,代表性的临床医学NLP系统有MedLEE、MetaMap、cTAKES、MedEx、KnowledgeMap等。这些临床医学NLP系统的应用覆盖了医学信息抽取、医学文本分类、医疗决策支持、病人信息管理、医疗信息问答、医学知识挖掘及知识库建立等诸多领域。
    以
医疗知识挖掘
为例,医疗数据多以自然语言文本形式出现, 这些医学文本资料中的知识是不同国家、不同时代人们智慧的结晶,展现的是大量未整理的文献资料以及诊疗记录。
    由于人的学习能力有限, 因此学者们尝试通过自然语言处理 (NLP) 辅助完成汇总中医知识的过程, 将知识提炼出来, 提取其中有用的诊疗信息, 最终形成知识本体或者知识网络,从而为后续的各种文本挖掘任务提供标 准和便利。NLP属于人工智能的子领域, 其核心目 的是使得计算机能够理解和生成人类的自然语言, 任务主要包括信息抽取、 机器翻译、 情感分析、 摘要提取等, 所用到的技术包括命名体识别、 语义消 歧、 指代消解、 词性标注、 结构分析等。 大量医学 文本资料中含有的病史、 诊断、 治疗方法、 药物等 名词, 给NLP的应用提供了可能性。 利用 NLP技术 将隐藏在文本中的知识挖掘出来, 对医学的发展具有重要意义。


    除了医学文献外,病人信息也用到了NLP,形成了电子病历管理体系。


    电子病历(EMR,Electronic Medical Record)也叫计算机化的病案系统或称基于计算机的病人记录(CPR,Computer-Based Patient Record)。它是用电子设备(计算机、健康卡等)保存、管理、传输和重现的数字化的病人的医疗记录,取代手写纸张病历。它的内容包括纸张病历的所有信息。美国国立医学研究所将其定义为:EMR是基于一个特定系统的电子化病人记录, 该系统提供用户访问完整准确的数据、警示、提示和临床决策支持系统的能力。
    电子病历是随着医院计算机管理网络化、信息存储介质–光盘和IC 卡等的应用及Internet的全球化而产生的。它是信息技术和网络技术在医疗领域的必然产物,是医院病历现代化 管理的必然趋势,其在临床的初步应用,极大地提高了医院的工作效率和医疗质量,但这还仅仅是电子病历应用的起步。
    自然语言处理在医学影像领域也表现出良好的应用前景。一项医疗决策需要众多医疗信息支持,而医学影像是疾病筛查和诊断、治疗的最主要的信息来源,通过人工方式对医疗影像进行标注构建训练数据集具有非常大的挑战性,标注者需要具备相当程度的医学专业知识,不能像普通的图像标注任务一样进行众包。病灶的人工识别过程往往需要仔细阅片,并尽可能地发现和准确标注微小病灶,标注速度慢,标注成本高,因此很多情况下标注的准确度往往不令人满意。使用自然语言处理技术从这些文本中提取有价值的标签,对相关的影像进行标注,是自动化生成有标注影像数据集的一种有效途径。比如利用人工智能算法,构建并训练的深度学习模型,根据影像自动生成标注信息,实现分层次的CNN网络模型生成不同层级的输出词汇,或使用迁移学习算法模型生成数个词汇的描述。
    通过人工智能算法自动生成医学影像标注信息有望通过人在环路( human-in-the-loop)的方法,迭代构建基于临床数据的有标注、标准化、大规模数据。

点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复
发表于2020年11月21日 19:43:29
直达本楼层的链接
地板
显示全部楼层

https://www.cnblogs.com/flippedkiki/p/7688825.html

可以看一下这篇博客,介绍的还是蛮详细的

点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复

运气男孩

发帖: 626粉丝: 59

发消息 + 关注

发表于2020年11月21日 23:05:57
直达本楼层的链接
5#
显示全部楼层

NLP在医疗领域方面已经有了很多应用,比如:虚拟助理,通过人机交互,解决语音电子病历等多种需求,还比如智能导诊机器人,可以询问机器人手续办理,病房所在等等需求。。。类似的例子还有很多

点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复

Felix666

发帖: 51粉丝: 2

发消息 + 关注

发表于2020年11月22日 16:51:25
直达本楼层的链接
6#
显示全部楼层

医疗领域目前更多的还是CV的技术。NLP更多的是在CV结论的基础上对文字进行信息提取和结构化,从而自动生成一些报告和统计数据。如在课程中可对CT图像生成分析文字,协助医生诊断病人病情。

点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复

xia1111

发帖: 12粉丝: 1

发消息 + 关注

发表于2020年11月22日 17:01:54
直达本楼层的链接
7#
显示全部楼层

用做自动数据标注?

比如在在线问诊的过程中,用户在平台输入症状,AI系统将自动识别用户输入的文本,然后将患者对于自身的描述自动在数据库中进行查询,给出诊断结果

点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复

漫游寰宇外

发帖: 6粉丝: 0

发消息 + 关注

发表于2020年11月30日 10:43:29
直达本楼层的链接
8#
显示全部楼层

文本挖掘

1)研究背景:生物医学文本挖掘可以帮助人们从爆炸式增长的生物医学自然语言文本数据中抽取出特定的事实信息( 主要是生物实体如基因、蛋白质、药物、疾病之间的关系) ,对整个生物知识网络的建立、生物体关系的预测、新药的研制等均具有重要的意义。

2)典型应用及应用方法

  • 命名实体识别

1)研究背景

生物命名实体识别,就是从生物医学文本中识别出指定类型的名称,比如基因、蛋白质、核糖核酸、脱氧核糖核酸、疾病、细胞、药物的名称等。由于生物医学文献的规模庞大,各种专有名词不断涌现,一个专有名词往往有很多同义词,而且普遍存在大量的缩写词,人工识别费时费力,因此如何对命名实体进行识别就变得尤为重要。命名实体识别是文本挖掘系统中的一个重要的基础步骤,命名实体识别的准确程度是其他文本挖掘技术如信息提取或文本分类等的先决条件。
2)典型应用及应用方法

目前,使用比较多的生物命名实体识别的研究方法主要有以下几种:基于启发式规则的方法、词典匹配的方法以及机器学习的方法,如支持向量机(SVM)、最大熵、条件随机场 (CRF)以及隐马尔科夫(HMM)等。

  • 关系抽取

1)研究背景

关系抽取( Relationship extraction,RE) 的目标是检测一对特定类型的实体之间有无预先假设的关系。生物医学文本挖掘抽取的就是基因、蛋白质、药物、疾病、治疗之间的关系。

2)典型应用及应用方法

主要有基于模版的方式( 手动、自动) 、基于统计的方式和基于自然语言处理的方式。基于自然语言的方法就是把自然语言分解为可从中提取出关系的结构。Friedman等人通过提出了GENIES系统,它从生物学文献中提取和构建关于细胞途径的信息。

  • 文本分类

1)研究背景
文本分类( Text classification) 就是将文本自动归 入预先定义好的主题类别中,是有监督的机器学习 方法,主 要应用于自动索引、文本过滤、词义消歧 ( WSD) 和 Web 文档分类等。

2)典型应用及应用方法
目前,文本分类的方法有很多,典型且效果较好 的有朴素贝叶斯分类法( Na Bayes) 、K 最近邻( K - NN) 、支持向量机( SVM) 、决策树等,还有基于关联的分类( CBA) 及基于关联规则的分类( ARC) 。Eskin E使用 SVM 算法和基因序列 kernel 预测蛋白质在细胞质中的位置,达到了 87 % 的查准率和 71% 的 查全率。

  • 文本聚类

1)研究背景

文本聚类( Text clustering) 是根据文本数据的特征将一组对象集合按照相似性归纳为不同类的过 程,与文本分类的区别是分类的对象有类别标记。

2)典型应用及应用方法

常见的聚类算法可归纳为平面划分法( 如 K - 均值算法、K - 中心点算法) ,层次聚类法( 可分为凝 聚层 次 聚 类 和 分 割 聚 类) ,基 于 密 度 的 方 法 ( 如 DBSCAN 算法) ,基于网格的方法( 如 STING 算法) ,基于 模 型 的 方 法。

Groth P 根据显型的描述,利用文本聚类 将基因聚类成簇,利用这些簇预测基因功能,采用客观标准选择一个子类团,从生物过程次本体中预测GO-术语注释,得到了 72. 6% 的查准率和 16. 7% 的 查全率。

  • 共现分析

1)研究背景

共现( Co-occurrence) 分析主要是对隐性知识的挖掘,在生物医学领域主要用于诸如 DNA 序列的数据分析、基因功能相似聚类、基因和蛋白质的功能信息提取、提高远程同源性搜索、基因与确定疾病关系预测等。如果在大规模语料( 训练语料) 中,两个词经常共同出现( 共现) 在同 一窗口单元( 如一定词语间隔、一句话、一篇文档等)中,则认为这两个词在语义上是相互关联的。而且, 共现的频率越高,其相互间的关联越紧密。

 2)典型应用及应用方法

基于共现关系的假定,通过对训练语料的统计,计算得到词与词之间的互信息( Mutual information) ,就可以对词与词之间的相关性进行量化比较,获得对文本词汇 语义级别的关联认识。如Pub-Gene系统使用共现方法建立了一个包含基因和基因交互关系的数据库,实验结果达到了60%的精确率和51%的召回率。当仅考虑5篇或5篇以上文章中的基因对关系时,精确率上升到72%。

 

决策支持系统

1)研究背景

  在医学临床实践中,对于医务人员来说,作为一个理智、情感共存的个体,在医学实践中难免会犯错,这导致了医患双方关系的紧张、甚至生命健康的负面影响。为了降低出错的概率以及提高工作效率,临床决策支持系统应运而生,它可以对医务人员进行诊疗方面的指导。

2)典型应用及应用方法

医疗决策支持系统的建立主要分为以下三个步骤:

  • 知识库的建立

  • 语言处理

  按照中文自然语言处理的一般步骤,进行分句、分词、语义分析、形成文本摘要。

  • 临床决策支持系统

 

信息提取

1)研究背景

信息抽取(Information Extraction,IE)是指从文本中抽取指定的一类事实信息,形成结构化的数据储存在数据库中,以供用户对信息的查询或进一步分析利用的过程。如一位生物医学科学家要从海量的生物医学文献中寻求关于某种疾病的新的治疗方案,借助于信息抽取系统抽取出的蛋白质、基因或药物等的交互关系信息,就有可能从中发现有价值的治疗线索或方法。

2)典型应用及应用方法

  •   信息抽取技术在电子病历中的应用

  由哥伦比亚大学的Carol Friedman等人设计的MEDLEE系统也是一个很成功的医学信息抽取系统,作为临床信息系统(CIS)的一个独立模块在纽约长老会医院使用,它将文本形式的病历报告转换成编码数据以促进乳腺癌研究,有利于病人看护质量的提高。息抽取技术在电子病历中的成功,将克服临床决策支持、临床路径管理等前沿医疗信息发展所面临的诸多瓶颈问题,提升我国医疗信息技术产业的核心竞争力。

  •   信息抽取技术在医学文献中的应用

  国内对生物医学文献信息抽取研究相对较多,极大地促进了生物医学的现代化进程,如从中药复方的临床文献进行复方名称的抽取;利用信息抽取技术从Web形式的中医药文献资料中抽取结构化中医临床诊疗信息的中医临床诊疗垂直搜索系统TCMVSE。

  •   信息抽取技术在生物医学网络资源中的应用

  针对网络上分布散乱的生物医学资源,可以用基于HTML结构的信息抽取方法实现对生物医学资源的抽取,将其转换成结构化的数据存储到数据库中。

 


自动问答系统

1)研究背景

随着大数据时代的到来,对于传统的信息检索来说,由于医学专业的特殊性,面对网络上质量参差不齐的医学信息,非医学专业人员在查找、理解及获取方面存在诸多困难和障碍。而基于自动问答的医学信息搜寻模式作为更智能的医学信息资源获取工具,不仅对海量数据资源的有效利用具有重大意义,而且在一定程度上可缓解医患之间信息不对称、提高医疗资源利用效率,同时能更好地体现“以病人为中心”服务理念的转变。

2)典型应用及应用方法

  •  基于传统搜索技术的问答系统

基于传统搜索技术的问答系统,在问题分析中将问题的关键词和数据资源中的关键词进行匹配,进而获取可能相关的答案片段。 

应用方法如下:

基于传统搜索技术的问答系统的核心技术包括三个主要组成模块:问题处理、信息检索和答案抽取。

  • 基于语义技术的问答系统

基于语义技术的问答系统,对自然语言问题进行语义处理,实现从语义层面理解用户提出的问题。

应用方法如下:

基于语义技术的问答系统在基于传统搜索技术的问答系统的基础上,可在问题处理模块和答案抽取模块加入对句子的结构进行分析(即句法分析)的方法。

在问题处理模块里需要通过对问句结构进行分析,根据问句的结构确定问句的类型,同时抽取句子关键词。

在答案抽取阶段,可对答案的候选句子进行结构分析,进行句子相似度的计算,去除重复或相近的候选答案,最后根据问题类型抽取出答案实体。

 

医学影像的信息提取和分析

1)研究背景

医学影像报告是电子健康病历 (electronic health record,EHR)中包含大量数字信息的重要组成部分。医学影像中使用NLP的总体目标是挖掘诊断报告中结构化信息,并将其应用于临床诊治过程。

2)典型应用及应用方法

根据信息提取的对象和目的不同,NLP可用于患者个体信息分析、患者群体信息分析和医学影像流程信息分析等。

1.患者个体影像诊断信息提取和分析,对患者个体疾病处理提供帮助

(1)提示“危急发现(critical findings)”:NLP检出影像报告中描述的、可能导致严重后果的影像征象,提醒处理该患者的医师注意。目前NLP可提示的危急情况有阑尾炎、急性肺损伤、肺炎、血栓栓塞性疾病及各类潜在恶性病变等。

(2)提示随访建议:NLP检出报告中应提示临床进行后续操作的内容,自动生成随访建议,提示后续检查或治疗。

2.患者群体影像诊断信息提取和分析,构建患者队列,用于流行病学研究、行政管理等

(1)流行病学研究队列的构建:使用NLP可高效率地分析大数量、患者群体的影像报告,得到群体的特征性数据,从而提高流行病学研究效率,为循证影像医学研究提供帮助。

3.医学影像流程信息的提取和分析,用于医学影像报告质量评价和改进

(1)报告质量评价和报告规范的建立:NLP可识别医学影像学的流程和质量指标,判断影像报告是否符合相关指南或诊断规则。同时可用于评价报告的完整性和规范,是否给出正确的建议,是否及时进行危急情况的预警,报告信息是否用于疾病的诊断等方面。

(2)影像检查全流程的改进:NLP可对各类影像的综合信息进行分析,将报告中的检查结果和建议等信息与全面的临床信息相互关联,如检查适应证、疾病种类、患者年龄、性别、申请 科室、申请医师及患者类型(住院或门诊)等。这种大规模的数据分析在经过验证后,可得到预测模型,形成适合本地情况的临床决策支持系统(clinical decision support system,CDSS),应可应用到计算机医嘱系统(computerized physician order entry,CPOE)中去。



点赞 评论 引用 举报

游客

您需要登录后才可以回帖 登录 | 立即注册

结贴

您对问题的回复是否满意?
满意度
非常满意 满意 一般 不满意
我要反馈
0/200