典型信息抽取任务的难度评析、标注需求与效果上界(一):信息抽取任务分类

举报
人工智障研究员 发表于 2021/06/28 15:43:56 2021/06/28
【摘要】 实际项目过程中,信息抽取任务的效果往往和实际问题的形式密切相关,不同问题的难度和效果可能千差万别。根据这些年从事研究和项目落地的经验,观察对比了多个标准数据集和实际项目,我分析了典型信息抽取任务难度的影响因素,对信息抽取任务进行分类,据此便可以对同一纬度上不同类型任务之间进行定性的难度对比;给出了典型任务的标注数据和当前SOTA作为路标,让大家对于实际信息抽取任务的难度和效果上界能有个初步的认识。

  控制变量法可以说是科学研究过程中最重要的实验方法,下面的信息抽取任务划分方法都是我从自身的经验认知出发、为了研究信息抽取任务难度而进行的,和通常的划分方法可能有些许出入。

1. 抽取结果形式

  按照抽取的形式对任务进行分类,粗分可以分为两类:单一类和复合类,细致一点它们分别又可以分为两类:单一类可分为实体类与文本类,复合类可分为关系类与事件类。

  • 实体类信息抽取:最基本的信息抽取类型,对于实体而言有众多的定义和解释,我倾向于将其解释为“具有可区别性且独立存在的某种事物”。判断某个词条是否实体有两项标准,一是它是否指向现实世界中的某种事物,二是它是否具有可区分性。即它与其他事物之间有所区分,它出现在其他地方也都是同一个实体。
图1:实体类信息抽取示例图
  • 文本类信息抽取:最典型的应用就是摘要抽取,从长段文本中抽取某几句话作为整段文本的摘要。另一个典型的应用就是某些属性值或者描述信息的抽取,图3是一个临床实验分析的例子,需要在分析报告中抽取参与者(Participants)、实验组(Interventions)、对照组(Comparator)和实验结果(Outcomes)的文本描述信息。
图2:文本摘要抽取示例图
图3:临床医疗实验分析中的PICO框架(Participants, Interventions, Comparator and Outcomes)
  • 关系类信息抽取:最基本的复合类信息抽取,它需要在实体类与文本类信息抽取的基础上,将两个实体或文本组合起来并打上一个标签,或者将三个实体或文本组合起来,最终形成三元组形式的结构化信息。通常情况下,实体和实体的组合叫关系抽取,实体和文本的组合叫属性抽取。
图4:关系类信息抽取示例图
  • 事件类信息抽取:更为复杂的复合类信息抽取,它需要将多个事件元素(可能是实体,也可能是文本)按照一定结构形式组合起来,形成具有一定意义的事件。
图5:事件类信息抽取示例图

2. 抽取建模方式

  信息抽取过程中,我们会对不同抽取问题采取不同的建模方式,使用不同类型的信息抽取模型。依据信息抽取问题的建模方式,可以将其分为抽取式、分类式和链接式。

  • 抽取式:就是最基本的信息抽取方式了,即从给定的文本当中抽取得到所需的信息,上述图1到图4中的单一类信息抽取都是这里讲的抽取式。
  • 分类式:广泛存在各种信息抽取任务当中,从最基本的给抽取得到的实体或文本打上label标签,到判断两个实体之间的关系类型,再到判断给定文本事件类型、标签等等都有分类式信息抽取的影子。例如表1需要从事故文本中抽取得到事故行业和事故类型两项属性标签,由于行业和类型都是给定的枚举值,而在文本中不一定直接出现这些枚举值,所以一般建模成分类任务,即这里的分类式信息抽取。
表1:事故报道文本信息抽取
事故文本 事故行业 事故类型
XX矿业公司一煤焦厂X月X日XX时XX分发生爆炸事故,截至X月X日X时已有X人死亡。图为X月X日,发生事故的煤焦厂位于XXXX市西郊。 商贸制造业 爆炸
河北XX县XX镇XX日晚发生一起交通事故,一辆XX籍东风牌载货汽车闯入城区发生连环冲撞事故,造成X死X伤 交通运输业 肇事
记者从湖南XX市政府获悉,X日下午X时XX分许,当地发生一起货车与小学校车相撞事故,造成X名学生医治无效死亡,XX名学生受伤,另有X名校车工作人员受伤 交通运输业 碰撞
昨天上午,XX市XX区XX中心公寓会所地下2层电梯间一只装满三氯异氰尿酸的塑料罐发生爆炸,导致X名路过此地的顾客和X名物业员工中毒。事发后,X名负责维持现场秩序的物业员工亦出现身体不适,被同时送往医院。安监部门初步认定,事故原因可能是工人操作不当。 商贸制造业 爆炸、中毒
  • 链接式:需要在实体类抽取式的基础上,对抽取得到的实体做融合消岐、链接到给定知识库或知识图谱当中。典型的应用如图6中所示的实体链接。
图6:实体链接示例图

3. 单一类抽取的边界特征

  对于单一类抽取来说,词条或句子抽取的准确性与其边界特征密切相关,边界特征越明显,抽取就越容易,抽取效果也就越好。针对其边界特征,可以借助分词、依存句法分析等工具来衡量某项单一类抽取边界特征的好坏程度,我将其分为三类:自边界类,词性/句法边界类,无明显边界类。

  • 自边界类:即词条或者文本仅需依靠自身加上前后两个字/词便可以确定其边界,如图1中的例子,“北京”大部分情况下自身便可组成独立的词,而像“冀北京风戏剧表演”这种也可以依靠前后的字/词便可以确定其边界,“10月25日”这种词条,这个词条出现在大部分地方都可以直接将其抽取出来。
  • 词性/句法边界类:即词条或者文本自身边界不怎么明显,但是有边界上有明显的词性变化特征,或者在句法树上占据了有典型特征的独立子树。例如图5中的事件触发词“新品发布会”,“新品”修饰“发布会”,在句法树上构成独立的子树。
  • 无明显边界类:这一类主要针对文本类信息抽取,如图3中的例子,由于语义表达的多样性,这种没有明显边界特征的数据在标注时经常会因为标注人员的习惯和喜好不同,每个人标注的边界甚至都会有细微差距,模型也很难从中学习得到合适的边界模式特征来切分所需的文本。

4. 单一类抽取的模式特性

  一般的实体类抽取和文本类抽取,不光需要抽取得到相应的词条或者文本,还需要给它打上一个合适的标签。根据打标签的模式特性,我将其分为两大类:自区分类,上下区分类。

  • 自区分类:即这个实体或这段文本没有歧义。例如图1中的“北京”和“10月25日”,无论出现在何处,给“北京”打上地点标签,给“10月25日”打上时间标签(你也可以打上如“日期”之类的标签,但是无论在何处,这个“10月25日”一定是那个“10月25日”)。
  • 上下文区分类:即实体或者文本有歧义,需要根据上下文进行区分,例如图1中的“骑士”和“公牛”,你需要根据上下文判断这是两个球队“组织”。

5. 复合类抽取的模式特性

  复合类的信息抽取在判断实体/文本元素之间的相互关系的时候,不同类型的表述模式的判断难度千差万别,这里我将其分为四类:直接表述类,指代表述类,间接表述类,暗含推理类。

  • 直接表述类:即直接使用“S的P是O”、“O是S的P”之类的来表述三元组(S, P, O),如图4的例子,“坐落于”是“位于”的同义词,也属于很直接的表述,图5中“苹果公司”“举行”“新品发布会”、“将于”“西部时间9月12日上午10点(北京时间9月13日凌晨1点)”也都是事件元素关系的直接描述。这类表述的模式一般非常简单,模型效果会很好。
  • 指代表述类:表述时三元组的主语或宾语缺失,或者使用其他词指代,例如图5中“这一次的发布会”和后面的“这次发布会”都指代了“新品发布会”,分别表述了发布会的地点和发布的产品。
  • 间接表述类:表述时没有直接的谓词,但是有固定的表述模式,例如“the crystal structures of SARS-CoV spike RBD (PDB 2GHV)”,这段文本表述了“SARS-CoV”这个病毒可以产生“spike RBD”类的病毒蛋白,而这个病毒蛋白的编号为“PDB 2GHV”等信息。
  • 暗涵推理类,没有直接的谓词,也没有固定的模式,人需要依靠自身先验知识经过推理才能得到结果,例如“如何演好自己的角色,请读《演员自我修养》——《喜剧之王》,周星驰崛起于穷困潦倒之中的独门秘。”这段文本其实没有表述出(周星驰,主演,喜剧之王)这个三元组,但是人在标注时一般都会将其标注出来;再如“On average, nCoV shares 91.1% of protein sequences with Bat virus MG772934.1 , 79.7% with Bat virus DQ022305.2 and 77.1% with the SARS proteome.”,这段文本中,“nCoV”与“Bat virus MG772934.1”之间有91.1%相同的蛋白序列,专家标注时标注了两者之间相似(nCoV, similarity to, Bat virus MG772934.1),而另外两个分别是79.7%和77.1%,专家却没有标注。这类需要先验知识和逻辑推理的判定方式过于复杂,一般不要寄希望模型能够学得到。

Reference

[1] 知识图谱从哪里来:实体关系抽取的现状与未来 https://zhuanlan.zhihu.com/p/91762831
[2] 文本摘要介绍(一)——抽取式摘要 https://zhuanlan.zhihu.com/p/79223454
[3] EBM-NLP https://github.com/bepnye/EBM-NLP
[4] 事件抽取 https://zhuanlan.zhihu.com/p/231932147
[5] 韩先培,实体链接:从文本到概念:https://docs.huihoo.com/infoq/baidu-salon51-entity-links.pdf
[6] 百度2019语言与智能技术竞赛-信息抽取项目数据集 http://ai.baidu.com/broad/download

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。