典型信息抽取任务的难度评析、标注需求与效果上界(二):信息抽取任务难度评析

举报
人工智障研究员 发表于 2021/06/28 15:55:56 2021/06/28
【摘要】 实际项目过程中,信息抽取任务的效果往往和实际问题的形式密切相关,不同问题的难度和效果可能千差万别。根据这些年从事研究和项目落地的经验,观察对比了多个标准数据集和实际项目,我分析了典型信息抽取任务难度的影响因素,对信息抽取任务进行分类,据此便可以对同一纬度上不同类型任务之间进行定性的难度对比;给出了典型任务的标注数据和当前SOTA作为路标,让大家对于实际信息抽取任务的难度和效果上界能有个初步的认识。

  在上一步信息抽取问题分类的基础上,我们就可以将具体任务进行分析,看它属于哪一种类别,从而确定这项信息抽取任务的难度了。需要说明一点:一般而言,具体任务通常由多种类别的信息抽取任务组成,每种占有不同的比例,在分析过程中可以将不同类型区分开来具体分析,从而确定整体信息抽取任务的难度。

1. 信息抽取任务难度对比

  表1中列举了各种类型信息抽取任务的难度对比,在控制其他变量和影响因素的条件下,抽取结果越复杂,抽取难度越高;分类式和抽取式实际单独差不多,链接式在此基础上还需要做消岐和链接,难度上了一个档次;实体和文本的边界特征越明显,抽取难度越低,尽量避免抽取无边界特征类型的实体或文本,它不光对标注人员考验很大,而且模型也难以学到相应的边界模式;需要依据上下文进行区分的情况下,难度也会上一个档次;复合类抽取由于语义表示的多样性,大部分都是直接表述、指代表述、间接表述的混合类型,模型一般都能够学到相应的模式特征,但对于暗涵推理类的抽取,通常需要引入场外的信息才有可能解决,一般就只能够听天由命了。

表1:控制变量下各种类型信息抽取任务的难度对比
类型划分 难度对比
抽取结果形式 实体类<文本类<关系类<事件类
抽取建模方式 分类式≈抽取式<链接式
单一类抽取的边界特征 自边界类<词性/句法边界类<<无边界类
单一类抽取的模式特性 自区分类<上下文区分类
复合类抽取的模式特性 直接表述类<指代表述类≈间接表述类<<暗涵推理类

 

2. 典型的信息抽取任务

  表2中列举了各种信息抽取任务可能的组合形式,前面也提到了实际任务一般都是多种类型的混合,对于复合类信息抽取,其类型特征不光包括自己的类型,还包括其各种元素的类型,可能的情况就更多了;而各种元素抽取的难度也会极大影响复合类信息抽取后一阶段元素类型判定的效果,清华大学刘知远老师在EMLP2020上的一篇论文[1]就说明:上下文信息(复合类模式特性)和实体信息对于关系模型都很关键。所以对于同样类型的关系抽取,前一阶段实体抽取的类型是自区分类的,还是上下文区分类的,对于最后关系抽取的效果有非常大的影响。

表2:各种类型信息抽取任务可能的组合
抽取结果形式 抽取建模方式 边界特征 单一类模式特性 复合类模式特性
实体类 抽取式、链接式 自边界类、词性/句法边界类 自区分类、上下文区分类 -
实体类 分类式 - - -
文本类 抽取式 词性/句法边界类、无边界类 上下文区分类 -
关系类、事件类 抽取式、分类式 自边界类、词性/句法边界类、无边界类 自区分类、上下文区分类 直接表述类、指代表述类、间接表述类、暗涵推理类

 

3. 数据标注过程的影响

  除了模型解决问题的难度以外,另一个需要考虑的点就是标注的难度,信息抽取任务的难度也会影响到数据标注的难度。有一个可以简单评估信息抽取任务难度的方法,就是标注人员标注数据的难度以及标注的效果。标注数据的难度一般可以通过标注速度来评估,标注速度越快说明抽取模式越简单明显;标注数据的效果一般需要通过多人重标注,然后看多人标注结果的一致性进行评判,结果一致性越低说明抽取难度越高。而另一方面,标注的难度会显著影响标注数据的质量,会对模型训练产生十分严重的影响:同样的文本模式被不同人做出了不同的标注,这对于模型来说是非常严重的问题。

  团队标注中不同人标注习惯不同,这是所有数据集中最容易出现、也是最常出现的问题。对于大型数据集来说,单人标注基本上是不可能实现的,多人团队标注是常态。但是每个人的语言习惯不同,在标注过程中,经常会出现标注出的数据都是“对”的,但是相同模式的样例标注结果不一样的情况。这种情况较多发生在单一类抽取中的词性/句法边界类和上下文区分类,以及复合类抽取的间接表述类和暗涵推理类上。下面一一给出例子进行解释:

  • 单一类抽取中的词性/句法边界类:这种情况一般出现在某些模棱两可的实体身上,不同人对于实体的语感不同会有不同的标注。图1中列举了两个例子用来说明这种情况,标注企业的总部时,前一个人在“意大利摩德纳”中仅标注了其中的“意大利”,而后一个人在“宾西尼亚州的费城”中标注了全部,而这两个句子的模式基本上一模一样;标注人物的父亲时,前一个人在“唐睿宗李旦”中标注了全部,后一个人仅标注了“唐懿宗李漼”中的人名“李漼”。这种情况是非常常见的,一般出现这种情况,需要各标注人员之间做好约定,统一标注规范,一般建议以句法边界作为标注约定。

图1:单一类抽取中的词性/句法边界类标注不一致例子
  • 单一类抽取中的上下文区分类:一词多义是各种语言当中都经常出现的现象,很多情况下词语的真实含义需要通过上下文进行确定。图2中的例子,第一句的“神奇女侠”很显然指的是人物的“神奇女侠”;第四句的“小米”应该指代的是“小米手机”。这类情况对于标注人员的要求其实并不高,标注人员只需要仔细标注、提前做出提醒,一般也不会造成问题。

图2:单一类抽取中的上下文区分类标注不一致的例子
  • 复合类抽取的间接表述类:间接表述通常出现在需要经过一些简单“推理”才能得到结果的情况下,这时不同人、不同实体、不同上下文就很容易出现标注不一致的情况。例如图3中的例子,两句话基本模式基本一样,但是标注人员在标注时标注结果完全不同,虽然标注结果很符合“事实”情况,打这种标注对于模型学习来说十分致命。

图3:复合类抽取的间接表述类标注不一致的例子
  • 复合类抽取的暗涵推理类:图4是个暗涵推理的例子,两个句子分别中间接表述出了“伊能静”“秦昊”和“小米粒”的母女和父女关系,以及“杨幂”“刘恺威”和“小糯米”的母女和父女关心,但是两句当中含有写暗涵推理的信息,即“伊能静”和“秦昊”没有离婚,他们之间应该还存在“夫妻”关系,但是第二句中暗涵了“杨幂”与“刘恺威”离婚了的事实,他们之间不存在“夫妻”关系。

图4:复合类抽取的暗涵推理类例子
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。