典型信息抽取任务的难度评析、标注需求与效果上界(二):信息抽取任务难度评析
在上一步信息抽取问题分类的基础上,我们就可以将具体任务进行分析,看它属于哪一种类别,从而确定这项信息抽取任务的难度了。需要说明一点:一般而言,具体任务通常由多种类别的信息抽取任务组成,每种占有不同的比例,在分析过程中可以将不同类型区分开来具体分析,从而确定整体信息抽取任务的难度。
1. 信息抽取任务难度对比
表1中列举了各种类型信息抽取任务的难度对比,在控制其他变量和影响因素的条件下,抽取结果越复杂,抽取难度越高;分类式和抽取式实际单独差不多,链接式在此基础上还需要做消岐和链接,难度上了一个档次;实体和文本的边界特征越明显,抽取难度越低,尽量避免抽取无边界特征类型的实体或文本,它不光对标注人员考验很大,而且模型也难以学到相应的边界模式;需要依据上下文进行区分的情况下,难度也会上一个档次;复合类抽取由于语义表示的多样性,大部分都是直接表述、指代表述、间接表述的混合类型,模型一般都能够学到相应的模式特征,但对于暗涵推理类的抽取,通常需要引入场外的信息才有可能解决,一般就只能够听天由命了。
类型划分 | 难度对比 |
---|---|
抽取结果形式 | 实体类<文本类<关系类<事件类 |
抽取建模方式 | 分类式≈抽取式<链接式 |
单一类抽取的边界特征 | 自边界类<词性/句法边界类<<无边界类 |
单一类抽取的模式特性 | 自区分类<上下文区分类 |
复合类抽取的模式特性 | 直接表述类<指代表述类≈间接表述类<<暗涵推理类 |
2. 典型的信息抽取任务
表2中列举了各种信息抽取任务可能的组合形式,前面也提到了实际任务一般都是多种类型的混合,对于复合类信息抽取,其类型特征不光包括自己的类型,还包括其各种元素的类型,可能的情况就更多了;而各种元素抽取的难度也会极大影响复合类信息抽取后一阶段元素类型判定的效果,清华大学刘知远老师在EMLP2020上的一篇论文[1]就说明:上下文信息(复合类模式特性)和实体信息对于关系模型都很关键。所以对于同样类型的关系抽取,前一阶段实体抽取的类型是自区分类的,还是上下文区分类的,对于最后关系抽取的效果有非常大的影响。
抽取结果形式 | 抽取建模方式 | 边界特征 | 单一类模式特性 | 复合类模式特性 |
---|---|---|---|---|
实体类 | 抽取式、链接式 | 自边界类、词性/句法边界类 | 自区分类、上下文区分类 | - |
实体类 | 分类式 | - | - | - |
文本类 | 抽取式 | 词性/句法边界类、无边界类 | 上下文区分类 | - |
关系类、事件类 | 抽取式、分类式 | 自边界类、词性/句法边界类、无边界类 | 自区分类、上下文区分类 | 直接表述类、指代表述类、间接表述类、暗涵推理类 |
3. 数据标注过程的影响
除了模型解决问题的难度以外,另一个需要考虑的点就是标注的难度,信息抽取任务的难度也会影响到数据标注的难度。有一个可以简单评估信息抽取任务难度的方法,就是标注人员标注数据的难度以及标注的效果。标注数据的难度一般可以通过标注速度来评估,标注速度越快说明抽取模式越简单明显;标注数据的效果一般需要通过多人重标注,然后看多人标注结果的一致性进行评判,结果一致性越低说明抽取难度越高。而另一方面,标注的难度会显著影响标注数据的质量,会对模型训练产生十分严重的影响:同样的文本模式被不同人做出了不同的标注,这对于模型来说是非常严重的问题。
团队标注中不同人标注习惯不同,这是所有数据集中最容易出现、也是最常出现的问题。对于大型数据集来说,单人标注基本上是不可能实现的,多人团队标注是常态。但是每个人的语言习惯不同,在标注过程中,经常会出现标注出的数据都是“对”的,但是相同模式的样例标注结果不一样的情况。这种情况较多发生在单一类抽取中的词性/句法边界类和上下文区分类,以及复合类抽取的间接表述类和暗涵推理类上。下面一一给出例子进行解释:
- 单一类抽取中的词性/句法边界类:这种情况一般出现在某些模棱两可的实体身上,不同人对于实体的语感不同会有不同的标注。图1中列举了两个例子用来说明这种情况,标注企业的总部时,前一个人在“意大利摩德纳”中仅标注了其中的“意大利”,而后一个人在“宾西尼亚州的费城”中标注了全部,而这两个句子的模式基本上一模一样;标注人物的父亲时,前一个人在“唐睿宗李旦”中标注了全部,后一个人仅标注了“唐懿宗李漼”中的人名“李漼”。这种情况是非常常见的,一般出现这种情况,需要各标注人员之间做好约定,统一标注规范,一般建议以句法边界作为标注约定。
- 单一类抽取中的上下文区分类:一词多义是各种语言当中都经常出现的现象,很多情况下词语的真实含义需要通过上下文进行确定。图2中的例子,第一句的“神奇女侠”很显然指的是人物的“神奇女侠”;第四句的“小米”应该指代的是“小米手机”。这类情况对于标注人员的要求其实并不高,标注人员只需要仔细标注、提前做出提醒,一般也不会造成问题。
- 复合类抽取的间接表述类:间接表述通常出现在需要经过一些简单“推理”才能得到结果的情况下,这时不同人、不同实体、不同上下文就很容易出现标注不一致的情况。例如图3中的例子,两句话基本模式基本一样,但是标注人员在标注时标注结果完全不同,虽然标注结果很符合“事实”情况,打这种标注对于模型学习来说十分致命。
- 复合类抽取的暗涵推理类:图4是个暗涵推理的例子,两个句子分别中间接表述出了“伊能静”“秦昊”和“小米粒”的母女和父女关系,以及“杨幂”“刘恺威”和“小糯米”的母女和父女关心,但是两句当中含有写暗涵推理的信息,即“伊能静”和“秦昊”没有离婚,他们之间应该还存在“夫妻”关系,但是第二句中暗涵了“杨幂”与“刘恺威”离婚了的事实,他们之间不存在“夫妻”关系。
- 点赞
- 收藏
- 关注作者
评论(0)