CCKS 2020篇章事件要素抽取比赛冠军方案解析
赛题背景:
“事件抽取”是舆情分析领域和金融领域的重要任务之一,“事件”在金融领域是投资分析,资产管理的重要决策参考。“事件抽取”的挑战体现在文本的复杂和任务的复杂。文本的复杂体现在事件抽取的输入文本可能是句子、段落或者篇章,不定长度的文本使得限制文本长度的模型无法使用;任务的复杂体现在事件识别的任务包括:事件类型识别,和事件要素抽取。
“CCKS 2020面向金融领域的篇章事件要素抽取比赛”是由中国中文信息学会语言与知识计算专业委员会主办,该比赛主要针对篇章级中文金融文本中的事件要素进行抽取,对于分析金融文本与投资决策具有十分重要的意义。
赛题任务:
本次比赛的文本范围包括互联网上的新闻文本,上市公司发布的公告文本。本次比赛的事件类型包括:股权质押、股东减持、股东增持、股权冻结、破产清算、重大资产损失、重大安全事故、重大对外赔付、以及高层死亡九个事件类型。事件要素为对应该事件类型的所有属性信息,如事件类型为“破产清算”的事件要素包括:“发布公告时间”、“破产清算的公司”、“受理法院”、 “公司所属行业”、 “裁定时间”。因此本次比赛需要输入一段中文篇章级文本,
并输出:事件类型和对应的事件要素。
赛题难点:
1. 比赛数据主要来源于互联网上的财经类网站,篇章很长,且数据中存在大量的转义符号,以及由爬取不规范造成的要素混乱,比如多个金额之间的空格丢失。
2. 与句子级的要素抽取不同,本次比赛中的事件要素可以出现在篇章的各个位置,分布在多个不同的句子中,因此需要设计有效的篇章级要素抽取的方案。
3. 部分篇章中有属于同一事件类型的多个事件同时存在的情况,比如一篇公告中描述了发生在多个时间的股东减持事件,因此,对应于不同事件的要素需要准确的抽取和组合。这类事件类型包括:股东减持,股东增持,股权冻结和股权质押。剩余的事件类型在篇章中一般只存在单个需要抽取的事件。
4. 相较于英文,中文以字为单位,在事件要素的准确抽取上更有挑战。
模型策略:
针对篇章要素抽取,我们提出了一个先验信息增强的信息抽取框架,该框架包含三个主要步骤:事件类型预测,事件要素抽取,以及事件表格填充。事件类型预测对篇章描述的事件类型进行分类。在最核心的事件要素抽取步骤中,区别于传统的单句级别要素抽取,我们引入了来自事件类型的明确先验知识,这一信息有助于篇章内不同句子在进行要素抽取时关注要素的属性一致。同时,我们利用了来自大规模预训练模型的潜在先验知识。最后我们使用启发式的规则,对抽取出来的要素进行组合和筛选,进行事件表格的填充。
事件类型预测:
图1 事件类型预测模型图
事件类型预测是要素抽取的基础,需要对整篇文本的信息进行处理。在处理时,首先需要对篇章进行分句处理,然后利用Encoder提取每个句子Si的特征,得到对应的编码信息hi。紧接着,我们利用Selector来挑选出篇章中最重要的信息用于分类。在这一步的尝试中,我们尝试了以CNN或者Bi-LSTM作为Encoder。对于Selector,我们尝试了三种不同的策略,分别为:ONE [1], ATTENTION [2], 以及MAX [3]。在ONE策略中,我们用一个线性层对每个句子的编码信息hi进行打分,取出得分最高的句子代表篇章的信息。在ATTENTION策略中,我们用一个注意力机制来获得每个句子的权重,最后利用加权后的句子信息作为篇章的信息。在MAX策略中,我们直接对所有句子的编码信息进行最大池化操作,以池化后的信息代表整篇文章的信息。各种不同的Encoder和Selector的效果对比如下:
图2 事件类型预测效果
根据图2中的结果,可以看到BiLSTM-MAX模型取得了最好的效果,因此在比赛的两个阶段,我们都用这个模型进行了篇章级事件类型预测。
事件要素抽取
在事件要素抽取环节,许多传统的序列标注的方法都可用于抽取篇章中的事件要素。在本次比赛中,我们对三种主流的序列标注的方法都进行了尝试,包括CRF [4]、MRC [5]、以及Biaffine [6],基于这些序列标注模型对每一个句子分别进行要素抽取。考虑到篇章级文本中包含多个句子,为了提高要素抽取的效果,我们利用上一步预测出的事件类型,作为先验信息,来指导模型对要素的预测。同时,最近大规模预训练模型(Pre-trained Language Model,PLM)的兴起,给自然语言处理领域带来了巨大的效果提升。这些在大量文本上训练的模型,为下游任务提供了潜在的先验信息。在本次的竞赛中,我们也充分探索了不同的预训练模型,提出了PLM-CRF, PLM-MRC, 以及PLM-Biaffine三种不同的要素抽取框架。
图3 事件要素抽取模型
如图3中所示,我们为句子拼接上事件类型作为预训练语言模型的输入,然后对编码后的句子特征进行要素抽取。在比赛中,为了验证先验事件类型信息的作用,我们用BERT-wwm-Chinese作为预训练语言模型PLM,然后在三种框架上进行了实验,如下图4,可以看到,在三种框架上,事件类型信息都带来了显著的效果提升。另外,PLM-Biaffine模型取得了与PLM-MRC模型类似的结果,但是训练时间要明显更短。考虑到数据量增大后的训练成本,我们采用了PLM-Biaffine框架作为我们本次竞赛中要素抽取的模型。
图4:不同框架下先验事件类型效果对比
接下来我们探索了不同预训练语言模型PLM对要素抽取效果的影响,如图5中所示,我们
对比了BERT-base、NEZHA-large等7种不同的模型,从结果上来看,NEZHA-large获得了最高的结果,因此我们采用了NEZHA-large模型作为最终的PLM。
图5 不同预训练语言模型的效果对比
事件表格填充
在获得了篇章内每个句子中抽取出的要素后,我们要将存在于多个句子中的事件要素进行整合,同时根据不同的事件类型进行事件表格填充。在本次比赛中,针对篇章中只存在单个事件的事件类型,我们计算从多个句子中抽取出的要素的最小内联距离,取出内联距离最小的组合,作为目标事件要素组合。对于篇章中同时存在多个事件的事件类型,当这些类型的篇章中存在表格时,要素一般集中在表格内部,因此我们在对多个句子抽取出的事件要素进行合并时,首先通过正则表达式定位出表格的位置,然后在表格范围内进行要素的最小内联距离计算。当这些类型的篇章中不存在表格时,通过在全文计算内联距离确定目标事件要素。
比赛结果:
根据上面的实验对比,在本次比赛中,我们采用了BiLSTM-MAX的模型进行事件类型预测,然后用NEZHA-large-Biaffine模型进行事件要素抽取。在CCKS 2020篇章事件要素抽取比赛中,我们同时获得了leaderboard A榜和B榜的第一名,以及技术创新奖。
总结与讨论:
本文对篇章事件要素抽取做了一些探索,包括用于事件类型识别的不同模型,以及事件要素抽取的三种不同框架,对来自事件类型的明确先验信息和预训练语言模型中的信息进行了广泛的验证,通过融合事件类型信息,和使用NEZHA-large预训练模型,极大地提高了要素抽取的效果,相信文本中提出的模型和方法可以帮助研究者们有效处理金融文本。
参考文献:
[1] Zeng, D., Liu, K., Chen, Y., Zhao, J.: Distant supervision for relaftion extraction via piecewise convolutional neural networks. In: Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. pp. 1753–1762 (2015)
[2] Lin, Y., Shen, S., Liu, Z., Luan, H., Sun, M.: Neural relation extraction with selective attention over instances. In: Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). pp. 2124–2133 (2016)
[3] Jiang, X., Wang, Q., Li, P., Wang, B.: Relation extraction with multi-instance multi-label convolutional neural networks. In: Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers. pp. 1471–1480 (2016)
[4] Lample, G., Ballesteros, M., Subramanian, S., Kawakami, K., Dyer, C.: Neural architectures for named entity recognition. In: Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. pp. 260–270 (2016)
[5] Li, X., Yin, F., Sun, Z., Li, X., Yuan, A., Chai, D., Zhou, M., Li, J.: Entity-relation extraction as multi-turn question answering. In: Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. pp. 1340–1350 (2019)
[6] Yu, J., Bohnet, B., Poesio, M.: Named entity recognition as dependency parsing. In: Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. pp. 6470–6476 (2020)
- 点赞
- 收藏
- 关注作者
评论(0)