ACL2021 NER | 模块化交互网络用于命名实体识别

JuTzungKuei 发表于 2021/08/02 15:19:13 2021/08/02
【摘要】 本文是对ACL2021 NER 模块化交互网络用于命名实体识别这一论文工作进行初步解读。

论文: Li Fei, Wang Zheng, Hui Siu Cheung, Liao Lejian, Song Dandan, Xu Jing, He Guoxiu, Jia Meihuizi. Modularized Interaction Network for Named Entity Recognition [A]. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers) [C]. Online: Association for Computational Linguistics, 2021, 200–209.

链接:https://aclanthology.org/2021.acl-long.17.pdf

代码:无

0、摘要

  • 现有NER模型缺点
    • 基于序列标注的NER模型:长实体识别不佳,只关注词级信息
    • 基于分段的NER模型:处理分段,而非单个词,不能捕获分段中的词级依赖关系
  • 边界检测和类型预测可以相互配合,两个子任务可共享信息,相互加强
  • 提出模块化交互网络模型MIN(Modularized Interaction Network)
    • 同时利用段级信息和词级依赖关系
    • 结合一种交互机制,支持边界检测和类型预测之间的信息共享
  • 三份基准数据集上达到SOTA

1、介绍

  • NER:查找和分类命名实体,person (PER), location
    (LOC) or organization (ORG),下游任务:关系抽取、实体链接、问题生成、共引解析
  • 两类方法
    • 序列标注 sequence labeling:可捕获词级依赖关系
    • 分段 segment(a span of words):可处理长实体
  • NER:检测实体边界和命名实体的类型,
    • 分成两个子任务:边界检测、类型预测
    • 两个任务之间是相关的,可以共享信息
  • 举栗:xx来自纽约大学
    • 如果知道大学是实体边界,更可能会预测类型是ORG
    • 如果知道实体有个ORG类型,更可能会预测到“大学”边界
  • 上述两个常用方法没有在子任务之间共享信息
    • 序列标注:只把边界和类型当做标签
    • 分段:先检测片段,再划分类型
  • 本文提出MIN模型:NER模块、边界模块、类型模块、交互机制
    • 指针网络作为边界模块的解码器,捕捉每个词的段级信息
    • 段级信息和词级信息结合输入到序列标注模型
    • 将NER划分成两个任务:边界检测、类型预测,并使用不同的编码器
    • 提出一个相互加强的交互机制,所有信息融合到NER模块
    • 三个模块共享单词表示,采用多任务训练
  • 主要贡献:
    • 新模型:MIN,同时利用段级信息和词级依赖
    • 边界检测和类型预测分成两个子任务,结合交互机制,使两个子任务信息共享
    • 三份基准数据集达到SOTA

2、方法

  • NER模块:RNN-BiLSTM-CRF,引用Neural architectures for named entity recognition

    • 词表示:word(BERT) + char(BiLSTM)
    • BiLSTM编码:双向LSTM,交互机制代替直接级联,门控函数动态控制

    最终NER输出: H N E R = W T [ H ; H B ; H T ; H S ] + b H^{NER}=W^T[H;H^B;H^T;H^S] + b
    H B d y H^{Bdy} 表示边界模块输出, H T y p e H^{Type} 表示类型模块输出, H S e g H^{Seg} 表示分段信息

    • CRF解码:转移概率 + 发射概率
  • 边界模块:双向LSTM编码 H B d y H^{Bdy} ,单向LSTM解码

    • 解码:
      s j = h j 1 B d y + h j B d y + h j + 1 B d y s_j=h_{j-1}^{Bdy}+h_{j}^{Bdy}+h_{j+1}^{Bdy}
      d j = L S T M ( s j , d j 1 ) d_j=LSTM(s_j, d_{j-1})
    • Biaffine Attention机制:

  • 类型模块:BiLSTM + CRF

  • 交互机制:

    • self attention 得到标签增强的边界 H B E H^{B-E} ,类型 H T E H^{T-E}
    • Biaffine Attention 计算得分 α B E \alpha^{B-E}
    • 交互后的边界: r i B E = j = 1 n α i , j B E h j T E r_i^{B-E}=\sum_{j=1}^{n}\alpha_{i,j}^{B-E}h_j^{T-E}
    • 更新后的边界: h i B d y = [ h i B E , r i B E ] \overline{h}_i^{Bdy}=[h_i^{B-E},r_i^{B-E}]
    • 更新后的类型: h i T y p e = [ h i T E , r i T E ] \overline{h}_i^{Type}=[h_i^{T-E},r_i^{T-E}]
  • 联合训练:多任务

    • 每个任务的损失函数

    • 最终损失函数: L = L N E R + L T y p e + L B d y \mathcal{L}=\mathcal{L}^{NER}+\mathcal{L}^{Type}+\mathcal{L}^{Bdy}

3、结果

  • Baseline (sequence labeling-based)
    • CNN-BiLSTM-CRF
    • RNN-BiLSTM-CRF
    • ELMo-BiLSTM-CRF
    • Flair (char-BiLSTM-CRF)
    • BERT-BiLSTM-CRF
    • HCRA (CNN-BiLSTM-CRF)
  • Baseline (segment-based)
    • BiLSTM-Pointer
    • HSCRF
    • MRC+BERT
    • Biaffine+BERT


号外号外:想了解更多的AI技术干货,欢迎上华为云的AI专区,目前有AI编程Python等六大实战营供大家免费学习。

【版权声明】本文为华为云社区用户原创内容,未经允许不得转载,如需转载请发送邮件至:cloudbbs@huaweicloud.com;如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。