ACL2021 NER | BERT化隐马尔可夫模型用于多源弱监督命名实体识别

JuTzungKuei 发表于 2021/08/02 15:25:58 2021/08/02
【摘要】 本文是对ACL2021 NER BERT化隐马尔可夫模型用于多源弱监督命名实体识别这一论文工作进行初步解读。

论文:Li Yinghao, Shetty Pranav, Liu Lucas, Zhang Chao, Song Le. BERTifying the Hidden Markov Model for Multi-Source Weakly Supervised Named Entity Recognition[A]. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers) [C]. Online: Association for Computational Linguistics, 2021, 6178–6190.

链接:https://aclanthology.org/2021.acl-long.482.pdf

代码:https://github.com/Yinghao-Li/CHMM-ALT

0、摘要

  • 研究内容:使用多个弱监督数据的噪音标签学习NER
  • 噪音数据:不全、不准、矛盾
  • 提出一个条件隐马尔可夫模型(CHMM:conditional hidden Markov model)
    • 利用BERT的上下文表示能力,增强了经典的HMM模型
    • 从BERT嵌入中学习词的转移和发射概率,推断潜在的真标签
  • 用交替训练方法(CHMM-ALT)进一步完善CHMM
    • 用CHMM推导出的标签对BERT-NER模型进行微调
    • BERT-NER的输出作为额外的弱源来训练CHMM
  • 四份数据集上达到SOTA

1、介绍

  • NER是许多下游信息抽取任务的基础任务:事件抽取、关系抽取、问答
    • 有监督、需要大量标注数据
    • 许多领域有知识源:知识库、领域词典、标注规则
    • 可以用来匹配语料库,从多角度,快速生成大规模的噪声训练数据
  • 远程监督NER:只使用知识库作为弱监督,未使用多源标注的互补信息
  • 现有利用HMM方法,有局限性:one-hot词向量 或 不建模
  • 贡献:
    • CHMM:聚合多源弱标签
    • 交替训练方法CHMM-ALT:轮流训练CHMM和BERT-NER,利用彼此的输出进行多回路,以优化多源弱监督NER性能
    • 四份基准数据集获得SOTA

2、方法

  • CHMM-ALT 训练两个模型:多源标签聚合器CHMM和BERT-NER 模型,轮流作为彼此的输出
    • 阶段I:CHMM根据K个源 x 1 : K ( 1 : T ) x_{1:K}^{(1:T)} ,生成一个去噪标签 y ( 1 : T ) y^{*(1:T)} ,微调BERT-NER模型输出 y ~ ( 1 : T ) \widetilde{y}^{(1:T)} ,作为额外的标注源,添加到原始弱标签集合 x 1 : K + 1 ( 1 : T ) = { x 1 : K ( 1 : T ) , y ~ ( 1 : T ) } x_{1:K+1}^{(1:T)} = \{x_{1:K}^{(1:T)} , \widetilde{y}^{(1:T)}\}
    • 阶段II:CHMM和BERT-NER在几轮循环中互相改进,每轮循环,先训练CHMM,后微调BERT-NER,更新前者的输入
    • CHMM 提高Precision,BERT-NER提高Recall

  • 隐马尔可夫模型
    • 不细解

3、结果


号外号外:想了解更多的AI技术干货,欢迎上华为云的AI专区,目前有AI编程Python等六大实战营供大家免费学习。

【版权声明】本文为华为云社区用户原创内容,未经允许不得转载,如需转载请发送邮件至:cloudbbs@huaweicloud.com;如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。