【第18篇】Bert论文翻译

AI浩 发表于 2021/12/22 22:20:38 2021/12/22
【摘要】 摘要 我们引入了一种称为 BERT 的新语言表示模型,它代表来自 Transformers 的双向编码器表示。与最近的语言表示模型(Peters 等人,2018a;Radford 等人,2018 年)不...

摘要

我们引入了一种称为 BERT 的新语言表示模型,它代表来自 Transformers 的双向编码器表示。与最近的语言表示模型(Peters 等人,2018a;Radford 等人,2018 年)不同,BERT 旨在通过联合调节所有层的左右上下文,从未标记的文本中预训练深度双向表示。因此,预训练的 BERT 模型可以仅通过一个额外的输出层进行微调,从而为各种任务(例如问答和语言推理)创建最先进的模型,而无需对特定于任务的架构进行大量修改。 BERT 在概念上很简单,在经验上也很强大。它在 11 项自然语言处理任务上获得了最新的最新成果,包括将 GLUE 分数推至 80.5%(绝对提升 7.7%)、MultiNLI 准确率提升至 86.7%(绝对提升 4.6%)、SQuAD v1.1问答测试 F1 达到 93.2(绝对提高 1.5 分)和 SQuAD v2.0 测试 F1 达到 83.1(提高 5.1 分)。

1 简介

语言模型预训练已被证明可有效改善许多自然语言处理任务(Dai 和 Le,2015;Peters 等,2018a;Radford 等,2018;Howard 和 Ruder,2018)。 这些包括句子级任务,例如自然语言推理(Bowman 等人,2015 年;Williams 等人,2018 年)和释义(Dolan 和 Brockett,2005 年),旨在通过整体分析来预测句子之间的关系,如 以及令牌级别的任务,例如命名

文章来源: wanghao.blog.csdn.net,作者:AI浩,版权归原作者所有,如需转载,请联系作者。

原文链接:wanghao.blog.csdn.net/article/details/120864338

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:cloudbbs@huaweicloud.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。