- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

BERT的产生和发展

黄生发表于 2025/10/11 16:30:47 2025/10/11

【摘要】 BERT（Bidirectional Encoder Representations from Transformers）的产生源于2018年谷歌研究团队对预训练语言模型范式的根本性重构。在BERT出现之前，主流语言模型如GPT采用单向自回归训练，仅能从左到右或从右到左理解文本，这种单向性限制了模型对上下文的全貌把握。ELMo虽然尝试通过双向LSTM结合两个方向的表示，但本质仍是浅层特征拼接...

BERT（Bidirectional Encoder Representations from Transformers）的产生源于2018年谷歌研究团队对预训练语言模型范式的根本性重构。在BERT出现之前，主流语言模型如GPT采用单向自回归训练，仅能从左到右或从右到左理解文本，这种单向性限制了模型对上下文的全貌把握。ELMo虽然尝试通过双向LSTM结合两个方向的表示，但本质仍是浅层特征拼接而非深度双向编码。

BERT的核心突破在于两个创新训练任务：掩码语言建模（Masked Language Model）和下一句预测（Next Sentence Prediction）。MLM随机遮盖输入文本中的部分词元，要求模型基于双向上下文预测被遮盖内容，这使Transformer编码器能同时利用左右两侧信息。NSP则让模型判断两个句子是否连续，增强了模型理解句子间关系的能力。这种预训练策略使BERT在11项自然语言理解任务上取得突破性进展，包括将GLUE基准推升至80.4%（绝对提升7.6%），MultiNLI准确率达到86.7%，展示了通用语言理解的强大潜力。

BERT的成功催生了三大技术发展脉络。规模扩展方向产生了RoBERTa，它通过去除NSP任务、扩大批次大小和训练数据，证明优化训练策略比架构创新更重要；ALBERT则通过参数共享和句子顺序预测，在减少参数量的同时保持性能。架构创新方向涌现出DistilBERT，利用知识蒸馏将模型尺寸减小40%而保留97%的性能；ELECTRA引入替换token检测预训练任务，提升训练效率。领域适应方向衍生了BioBERT（医学领域）、SciBERT（科学文献）和LegalBERT（法律文本），通过在特定领域语料上继续预训练，显著提升专业领域任务表现。

BERT的技术影响延伸到计算机视觉领域，Vision Transformer将图像分块处理并应用标准Transformer架构，证明无需卷积归纳偏置也能实现卓越性能。这促进了多模态模型发展，如VL-BERT和VisualBERT，它们统一处理文本和图像输入，为图文理解任务建立新范式。BERT的预训练-微调框架也成为大语言模型的基础技术路径，GPT系列、T5等模型都借鉴了其核心思想。

当前，BERT的遗产体现在三个方面：技术层面确立了基于Transformer的预训练-微调范式；实践层面催生了Hugging Face等开源生态，降低技术应用门槛；理论层面推动了对语言表示学习的理解，为后续模型提供可解释性研究基础。虽然如今大型生成式模型成为焦点，但BERT开创的编码器架构和双向预训练理念仍在信息检索、文本分类等理解任务中保持重要地位，其平衡效率与性能的特点使其在工业部署中持续发挥价值。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

BERT的产生和发展

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

BERT的产生和发展

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品