Transformer 架构的产生和发展

举报
黄生 发表于 2025/10/11 16:38:54 2025/10/11
【摘要】 Transformer 架构的产生源于 2017 年 Google 研究团队在序列建模领域对循环神经网络(RNN)和卷积神经网络(CNN)局限性的根本性突破。在 Transformer 出现之前,序列转换任务主要依赖 RNN 及其变体 LSTM 和 GRU,这些模型按时间步顺序处理输入,存在梯度消失和并行化困难的问题。CNN 虽能并行计算但难以捕获长距离依赖关系,注意力机制作为辅助手段仅在编...

Transformer 架构的产生源于 2017 年 Google 研究团队在序列建模领域对循环神经网络(RNN)和卷积神经网络(CNN)局限性的根本性突破。在 Transformer 出现之前,序列转换任务主要依赖 RNN 及其变体 LSTM 和 GRU,这些模型按时间步顺序处理输入,存在梯度消失和并行化困难的问题。CNN 虽能并行计算但难以捕获长距离依赖关系,注意力机制作为辅助手段仅在编码器-解码器间使用。

Transformer 的核心创新在于完全基于自注意力机制构建的编码器-解码器架构。该架构摒弃了循环和卷积操作,转而使用三个关键技术组件:缩放点积注意力(Scaled Dot-Product Attention)使模型能够直接计算序列中任意两个位置的关系;多头注意力(Multi-Head Attention)通过多个子空间并行捕捉不同类型的依赖关系;位置编码(Positional Encoding)为输入序列注入顺序信息,弥补了自注意力机制本身的位置不敏感性。这种设计使 Transformer 在 WMT 2014 英德和英法翻译任务上达到新的 state-of-the-art(WMT 2014数据集在2014年发布,是机器翻译领域的标准评测集),同时将训练时间大幅减少。

Transformer 的成功催生了三大发展方向。编码器架构以 BERT 为代表,专注于理解任务,通过双向自注意力捕捉上下文信息;解码器架构以 GPT 系列为代表,采用掩码自注意力实现自回归生成,最终发展出 ChatGPT 等大语言模型;编码器-解码器架构延续原始设计,在 T5、BART 等模型中应用于序列到序列任务。这些变体虽然侧重不同,但都保留了自注意力的核心计算范式。

Transformer 的技术影响超越了自然语言处理领域。在计算机视觉中,Vision Transformer 将图像分割为图块序列进行处理,证明无需卷积归纳偏置也能实现卓越性能;在生物信息学中,AlphaFold2 利用 Transformer 架构预测蛋白质三维结构,解决长期存在的科学难题;在多模态学习中,CLIP、DALL·E 等模型通过 Transformer 统一处理文本和图像输入,建立跨模态理解的通用框架。

当前,Transformer 的遗产体现在多个层面:架构层面确立了自注意力作为序列建模的基础算子;理论层面推动了对表示学习、模型缩放律的研究;工程层面催生了专门的加速库和硬件优化。虽然 Transformer 的二次计算复杂度限制了其在长序列中的应用,催生了 Linear Transformer、Longformer 等改进架构,但其核心思想仍是当今大语言模型的基石。该架构的通用性和扩展性使其成为人工智能领域少数真正通用的计算架构之一,为构建通用人工智能系统提供了关键的技术基础。

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。