深度学习核心技术精讲100篇(十一)-Google利器超强特征提取网络(Transformer)

举报
格图洛书 发表于 2021/11/19 00:15:53 2021/11/19
【摘要】 前言 谷歌于2017年提出 Transformer网络架构,此网络一经推出就引爆学术界。目前,在NLP领域,Transformer模型被认为是比CNN,RNN都要更强的特征提取器。 Transformer算法简介 Transformer引入了self-attention机制,同时还借鉴了CNN领域中残差机制(Residuals),...

前言

谷歌于2017年提出 Transformer网络架构,此网络一经推出就引爆学术界。目前,在NLP领域,Transformer模型被认为是比CNN,RNN都要更强的特征提取器。

Transformer算法简介

Transformer引入了self-attention机制,同时还借鉴了CNN领域中残差机制(Residuals),由于以上原因导致transformer有如下优势:

  • 模型表达能力较强,由于self-attention机制考虑到了句子之中词与词之间的关联,
  • 抛弃了RNN的循环结构,同时借用了CNN中的残差结构加快了模型的训练速度。

接下来我们来看看transformer的一些细节:

  • 首先Scaled Dot-Product Attention步骤是transformer的精髓所在,作者引入Q,W,V参数通过点乘相识度去计算句子中词与词之间的关联重要程度。其大致过程如图所示,博主将会在实战部分具体介绍此过程如何实现。

     

    Scaled Dot-Product Attention

  • 第二个是muti-head步骤,直白的解释就是将上面

文章来源: wenyusuran.blog.csdn.net,作者:文宇肃然,版权归原作者所有,如需转载,请联系作者。

原文链接:wenyusuran.blog.csdn.net/article/details/107333458

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。