深度学习核心技术精讲100篇(十一)-Google利器超强特征提取网络(Transformer)
【摘要】
前言
谷歌于2017年提出 Transformer网络架构,此网络一经推出就引爆学术界。目前,在NLP领域,Transformer模型被认为是比CNN,RNN都要更强的特征提取器。
Transformer算法简介
Transformer引入了self-attention机制,同时还借鉴了CNN领域中残差机制(Residuals),...
前言
谷歌于2017年提出 Transformer网络架构,此网络一经推出就引爆学术界。目前,在NLP领域,Transformer模型被认为是比CNN,RNN都要更强的特征提取器。
Transformer算法简介
Transformer引入了self-attention机制,同时还借鉴了CNN领域中残差机制(Residuals),由于以上原因导致transformer有如下优势:
- 模型表达能力较强,由于self-attention机制考虑到了句子之中词与词之间的关联,
- 抛弃了RNN的循环结构,同时借用了CNN中的残差结构加快了模型的训练速度。
接下来我们来看看transformer的一些细节:
-
首先Scaled Dot-Product Attention步骤是transformer的精髓所在,作者引入Q,W,V参数通过点乘相识度去计算句子中词与词之间的关联重要程度。其大致过程如图所示,博主将会在实战部分具体介绍此过程如何实现。
Scaled Dot-Product Attention
-
第二个是muti-head步骤,直白的解释就是将上面
文章来源: wenyusuran.blog.csdn.net,作者:文宇肃然,版权归原作者所有,如需转载,请联系作者。
原文链接:wenyusuran.blog.csdn.net/article/details/107333458
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)