建议使用以下浏览器,以获得最佳体验。 IE 9.0+以上版本 Chrome 31+ 谷歌浏览器 Firefox 30+ 火狐浏览器
请选择 进入手机版 | 继续访问电脑版
设置昵称

在此一键设置昵称,即可参与社区互动!

确定
我再想想
选择版块
直达楼层
标签
您还可以添加5个标签
  • 没有搜索到和“关键字”相关的标签
  • 云产品
  • 解决方案
  • 技术领域
  • 通用技术
  • 平台功能
取消

采纳成功

您已采纳当前回复为最佳回复

角动量

发帖: 218粉丝: 8

发消息 + 关注

发表于2021年02月24日 14:45:32 255 3
直达本楼层的链接
楼主
显示全部楼层
[其他] 更深、更轻量级的Transformer!Facebook提出:DeLighT

DELIGHT: DEEP AND LIGHT-WEIGHT TRANSFORMER

image.png

论文:https://arxiv.org/abs/2008.00623

代码:https://github.com/sacmehta/delight

本文提出了一个更深更轻的Transformer,DeLighT,它的性能与Transformer相似,甚至更好,平均少了2到3倍的参数。

本文提出了一个更深更轻量的Transformer,DeLighT,DeLighT更有效地在每个Transformer Block中分配参数:

  • 1)、使用DeLighT转换进行深度和轻量级的转换;
  • 2)、使用Block-wise Scaling进行跨Block,允许在输入附近有较浅和较窄的DeLighT Block,以及在输出附近有较宽和较深的DeLighT Block。

总的来说,DeLighT网络的深度是标准Transformer的2.5到4倍,但参数和操作更少。在机器翻译和语言建模任务上的实验表明,DeLighT在提高了基准Transformer性能的基础上,平均减少了2到3倍的参数量。


举报
分享

分享文章到朋友圈

分享文章到微博

采纳成功

您已采纳当前回复为最佳回复

yyy7124

发帖: 162粉丝: 3

发消息 + 关注

发表于2021年02月25日 15:22:25
直达本楼层的链接
沙发
显示全部楼层

点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复

小强鼓掌

发帖: 168粉丝: 2

发消息 + 关注

发表于2021年02月28日 14:47:08
直达本楼层的链接
板凳
显示全部楼层

感谢分享

点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复

zhengyong134

发帖: 65粉丝: 2

发消息 + 关注

发表于2021年02月28日 15:54:52
直达本楼层的链接
地板
显示全部楼层

mark一下

点赞 评论 引用 举报

游客

富文本
Markdown
您需要登录后才可以回帖 登录 | 立即注册

结贴

您对问题的回复是否满意?
满意度
非常满意 满意 一般 不满意
我要反馈
0/200