建议使用以下浏览器,以获得最佳体验。 IE 9.0+以上版本 Chrome 31+ 谷歌浏览器 Firefox 30+ 火狐浏览器
请选择 进入手机版 | 继续访问电脑版
设置昵称

在此一键设置昵称,即可参与社区互动!

确定
我再想想
选择版块
直达楼层
标签
您还可以添加5个标签
  • 没有搜索到和“关键字”相关的标签
  • 云产品
  • 解决方案
  • 技术领域
  • 通用技术
  • 平台功能
取消

采纳成功

您已采纳当前回复为最佳回复

可爱又积极

发帖: 265粉丝: 19

发消息 + 关注

发表于2021年04月26日 15:59:12 219 2
直达本楼层的链接
楼主
显示全部楼层
[其他] LV-ViT:训练视觉Transformer

paper: https://arxiv.org/abs/2104.10858

Code: https://github.com/zihangJiang/TokenLabeling

本文是新加坡国立大学&字节跳动的研究员在Transformer方面的最新研究成果。本文目标不在于提出一种新颖的Transofrmer架构,而是探索了用于提升ViT性能的各种训练技巧。通过一系列实验对比、改进与组合,本文所提方案取得了SOTA方案,超越了EfficientNet、T2TViT、DeiT、Swin Transformer、CaiT等方案。以26M参数量的ViT为例,所提方案在ImageNet上可以取得84.4%的top1精度;当参数量扩展到56M/150M时,模型性能可以进一步提升到85.4%/86.2%,且无需额外数据。

Abstract

本文为ImageNet分类任务中的Vision Transformer(ViT)提供了一个强基线方案。尽管ViT在ImageNet任务中取得了非常好的结果,但它们的性能距离强效CNN仍存在差距。

本文目标不在于提出一种新颖的Transofrmer架构,而是探索了用于提升ViT性能的各种训练技巧。本文结果表明:通过简单调节ViT的架构并引入token labeling,本文所提方案既可以取得比CNN与其他Transformer更佳的性能(同等参数量与计算量)。

以26M参数量的ViT为例,所提方案在ImageNet上可以取得84.4%的top1精度;当参数量扩展到56M/150M时,模型性能可以进一步提升到85.4%/86.2%,且无需额外数据。

机器学习 视觉

举报
分享

分享文章到朋友圈

分享文章到微博

采纳成功

您已采纳当前回复为最佳回复

@Wu

发帖: 151粉丝: 8

发消息 + 关注

发表于2021年04月26日 15:59:28
直达本楼层的链接
沙发
显示全部楼层

感谢分享

点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复

望闻问切ice

发帖: 517粉丝: 8

级别 : 版主

发消息 + 关注

发表于2021年04月27日 14:54:59
直达本楼层的链接
板凳
显示全部楼层

探索用于提升ViT性能的各种训练技巧,训练视觉Transformer,永远的神!

点赞 评论 引用 举报

游客

富文本
Markdown
您需要登录后才可以回帖 登录 | 立即注册

结贴

您对问题的回复是否满意?
满意度
非常满意 满意 一般 不满意
我要反馈
0/200