建议使用以下浏览器,以获得最佳体验。 IE 9.0+以上版本 Chrome 31+ 谷歌浏览器 Firefox 30+ 火狐浏览器
请选择 进入手机版 | 继续访问电脑版
设置昵称

在此一键设置昵称,即可参与社区互动!

确定
我再想想
选择版块
直达楼层
标签
您还可以添加5个标签
  • 没有搜索到和“关键字”相关的标签
  • 云产品
  • 解决方案
  • 技术领域
  • 通用技术
  • 平台功能
取消

采纳成功

您已采纳当前回复为最佳回复

初学者7000

发帖: 249粉丝: 3

发消息 + 关注

发表于2021年05月12日 18:35:17 1042 7
直达本楼层的链接
楼主
显示全部楼层
[其他]   分享论文自注意力对齐:使用自注意力网络和跳块的一种延时控制的端到端语音识别模型

论文名称:self-attention aligner: a latency-control end-to-end model for ASR using self-attention network and chunk-hopping

作者:Linhao Dong / Feng Wang / Bo Xu

发表时间:2019/2/18

论文链接:https://paper.yanxishe.com/review/16749?from=leiphonecolumn_paperreview0420

为了解决RNN结构的语音识别模型存在的训练时间长、对一些噪音很敏感等问题,作者参考了transformer结构设计了一个语音识别模型,其中编码部分使用了时间维度的池化操作进行下采样来进行时间维度的信息交互并提高模型速度,解码的部分设计了一种模拟CTC的对齐结构。此外,作者将语音识别模型与语言模型进行端到端的联合训练,使得CER得到进一步提升。

将transformer结构应用语音识别,今天已经不新鲜了。但是就去年本文发表的时期而言,将另一个领域的优秀模型应用到本领域来,会遇到什么问题,要怎么解决这些问题,如何进行优化?本文的这些思路都是很值得参考的。比如,transformer模型能很好的解决文本类的NLP任务,那么将其与语音识别联合训练,也更有可能收敛,以达到提高表现的目的。

转自AI研习社,https://www.leiphone.com/category/academic/QWnCOMr50v4w5a7x.html

举报
分享

分享文章到朋友圈

分享文章到微博

采纳成功

您已采纳当前回复为最佳回复

yyy7124

发帖: 162粉丝: 3

发消息 + 关注

发表于2021年05月12日 20:43:26
直达本楼层的链接
沙发
显示全部楼层

感谢分享

点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复

谭涟漪

发帖: 30粉丝: 1

发消息 + 关注

发表于2021年05月13日 18:38:49
直达本楼层的链接
板凳
显示全部楼层

感谢分享

点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复

风起云涌1

发帖: 433粉丝: 18

发消息 + 关注

发表于2021年05月13日 20:34:01
直达本楼层的链接
地板
显示全部楼层

感谢分享

点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复

zhengzz

发帖: 60粉丝: 0

发消息 + 关注

发表于2021年05月13日 21:16:40
直达本楼层的链接
5#
显示全部楼层

ganxiefenxiang

点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复

Mrxiaohui

发帖: 1粉丝: 1

级别 : 管理员

发消息 + 关注

发表于2021年05月14日 10:12:23
直达本楼层的链接
6#
显示全部楼层

感谢分享

点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复
发表于2021年05月14日 11:00:27
直达本楼层的链接
7#
显示全部楼层

感谢分享

点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复

虚荣Vainglory

发帖: 33粉丝: 3

发消息 + 关注

发表于2021年05月18日 18:44:48
直达本楼层的链接
8#
显示全部楼层

感谢分享

点赞 评论 引用 举报

游客

富文本
Markdown
您需要登录后才可以回帖 登录 | 立即注册

结贴

您对问题的回复是否满意?
满意度
非常满意 满意 一般 不满意
我要反馈
0/200