深度学习 end2end

举报
风吹稻花香 发表于 2021/06/04 23:47:05 2021/06/04
【摘要】 end2end的意思在不同人看来有不同理解,但是作为程序员/深度学习炼丹娃,应当理解为:至少是从处理过的图像-->最终目标结果(比如分类结果、检测结果、分割结果等)的一个流程,也就是起码把原来的“特征提取”和“用分类器做分类,包括特征选择”的两个模块,串在一起了,而不是显示地分成两个模块。 下面是转载知乎的回答: 作者:王赟 Maigo 链接:https:/...

end2end的意思在不同人看来有不同理解,但是作为程序员/深度学习炼丹娃,应当理解为:至少是从处理过的图像-->最终目标结果(比如分类结果、检测结果、分割结果等)的一个流程,也就是起码把原来的“特征提取”和“用分类器做分类,包括特征选择”的两个模块,串在一起了,而不是显示地分成两个模块。

下面是转载知乎的回答:


作者:王赟 Maigo





传统的语音识别系统,是由许多个模块组成的,包括声学模型发音词典语言模型。其中声学模型和语言模型是需要训练的。这些模块的训练一般都是独立进行的,各有各的目标函数,比如声学模型的训练目标是最大化训练语音的概率,语言模型的训练目标是最小化 perplexity。由于各个模块在训练时不能互相取长补短,训练的目标函数又与系统整体的性能指标(一般是词错误率 WER)有偏差,这样训练出的网络往往达不到最优性能。

针对这个问题,一般有两种解决方案:
  • 端到端训练(end-to-end training):一般指的是在训练好语言模型后,将声学模型和语言模型接在一起,以 WER 或它的一种近似为目标函数去训练声学模型。由于训练声学模型时要计算系统整体的输出,所以称为「端到端」训练。可以看出这种方法并没有彻底解决问题,因为语言模型还是独立训练的。
  • 端到端模型(end-to-end models):系统中不再有独立的声学模型、发音词典、语言模型等模块,而是从输入端(语音波形或特征序列)到输出端(单词或字符序列)直接用一个神经网络相连,让这个神经网络来承担原先所有模块的功能。典型的代表如使用 CTC 的 EESEN [1]、使用注意力机制的 Listen, Attend and Spell [2]。这种模型非常简洁,但灵活性就差一些:一般来说用于训练语言模型的文本数据比较容易大量获取,但不与语音配对的文本数据无法用于训练端到端的模型。因此,端到端模型也常常再外接一个语言模型,用于在解码时调整候选输出的排名(rescoring),如 [1]。

「端到端训练」和「端到端模型」的区分,在 [2] 的 introduction 部分有比较好的论述。

的答案不同,我觉得「输入是语音波形(raw waveform)」并不是端到端模型的本质特征,端到端模型的输入也可以是特征序列(MFCC 等)。端到端模型的本质特征是把声学模型、发音词典、语言模型这些传统模块融合在一起。

参考文献:
[1] Yajie Miao, Mohammad Gowayyed, and Florian Metze, "EESEN: End-to-End Speech Recognition using Deep RNN Models and WFST-based Decoding," in Proc. ASRU 2015.
[2] William Chan, et al. "Listen, attend and spell: A neural network for large vocabulary conversational speech recognition," in Proc. ICASSP 2016.

文章来源: blog.csdn.net,作者:网奇,版权归原作者所有,如需转载,请联系作者。

原文链接:blog.csdn.net/jacke121/article/details/78152988

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。