《深入理解AutoML和AutoDL:构建自动化机器学习与深度学习平台》 —1.4.3 语音识别

举报
华章计算机 发表于 2019/11/15 15:19:23 2019/11/15
【摘要】 本节书摘来自华章计算机《深入理解AutoML和AutoDL:构建自动化机器学习与深度学习平台》一书中第1章,第1.4.3节,作者是王健宗 瞿晓阳  。

1.4.3 语音识别

我们的目标不仅仅是让计算机有“看”和“语言”的能力,还要让计算机拥有“听”和“说”的能力,因此还需要语音识别(Voice Recognition)。语音识别的目标是将一段自然语言通过声学信号的形式传给计算机,由计算机理解并且做出回应。语音识别系统主要包含特征提取、声学模型、语言模型、字典与解码4大部分。其中特征提取需要对采集的声音信号进行滤波、分帧等音频预处理工作,目的是将要进行分析的音频信号合适地从原始信号中提取出来。语音识别的过程可以概括如下:根据特征提取将声音信号从时域转换到频域,从而为声学模型提供合适的特征向量;再由声学模型根据特征向量来判断其属于哪个声学符号;然后利用语言模型来判断声学符号可能属于哪个词组序列;最后根据已有字典对词组序列进行解码,从而得到最后的文本表示。

在人机交互的过程当中,计算机除了能通过语音识别技术来“听懂”人们对它说的话,还需要能够将文本信息用人们能听懂的方式表达出来。在这样的需求下,语音合成技术应运而生。语音合成技术能够利用计算机等设备将文本信息转换为人们能听懂的音频数据,再通过语音的方式播放出来。

声纹识别是语音识别领域的又一个研究方向。与语音识别不同,声纹识别属于生物识别技术的一种,它根据语音波形中反映说话者生理和行为特征的语音参数,通过连接声纹数据库来鉴别人的身份。因此,声纹识别不注重语音信号的语义理解,而是从语音信号中提取个人声纹特征,并从中找出能够唯一辨别(声纹识别的理论基础是每一个声音都有自己的特征,该特征能将不同人的声音进行有效地区分)说话者身份特征的信息。

语音识别有很广阔的应用场景和发展空间,如:行车导航软件通过语音合成技术为司机指引道路、播报路况,人们甚至可以选择用自己喜欢的明星的声音来播报软件内容;智能家居系统利用语音合成技术能够实现与用户的实时交流,人们可以从智能家居的“嘴”中得知家中的一些基本情况,大大提高了生活质量;在智能教学领域,学生能够利用语音合成技术跟读单词、句子,语音辅导软件的出现大大方便了教学过程,提高了教学质量。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。