百度语音识别笔记
要说生活里最常见的AI应用场景,语音合成与识别当属大家最为耳熟能详的场景之一了。
寻常到平时地图导航的播报、微信语音转文字、手机语音输入,以及小度智能音箱,都离不开语音技术的加持。
语音技术到底是怎么实现的?有哪些现成可用的开源代码可以快速集成到项目里?可以说是每一名开发者非常关心的问题。
那么,福利时间到了,今天这个集成了中英文语音识别、语音翻译、语音合成、声音分类能力,而且一行代码轻松试验效果的开源项目,你一定不能错过!
项目介绍
话不多说,先来看项目中给出的效果展示。
语音识别
输入音频 1
音频1音频:00:00/00:03
识别结果 1
I knocked at the door on the ancient side of the building.
输入音频 2
音频2音频:00:00/00:04
识别结果 2
我认为跑步最重要的就是给我带来了身体健康。
语音翻译(英译中)
输入音频
音频3音频:00:00/00:03
识别结果
我 在 这栋 建筑 的 古老 门上 敲门。
语音合成
输入文本 1
Life was like a box of chocolates, you never know what you're gonna get.
合成音频 1
音频4音频:00:00/00:04
输入文本 2
早上好,今天是2020/10/29,最低温度是-3°C。
合成音频 2
音频5音频:00:00/00:05
可以看到,无论是中英文的识别,还是中英文的合成,这个开源项目都有不错的效果,特别的,项目中还包含了语音翻译能力,可以实现英文语音同传翻译为中文字幕,这个确实太强大了。
传送门:
GitHub 地址:
https://github.com/PaddlePaddle/PaddleSpeech
有读者肯定想问,这么强大的语音能力,是不是想要用起来比较麻烦?
不得不说,这个项目在易用性上真的也是考虑得非常周到。
安装测试效果
我们按照首页的引导:
一行命令安装:
一行命令快速开始使用:
这里,小编抱着试一试的态度,在本机上安装了这个项目,安装完成之后,先使用语音合成试一下。
生成的效果大家可以听一下~
音频6音频:00:00/00:03
然后,带着好奇心,我们再把合成的结果送到语音识别试一下,看看效果:
最终输出结果:
可以看到,这一套循环下来,效果非常不错!
除了出色的效果,易用的体验,我们再看看这个项目中还有什么宝藏可以挖掘,果然我们发现项目中还包含丰富的预训练模型,并且语音识别和语音合成均支持自定义训练。
丰富的预训练模型
语音识别包含声学模型和语言模型, 详情如下:
语音合成主要包含三个模块:文本前端、声学模型和声码器。声学模型和声码器模型如下:
完善的文档教程
并且开源以来,收到开发者的广泛关注,已经有大量开发者投入到项目的建设中并且贡献内容。
真·干货满满!
别的不需要多说了,请大家访问GitHub亲自体验吧:
https://github.com/PaddlePaddle/PaddleSpeech
如果大家满意的话,欢迎点个小星星鼓励下我们的工程师
文章来源: blog.csdn.net,作者:AI视觉网奇,版权归原作者所有,如需转载,请联系作者。
原文链接:blog.csdn.net/jacke121/article/details/122098073
- 点赞
- 收藏
- 关注作者
评论(0)