语言交互服务体验【我的华为云体验之旅】
简介
华为云里的语音交互服务包含哪些内容呢?
语音交互服务(Speech Interaction Service,简称SIS):基于深度神经网络(Deep Neural Networks),将语音识别成文字、或者将文本转换成语音。
文字、语音,都是信息的载体。SIS就是可以做到载体形式的转换。
另外,其实,文字、语音都带有一个人的“指纹”。语音更明显:你的熟人,应该能分辨出你的声音。
而文字,每个人都有自己的行文风格,这个可能不容易识别,但是风格差别是实际存在的。
举个简单的例子,金庸和古龙的小说,你分别读一个片段,马上就能分别出来。
这个扯的有点远了,我们来看基础的,看SIS的功能细分,有以下:
- 实时语音识别(Real-time ASR)、流式的,可用于:直播实时字幕、实时会议记录等。
- 一句话识别(Short Sentence Recognition)、可以用于:语音输入法、或语音信息转文字,一句话嘛,一般时间短,在一分钟内。
- 录音文件识别(Recording File Recognition)、用于:会议记录整理、客服坐席质检等,相对于一句话识别,就是时间可以比较长。
- 语音合成(Text To Speech )、用于:有声读物、以及一些应用(比如智能客服)的基础等。
试用
这里我想试用一下录音文件识别。进入到SIS控制台,
可以买一个套餐包,15块钱10小时,一年有效。
因为交付使用方式是https API,我们点“查看接口信息”,进入到如何使用的帮助页面,看了看有以下是要注意的:
- 录音文件放在OBS上;录音时长不超过5小时,文件大小不超过300M
- 识别是异步的,先创建识别任务,然后查询任务状态和结果,这是两个接口(也可以在创建时传入回调地址,而不采用查询获取结果)
- 识别结果保存72小时(从识别完成的时间算起)
好,我们进入API Explorer中来调试一下,哦豁,调用失败了:
OBS这个音频文件是在的:
原因估计就是API的入参,这个data_url,只能支持HTTP/HTTPS形式的地址,我觉得这个不太方便,但是没办法,
在OBS分享为一个HTTPS的URL资源吧,点复制链接,然后再次调用API:
果不其然,调用成功了:
拿到job_id,去查询状态和结果:
任务已经启动并执行完毕,看右下角的响应体,就是识别结果。有将语音识别为文字的内容,包含了时间、文字,会有多段,所以需要进一步的整理。
最后,可以点击“代码示例”获取自动生成的各主要编程语言的代码,作为开发的参考。
总之,本文只是一个初步试用,要想在实际中发挥出SIS服务的作用,还有比较多的设计、开发工作要做。
【我的华为云体验之旅】有奖征文火热进行中:https://bbs.huaweicloud.com/blogs/309059
- 点赞
- 收藏
- 关注作者
评论(0)