语言交互服务体验【我的华为云体验之旅】

黄生 发表于 2021/12/31 09:49:38 2021/12/31
【摘要】 简介华为云里的语音交互服务包含哪些内容呢?语音交互服务(Speech Interaction Service,简称SIS):基于深度神经网络(Deep Neural Networks),将语音识别成文字、或者将文本转换成语音。文字、语音,都是信息的载体。SIS就是可以做到载体形式的转换。另外,其实,文字、语音都带有一个人的“指纹”。语音更明显:你的熟人,应该能分辨出你的声音。而文字,每个人都...

简介

华为云里的语音交互服务包含哪些内容呢?

语音交互服务(Speech Interaction Service,简称SIS):基于深度神经网络(Deep Neural Networks),将语音识别成文字、或者将文本转换成语音。

文字、语音,都是信息的载体。SIS就是可以做到载体形式的转换。

另外,其实,文字、语音都带有一个人的“指纹”。语音更明显:你的熟人,应该能分辨出你的声音。

而文字,每个人都有自己的行文风格,这个可能不容易识别,但是风格差别是实际存在的。

举个简单的例子,金庸和古龙的小说,你分别读一个片段,马上就能分别出来。

这个扯的有点远了,我们来看基础的,看SIS的功能细分,有以下:

  1. 实时语音识别(Real-time ASR)、流式的,可用于:直播实时字幕、实时会议记录等。
  2. 一句话识别(Short Sentence Recognition)、可以用于:语音输入法、或语音信息转文字,一句话嘛,一般时间短,在一分钟内。
  3. 录音文件识别(Recording File Recognition)、用于:会议记录整理、客服坐席质检等,相对于一句话识别,就是时间可以比较长。
  4. 语音合成(Text To Speech )、用于:有声读物、以及一些应用(比如智能客服)的基础等。

试用

这里我想试用一下录音文件识别。进入到SIS控制台,

可以买一个套餐包,15块钱10小时,一年有效。

因为交付使用方式是https API,我们点“查看接口信息”,进入到如何使用的帮助页面,看了看有以下是要注意的:

  1. 录音文件放在OBS上;录音时长不超过5小时,文件大小不超过300M
  2. 识别是异步的,先创建识别任务,然后查询任务状态和结果,这是两个接口(也可以在创建时传入回调地址,而不采用查询获取结果)
  3. 识别结果保存72小时(从识别完成的时间算起)

好,我们进入API Explorer中来调试一下,哦豁,调用失败了:

OBS这个音频文件是在的:

原因估计就是API的入参,这个data_url,只能支持HTTP/HTTPS形式的地址,我觉得这个不太方便,但是没办法,

在OBS分享为一个HTTPS的URL资源吧,点复制链接,然后再次调用API:

果不其然,调用成功了:

拿到job_id,去查询状态和结果:

任务已经启动并执行完毕,看右下角的响应体,就是识别结果。有将语音识别为文字的内容,包含了时间、文字,会有多段,所以需要进一步的整理。

最后,可以点击“代码示例”获取自动生成的各主要编程语言的代码,作为开发的参考。

总之,本文只是一个初步试用,要想在实际中发挥出SIS服务的作用,还有比较多的设计、开发工作要做。

【我的华为云体验之旅】有奖征文火热进行中:https://bbs.huaweicloud.com/blogs/309059









【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区),文章链接,文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:cloudbbs@huaweicloud.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。