- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

语言交互服务体验【我的华为云体验之旅】

黄生发表于 2021/12/31 09:49:38 2021/12/31

【摘要】简介华为云里的语音交互服务包含哪些内容呢？语音交互服务（Speech Interaction Service，简称SIS）：基于深度神经网络（Deep Neural Networks），将语音识别成文字、或者将文本转换成语音。文字、语音，都是信息的载体。SIS就是可以做到载体形式的转换。另外，其实，文字、语音都带有一个人的“指纹”。语音更明显：你的熟人，应该能分辨出你的声音。而文字，每个人都...

简介

华为云里的语音交互服务包含哪些内容呢？

语音交互服务（Speech Interaction Service，简称SIS）：基于深度神经网络（Deep Neural Networks），将语音识别成文字、或者将文本转换成语音。

文字、语音，都是信息的载体。SIS就是可以做到载体形式的转换。

另外，其实，文字、语音都带有一个人的“指纹”。语音更明显：你的熟人，应该能分辨出你的声音。

而文字，每个人都有自己的行文风格，这个可能不容易识别，但是风格差别是实际存在的。

举个简单的例子，金庸和古龙的小说，你分别读一个片段，马上就能分别出来。

这个扯的有点远了，我们来看基础的，看SIS的功能细分，有以下：

实时语音识别（Real-time ASR）、流式的，可用于：直播实时字幕、实时会议记录等。
一句话识别（Short Sentence Recognition）、可以用于：语音输入法、或语音信息转文字，一句话嘛，一般时间短，在一分钟内。
录音文件识别（Recording File Recognition）、用于：会议记录整理、客服坐席质检等，相对于一句话识别，就是时间可以比较长。
语音合成（Text To Speech ）、用于：有声读物、以及一些应用（比如智能客服）的基础等。

试用

这里我想试用一下录音文件识别。进入到SIS控制台，

可以买一个套餐包，15块钱10小时，一年有效。

因为交付使用方式是https API，我们点“查看接口信息”，进入到如何使用的帮助页面，看了看有以下是要注意的：

录音文件放在OBS上；录音时长不超过5小时，文件大小不超过300M
识别是异步的，先创建识别任务，然后查询任务状态和结果，这是两个接口（也可以在创建时传入回调地址，而不采用查询获取结果）
识别结果保存72小时（从识别完成的时间算起）

好，我们进入API Explorer中来调试一下，哦豁，调用失败了：

OBS这个音频文件是在的：

原因估计就是API的入参，这个data_url，只能支持HTTP/HTTPS形式的地址，我觉得这个不太方便，但是没办法，

在OBS分享为一个HTTPS的URL资源吧，点复制链接，然后再次调用API：

果不其然，调用成功了：

拿到job_id，去查询状态和结果：

任务已经启动并执行完毕，看右下角的响应体，就是识别结果。有将语音识别为文字的内容，包含了时间、文字，会有多段，所以需要进一步的整理。

最后，可以点击“代码示例”获取自动生成的各主要编程语言的代码，作为开发的参考。

总之，本文只是一个初步试用，要想在实际中发挥出SIS服务的作用，还有比较多的设计、开发工作要做。

【我的华为云体验之旅】有奖征文火热进行中：https://bbs.huaweicloud.com/blogs/309059

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

语言交互服务体验【我的华为云体验之旅】

简介

试用

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

语言交互服务体验【我的华为云体验之旅】

简介

试用

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品