- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

ASR项目实战-数据

JackieAtHome 发表于 2021/02/11 14:33:20 2021/02/11

【摘要】使用机器学习方法来训练模型，使用训练得到的模型来预测语音数据，进而得到识别的结果文本，这是实现语音识别产品的一般思路。本文着重介绍通用语音识别产品对于数据的诉求。

使用机器学习方法来训练模型，使用训练得到的模型来预测语音数据，进而得到识别的结果文本，这是实现语音识别产品的一般思路。
本文着重介绍通用语音识别产品对于数据的诉求。

对数据的要求

训练集

测试集

获取数据的方法

训练集

可行的方法有：

采集开源训练数据集。这类数据通常用于研究，因此数据质量相对可控，唯一的问题在于数量较少，直白的说，用来写论文也许够用，但在工业强度下应用，则远远不满足要求。
采购商业数据。数据公司可以通过如下方式收集数据：
- 按照要求在指定的地域、寻找符合要求的人来录制语音数据。
- 采用转包的方式，将任务包交给当地有资质的公司来收集数据。
- 采用众包的方式，收集语音数据。
自行采集数据。类似数据公司的操作方式，可以有如下方式：
- 按照要求在指定的地域、寻找符合要求的人来录制语音数据。
- 采用众包的方式，收集语音数据。

难点在于：

交付周期长。收集数据的操作，从提出诉求到最终收到数据，中间耗时良久，进度基本不可控。
质量不可控。语音数据没有比较好的手段可以实现自动化检查，因此需要花费相当的人力来整理、清洗数据，剔除质量差或者不满足要求的数据。

测试集

可行的方法有：

客户提供带有标注的测试集。
客户提供测试集的获取方法，交付团队按照要求采集数据用于测试。
客户提供测试集的标准，交付团队按照要求自行准备数据。

注意：测试集用于验证模型的有效性，为保证公平性和有效性，测试集中的数据，绝对不允许作为训练集来使用。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

ASR项目实战-数据

对数据的要求

训练集

测试集

获取数据的方法

训练集

测试集

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

ASR项目实战-数据

对数据的要求

训练集

测试集

获取数据的方法

训练集

测试集

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品