- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

多领域 ASR 英语语料库、GigaSpeech 基本介绍

墨理学AI 发表于 2022/02/02 19:05:46 2022/02/02

【摘要】附有效下载教程

🎉 声明: 作为全网 AI 领域干货最多的博主之一，❤️ 不负光阴不负卿 ❤️

📔 基础信息

https://github.com/SpeechColab/GigaSpeech
https://arxiv.org/abs/2106.06909
GigaSpeech: An Evolving, Multi-domain ASR Corpus with 10,000 Hours of Transcribed Audio
论文摘要如下

本文介绍了 GigaSpeech，这是一个不断发展的多领域英语语音识别语料库，具有 10,000 小时适合监督训练的高质量标记音频，以及 40,000 小时适合半监督和无监督训练的总音频。大约 40,000 小时的转录音频首先从有声读物、播客和 YouTube 中收集，涵盖阅读和自发说话风格，以及各种主题，如艺术、科学、体育等。提出了一种新的强制对齐和分割管道创建适合语音识别训练的句段，并过滤掉转录质量低的句段。对于系统训练，GigaSpeech 提供了五个不同大小的子集，10h、250h、1000h、2500h 和 10000h。对于我们的 10,000 小时 XL 训练子集，我们将过滤/验证阶段的单词错误率上限为 4%，而对于所有其他较小的训练子集，我们将其上限为 0%。另一方面，DEV 和 TEST 评估集由专业的人工转录员重新处理，以确保高转录质量。为流行的语音识别工具包提供了基线系统，即 Athena、ESPnet、Kaldi 和 Pika。

📕 数据集介绍

备注：该部分内容属于截图整理

声明：本部分数据集介绍摘自——清华语音与音频技术实验室

声明：本部分数据集介绍摘自——清华语音与音频技术实验室

致敬各位大佬

📘 下载正确打开方式

🟧 下载主页申请入口如下

🟨 填写必要信息

🟦 提交成功界面如下

如果填写有误，还可重新编辑

🟧 很快邮箱收到下载方式说明

查阅你的邮箱，会得到类似这样的回复

Dear moli,

Thank you for agreeing to GigaSpeech's terms of access. A copy of your agreement has also been attached at the end of this email. To download GigaSpeech:

 1. Clone the GigaSpeech repo
 
  Run: git clone https://github.com/SpeechColab/GigaSpeech.git

 2. Create password file under GigaSpeech/SAFEBOX

  这里会有一个加密解密的命令需要运行

 3. Download Gigaspeech
 
  3.1 Make sure you have at least 1.2T of free space under the destination directory
  3.2 Run: bash utils/download_gigaspeech.sh YOUR_DESTINATION_DIRECTORY

Regards,
The SpeechColab Team

1.2T 空间，先去清理下磁盘吧

📙 致敬大佬

感谢诸位为全人类的人工智能事业添砖加瓦

更多语音数据集博文总结如下

📙 预祝各位前途似锦、可摘星辰

🎉 作为全网 AI 领域干货最多的博主之一，❤️ 不负光阴不负卿 ❤️

❤️ 过去的一年、大家都经历了太多太多、祝你披荆斩棘、未来可期

📆 最近更新：2022年1月23日
🍊 点赞 👍 收藏 ⭐留言 📝 都是博主坚持写作、更新高质量博文的最大动力！

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

多领域 ASR 英语语料库、GigaSpeech 基本介绍

📔 基础信息

📕 数据集介绍

📘 下载正确打开方式

🟧 下载主页申请入口如下

🟨 填写必要信息

🟦 提交成功界面如下

🟧 很快邮箱收到下载方式说明

📙 致敬大佬

📙 预祝各位前途似锦、可摘星辰

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

多领域 ASR 英语语料库、GigaSpeech 基本介绍

📔 基础信息

📕 数据集介绍

📘 下载正确打开方式

🟧 下载主页 申请入口如下

🟨 填写必要信息

🟦 提交成功界面如下

🟧 很快邮箱收到下载方式说明

📙 致敬大佬

📙 预祝各位 前途似锦、可摘星辰

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品

🟧 下载主页申请入口如下

📙 预祝各位前途似锦、可摘星辰