- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

语音数据集下载地址汇总| 免费的汉语说话人识别语料库 | Common Voice 数据集 | 下载总结

墨理学AI 发表于 2022/01/11 01:13:52 2022/01/11

【摘要】 ❤️【专栏：数据集整理】❤️ 之【有效拒绝假数据】 👋 Follow me 👋，一起 Get 更多有趣 AI、冲冲冲 🚀 🚀 语音数据集下载地址汇总 📔 Aco...

❤️【专栏：数据集整理】❤️ 之【有效拒绝假数据】

👋 Follow me 👋，一起 Get 更多有趣 AI、冲冲冲 🚀 🚀

语音数据集下载地址汇总

📔 Acoustic-Phonetic Continuous Speech Corpus【英文】

🔴 数据集链接

TIMIT Acoustic-Phonetic Continuous Speech Corpus GitHub 地址

TIMIT 语料库 kaggle 下载地址，登录Kaggle账号即可下载

🔵 数据集简介

📕 commonvoice [ 中文]

🟧 下载链接

Mozilla 公司的 Common Voice（输入邮箱即可下载）: Mozilla 公司的 Common Voice

🟨 该链接下载界面如下

🟦 该链接下还可以关注的数据集如下

📗 中文语音数据 - THCHS-30 : A Free Chinese Speech Corpus

请直接参考该博文即可：中文语音数据 - THCHS-30

国内主流语音数据库主页：https://openslr.org/resources.php

📘 一个免费的汉语说话人识别语料库【A Free Chinese Speaker Recognition Corpus】

🔴 数据集介绍

这是一个“户外”收集的大规模说话人识别数据集

数据集由两个子集 CN-Celeb1 和 CN-Celeb2 组成。
所有音频文件都被编码为单声道，并以 16kHz 的频率采样，精度为 16 位。
对于 CN-Celeb1，它包含来自 1,000 位中国名人的 130,000 多条话语，并涵盖了现实世界中的 11 种不同类型。
对于 CN-Celeb2，它包含来自 2,000 位中国名人的 520,000 多条话语，涵盖了现实世界中的 11 种不同类型。
数据收集过程由清华大学语音与语言技术中心组织。

数据集详细信息

语种：中文
内容：自由文本
音频参数：16 kHz，16 bits，单通道
数据类型：说话人识别语料库
录音环境：
娱乐、访谈、唱歌、戏剧、电影、视频博客、直播、演讲、电视剧、朗诵和广告

🔵 下载地址

http://cslt.riit.tsinghua.edu.cn/~data/CN-Celeb/
http://www.openslr.org/82/

🟣 下载主页

这里下载了 CN-Celeb1 的 cn-celeb_v2.tar.gz [22G] 数据压缩包，解压查看内容，分析如下

flac 格式音频

查看数据集文件目录

# tree 查看 两个层级

 tree -L 2
 
.
├── 1911.01799.pdf
├── data
│   ├── id00000
│   ├── id00001
│   ├── id00002
│   ├── id00003
│   ├── id00004
│   ├── id00005
│   ├── id00006
...
...
│   ├── id00996
│   ├── id00997
│   ├── id00998
│   └── id00999
├── dev
│   └── dev.lst
├── eval
│   ├── enroll
│   ├── lists
│   ├── README.TXT
│   └── test
└── README.TXT

1003 directories, 4 files


  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10
  11
  12
  13
  14
  15
  16
  17
  18
  19
  20
  21
  22
  23
  24
  25
  26
  27
  28
  29
  30
  31

📙 致谢

文章来源: positive.blog.csdn.net，作者：墨理学AI，版权归原作者所有，如需转载，请联系作者。

原文链接：positive.blog.csdn.net/article/details/105522398

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入