语音数据集下载地址汇总| 免费的汉语说话人识别语料库 | Common Voice 数据集 | 下载总结
【摘要】
❤️【专栏:数据集整理】❤️ 之【有效拒绝假数据】
👋 Follow me 👋,一起 Get 更多有趣 AI、冲冲冲 🚀 🚀
语音数据集下载地址汇总
📔 Aco...
❤️【专栏:数据集整理】❤️ 之【有效拒绝假数据】
👋 Follow me 👋,一起 Get 更多有趣 AI、冲冲冲 🚀 🚀
📔 Acoustic-Phonetic Continuous Speech Corpus【英文】
🔴 数据集链接
🔵 数据集简介
📕 commonvoice [ 中文]
🟧 下载链接
- Mozilla 公司的 Common Voice(输入邮箱即可下载): Mozilla 公司的 Common Voice
🟨 该链接下载界面如下
🟦 该链接下还可以关注的数据集如下
📗 中文语音数据 - THCHS-30 : A Free Chinese Speech Corpus
📘 一个免费的汉语说话人识别语料库【A Free Chinese Speaker Recognition Corpus】
🔴 数据集介绍
这是一个“户外”收集的大规模说话人识别数据集
-
数据集由两个子集 CN-Celeb1 和 CN-Celeb2 组成。
-
所有音频文件都被编码为单声道,并以 16kHz 的频率采样,精度为 16 位。
-
对于 CN-Celeb1,它包含来自 1,000 位中国名人的 130,000 多条话语,并涵盖了现实世界中的 11 种不同类型。
-
对于 CN-Celeb2,它包含来自 2,000 位中国名人的 520,000 多条话语,涵盖了现实世界中的 11 种不同类型。
-
数据收集过程由清华大学语音与语言技术中心组织。
数据集详细信息
- 语种:中文
- 内容:自由文本
- 音频参数:16 kHz,16 bits,单通道
- 数据类型:说话人识别语料库
- 录音环境:
- 娱乐、访谈、唱歌、戏剧、电影、视频博客、直播、演讲、电视剧、朗诵和广告
🔵 下载地址
🟣 下载主页
这里下载了 CN-Celeb1 的 cn-celeb_v2.tar.gz [22G] 数据压缩包,解压查看内容,分析如下
- flac 格式音频
查看数据集文件目录
# tree 查看 两个层级
tree -L 2
.
├── 1911.01799.pdf
├── data
│ ├── id00000
│ ├── id00001
│ ├── id00002
│ ├── id00003
│ ├── id00004
│ ├── id00005
│ ├── id00006
...
...
│ ├── id00996
│ ├── id00997
│ ├── id00998
│ └── id00999
├── dev
│ └── dev.lst
├── eval
│ ├── enroll
│ ├── lists
│ ├── README.TXT
│ └── test
└── README.TXT
1003 directories, 4 files
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
📙 致谢
文章来源: positive.blog.csdn.net,作者:墨理学AI,版权归原作者所有,如需转载,请联系作者。
原文链接:positive.blog.csdn.net/article/details/105522398
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)