语音数据集下载地址汇总| 免费的汉语说话人识别语料库 | Common Voice 数据集 | 下载总结

举报
墨理学AI 发表于 2022/01/11 01:13:52 2022/01/11
【摘要】 ❤️【专栏:数据集整理】❤️ 之【有效拒绝假数据】 👋 Follow me 👋,一起 Get 更多有趣 AI、冲冲冲 🚀 🚀 语音数据集下载地址汇总 📔 Aco...

❤️【专栏:数据集整理】❤️ 之【有效拒绝假数据】


👋 Follow me 👋,一起 Get 更多有趣 AI、冲冲冲 🚀 🚀


📔 Acoustic-Phonetic Continuous Speech Corpus【英文】


🔴 数据集链接

🔵 数据集简介

1-1


📕 commonvoice [ 中文]


🟧 下载链接

🟨 该链接下载界面如下

1-0

🟦 该链接下还可以关注的数据集如下

2


📗 中文语音数据 - THCHS-30 : A Free Chinese Speech Corpus



📘 一个免费的汉语说话人识别语料库【A Free Chinese Speaker Recognition Corpus】


🔴 数据集介绍

这是一个“户外”收集的大规模说话人识别数据集

  • 数据集由两个子集 CN-Celeb1 和 CN-Celeb2 组成。

  • 所有音频文件都被编码为单声道,并以 16kHz 的频率采样,精度为 16 位。

  • 对于 CN-Celeb1,它包含来自 1,000 位中国名人的 130,000 多条话语,并涵盖了现实世界中的 11 种不同类型。

  • 对于 CN-Celeb2,它包含来自 2,000 位中国名人的 520,000 多条话语,涵盖了现实世界中的 11 种不同类型。

  • 数据收集过程由清华大学语音与语言技术中心组织。

数据集详细信息

  • 语种:中文
  • 内容:自由文本
  • 音频参数:16 kHz,16 bits,单通道
  • 数据类型:说话人识别语料库
  • 录音环境:
  • 娱乐、访谈、唱歌、戏剧、电影、视频博客、直播、演讲、电视剧、朗诵和广告

🔵 下载地址

🟣 下载主页

5-1

这里下载了 CN-Celeb1 的 cn-celeb_v2.tar.gz [22G] 数据压缩包,解压查看内容,分析如下

  • flac 格式音频

查看数据集文件目录

# tree 查看 两个层级

 tree -L 2
 
.
├── 1911.01799.pdf
├── data
│   ├── id00000
│   ├── id00001
│   ├── id00002
│   ├── id00003
│   ├── id00004
│   ├── id00005
│   ├── id00006
...
...
│   ├── id00996
│   ├── id00997
│   ├── id00998
│   └── id00999
├── dev
│   └── dev.lst
├── eval
│   ├── enroll
│   ├── lists
│   ├── README.TXT
│   └── test
└── README.TXT

1003 directories, 4 files


  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31

📙 致谢


9-9


文章来源: positive.blog.csdn.net,作者:墨理学AI,版权归原作者所有,如需转载,请联系作者。

原文链接:positive.blog.csdn.net/article/details/105522398

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。