- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

s4d 代码教程问题记录——简记

墨理学AI 发表于 2022/01/14 00:03:16 2022/01/14

【摘要】一：使用c1_16bit_8k音频数据进行Extract MFCC时，警告如下： Warning in read_audio, up-sampling function is not implement...

一：使用c1_16bit_8k音频数据进行Extract MFCC时，警告如下：

Warning in read_audio, up-sampling function is not implemented yet!

  
 
  1

因此可以分析得出，该教程适用数据格式为：c1_16bit_16k

二：它的ubm训练教程代码中，写了该txt文件，然后又读取里面的数据，结果数据读取失败，因此我选择性的把读取这一行代码给注释了

ubm_idmap.write_txt(ubm_idmap_fn)
# ubm_idmap = IdMap.read_txt(ubm_idmap_fn)

  
 
  1
  2

ubm_ester.seg原数据格式：

20000525_1130_1230_rfi_fm_dga 1 32252 520 F T U unknown

19981214_0800_0900_inter_fm_dga 1 123279 492 M S U François_Hollande

  
 
  1
  2
  3

F :女 M 男 | T :telephone S :studio | U:unknown

sex	type	env
F	T	U
M	S	U

ubm的训练无监督，数据不需要标签,即有无名字都可以
train.tv.seg原数据格式：

20010803_1000_1100_rfi 1 1458 6978 U U U julia_fois##0
20010803_1000_1100_rfi 1 8486 5520 U U U muriel_delcroix
20010803_1000_1100_rfi 1 14056 7006 U U U julia_fois##1

  
 
  1
  2
  3

三：s4d工具兼容，可读取的两种数据格式：

LIUMSpkdiarization
s4d is able to read and write in LIUMSpkdiarization segmentation format

NIST tools
s4d is able to read in NIST diarization format: UEM, MDTM and RTTM

方法：read_seg

20040616_231315_A003081_B003080 1 0000 1840 U U U 20040616_231315_A003081_B003080_A
 show, tmp, start, length, gender, channel, environment, name = line.split()

  
 
  1
  2

概念：

cep: 对应单词 Cepstrum：a set of feature frames in a ndarray, one feature per row
参考链接
由下面的方法中的zip可知，该方法使用了压缩

由下面代码可以看出，滑动窗口为帧长为25ms,帧移为10ms

        fe = FeaturesExtractor(audio_filename_structure=audio_filename_structure,
             feature_filename_structure=None,
             sampling_frequency=16000,
             lower_frequency=133.3333,
             higher_frequency=6855.4976,
             filter_bank="log",
             filter_bank_size=40,
             window_size=0.025,
             shift=0.01,
             ceps_number=13,
             pre_emphasis=0.97,
             keep_all_features=True,
             vad='percentil',
             #vad=None,
             save_param=["energy", "cep", "vad"]
            )

  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10
  11
  12
  13
  14
  15
  16

tv_idmap如下：

生成临时文件的截图：

生成这些临时文件的代码如下：

fa.total_variability(tv_stat_fn, ubm, rank_tv, nb_iter=it_max_tv, batch_size=1000, num_thread=num_thread)

  
 
  1

代码位置截图如下：

该代码方法分析如下：
如下图所示：output_file_name即temporary_factor_analyser
含义 name of the file where to save the matrix即存放数据的临时文件

文章来源: positive.blog.csdn.net，作者：墨理学AI，版权归原作者所有，如需转载，请联系作者。

原文链接：positive.blog.csdn.net/article/details/88250173

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

s4d 代码教程问题记录——简记

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

s4d 代码教程问题记录——简记

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品