s4d 代码教程问题记录——简记

举报
墨理学AI 发表于 2022/01/14 00:03:16 2022/01/14
【摘要】 一:使用c1_16bit_8k音频数据进行Extract MFCC时,警告如下: Warning in read_audio, up-sampling function is not implement...
  • 一:使用c1_16bit_8k音频数据进行Extract MFCC时,警告如下:
Warning in read_audio, up-sampling function is not implemented yet!

  
 
  • 1

因此可以分析得出,该教程适用数据格式为:c1_16bit_16k

  • 二:它的ubm训练教程代码中,写了该txt文件,然后又读取里面的数据,结果数据读取失败,因此我选择性的把读取这一行代码给注释了
ubm_idmap.write_txt(ubm_idmap_fn)
# ubm_idmap = IdMap.read_txt(ubm_idmap_fn)

  
 
  • 1
  • 2

ubm_ester.seg原数据格式:

20000525_1130_1230_rfi_fm_dga 1 32252 520 F T U unknown

19981214_0800_0900_inter_fm_dga 1 123279 492 M S U François_Hollande

  
 
  • 1
  • 2
  • 3

F :女 M 男 | T :telephone S :studio | U:unknown

sex type env
F T U
M S U

ubm的训练无监督,数据不需要标签,即有无名字都可以
train.tv.seg原数据格式:

20010803_1000_1100_rfi 1 1458 6978 U U U julia_fois##0
20010803_1000_1100_rfi 1 8486 5520 U U U muriel_delcroix
20010803_1000_1100_rfi 1 14056 7006 U U U julia_fois##1

  
 
  • 1
  • 2
  • 3
  • 三:s4d工具兼容,可读取的两种数据格式:

LIUMSpkdiarization
s4d is able to read and write in LIUMSpkdiarization segmentation format

NIST tools
s4d is able to read in NIST diarization format: UEM, MDTM and RTTM



  • 方法 :read_seg
20040616_231315_A003081_B003080 1 0000 1840 U U U 20040616_231315_A003081_B003080_A
 show, tmp, start, length, gender, channel, environment, name = line.split()

  
 
  • 1
  • 2
  • 概念:

cep: 对应单词 Cepstrum:a set of feature frames in a ndarray, one feature per row
参考链接
由下面的方法中的zip可知,该方法使用了压缩
在这里插入图片描述

  • 由下面代码可以看出,滑动窗口为帧长为25ms,帧移为10ms
        fe = FeaturesExtractor(audio_filename_structure=audio_filename_structure,
             feature_filename_structure=None,
             sampling_frequency=16000,
             lower_frequency=133.3333,
             higher_frequency=6855.4976,
             filter_bank="log",
             filter_bank_size=40,
             window_size=0.025,
             shift=0.01,
             ceps_number=13,
             pre_emphasis=0.97,
             keep_all_features=True,
             vad='percentil',
             #vad=None,
             save_param=["energy", "cep", "vad"]
            )

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16

tv_idmap如下:
在这里插入图片描述

  • 生成临时文件的截图:

在这里插入图片描述
生成这些临时文件的代码如下:

fa.total_variability(tv_stat_fn, ubm, rank_tv, nb_iter=it_max_tv, batch_size=1000, num_thread=num_thread)

  
 
  • 1

代码位置截图如下:
在这里插入图片描述
该代码方法分析如下:
如下图所示:output_file_nametemporary_factor_analyser
含义 name of the file where to save the matrix即存放数据的临时文件
在这里插入图片描述

文章来源: positive.blog.csdn.net,作者:墨理学AI,版权归原作者所有,如需转载,请联系作者。

原文链接:positive.blog.csdn.net/article/details/88250173

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。