Lv.6
可爱又积极
更多个人资料
1949
成长值
28
关注
29
粉丝
+ 关注
私信
个人介绍
这个人很懒,什么都没有留下
感兴趣或擅长的领域
人工智能
个人勋章
TA还没获得勋章~
成长雷达
1185
744
0
0
20
个人资料
个人介绍
这个人很懒,什么都没有留下
感兴趣或擅长的领域
人工智能
达成规则
以上满足
项可达成此勋章
博客
关注
粉丝
论坛
全部时间
全部时间
最近三天
最近一周
最近一月
全部
暂无专栏分类
espnet中语言模型换为transformer的步骤----aishell为例
espnet是一个e2e的语音工具箱,可以做asr以及tts的一些任务脚本走的是kaldi的风格,目前提供的asr脚本有WSJ, Switchboard, CHiME-4/5, Librispeech, TED, CSJ, AMI, HKUST, Voxforge, REVERB。 THCHS30讨论过,后来觉得(This corpus uses the same sentences for...
可爱又积极
2022-03-30 10:09:45
7101
0
0
2022-03-30 10:09:45
999+
0
0
espnet中的transformer和LSTM语言模型对比---以aishell为例
NLP特征提取器简介 - RNN和Transformer近年来,深度学习在各个NLP任务中都取得了SOTA结果,我们先了解一下现阶段在自然语言处理领域最常用的特征抽取结构。长短期记忆网络(LSTM)传统RNN的做法是将的所有知识全部提取出来,不作任何处理的输入到下一个时间步进行迭代。就像参加考试一样,如果希望事先把书本上的所有知识都记住,到了考试的时候,早期的知识恐怕已经被近期的知识完全覆...
人工智能
Shell
实时语音识别
深度学习
神经网络
可爱又积极
2022-03-29 09:33:02
5502
0
0
2022-03-29 09:33:02
999+
0
0
kaldi中的chain model详解
chain model的结构chain model实际上是借鉴了CTC的思想,引入了blank用来吸收不确定的边界。但CTC只有一个blank,而chain model中每一个建模单元都有自己的blank。如下图所示:对应kaldi中的结构定义为:在kaldi中,把Sp和Sb看做同一个状态(都对应state 0),只是pdfclass不同。ForwardPdfClass表示Sp,SelfLo...
实时语音识别
机器学习
深度学习
神经网络
可爱又积极
2022-03-17 17:19:58
4116
0
0
2022-03-17 17:19:58
999+
0
0
语言模型重打分
图1语音识别中的语言模型重打分从公式 (1) 中可以看出,语言模型 在语音识别任务中是作为一个先验项的,在贝叶斯公式中也确然如此。声学模型 是为了找出能产生声学信号 的最有可能的 ,但是在隐马尔科夫模型中我们可知实际上声学模型找到的是每一帧语音对应的最大概率的文本,因此只用声学模型得到文本序列是不考虑语义信息的,由于同音字词的存在识别结果往往很差;而语言模型就是在正常语料上训练,在声...
实时语音识别
深度学习
语音通话 VoiceCall
可爱又积极
2022-03-16 17:24:01
8300
0
0
2022-03-16 17:24:01
999+
0
0
kaldi中librispeech例子的rnn语言模型重打分
先来简单回顾一下神经网络语言模型。语言模型 (Language Models) 是语音识别系统中的重要组成部分,语音识别的核心公式如下这可进一步表示为一系列单个词的条件概率的乘积,这些条件概率取决于它们各自的前文序列。这也是当前统计语言模型的核心公式,在大规模训练语料库中用合适的模型统计分析得到词与词之间的关系依赖,即语义信息。n 元语法模型就是用马尔科夫假设限制了前文的长度,然后用频率近似...
实时语音识别
机器学习
深度学习
神经网络
可爱又积极
2022-03-16 16:52:52
8134
0
0
2022-03-16 16:52:52
999+
0
0
语音识别中的transformer(只用encoder)语言模型理解
语音识别中的transformer(只用encoder)模型:RNN基础结构:在RNN当中,tokens是一个一个被喂给模型的。比如在a3的位置,模型要等a1和a2的信息都处理完成后,才可以生成a3。Attention:如图,蓝色方框为一个attention模型。在每个位置,例如在a2处产生b2时,attention将会同时看过a1到a4的每个token。此外,每个token生成其对应的...
神经网络
语音通话 VoiceCall
可爱又积极
2022-03-04 15:31:52
10855
0
0
2022-03-04 15:31:52
999+
0
0
espnet实践简介
Espnet介绍ESPNet中使用了ATT+CTC的架构,其可分为两大部分:1、Shared encoder(共享编码器):包括了VGG卷积网络和BLSTM(双向长短时记忆网络)层,来完成语音到向量的转化。2、Joint Decoder(联合解码器):联合解码器实现向量到最终文本结果的输出;联合解码器包括CTC(负责标签和序列的自动对齐)、Attention(为不同序列赋予不同权重)和RNN...
机器学习
可爱又积极
2022-03-02 16:22:09
7166
0
0
2022-03-02 16:22:09
999+
0
0
ESPnet运行中文ASR示例
ESPnet简介ESPnet是一个端到端语音处理工具包。主要侧重于端到端语音识别和端到端语音合成。ESPnet使用Chaine和PyTorch作为主要的深度学习引擎,并且还遵循Kaldi风格的数据处理、特征提取/格式化和配方(recipe,Kaldi的处理方式),以提供用于语音识别和其他语音处理实验的完整设置。拉取Docker imageDocker image已预安装ESPnet的依赖Ka...
机器学习
语音通话 VoiceCall
可爱又积极
2021-11-30 23:11:13
11603
1
0
2021-11-30 23:11:13
999+
1
0
kaldi中DNN网络结构解析
网络结构可以被认为是另外需要确定的参数。既然每层可以被认为是前一层的特征抽取器,每层节点的数量应该足够大以获取本质的模式。这在模型低层是特别重要的,因为开始层的特征变化更大,它需要比其他层更多的节点来模拟特征模式。然而,如果每层节点太大,它容易在训练数据上过拟合。一般来说,宽且浅的模型容易过拟合,深且窄的模型谷易欠拟合。事实上,如果有一层很小(通常称为瓶颈),模型性能将有重大的下降,特别是瓶...
实时语音识别
深度学习
神经网络
可爱又积极
2021-11-30 11:58:22
9496
0
0
2021-11-30 11:58:22
999+
0
0
kaldi特征提取详解
Kaldi的特征提取和读取波形文件的代码会提取标准的MFCC和PLP特征,它会设置合理的默认值并且提供很多人都可能要微调的选项(比如mel滤波器组的bin的个数,最大和最小的频率范围等等)。代码值能读取pcm格式的.wav文件。这些文件的后缀通常是.wav或者.pcm(有些.pcm后缀其实是sphere文件,需要用工具转成wav)。如果用户的录音不是wav文件,那么需要自行用命令行工具转换。...
可爱又积极
2021-11-26 16:46:17
8925
0
0
2021-11-26 16:46:17
999+
0
0
总条数:37
10
10
20
50
100
1
2
3
4
上滑加载中
https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=0&rsv_idx=1&tn=baidu&wd=sed%20%E6%9B%BF%E6%8D%A2%E5%AD%97%E7%AC%A6%E4%B8%B2&rsv_pq=c7db61a600035dc5&rsv_t=5e19yEsbV9N5fIvdlGRU
+ 关注