- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

【语音增强】基于matlab人耳掩蔽效应语音增强【含Matlab源码 428期】

海神之光发表于 2022/05/29 05:50:33 2022/05/29

【摘要】一、获取代码方式获取代码方式1：完整代码已上传我的资源：【语音增强】基于matlab人耳掩蔽效应语音增强【含Matlab源码 428期】获取代码方式2：通过订阅紫极神光博客付费专栏，凭支付凭证...

一、获取代码方式

获取代码方式1：
完整代码已上传我的资源：【语音增强】基于matlab人耳掩蔽效应语音增强【含Matlab源码 428期】

获取代码方式2：
通过订阅紫极神光博客付费专栏，凭支付凭证，私信博主，可获得此代码。

备注：
订阅紫极神光博客付费专栏，可免费获得1份代码（有效期为订阅日起，三天内有效）；

二、简介

人耳能够在寂静的环境中分辨出轻微的声音，但是在嘈杂的环境里，这些轻微的声音就会被杂音所淹没。这种由于第一个声音的存在而使得第二个声音听阈提高的现象就称为掩蔽效应。第一个声音称为掩蔽声，第二个声音称为被掩蔽声，第二个声音听阈提高的数量称为掩蔽效应。

掩蔽效应发生时，一般以不同性质的声音作为掩蔽声，比如纯音、复音、噪声等。研究还发现，当掩蔽声和被掩蔽声不同时到达时，也会发生掩蔽，这种掩蔽现象称为非同时掩蔽。掩蔽声作用在被掩蔽声之前所发生的掩蔽，称为前掩蔽；掩蔽声作用在被掩蔽声之后所发生的掩蔽，称为后掩蔽。

听觉的掩蔽效应一般是用掩蔽声存在时的新的听阈曲线来表示，因此这里涉及的被掩蔽声一般是指纯音。掩蔽声存在的听阈称为掩蔽阈。

1、纯音的掩蔽

纯音是最简单的一种声音，下图反映的是1KHz，80dB纯音为掩蔽声时，测得的纯音的听阈随频率变化的特性。图中，虚线为听阈的曲线，实线为掩蔽阈曲线，文字表示了在不同区域所能听到的声音。

在700Hz以下，和9KHz以上的频率范围，纯音的听阈几乎不受掩蔽声的影响。

在700Hz到9KHz之间，纯音的听阈明显提高，越接近掩蔽声的频率，掩蔽量就越大。

纯音的掩蔽基本符合以下几个规律：低音容易掩蔽高音，高音较难掩蔽低音；频率相近的纯音容易互相掩蔽；提高掩蔽声的声压级时，掩蔽阈会提高，而且被掩蔽的频率范围会扩展。

2、复音的掩蔽

大多数声音是以复音的形式存在的。乐音一般是由一个基频和多个谐频组成的，音色主要取决于其谐频结构。复音的掩蔽范围主要是由复音所包含的频率成分决定，在每个所包含的频率附近都有产生一个最大的掩蔽量，当频率小于复音所包含的最小频率或大于其所包含的最大频率时，掩蔽效应逐渐减弱，并且掩蔽阈趋近于无掩蔽声时的听阈。

3、窄带噪声的掩蔽

窄带噪声通常是指带宽等于或者小于听觉临界频带的噪声。用纯音做为掩蔽声时，由于存在拍音和差音，掩蔽阈的测量比较困难。如果用窄带白噪声作为掩蔽声，测量较为容易，结果比较可靠。窄带噪声的掩蔽特性和纯音的掩蔽特性十分相似，只是曲线的左右不对称特性没有那么强。下图显示的是，以不同中心频率的窄带噪声作为掩蔽声时的听阈曲线，窄带噪声的中心频率分别为0.25KHz，1KHz，4KHz。

3、非同时掩蔽效应

声音信号大多数时候时非稳态的瞬时信号，声压级随着时间变化很快，即强音后面跟着弱音，弱音后面又可能跟着强音。比较强的声音往往会掩蔽随后到来的较弱音。

一般来说，同时掩蔽效应最强，掩蔽量最大；前掩蔽效应要大于后掩蔽效应，前掩蔽发生作用的时间远大于后掩蔽的时间。掩蔽声发生在测试信号之前的掩蔽现象容易理解，因为听觉具有记忆功能。而由于听觉对声音的感觉需要一个建立过程，所以就会有一定的延迟，而听觉对于较强声音感觉的建立要快于对较弱声音感觉的建立，所以存在后掩蔽的现象。

根据掩蔽效应的原理，才衍生出电声技术指标中的SNR（信号噪声比），以及THD（谐波失真）等。当噪声或者失真保持在一定范围内的时候，对听觉效果没有影响。

三、部分源代码

clc;
clear all;
[x,fs,nbits]=wavread('beijing.wav');
y=awgn(x,0,'measured');%加噪
function output=sub_rener(Signal,fs)

L=size(Signal,1);

W=1024;
SP=0.5;
OverLapNum=W*SP;
Window=hamming(W);
y=segment(Signal,W,SP,Window);

FrameNum=size(y,2);
ffty=fft(y,W);

Yabs=abs(ffty);
Yangle=angle(ffty);


 %%%%24个Bark频率群%%%%
k=0;
for f=21:fs
    k=k+1;
    z(k)=ceil(13*atan(0.76*f/1000)+3.5*atan((f/7500)^2));    
end 

BarkNum=18;%实验中使用的音频信号其采样频率为8k

va=20;
dz=diff(z);
fz=find(dz==1)+va;

% %%%%扩展函数B%%%% 
i=1:1:BarkNum;
delta=abs(repmat(i',1,BarkNum)-repmat(i,BarkNum,1));
S=10.^((15.81+7.5.*(delta+0.474)-17.5.*(1+(delta+0.474).^2).^(1/2))./10);%~db

DC_Gain=S*ones(BarkNum,1); %~db

%%%%每个bark中的能量%%%%
Nz=fix(fz.*W/fs);
Nz(BarkNum)=W/2+1;
start=1;
B=zeros(BarkNum,FrameNum);
for i=1:BarkNum;
    B(i,:)=sum(Yabs(start:Nz(i),:).^2);
    start=Nz(i)+1;
end %~db

%%%%算术/几何平均值%%%%
Py=Yabs(1:W/2+1,:).^2;

Am=sum(Py)./(W/2+1);%~db
half=fix(W/4)+1;
Gm=prod(Py(1:half,:)).^(1/(W/2+1)).*prod(Py(half+1:end,:)).^(1/(W/2+1));%~db
SFM=10.*log10(Gm./Am);%db
SFMmax=-60;%db


C=zeros(BarkNum,FrameNum);

for i=1:BarkNum
    Btemp=repmat(B(i,:),BarkNum,1);
    C(i,:)=S(i,:)*Btemp; %~db
end

Alpha=max(min(SFM./SFMmax,1),0);

%%%%激励-掩蔽阈O(i)%%%%
i=1:1:BarkNum;
O=Alpha'*(i+9)+5.5;
O=O';%db

%%%实际掩蔽阈T(i)%%%%
TT=10.^(log10(C)-O./10);%~db


%%%%%%%%%%%%%%%%%%%%

T=TT./DC_Gain(:,ones(1,FrameNum));%~db
%%%%%%%%%%%%%%%%%%%%%

w=fz(1:BarkNum);
Tqq=10.^((3.64.*(w./1000).^(-0.8)-6.5.*exp(-0.6.*(w./1000-3.3).^2)+(10^(-3)).*(w./1000).^4)./10);
Tq=repmat(Tqq',1,FrameNum);

Tfinal=max(Tq,T);

%减参数aw bw
AlphaMin=1;AlphaMax=6;
BetaMin=0;BetaMax=0.02;
Alphaw=zeros(BarkNum,FrameNum);
Betaw=zeros(BarkNum,FrameNum);

Tmin=repmat(min(Tfinal),BarkNum,1);
Tmax=repmat(max(Tfinal),BarkNum,1);

Alphaw(:,:)=AlphaMin;
Betaw(:,:)=BetaMin;

    
index=Tfinal>=Tmax;
Alphaw(index)=AlphaMax;
Betaw(index)=BetaMax;
    
index=(Tfinal>Tmin)&(Tfinal<Tmax);
Alphaw(index)=(AlphaMax.*(Tmax(index)-Tfinal(index))+AlphaMin.*(Tfinal(index)-Tmin(index)))...
        ./(Tmax(index)-Tmin(index));
Betaw(index)=(BetaMax.*(Tmax(index)-Tfinal(index))+BetaMin.*(Tfinal(index)-Tmin(index)))...
        ./(Tmax(index)-Tmin(index));


start=1;
Alpha=zeros(W/2+1,FrameNum);
Beta=zeros(W/2+1,FrameNum);


for i=1:BarkNum
    Alpha(start:Nz(i),:)=repmat(Alphaw(i,:),Nz(i)-start+1,1);
    Beta(start:Nz(i),:)=repmat(Beta(i,:),Nz(i)-start+1,1);
    start=Nz(i)+1;
end

    

Gamma=3;

Yabs=Yabs(1:W/2+1,:);

G=zeros(W/2+1,FrameNum);

NoiseLength=9;
NIS=20;
N=mean(Yabs(:,1:NIS),2);
NoiseCounter=0;
for i=1:FrameNum
    [~, SpeechFlag, NoiseCounter, Dist]=vad(Yabs(:,i),N,NoiseCounter); %Magnitude Spectrum Distance VAD
    if SpeechFlag==0
        N=(NoiseLength*N+Yabs(:,i))/(NoiseLength+1); %Update and smooth noise
    end
    for k=1:W/2+1
        if N(i)^2>Yabs(k,i)^2
            G(k,i)=0;
        else
            if ((N(i)/Yabs(k,i))^2)<(1/(Gamma.*Alpha(k,i)+Beta(k,i)))
                G(k,i)=(1-Gamma.*Alpha(k,i).*( N(i)./Yabs(k,i) ).^2).^(1/2);
            else
                G(k,i)=(Beta(k,i).*(N(i)./Yabs(k,i)).^2).^(1/2);
            end
        end
    end
end


S=Yabs.*G;

Sfinal=[S;S(W/2:-1:2,:)];
j=sqrt(-1);

Yfinal=Sfinal.*exp(j.*Yangle);


output=zeros(1,L);
hamwin=zeros(1,L);
for i=1:FrameNum   
    output(1+(i-1)*OverLapNum:W+(i-1)*OverLapNum)=...
    output(1+(i-1)*OverLapNum:W+(i-1)*OverLapNum)+(real(ifft(Yfinal(:,i))))';
    hamwin(1+(i-1)*OverLapNum:W+(i-1)*OverLapNum)=...
    hamwin(1+(i-1)*OverLapNum:W+(i-1)*OverLapNum)+Window';
end
for i=1:L
    if hamwin(i)==0
        output(i)=0;
    else
        output(i)=output(i)/hamwin(i);
    end
end
output=output';

function [NoiseFlag, SpeechFlag, NoiseCounter, Dist]=vad(signal,noise,NoiseCounter,NoiseMargin,Hangover)

%[NOISEFLAG, SPEECHFLAG, NOISECOUNTER, DIST]=vad(SIGNAL,NOISE,NOISECOUNTER,NOISEMARGIN,HANGOVER)
%Spectral Distance Voice Activity Detector
%SIGNAL is the the current frames magnitude spectrum which is to labeld as
%noise or speech, NOISE is noise magnitude spectrum template (estimation),
%NOISECOUNTER is the number of imediate previous noise frames, NOISEMARGIN
%(default 3)is the spectral distance threshold. HANGOVER ( default 8 )is
%the number of noise segments after which the SPEECHFLAG is reset (goes to
%zero). NOISEFLAG is set to one if the the segment is labeld as noise
%NOISECOUNTER returns the number of previous noise segments, this value is
%reset (to zero) whenever a speech segment is detected. DIST is the
%spectral distance. 
%Saeed Vaseghi
%edited by Esfandiar Zavarehei
%Sep-04

if nargin<4
    NoiseMargin=3;
end
if nargin<5
    Hangover=8;
end
if nargin<3
    NoiseCounter=0;
end

  
 
  
 
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10
  11
  12
  13
  14
  15
  16
  17
  18
  19
  20
  21
  22
  23
  24
  25
  26
  27
  28
  29
  30
  31
  32
  33
  34
  35
  36
  37
  38
  39
  40
  41
  42
  43
  44
  45
  46
  47
  48
  49
  50
  51
  52
  53
  54
  55
  56
  57
  58
  59
  60
  61
  62
  63
  64
  65
  66
  67
  68
  69
  70
  71
  72
  73
  74
  75
  76
  77
  78
  79
  80
  81
  82
  83
  84
  85
  86
  87
  88
  89
  90
  91
  92
  93
  94
  95
  96
  97
  98
  99
  100
  101
  102
  103
  104
  105
  106
  107
  108
  109
  110
  111
  112
  113
  114
  115
  116
  117
  118
  119
  120
  121
  122
  123
  124
  125
  126
  127
  128
  129
  130
  131
  132
  133
  134
  135
  136
  137
  138
  139
  140
  141
  142
  143
  144
  145
  146
  147
  148
  149
  150
  151
  152
  153
  154
  155
  156
  157
  158
  159
  160
  161
  162
  163
  164
  165
  166
  167
  168
  169
  170
  171
  172
  173
  174
  175
  176
  177
  178
  179
  180
  181
  182
  183
  184
  185
  186
  187
  188
  189
  190
  191
  192
  193
  194
  195
  196
  197
  198
  199
  200
  201
  202
  203
  204
  205
  206
  207

四、运行结果

五、matlab版本及参考文献

1 matlab版本
2014a

2 参考文献
[1]韩纪庆,张磊,郑铁然.语音信号处理（第3版）[M].清华大学出版社，2019.
[2]柳若边.深度学习:语音识别技术实践[M].清华大学出版社，2019.

文章来源: qq912100926.blog.csdn.net，作者：海神之光，版权归原作者所有，如需转载，请联系作者。

原文链接：qq912100926.blog.csdn.net/article/details/114291628

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

【语音增强】基于matlab人耳掩蔽效应语音增强【含Matlab源码 428期】

一、获取代码方式

二、简介

三、部分源代码

四、运行结果

五、matlab版本及参考文献

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

【语音增强】基于matlab人耳掩蔽效应语音增强【含Matlab源码 428期】

一、获取代码方式

二、简介

三、部分源代码

四、运行结果

五、matlab版本及参考文献

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品