太阳城集团

  • / 41
  • 下载费用:30 金币  

一种消除混响的方法、装置和设备.pdf

摘要
申请专利号:

CN201410160159.X

申请日:

2014.04.21

公开号:

太阳城集团CN103956170A

公开日:

2014.07.30

当前法律状态:

授权

有效性:

有权

法律详情: 授权|||实质审查的生效IPC(主分类):G10L 21/02申请日:20140421|||公开
IPC分类号: G10L21/02(2013.01)I 主分类号: G10L21/02
申请人: 华为技术有限公司
发明人: 詹五洲; 邬鑫锋
地址: 518129 广东省深圳市龙岗区坂田华为总部办公楼
优先权:
专利代理机构: 北京中博世达专利商标代理有限公司 11274 代理人: 王亚沛
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

CN201410160159.X

授权太阳城集团号:

||||||

法律状态太阳城集团日:

2016.12.07|||2014.08.27|||2014.07.30

法律状态类型:

授权|||实质审查的生效|||公开

摘要

本发明实施例提供了一种消除混响的方法、装置和设备,能够准确消除语音信号中的混响信号。该方法包括:获取第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的能量,第1帧至第L-1帧的纯净语音信号的混响能量系数和第L帧的语音信号能量的系数,以及第i个语音输入设备的第1帧至第L-1帧的纯净语音信号的能量;对所述第i个语音输入设备的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数进行更新;估算第1帧至第L-1帧的纯净语音信号对所述第L帧语音信号产生的混响信号的混响能量;获得所述第L帧信号的纯净语音信号的能量。该方法适用于音频技术领域。

权利要求书

权利要求书
1.  一种消除混响的方法,其特征在于,该方法包括:
获取第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的能量,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数,以及第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的能量,其中,所述语音信号包含纯净语音信号和混响信号,所述连续L帧语音信号为频域信号,所述L大于1;
根据所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的能量,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数,对所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数进行更新;
根据所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的能量,和所述第i个语音输入设备的更新后的第1帧至第L-1帧的纯净语音信号的混响能量系数,估算所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号对所述第L帧语音信号产生的混响信号的混响能量;
根据所述第i个语音输入设备输入的连续L帧语音信号的第L帧信号的能量和所述混响能量,获得所述第L帧信号的纯净语音信号的能量。

2.  根据权利要求1所述的方法,其特征在于,所述获取第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数具体包括:
根据预设的冲激信号的能量衰减曲线的斜率q,通过第一公式,获得所述i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数g1、g2…gL-1以及第L帧的语音信号能量的系数gL,其中,所述第一公式为:
其中,1<=l<=L。

3.  根据权利要求1或2所述的方法,其特征在于,所述L为混响太阳城集团T与帧的预设太阳城集团长度的比值取整,其中,所述混响太阳城集团T为根据所述预设的冲激信号的能量衰减曲线的斜率q,估计的所述冲激信号的能量衰减至预设能量的太阳城集团。

4.  根据权利要求1-3任一项所述的方法,其特征在于,对所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数进行更新具体包括:
根据第二公式获得第i个语音输入设备和第j个语音输入设备的连续L帧信号的能量的差,其中,所述第二公式为:
其中,当1<=l<=L-1时,所述gj,lEi,l为第j个语音输入设备的第l帧的纯净语音信号的混响能量系数与第i个语音输入设备的第l帧的信号能量的卷积,所述gi,lEj,l为第i个语音输入设备的第l帧的纯净语音信号的混响能量系数与第j个语音输入设备的第l帧的信号能量的卷积,当l=L时,所述gj,lEi,l为第j个语音输入设备的第L帧的语音信号能量的系数与第i个语音输入设备的第L帧的信号能量的卷积,所述gi,lEj,l为第i个语音输入设备的第L帧的语音信号能量的系数与第j个语音输入设备的第L帧的信号能量的卷积;
根据所述第二公式获得所述第i个语音输入设备和其他M-1个语音输入设备两两之间的连续L帧信号的能量的差;
根据所述第i个语音输入设备和其他M-1个语音输入设备两两之间的连续L帧信号的能量的差,获得三公式,所述第三公式为:
其中,当1<=l<=L-1时,所述为第i个语音输入设备第l帧纯净语音信号的混响能量系数的更新值,所述gi,l为第i个语音输入设备第l帧纯净语音信号的混响能量系数,所述μl为预设置的第l帧的更新系数,所述h(ei,El)为根据第i个语音输入设备和其他M-1个语音输入设备两两之间的连续L帧信号的能量的差,以及其他M-1个语音输入设备的连续L帧语音信号的第1帧至第L帧的语音信号的能量得到的值;
根据所述第三公式,获得所述第i个语音输入设备的所述连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数的更新值。

5.  根据权利要求4所述的方法,其特征在于,所述μl>=μl-1,其中,所述μl为预设置的第l帧的更新系数,所述μl-1为预设置的第l-1帧的更新系数,所述第l-1帧是第l帧的前一帧,所述1<=l-1。

6.  一种消除混响的方法,其特征在于,该方法包括:
获取第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的幅度,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响幅度系数以及第L帧的纯净语音信号幅度的系数,以及第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的幅度,其中,所述语音信号包含纯净语音信号和混响信号,所述连续L帧语音信号为频域信号,所述L大于1;
根据所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的幅度,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响幅度系数以及第L帧的纯净语音信号幅度的系数,对所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响幅度系数以及第L帧的纯净语音信号幅度的系数进行更新;
根据所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的幅度,和所述第i个语音输入设备的更新后的第1帧至第L-1帧的纯净语音信号的混响幅度系数,估算所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号对所述第L帧语音信号产生的混响信号的混响幅度;
根据所述第i个语音输入设备输入的连续L帧语音信号的第L帧信号的幅度和所述混响幅度,获得所述第L帧信号的纯净语音信号的幅度。

7.  一种消除混响的装置,其特征在于,该装置包括:第一获得单元,第一更新单元,第一估算单元和第二获得单元;
所述第一获得单元,用于获取第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的能量,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数,以及第i个语音输入设备输入的连续L帧语音信号的 第1帧至第L-1帧的纯净语音信号的能量,其中,所述语音信号包含纯净语音信号和混响信号,所述连续L帧语音信号为频域信号,所述L大于1;
所述第一更新单元,用于根据所述第一获得单元发送的所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的能量,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数,对所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数进行更新;
所述第一估算单元,用于根据所述第一获得单元发送的所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的能量,和所述第一更新单元发送的所述第i个语音输入设备的更新后的第1帧至第L-1帧的纯净语音信号的混响能量系数,估算所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号对所述第L帧语音信号产生的混响信号的混响能量;
所述第二获得单元,用于根据所述第一获得单元发送的所述第i个语音输入设备输入的连续L帧语音信号的第L帧信号的能量和所述第一估算单元发送的所述混响能量,获得所述第L帧信号的纯净语音信号的能量。

8.  根据权利要求7所述的装置,其特征在于,所述第一获得单元具体用于:
根据预设的冲激信号的能量衰减曲线的斜率q,通过第一公式,获得所述i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数g1、g2…gL-1以及第L帧的语音信号能量的系数gL,其中,所述第一公式为:
其中,1<=l<=L。

9.  根据权利要求7或8所述的装置,其特征在于,所述L为混响太阳城集团T与帧的预设太阳城集团长度的比值取整,其中,所述混响太阳城集团T为根据所述预设的冲激信号的能量衰减曲线的斜率q,估计的所述冲激信号的能量衰减至预设能量的太阳城集团。

10.  根据权利要求7-9任一项所述的装置,其特征在于,所述第一更新单元具体用于:
根据第二公式获得第i个语音输入设备和第j个语音输入设备的连续L帧信号的能量的差,其中,所述第二公式为:
其中,当1<=l<=L-1时,所述gj,lEi,l为第j个语音输入设备的第l帧的纯净语音信号的混响能量系数与第i个语音输入设备的第l帧的信号能量的卷积,所述gi,lEj,l为第i个语音输入设备的第l帧的纯净语音信号的混响能量系数与第j个语音输入设备的第l帧的信号能量的卷积,当l=L时,所述gj,lEi,l为第j个语音输入设备的第L帧的语音信号能量的系数与第i个语音输入设备的第L帧的信号能量的卷积,所述gi,lEj,l为第i个语音输入设备的第L帧的语音信号能量的系数与第j个语音输入设备的第L帧的信号能量的卷积;
根据所述第二公式获得所述第i个语音输入设备和其他M-1个语音输入设备两两之间的连续L帧信号的能量的差;
根据所述第i个语音输入设备和其他M-1个语音输入设备两两之间的连续L帧信号的能量的差,获得三公式,所述第三公式为:
其中,当1<=l<=L-1时,所述为第i个语音输入设备第l帧纯净语音信号的混响能量系数的更新值,所述gi,l为第i个语音输入设备第l帧纯净语音信号的混响能量系数,所述μl为预设置的第l帧的更新系数,所述h(ei,El)为根据第i个语音输入设备和其他M-1个语音输入设备两两之间的连续L帧信号的能量的差,以及其他M-1个语音输入设备的连续L帧语音信号的第1帧至第L帧的语音信号的能量得到的值;
根据所述第三公式,获得所述第i个语音输入设备的所述连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数的更新值。

11.  根据权利要求10所述的装置,其特征在于,所述μl>=μl-1,其中,所述μl为预设置的第l帧的更新系数,所述μl-1为预设置的第l-1帧的更新系数,所述第l-1帧是第l帧的前一帧,所述1<=l-1。

12.  一种消除混响的装置,其特征在于,该装置包括:第三获得单元,第二更新单元,第二估算单元和第四获得单元:
所述第三获得单元,用于获取第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的幅度,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响幅度系数以及第L帧的纯净 语音信号幅度的系数,以及第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的幅度,其中,所述语音信号包含纯净语音信号和混响信号,所述连续L帧语音信号为频域信号,所述L大于1;
所述第二更新单元,用于根据所述第三获得单元发送的所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的幅度,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响幅度系数以及第L帧的纯净语音信号幅度的系数,对所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响幅度系数以及第L帧的纯净语音信号幅度的系数进行更新;
所述第二估算单元,用于根据所述第三获得单元发送的所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的幅度,和所述第二更新单元发送的所述第i个语音输入设备的更新后的第1帧至第L-1帧的纯净语音信号的混响幅度系数,估算所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号对所述第L帧语音信号产生的混响信号的混响幅度;
所述第四获得单元,用于根据所述第三获得单元发送的所述第i个语音输入设备输入的连续L帧语音信号的第L帧信号的幅度和所述第二估算单元发送的所述混响幅度,获得所述第L帧信号的纯净语音信号的幅度。

13.  一种消除混响的设备,其特征在于,该设备包括:第一收发器和第一处理器;
所述第一收发器用于:接收第i个语音输入设备以及其他M-1个语音输入设备输入的连续L帧语音信号;
所述第一处理器用于:获取第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的能量,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数,以及第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的能量,其中,所述语音信号包含纯净语音信号和混响信号,所述连续L帧语音信号为频域信号,所述L大于1;
根据所述第i个以及其他M-1个语音输入设备输入的连续L帧语 音信号的第1帧至第L帧的语音信号的能量,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数,对所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数进行更新;
根据所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的能量,和所述第i个语音输入设备的更新后的第1帧至第L-1帧的纯净语音信号的混响能量系数,估算所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号对所述第L帧语音信号产生的混响信号的混响能量;
根据所述第i个语音输入设备输入的连续L帧语音信号的第L帧信号的能量和所述混响能量,获得所述第L帧信号的纯净语音信号的能量。

14.  根据权利要求13所述的设备,其特征在于,所述第一处理器具体用于:
根据预设的冲激信号的能量衰减曲线的斜率q,通过第一公式,获得所述i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数g1、g2…gL-1以及第L帧的语音信号能量的系数gL,其中,所述第一公式为:
其中,1<=l<=L。

15.  根据权利要求13或14所述的设备,其特征在于,所述L为混响太阳城集团T与帧的预设太阳城集团长度的比值取整,其中,所述混响太阳城集团T为根据所述预设的冲激信号的能量衰减曲线的斜率q,估计的所述冲激信号的能量衰减至预设能量的太阳城集团。

16.  根据权利要求13-15任一项所述的设备,其特征在于,所述第一处理器具体用于:
根据第二公式获得第i个语音输入设备和第j个语音输入设备的连续L帧信号的能量的差,其中,所述第二公式为:
其中,当1<=l<=L-1时,所述gj,lEi,l为第j个语音输入设备的第l帧的纯净语音信号的混响能量系数与第i个语音 输入设备的第l帧的信号能量的卷积,所述gi,lEj,l为第i个语音输入设备的第l帧的纯净语音信号的混响能量系数与第j个语音输入设备的第l帧的信号能量的卷积,当l=L时,所述gj,lEi,l为第j个语音输入设备的第L帧的语音信号能量的系数与第i个语音输入设备的第L帧的信号能量的卷积,所述gi,lEj,l为第i个语音输入设备的第L帧的语音信号能量的系数与第j个语音输入设备的第L帧的信号能量的卷积;
根据所述第二公式获得所述第i个语音输入设备和其他M-1个语音输入设备两两之间的连续L帧信号的能量的差;
根据所述第i个语音输入设备和其他M-1个语音输入设备两两之间的连续L帧信号的能量的差,获得三公式,所述第三公式为:
其中,当1<=l<=L-1时,所述为第i个语音输入设备第l帧纯净语音信号的混响能量系数的更新值,所述gi,l为第i个语音输入设备第l帧纯净语音信号的混响能量系数,所述μl为预设置的第l帧的更新系数,所述h(ei,El)为根据第i个语音输入设备和其他M-1个语音输入设备两两之间的连续L帧信号的能量的差,以及其他M-1个语音输入设备的连续L帧语音信号的第1帧至第L帧的语音信号的能量得到的值;
根据所述第三公式,获得所述第i个语音输入设备的所述连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数的更新值。

17.  根据权利要求16所述的设备,其特征在于,所述μl>=μl-1,其中,所述μl为预设置的第l帧的更新系数,所述μl-1为预设置的第l-1帧的更新系数,所述第l-1帧是第l帧的前一帧,所述1<=l-1。

18.  一种消除混响的设备,其特征在于,该设备包括:第二收发器和第二处理器;
所述第二收发器用于:接收第i个语音输入设备以及其他M-1个语音输入设备输入的连续L帧语音信号;
所述第二处理器用于:获取第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的幅度,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响幅度系数以及第L帧的纯净语音信号幅度的系数,以及第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的幅度,其中,所述语音信号包含纯净语音信号和混响信号,所述连续L帧语音信号为频域信号,所述L 大于1;
根据所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的幅度,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响幅度系数以及第L帧的纯净语音信号幅度的系数,对所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响幅度系数以及第L帧的纯净语音信号幅度的系数进行更新;
根据所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的幅度,和所述第i个语音输入设备的更新后的第1帧至第L-1帧的纯净语音信号的混响幅度系数,估算所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号对所述第L帧语音信号产生的混响信号的混响幅度;
根据所述第i个语音输入设备输入的连续L帧语音信号的第L帧信号的幅度和所述混响幅度,获得所述第L帧信号的纯净语音信号的幅度。

说明书

说明书一种消除混响的方法、装置和设备
技术领域
本发明涉及音频技术领域,尤其涉及一种消除混响的方法、装置和设备。
背景技术
声波在室内传播时,要被墙壁、天花板、地板等障碍物反射,每反射一次都要被障碍物吸收一些。这样,当声源停止发声后,声波在室内要经过多次反射和吸收,最后才消失,我们就感觉到声源停止发声后声音还继续一段太阳城集团,这种现象叫做混响,这段太阳城集团叫做混响太阳城集团。
在一些场景下,比如在会议系统中,混响的影响会导致语音清晰度的下降。为了提升用户体验,需要对混响进行抑制,以改善语音的清晰度。
现有技术针对这一问题提出了如下两种解决方案:
第一种方案:在时域对麦克风获得的信号的相位进行分析,估计出自适应滤波系数,通过估计得到的自适应滤波系数对信号进行滤波,得到消除混响后的信号。
但是,采用这种方法容易受到声源与麦克风距离的影响,比如人在说话时,随着人的身体、头部的移动,声源与麦克风的距离也会发生变化,这样,麦克风获得的信号的相位也在发生变化,导致估计出的自适应滤波系数是不准确的。
第二种方案:在频域基于统计模型去除混响,估计出前一帧语音信号能量的混响能量系数,从而估计出当前帧的语音能量中的混响能量,但是,基于统计模型获得的前一帧语音信号能量的混响能量系数可能会不准确,造成去混响的效果不够理想。
发明内容
本发明的实施例提供一种消除混响的方法、装置和系统,能够准确的消除语音信号中的混响信号,得到纯净的语音信号。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,本发明实施例提供了一种消除混响的方法,该方法包括:
获取第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的能量,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数,以及第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的能量,其中,所述语音信号包含纯净语音信号和混响信号,所述连续L帧语音信号为频域信号,所述L大于1;
根据所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的能量,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数,对所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数进行更新;
根据所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的能量,和所述第i个语音输入设备的更新后的第1帧至第L-1帧的纯净语音信号的混响能量系数,估算所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号对所述第L帧语音信号产生的混响信号的混响能量;
根据所述第i个语音输入设备输入的连续L帧语音信号的第L帧信号的能量和所述混响能量,获得所述第L帧信号的纯净语音信号的能量。
在第一种可能的实施方式中,结合第一方面,所述获取第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数具体包括:
根据预设的冲激信号的能量衰减曲线的斜率q,通过第一公式,获得所述i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数g1、g2…gL-1以及 第L帧的语音信号能量的系数gL,其中,所述第一公式为:
其中,1<=l<=L。
在第二种可能的实施方式中,结合第一方面或第一种可能的实施方式,所述L为混响太阳城集团T与帧的预设太阳城集团长度的比值取整,其中,所述混响太阳城集团T为根据所述预设的冲激信号的能量衰减曲线的斜率q,估计的所述冲激信号的能量衰减至预设能量的太阳城集团。
在第三种可能的实施方式中,结合第一方面,第一种可能的实施方式或第二种可能的实施方式中的任一种,对所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数进行更新具体包括:
根据第二公式获得第i个语音输入设备和第j个语音输入设备的连续L帧信号的能量的差,其中,所述第二公式为:
其中,当1<=l<=L-1时,所述gj,lEi,l为第j个语音输入设备的第l帧的纯净语音信号的混响能量系数与第i个语音输入设备的第l帧的信号能量的卷积,所述gi,lEj,l为第i个语音输入设备的第l帧的纯净语音信号的混响能量系数与第j个语音输入设备的第l帧的信号能量的卷积,当l=L时,所述gj,lEi,l为第j个语音输入设备的第L帧的语音信号能量的系数与第i个语音输入设备的第L帧的信号能量的卷积,所述gi,lEj,l为第i个语音输入设备的第L帧的语音信号能量的系数与第j个语音输入设备的第L帧的信号能量的卷积;
根据所述第二公式获得所述第i个语音输入设备和其他M-1个语音输入设备两两之间的连续L帧信号的能量的差;
根据所述第i个语音输入设备和其他M-1个语音输入设备两两之间的连续L帧信号的能量的差,获得三公式,所述第三公式为:
其中,当1<=l<=L-1时,所述为第i个语音输入设备第l帧纯净语音信号的混响能量系数的更新值,所述gi,l为第i 个语音输入设备第l帧纯净语音信号的混响能量系数,所述μl为预设置的第l帧的更新系数,所述h(ei,El)为根据第i个语音输入设备和其他M-1个语音输入设备两两之间的连续L帧信号的能量的差,以及其他M-1个语音输入设备的连续L帧语音信号的第1帧至第L帧的语音信号的能量得到的值;
根据所述第三公式,获得所述第i个语音输入设备的所述连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数的更新值。
在第四种可能的实施方式中,结合第三种可能的实施方式,所述μl>=μl-1,其中,所述μl为预设置的第l帧的更新系数,所述μl-1为预设置的第l-1帧的更新系数,所述第l-1帧是第l帧的前一帧,所述1<=l-1。
第二方面,本发明实施例提供了一种消除混响的方法,该方法包括:
获取第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的幅度,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响幅度系数以及第L帧的纯净语音信号幅度的系数,以及第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的幅度,其中,所述语音信号包含纯净语音信号和混响信号,所述连续L帧语音信号为频域信号,所述L大于1;
根据所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的幅度,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响幅度系数以及第L帧的纯净语音信号幅度的系数,对所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响幅度系数以及第L帧的纯净语音信号幅度的系数进行更新;
根据所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的幅度,和所述第i个语音输入设备的更 新后的第1帧至第L-1帧的纯净语音信号的混响幅度系数,估算所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号对所述第L帧语音信号产生的混响信号的混响幅度;
根据所述第i个语音输入设备输入的连续L帧语音信号的第L帧信号的幅度和所述混响幅度,获得所述第L帧信号的纯净语音信号的幅度。
第三方面,本发明实施例提供了一种消除混响的装置,该装置包括:第一获得单元,第一更新单元,第一估算单元和第二获得单元;
所述第一获得单元,用于获取第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的能量,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数,以及第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的能量,其中,所述语音信号包含纯净语音信号和混响信号,所述连续L帧语音信号为频域信号,所述L大于1;
所述第一更新单元,用于根据所述第一获得单元发送的所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的能量,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数,对所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数进行更新;
所述第一估算单元,用于根据所述第一获得单元发送的所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的能量,和所述第一更新单元发送的所述第i个语音输入设备的更新后的第1帧至第L-1帧的纯净语音信号的混响能量系数,估算所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号对所述第L帧语音信号产生的混响信号的混响能量;
所述第二获得单元,用于根据所述第一获得单元发送的所述第i 个语音输入设备输入的连续L帧语音信号的第L帧信号的能量和所述第一估算单元发送的所述混响能量,获得所述第L帧信号的纯净语音信号的能量。
在第一种可能的实施方式中,结合第三方面,所述第一获得单元具体用于:
根据预设的冲激信号的能量衰减曲线的斜率q,通过第一公式,获得所述i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数g1、g2…gL-1以及第L帧的语音信号能量的系数gL,其中,所述第一公式为:
其中,1<=l<=L。
在第二种可能的实施方式中,结合第三方面或第一种可能的实施方式,所述L为混响太阳城集团T与帧的预设太阳城集团长度的比值取整,其中,所述混响太阳城集团T为根据所述预设的冲激信号的能量衰减曲线的斜率q,估计的所述冲激信号的能量衰减至预设能量的太阳城集团。
在第三种可能的实施方式中,结合第三方面,第一种可能的实施方式或第二种可能的实施方式中的任一种,所述第一更新单元具体用于:
根据第二公式获得第i个语音输入设备和第j个语音输入设备的连续L帧信号的能量的差,其中,所述第二公式为:
其中,当1<=l<=L-1时,所述gj,lEi,l为第j个语音输入设备的第l帧的纯净语音信号的混响能量系数与第i个语音输入设备的第l帧的信号能量的卷积,所述gi,lEj,l为第i个语音输入设备的第l帧的纯净语音信号的混响能量系数与第j个语音输入设备的第l帧的信号能量的卷积,当l=L时,所述gj,lEi,l为第j个语音输入设备的第L帧的语音信号能量的系数与第i个语音输入设备的第L帧的信号能量的卷积,所述gi,lEj,l为第i个语音输入设备的第L帧的语音信号能量的系数与第j个语音输入设备的第L帧的信号能量的 卷积;
根据所述第二公式获得所述第i个语音输入设备和其他M-1个语音输入设备两两之间的连续L帧信号的能量的差;
根据所述第i个语音输入设备和其他M-1个语音输入设备两两之间的连续L帧信号的能量的差,获得三公式,所述第三公式为:
其中,当1<=l<=L-1时,所述为第i个语音输入设备第l帧纯净语音信号的混响能量系数的更新值,所述gi,l为第i个语音输入设备第l帧纯净语音信号的混响能量系数,所述μl为预设置的第l帧的更新系数,所述h(ei,El)为根据第i个语音输入设备和其他M-1个语音输入设备两两之间的连续L帧信号的能量的差,以及其他M-1个语音输入设备的连续L帧语音信号的第1帧至第L帧的语音信号的能量得到的值;
根据所述第三公式,获得所述第i个语音输入设备的所述连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数的更新值。
在第四种可能的实施方式中,结合第三种可能的实施方式,所述μl>=μl-1,其中,所述μl为预设置的第l帧的更新系数,所述μl-1为预设置的第l-1帧的更新系数,所述第l-1帧是第l帧的前一帧,所述1<=l-1。
第四方面,本发明实施例提供了一种消除混响的装置,该装置包括:第三获得单元,第二更新单元,第二估算单元和第四获得单元:
所述第三获得单元,用于获取第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的幅度,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响幅度系数以及第L帧的纯净语音信号幅度的系数,以及第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的幅度,其中,所述语音信号包含纯净语音信号和混响信号,所述连续L帧语音信号为频域信号,所述L大于1;
所述第二更新单元,用于根据所述第三获得单元发送的所述第i 个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的幅度,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响幅度系数以及第L帧的纯净语音信号幅度的系数,对所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响幅度系数以及第L帧的纯净语音信号幅度的系数进行更新;
所述第二估算单元,用于根据所述第三获得单元发送的所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的幅度,和所述第二更新单元发送的所述第i个语音输入设备的更新后的第1帧至第L-1帧的纯净语音信号的混响幅度系数,估算所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号对所述第L帧语音信号产生的混响信号的混响幅度;
所述第四获得单元,用于根据所述第三获得单元发送的所述第i个语音输入设备输入的连续L帧语音信号的第L帧信号的幅度和所述第二估算单元发送的所述混响幅度,获得所述第L帧信号的纯净语音信号的幅度。
第五方面,本发明实施例提供了一种消除混响的设备,该设备包括:第一收发器和第一处理器;
所述第一收发器用于:接收第i个语音输入设备以及其他M-1个语音输入设备输入的连续L帧语音信号;
所述第一处理器用于:获取第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的能量,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数,以及第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的能量,其中,所述语音信号包含纯净语音信号和混响信号,所述连续L帧语音信号为频域信号,所述L大于1;
根据所述第i个以及其他M-1个语音输入设备输入的连续L帧语 音信号的第1帧至第L帧的语音信号的能量,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数,对所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数进行更新;
根据所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的能量,和所述第i个语音输入设备的更新后的第1帧至第L-1帧的纯净语音信号的混响能量系数,估算所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号对所述第L帧语音信号产生的混响信号的混响能量;
根据所述第i个语音输入设备输入的连续L帧语音信号的第L帧信号的能量和所述混响能量,获得所述第L帧信号的纯净语音信号的能量。
在第一种可能的实施方式中,结合第五方面,所述第一处理器具体用于:
根据预设的冲激信号的能量衰减曲线的斜率q,通过第一公式,获得所述i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数g1、g2…gL-1以及第L帧的语音信号能量的系数gL,其中,所述第一公式为:
其中,1<=l<=L。
在第二种可能的实施方式中,结合第五方面或第一种可能的实施方式,所述L为混响太阳城集团T与帧的预设太阳城集团长度的比值取整,其中,所述混响太阳城集团T为根据所述预设的冲激信号的能量衰减曲线的斜率q,估计的所述冲激信号的能量衰减至预设能量的太阳城集团。
在第三种可能的实施方式中,结合第五方面,第一种可能的实施方式或第二种可能的实施方式中的任一种,所述第一处理器具体用于:
根据第二公式获得第i个语音输入设备和第j个语音输入设备的连续L帧信号的能量的差,其中,所述第二公式为:
其中,当1<=l<=L-1时,所述gj,lEi,l为第j个语音输入设备的第l帧的纯净语音信号的混响能量系数与第i个语音输入设备的第l帧的信号能量的卷积,所述gi,lEj,l为第i个语音输入设备的第l帧的纯净语音信号的混响能量系数与第j个语音输入设备的第l帧的信号能量的卷积,当l=L时,所述gj,lEi,l为第j个语音输入设备的第L帧的语音信号能量的系数与第i个语音输入设备的第L帧的信号能量的卷积,所述gi,lEj,l为第i个语音输入设备的第L帧的语音信号能量的系数与第j个语音输入设备的第L帧的信号能量的卷积;
根据所述第二公式获得所述第i个语音输入设备和其他M-1个语音输入设备两两之间的连续L帧信号的能量的差;
根据所述第i个语音输入设备和其他M-1个语音输入设备两两之间的连续L帧信号的能量的差,获得三公式,所述第三公式为:
其中,当1<=l<=L-1时,所述为第i个语音输入设备第l帧纯净语音信号的混响能量系数的更新值,所述gi,l为第i个语音输入设备第l帧纯净语音信号的混响能量系数,所述μl为预设置的第l帧的更新系数,所述h(ei,El)为根据第i个语音输入设备和其他M-1个语音输入设备两两之间的连续L帧信号的能量的差,以及其他M-1个语音输入设备的连续L帧语音信号的第1帧至第L帧的语音信号的能量得到的值;
根据所述第三公式,获得所述第i个语音输入设备的所述连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数的更新值。
在第四种可能的实施方式中,结合第三种可能的实施方式,所述μl>=μl-1,其中,所述μl为预设置的第l帧的更新系数,所述μl-1为预设置的第l-1帧的更新系数,所述第l-1帧是第l帧的前一帧,所述1<=l-1。
第六方面,本发明实施例提供了一种消除混响的设备,其特征在 于,该设备包括:第二收发器和第二处理器;
所述第二收发器用于:接收第i个语音输入设备以及其他M-1个语音输入设备输入的连续L帧语音信号;
所述第二处理器用于:获取第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的幅度,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响幅度系数以及第L帧的纯净语音信号幅度的系数,以及第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的幅度,其中,所述语音信号包含纯净语音信号和混响信号,所述连续L帧语音信号为频域信号,所述L大于1;
根据所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的幅度,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响幅度系数以及第L帧的纯净语音信号幅度的系数,对所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响幅度系数以及第L帧的纯净语音信号幅度的系数进行更新;
根据所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的幅度,和所述第i个语音输入设备的更新后的第1帧至第L-1帧的纯净语音信号的混响幅度系数,估算所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号对所述第L帧语音信号产生的混响信号的混响幅度;
根据所述第i个语音输入设备输入的连续L帧语音信号的第L帧信号的幅度和所述混响幅度,获得所述第L帧信号的纯净语音信号的幅度。
本发明实施例提供了一种消除混响的方法、装置和设备,该方法包括:获取第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的能量,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数,以及第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1 帧的纯净语音信号的能量,其中,所述语音信号包含纯净语音信号和混响信号,所述连续L帧语音信号为频域信号,所述L大于1;根据所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的能量,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数,对所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数进行更新;根据所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的能量,和所述第i个语音输入设备的更新后的第1帧至第L-1帧的纯净语音信号的混响能量系数,估算所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号对所述第L帧语音信号产生的混响信号的混响能量;根据所述第i个语音输入设备输入的连续L帧语音信号的第L帧信号的能量和所述混响能量,获得所述第L帧信号的纯净语音信号的能量。基于该方法,对第1帧至第L-1帧的纯净语音信号的混响能量系数进行了更新,得到的第1帧至第L-1帧的纯净语音信号对所述第L帧信号产生的混响信号的混响能量更加准确,因此,通过该方法,可以更加准确的获得语音信号中的混响信号的能量,并消除该混响信号的影响,从而提高了语音质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一种冲激信号响应曲线;
图2为一种冲激信号响应的能量衰减曲线;
图3为一种消除混响的方法流程图;
图4为另一种消除混响的方法流程图;
图5为又一种消除混响的方法流程图;
图6为一种消除混响的装置示意图;
图7为另一种消除混响的装置示意图;
图8为一种消除混响的设备示意图;
图9为另一种消除混响的设备示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
结合图1,示例性的描述了一种当向一个语音输入设备,例如向一个麦克风输入一个冲激信号,如一个瞬时语音信号时,信号的振幅随太阳城集团变化的曲线。结合图1,在0至0.02s输入一个瞬时语音信号,如果没有混响信号,则只会在信号输入的瞬间产生一个冲激响应,之后信号的振幅为0,不会随着太阳城集团的变化而变化,但是由该冲激信号产生的混响信号在混响太阳城集团内一直被麦克风获取,因此所述麦克风不但获取到所述冲激信号,还在混响太阳城集团内一直获取到衰减的混响信号。
基于此,当向麦克风输入一个冲激信号时,由于所述冲激信号产生的混响信号的存在,就会得到一个如图1所示的振幅不断衰减的冲激响应曲线。
对应的,结合图2,示例性的描述了一种图1所示的冲激信号的能量衰减曲线。在瞬时语音信号输入后,立刻会有一个较大幅度的能量衰减,之后信号的能量呈现平滑的衰减。
当向麦克风输入一个连续的语音信号时,可以将这个连续的语音信号分成若干帧,每一帧的语音信号看作一个独立的瞬时语音信号,每个独立的瞬时语音信号对应一条独立的能量衰减曲线,若一个瞬时语音信号产生的混响信号需要L帧才可以衰减结束,那么,第L帧的语音信号由第L帧的纯净语音信号和第1至L-1帧瞬时语音信号在第L帧产生的混响信号组成,即第L帧的语音信号的能量由当前帧, 即第L帧的纯净语音信号的能量和前面第1帧到第L-1帧的瞬时语音产生的混响信号的能量构成。
具体的,第L帧的纯净语音信号指的是声源在第L帧发出的直达声,是不包含混响信号的、通过本发明实施方案需要最终获得的信号,也可以理解为在第L帧输入的瞬时语音信号。
所述第L帧的语音信号的能量可以由如下公式(1)表示:
EL=SL+Σl=1L-1glSl---(1)]]>
其中,EL为第L帧语音信号的能量,gl为第l帧瞬时语音信号,即第l帧纯净语音信号在第L帧的混响信号的能量系数,所述Sl为第l帧纯净语音信号的能量,其中,1<=l<=L-1。
结合图2,第1帧瞬时语音对第L帧,也就是当前的混响的影响最小,第1帧的瞬时语音在第L帧产生的混响能量为g1S1,第L-1帧,也就是当前帧的前一帧的瞬时语音对当前帧的混响的影响最大,第L-1帧的瞬时语音在第L帧产生的混响能量为gL-1SL-1。
显然,gL-1,gL-2…g1是由大到小衰减的。具体的,可以认为gL-1,gL-2…g1是等比例衰减的,假设gL-1=a,gL-2=a2,gL-3=a3…g1=aL-1,其中,a<1
基于公式(1),可得到如下公式(2)
EL=SL+Σl=1L-1glSl=SL+aSL-1+a2SL-2+a3SL-3+...+aL-1S1=SL+a(SL-1+aSL-2+a2SL-3+...+aL-2S1)≈SL+aEL-1---(2)]]>
具体的,当L取无穷大时,上式(1)可以表示为如下公式(3):
EL=SL+aEL-1    (3)
根据系数a,和第L帧语音信号的前一帧,即第L-1帧的语音信号的能量,就可以获得第L帧语音信号的能量中的混响能量,进而得到第L帧的纯净语音能量SL。
但是,基于现有技术,很难获得较为准确的a,当a不准确时,会导致去除混响的效果不好。
结合图3,本发明实施例提供了一种消除混响的方法,该方法包括:
301、获取第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的能量,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数,以及第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的能量,其中,所述语音信号包含纯净语音信号和混响信号,所述连续L帧语音信号为频域信号,所述L大于1。
当一个瞬时语音信号产生的混响信号需要L帧才可以衰减结束时,一个连续的L帧的语音信号的第L帧的语音信号的能量由第L帧的纯净语音信号的能量和第1帧到第L-1帧的瞬时语音信号产生的混响信号的能量构成,这样,将所述第L帧的语音信号的能量减去第1帧到第L-1帧的混响语音信号的能量,就可以获得所述第L帧的纯净语音信号的能量。
举例来说,如图2所示,为图1所示的冲激响应信号所对应的能量衰减曲线,通常情况下,当所述冲激响应信号的能量从0dB衰减至-60dB时,可认为所述冲激响应信号的能量衰减结束,即,当所述冲激响应信号的能量从0dB衰减至-60dB所用的太阳城集团,即为所述冲激信号的混响太阳城集团。
基于此,通过计算能量衰减曲线的斜率q,就可以得到所述冲激信号的混响太阳城集团,结合图2,可以将所述冲激响应信号所对应的能量衰减曲线看作一条平滑的线性曲线,通过计算所述能量衰减曲线的斜 率q可以计算出所述冲激响应的混响太阳城集团。
若所述能量衰减曲线按照图2所示的曲线斜率q继续衰减,从0dB衰减至-60dB的太阳城集团约为0.32s,即混响太阳城集团为0.32s。假设一帧为20ms,即0.02s,则所述冲激响应的混响太阳城集团为16帧。也就是说,第16帧的语音信号的混响信号由所述第16帧语音信号的前15帧语音信号所产生的混响信号构成,所述第16帧语音信号的能量由所述第16帧的纯净语音信号的能量和所述第1帧到第15帧的混响语音信号的能量构成。
需要说明的是,在同一语音环境下,例如在同一个会议室中,每个语音输入设备获取的瞬时语音信号的冲激响应的能量衰减曲线的斜率是相同的,同一语音输入设备在不同太阳城集团获取的冲激响应的能量衰减曲线的斜率也是相同的。
为获取所述冲激响应的能量衰减曲线的斜率,可以通过预先实测的方法预先获取一个冲激响应,并根据该冲激响应的能量衰减曲线获取其斜率q,当语音输入开始时,可以直接利用所述q进行去除混响的过程;
也可以在语音输入的开始的几秒内获取一个瞬时语音并得到其能量衰减曲线,并获得所述能量衰减曲线的斜率q;
还可以通过数学构造的方法获得一个冲激响应的能量衰减曲线,并获得所述能量衰减曲线的斜率q。
具体的,在同一语音环境,例如在同一会议室中,采用上述三种方法获得的q是相同的,在本发明实施例中,通过上述任何一种方式获得一个冲激响应的能量衰减曲线都是可行的,本发明实施例对此不做限定。
将第16帧语音信号的能量减去第1帧到第15帧的混响语音信号的能量,就可以得到第16帧语音信号中的纯净语音信号的能量。具体的,由于第1帧到第15帧的瞬时语音信号在第16帧产生的混响信号的能量不容易直接获得,且第16帧的混响信号都是由第1帧到第15帧的瞬时语音信号,即纯净语音信号产生的,基于此,第1帧到第15帧的瞬时语音信号在第16帧产生的混响信号的能量可以通过第1帧到第15的纯净语音信号的能量获得。
第1帧的纯净语音信号的混响能量系数g1与第1帧的纯净语音信号能量在所述第1帧的卷积,即为第一帧的瞬时语音信号在第16帧产生的混响语音信号能量,由此可以用下述公式3.1来表示第16帧的语音信号的能量:
E16=S16+Σl=115glSl---3.1]]>
在公式3.1中,E16为第16帧语音信号的能量,glSl为第l帧的纯净语音信号的混响能量系数与第l帧的纯净语音能量的卷积,其中,l=1,2,…,15。
根据公式3.1可知,获取语音信号的连续的L帧信号的第L帧信号的能量,以及第1帧至第L-1帧的纯净语音信号的能量,以及第1帧至第L-1帧的纯净语音信号的混响能量系数,就可以得到第L帧的语音信号中的纯净语音信号的能量。
具体的,在计算信号的能量时,可以将信号按照频率分为若干子带,分别计算每个子带的能量,这样可以减少计算量,且不会影响计算的准确度,当然,计算每个子带的能量是本领域技术人员的公知技术,本发明实施例对此不再赘述。
当然,最初的若干帧语音信号的纯净语音信号能量是无法获得的,可以采用预估计的方法得到,例如,在计算第16帧的纯净语音信号能量时,第1帧到第15帧的纯净语音信号的能量此时是未知的,可以通过预估计的方法获得。
在计算第17帧的纯净语音信号能量时,需要用到第2帧到第16帧的纯净语音信号的能量,此时,可以使用通过预估计的方法获得的第2帧到第15帧的纯净语音信号的能量,以及上一步计算出的第16帧的纯净语音信号的能量。
在计算第18帧的纯净语音信号的能量时,需要用到第3帧到第17帧的纯净语音信号的能量,此时,可以使用通过预估计的方法获 得的第3帧到第15帧的纯净语音信号的能量,以及计算出的第16帧的纯净语音信号的能量和第17帧的纯净语音信号的能量。
以此类推,当计算第31帧的纯净语音信号的能量时,需要用到的第16帧到第30帧的纯净语音信号的能量都是通过本发明方案得到的纯净语音信号的能量;
即,若通过冲激响应能量衰减曲线的斜率得到混响太阳城集团为16帧,当Y>=31时,在计算第Y帧的纯净语音信号的能量时,需要用到的第Y-15至Y-1帧的纯净语音信号的能量都是通过本发明方案计算得来的。
具体的,获得第L帧语音信号的能量以及通过预估计的方法获得第1帧到第L-1帧的纯净语音信号的能量是本领域技术人员的公知技术,本发明实施例对此不再赘述。
通过公式3.1,在获取语音信号的连续的L帧信号的第L帧信号的能量,以及第1帧至第L-1帧的纯净语音信号的能量后,还需要获取所述连续L帧信号的第1帧至第L-1帧的纯净语音信号的混响能量系数g1,g2,…,gL-1,才能获得第L帧语音信号中的纯净语音信号的能量。
具体的,可以采用如下的方法获得语音输入开始时的第1帧至第L-1帧的纯净语音信号的混响能量系数g1,g2,…,gL-1:
第l-1帧的纯净语音信号的混响能量系数gl-1与第l帧的纯净语音信号的混响能量系数gl,以及冲激响应的能量衰减曲线的斜率q之间存在如下公式3.2的关系:
q≈10*log10(gl-1gl)---3.2]]>
令则根据公式3.2,可得如下公式3.3:
F=10q10---3.3]]>
根据F,通过如下公式3.4,可以得到所述第1帧到所述第L-1帧的纯净语音的混响能量系数:
gl=(F)L-l    3.4
不难得出,第L-1帧的纯净语音信号的混响能量系数gL-1=F,即为上述公式(3)中的a。
需要说明的是,因为第1帧至第L-1帧的纯净语音信号的混响能量系数不会是严格的等比例衰减的关系,通过上述方法得到的第1帧到第L-1帧的纯净语音信号的混响能量系数g1,g2,…,gL-1有可能会不准确,需要对其进行更新。
当然,也可以通过设置经验值的方法获得第1帧到第L-1帧的纯净语音信号的混响能量系数g1,g2,…,gL-1,本发明实施例对此不做限定。
具体的,在对第i个语音输入设备的g1,g2,…,gL-1进行更新的过程中,需要用到第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的能量,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数,以及第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的能量。
当然,所述语音输入设备可以是麦克风,也可以是会议电话或会议电视的一个输入端,或是其他语音输入设备;
所述其他语音输入设备可以是1个,也可以是多个,本发明实施例对此不做限定。
需要说明的是,第i个语音输入设备输入的连续L帧语音信号和其他M-1个语音输入设备输入的连续L帧语音信号,是同一声源在同一太阳城集团段(L帧太阳城集团段)内输入的信号。
302、根据所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的能量,和所述第i个以 及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数,对所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数进行更新。
具体的,可以根据所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的能量,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数,采用双通道(两个语音输入设备)或者多通道(三个及以上的语音输入设备)最小均方算法(Least mean square,LMS),对第i个语音输入设备的g1,g2,…,gL-1进行自适应更新,也可以通过其他方式对所述g1,g2,…,gL-1进行自适应更新,具体的,本发明实施例对此不做限定。
举例来说,当语音输入开始时,在进行第16帧的语音信号去除混响的过程中,根据公式3.4获得第1帧到第1-15帧的纯净语音信号的混响能量系数g1,g2,…,g15的初始值,然后通过双通道或多通道的最小均方算法对g1,g2,…,g15进行自适应更新,获得g1,g2,…,g15的更新值。
当进行第17帧的语音信号去除混响的过程中,根据上述获得的g1,g2,…,g15的更新值作为第2帧到第16帧的纯净语音信号的混响能量系数的初始值,并通过双通道或多通道的最小均方算法对g1,g2,…,g15的更新值进行再次更新。
以此类推,在每一帧都进行一次第1帧到第L-1帧纯净语音信号的混响能量系数的自适应更新的过程,并且,在进行第L+1帧的语音信号去除混响的过程中,需要用到第L帧语音信号能量的系数,基于此,在对第1帧到第L-1帧的纯净语音信号的混响能量系数进行更新的过程中,也需要对第L帧语音信号能量的系数进行更新。
需要说明的是,通过本发明方案,假设混响太阳城集团为L帧,无法去除语音输入最开始的连续L帧语音信号的第1至第L-1帧的语音信号中的混响信号,但是,第1帧至第L-1帧的太阳城集团非常短暂,只有 0.3s左右,并不会对整体去除混响的效果造成太大的影响。
303、根据所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的能量,和所述第i个语音输入设备的更新后的第1帧至第L-1帧的纯净语音信号的混响能量系数,估算所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号对所述第L帧语音信号产生的混响信号的混响能量。
根据公式3.4计算出第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数,并对所述第1帧至第L-1帧的纯净语音信号的混响能量系数进行更新后,根据所述第i个语音输入设备输入的连续L帧信号的第1帧至第L-1帧的纯净语音信号的能量,和所述更新后的第1帧至第L-1帧的纯净语音信号的混响能量系数,根据公式(1)的等式右边第二项,就可以估算出所述第1帧至第L-1帧纯净语音信号对所述第L帧信号产生的混响信号的混响能量。
304、根据所述第i个语音输入设备输入的连续L帧语音信号的第L帧信号的能量和所述混响能量,获得所述第L帧信号的纯净语音信号的能量。
将所述第i个语音输入设备输入的连续L帧语音信号的第L帧信号的能量减去所述第1帧至第L-1帧的纯净语音信号对所述第L帧信号产生的混响信号的混响能量,就可以得到所述第L帧语音信号的纯净语音信号的能量。
相较于通过公式3.4得到的第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数,通过自适应更新后的所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数,与实际的第1帧至第L-1帧的纯净语音信号的混响能量系数更为接近。
基于此,通过自适应更新后的所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数,与所述第i个语音输入设备输入的连续L帧信号的第1帧至第L-1帧的纯净语音信号的能量,得到的第1帧至第L-1帧的纯净语音 信号对所述第L帧信号产生的混响信号的混响能量更加准确,去除混响的效果更好。
本发明实施例提供了一种消除混响的方法,该方法包括:获取第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的能量,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数,以及第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的能量,其中,所述语音信号包含纯净语音信号和混响信号,所述连续L帧语音信号为频域信号,所述L大于1;根据所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的能量,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数,对所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数进行更新;根据所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的能量,和所述第i个语音输入设备的更新后的第1帧至第L-1帧的纯净语音信号的混响能量系数,估算所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号对所述第L帧语音信号产生的混响信号的混响能量;根据所述第i个语音输入设备输入的连续L帧语音信号的第L帧信号的能量和所述混响能量,获得所述第L帧信号的纯净语音信号的能量。基于该方法,对第1帧至第L-1帧的纯净语音信号的混响能量系数进行了更新,得到的第1帧至第L-1帧的纯净语音信号对所述第L帧信号产生的混响信号的混响能量更加准确,因此,通过该方法,可以更加准确的获得语音信号中的混响信号的能量,并消除该混响信号的影响,从而提高了语音质量。
本发明实施例提供了一种消除混响的方法,结合图4,该方法包括:
401、获取第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的能量,和所述第i个以及其 他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数,以及第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的能量,其中,所述语音信号包含纯净语音信号和混响信号,所述连续L帧语音信号为频域信号,所述L大于1。
步骤401的详细实施过程可参见上述实施例中的步骤301,本发明实施例对此不再赘述。
402、根据第二公式获得第i个语音输入设备和第j个语音输入设备的连续L帧信号的能量的差,其中,所述第二公式为:
其中,当1<=l<=L-1时,所述gj,lEi,l为第j个语音输入设备的第l帧的纯净语音信号的混响能量系数与第i个语音输入设备的第l帧的信号能量的卷积,所述gi,lEj,l为第i个语音输入设备的第l帧的纯净语音信号的混响能量系数与第j个语音输入设备的第l帧的信号能量的卷积,当l=L时,所述gj,lEi,l为第j个语音输入设备的第L帧的语音信号能量的系数与第i个语音输入设备的第L帧的信号能量的卷积,所述gi,lEj,l为第i个语音输入设备的第L帧的语音信号能量的系数与第j个语音输入设备的第L帧的信号能量的卷积。
具体的,通过双通道(两个语音输入设备)或多通道(两个以上语音输入设备输入的语音信号)的最小均方算法,对所述第1帧到所述第L-1帧的纯净语音信号的混响能量系数进行更新的过程如下:
由于第i个语音输入设备输入的连续L帧的语音信号的第1至第L帧的语音信号的能量,第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数,第j个语音输入设备输入的连续L帧的语音信号的第1至第L帧的语音信号的能量,第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数之间,存在如下述公式4.1的关系:
Σl=1Lgj,lEi,l=Σl=1Lgi,lEj,l---4.1]]>
其中,当1<=l<=L-1时,gj,lEi,l为第j个语音输入设备输入的信号的第l帧的纯净语音信号的混响能量系数与第i个语音输入设备输入的信号的第l帧的语音能量的卷积,gi,lEj,l为第i个语音输入设备输入的信号的第l帧的纯净语音信号的混响能量系数与第j个语音输入设备输入的信号的第l帧的语音能量的卷积;当l=L时,gj,lEi,l为第j个语音输入设备输入的信号的第L帧的语音信号能量的系数与第i个语音输入设备输入的信号的第L帧的语音能量的卷积,gi,lEj,l为第i个语音输入设备输入的信号的第L帧的语音信号能量的系数与第j个语音输入设备输入的信号的第L帧的语音能量的卷积。
需要说明的是,两个语音输入设备输入的连续的L帧的信号必须是由同一声源发出的在同一太阳城集团段内的连续L帧的语音信号。
基于公式4.1,可以构造如下公式4.2,用于表示语音输入设备i和语音输入设备j的连续L帧信号的能量的差:
ei,j=Σl=1Lgj,lEi,l-Σl=1Lgi,lEj,l---4.2]]>
当所述第i个语音输入设备输入的连续L帧的语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数和所述第j个语音输入设备输入的连续L帧的语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数使上述公式4.2的值最小时,得到的所述语音输入设备i输入的连续L帧的语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数和语音输入设备j输入的连续L帧的语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数最接近实际情况,通过其得到的语音输入设备i和语音输入设备j输入的连续L帧语音信号中第1帧至第L-1帧纯净语音信号在第L帧产生的混响信号的能量与实际的第1帧至第L-1帧纯净语音信号在第L帧产生的混响信号的能量的误差最小。
403、根据所述第二公式获得所述第i个语音输入设备和其他M-1 个语音输入设备两两之间的连续L帧信号的能量的差。
以双通道,即两个语音输入设备同时输入同一声源的语音信号的最小均方算法为例,假设语音输入设备1和语音输入设备2同时输入同一声源的语音信号,取同一太阳城集团段内语音输入设备1输入的语音信号的连续L帧信号和语音输入设备2输入的语音信号的连续L帧信号。
语音输入设备1和语音输入设备2的连续L帧信号的能量的差可用如下公式4.3表示:
e1,2=Σl=1Lg2,lE1,l-Σl=1Lg1,lE2,l---4.3]]>
当所述第1个语音输入设备输入的连续L帧的语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数和所述第2个语音输入设备输入的连续L帧的语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数使上述公式4.2的值最小时,得到的所述语音输入设备1输入的连续L帧的语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数和语音输入设备2输入的连续L帧的语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数最接近实际情况,通过其得到的语音输入设备1和语音输入设备2输入的连续L帧语音信号中第1帧至第L-1帧纯净语音信号在第L帧产生的混响信号的能量与实际的第1帧至第L-1帧纯净语音信号在第L帧产生的混响信号的能量的误差最小。
再举例来说,以三通道,即三个语音输入设备同时输入同一声源的语音信号的最小均方算法为例,假设语音输入设备1、语音输入设备2和语音输入设备3同时输入同一声源的语音信号,取同一太阳城集团段内语音输入设备1输入的语音信号的连续L帧信号、语音输入设备2输入的语音信号的连续L帧信号和语音输入设备3输入的语音信号的 连续L帧信号。
语音输入设备1、语音输入设备2和语音输入设备3两两之间的连续L帧信号的能量的差可用如下公式4.4-4.6表示:
e1,2=Σl=1Lg2,lE1,l-Σl=1Lg1,lE2,l---4.4]]>
e2,3=Σl=1Lg3,lE2,l-Σl=1Lg2,lE3,l---4.5]]>
e3,1=Σl=1Lg1,lE3,l-Σl=1Lg3,lE1,l---4.6]]>
当所述e1,2、所述e2,3和所述e3,1最小时,得到的所述语音输入设备1输入的连续L帧的语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数、语音输入设备2输入的连续L帧的语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数和语音输入设备3输入的连续L帧的语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数最接近实际情况,通过其得到的语音输入设备1、语音输入设备2和语音输入设备3输入的连续L帧语音信号的第1帧至第L-1帧纯净语音信号在第L产生的混响信号的能量与实际第L帧的语音信号中的混响信号的能量的误差最小。
需要说明的是,若只去除第i个语音输入设备输入的连续L帧语音信号的第1至第L-1帧的纯净语音信号在第L帧产生的混响信号,那么,在这一步中,只需要获取第i个语音输入设备与其他M-1个语音输入设备的两两之间的连续L帧信号的能量的差即可。
以三通道为例,若只去除第1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号在第L帧产生的混响信号,则只需要通过公式4.4和公式4.6获得e1,2和e3,1即可。
404、根据所述第i个语音输入设备和其他M-1个语音输入设备两两之间的连续L帧信号的能量的差,获得三公式,所述第三公式 为:
其中,当1<=l<=L-1时,所述为第i个语音输入设备第l帧纯净语音信号的混响能量系数的更新值,所述gi,l为第i个语音输入设备第l帧纯净语音信号的混响能量系数,所述μl为预设置的第l帧的更新系数,所述h(ei,El)为根据第i个语音输入设备和其他M-1个语音输入设备两两之间的连续L帧信号的能量的差,以及其他M-1个语音输入设备的连续L帧语音信号的第1帧至第L帧的语音信号的能量得到的值。
根据所述第三公式,获得所述第i个语音输入设备的所述连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数的更新值。
需要说明的是,根据公式4.2,为使得ei,j最小,除了需要第i个语音输入设备输入的连续L帧语音信号的第1至L-1帧的纯净语音信号的混响能量系数gi,l,以及第j个语音输入设备输入的连续L帧语音信号的第1至L-1帧的纯净语音信号的混响能量系数gj,l,其中,1<=l<=L-1,还需要第i个语音输入设备输入的第L帧语音信号能量的系数gi,L和第j个语音输入设备输入的第L帧语音信号能量的系数gj,L。
因此,在进行第i个语音输入设备和第j个语音输入设备输入的连续L帧语音信号的第1至L-1帧的纯净语音信号的混响能量系数的更新过程中,也需要对第i个语音输入设备和第j个语音输入设备输入的连续L帧语音信号的第L帧语音信号能量的系数gi,L和gj,L进行更新,具体的,gi,L和gj,L的初始值可设置为1。
以双通道为例,根据公式4.3,当e1,2的绝对值最小时,获得的语音输入设备1和语音输入设备2输入的语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数最接近实际值,基于此,可以构造如下述公式4.7的函数:
J1,2=e1,22    4.7
具体的,可以取Ji,j为ei,j的2n次方,其中,n>=1。
通过J1,2分别对语音输入设备1和语音输入设备2输入的语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数求偏导,得到公式4.8和公式4.9:
∂J1,2∂g1,l=-2*e1,2*E2,l,l=1,2,..L---4.8]]>
∂J1,2∂g2,l=2*e1,2*E1,l,l=1,2,..L---4.9]]>
根据公式4.8和公式4.9,容易得到语音输入设备1和语音输入设备2的第1帧至第L-1帧的纯净语音能量的混响能量系数以及第L帧的语音信号能量的系数的更新公式4.10和公式4.11:
g1,l,=g1,l+μl*e1,2*E2,lΣl=1LE2,l*E2,l,l=1,2,..L---4.10]]>
g2,l,=g2,l+μl*e1,2*E1,lΣl=1LE1,l*E1,l,l=1,2,...,L---4.11]]>
其中,当1<=l<=L-1时,g1,l’和g2,l’分别是更新后的语音输入设备1和语音输入设备2输入的语音信号的第l帧信号的纯净语音信号的混响能量系数,g1,l和g2,l分别是更新前的语音输入设备1和语音输入设备2输入的语音信号的第l帧信号的纯净语音信号的混响能量系数,μl是预设置的第l帧信号所对应的更新系数,当l=L时,g1,l’和g2,l’分别是更新后的语音输入设备1和语音输入设备2输入的语音信号的第L帧信号的语音信号能量的系数,g1,l和g2,l分别是更新前的语音输入设备1和语音输入设备2输入的语音信号的第L帧信号的语 音信号能量的系数,μl是预设置的第l帧信号所对应的更新系数。
需要说明的是,结合公式4.3,当语音输入设备1的g1,l和语音输入设备2的g2,l的值均为0时,得到的e1,2的绝对值最小,为0,但是,这是一种错误的情况,为避免这种情况的发生,在对g1,l和g2,l进行更新后,需要对g1,l和g2,l进行归一化处理,具体的,对g1,l和g2,l进行归一化处理是本领域技术人员的公知技术,本发明实施例对此不再赘述。
根据公式4.10,举例来说,当混响太阳城集团为16帧时,对语音输入设备1输入的第1帧到第15帧的纯净语音信号的混响能量系数的更新过程中,需要用到的参数为:第1帧到第15帧的纯净语音信号的混响能量系数的初始值,预设置的第L帧信号所对应的更新系数μl,e1,2和E2,l,其中,e1,2由第1-15帧纯净语音信号的混响能量系数的初始值和第16帧语音信号能量的系数的初始值,以及第1-16帧的语音信号的能量获得。
在进行第17帧语音信号去除混响的过程中,根据公式4.10,在对第2帧到第16帧纯净语音信号的混响能量系数进行更新的过程中,需要用到的参数为:第2帧到第16帧的纯净语音信号的混响能量系数的初始值(即为第1帧到第15帧的纯净语音信号的更新值),预设置的第L帧信号所对应的更新系数μl,e1,2和E2,l,其中,e1,2由第2-16帧纯净语音信号的混响能量系数的初始值和第17帧语音信号能量的系数的初始值(即第16帧语音信号能量的更新值),以及第2-17帧的语音信号的能量获得。
以此类推可以得到,在进行第1至L-1帧纯净语音信号混响能量系数更新的过程中,也需要对第L帧语音信号能量的系数进行更新。
再举例来说,以三通道为例,对语音输入设备1、语音输入设备2和语音输入设备3输入的语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数进行更新的过程为:
结合公式4.4到公式4.6,当所述e1,2、所述e2,3和所述e3,1的绝对值最小时,获得的语音输入设备1、语音输入设备2和语音输入设备3输入的语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数最接近实际值,基于此,可以构造如下述公式4.12-4.14的函数:
J1,2=e1,22    4.12
J2,3=e2,32    4.13
J3,1=e3,12    4.14
通过J1,2分别对语音输入设备1和语音输入设备2输入的语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数求偏导,通过J2,3分别对语音输入设备2和语音输入设备3输入的语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数求偏导,通过J3,1分别对语音输入设备3和语音输入设备1输入的语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数求偏导,得到公式4.15-公式4.20:
∂J1,2∂g1,l=-2*e1,2*E2,l,l=1,2,..L---4.15]]>
∂J1,2∂g2,l=2*e1,2*E1,l,l=1,2,..L---4.16]]>
∂J2,3∂g2,l=-2*e2,3*E3,l,l=1,2,..L---4.17]]>
∂J2,3∂g3,l=2*e2,3*E2,l,l=1,2,..L---4.18]]>
∂J3,1∂g3,l=-2*e1,2*E1,l,l=1,2,..L---4.19]]>
∂J3,1∂g1,l=2*e1,2*E3,l,l=1,2,..L---4.20]]>
根据公式4.15到公式4.20容易得到语音输入设备1、语音输入设备2和语音输入设备3的第1帧至第L帧纯净语音能量的混响能量系数的更新公式4.21到公式4.23:
g1,l,=g1,l+μl*e1,2*E2,lΣl=1LE2,l*E2,l-μl*e3,1*E3,lΣl=1LE3,l*E3,l,l=1,2,..L---4.21]]>
g2,l,=g2,l(i)+μl*e1,2*E1,lΣl=1LE1,l*E1,l+μl*e2,3*E3,lΣl=1LE3,l*E3,l,l=1,2,...,L---4.22]]>
g3,l,=g3,l+μl*e3,1*E1,lΣl=1LE1,l*E1,l-μl*e2,3*E2,lΣl=1LE2,l*E2,l,l=1,2,..L---4.23]]>
其中,当1<=l<=L-1时,g1,l’、g2,l’和分别是更新后的语音输入设备1、语音输入设备2和语音输入设备3输入的语音信号的第l帧信号的纯净语音信号的混响能量系数,g1,l、g2,l和g3,l分别是更新前的语音输入设备1、语音输入设备2和语音输入设备3输入的语音信号的第l帧信号的纯净语音信号的混响能量系数,当l=L时,g1,l’、g2,l’和分别是更新后的语音输入设备1、语音输入设备2和语音输入设备3输入的语音信号的第L帧信号的语音信号能量的系数,g1,l、g2,l和g3,l分别是更新前的语音输入设备1、语音输入设备2和语音输入设备3输入的语音信号的第L帧信号的语音信号能量的系数,μl是预设置的第l帧信号所对应的更新系数。
同样的,对更新后的g1,l’、g2,l’和也要做归一化处理,本发明实施例对不再赘述。
需要说明的是,无论是利用双通道最小均方算法还是三通道最小均方算法,在一个固定的环境中,例如在一个固定的会议环境中,考虑到离第L帧语音信号越近的帧,例如第L-1帧,第L-2帧,其在第L帧产生的混响信号对第L帧的语音信号产生的混响信号的变化较大,离第L帧语音信号较远的帧,如第1帧或第2帧,其在第L帧产生的混响信号的变化较小,且声源在第L帧输入的直达声,即在第L帧输入的纯净语音信号的变化较大,基于此,在预设置更新系数μl时,可以使μL≥μL-1≥μL-2≥...≥μ1。具体的,可以依据实际情况在合理范围内对μl进行取值,本发明实施例对此不做限定。通过这种方法, 可以快速的跟踪第L帧的直达声以及离第L帧较近的帧的纯净语音在第L帧产生的混响信号的变化,并且可以保证离第L帧较远的帧的纯净语音信号在第L帧产生的混响信号的稳定性。
405、根据所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的能量,和所述第i个语音输入设备的更新后的第1帧至第L-1帧的纯净语音信号的混响能量系数,估算所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号对所述第L帧语音信号产生的混响信号的混响能量。
406、根据所述第i个语音输入设备输入的连续L帧语音信号的第L帧信号的能量和所述混响能量,获得所述第L帧信号的纯净语音信号的能量。
具体的,步骤406和步骤407的详细实施过程可参见上述实施例中的步骤303和步骤304,本发明实施例对此不再赘述。
本发明实施例提供了一种消除混响的方法,基于该方法,对第1帧至第L-1帧的纯净语音信号的混响能量系数进行了自适应更新,得到的第1帧至第L-1帧的纯净语音信号对所述第L帧信号产生的混响信号的混响能量更加准确,因此,通过该方法,可以更加准确的获得语音信号中的混响信号的能量,并消除该混响信号的影响,从而提高了语音质量。
本发明实施例提供了一种消除混响的方法,结合图5,该方法包括:
501、获取第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的幅度,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响幅度系数以及第L帧的纯净语音信号幅度的系数,以及第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的幅度,其中,所述语音信号包含纯净语音信号和混响信号,所述连续L帧语音信号为频域信号,所述L大于1。
502、根据所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的幅度,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响幅度系数以及第L帧的纯净语音信号幅度的系数,对所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响幅度系数以及第L帧的纯净语音信号幅度的系数进行更新。
503、根据所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的幅度,和所述第i个语音输入设备的更新后的第1帧至第L-1帧的纯净语音信号的混响幅度系数,估算所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号对所述第L帧语音信号产生的混响信号的混响幅度。
504、根据所述第i个语音输入设备输入的连续L帧语音信号的第L帧信号的幅度和所述混响幅度,获得所述第L帧信号的纯净语音信号的幅度。
在上述实施例中,从能量的角度对连续L帧语音信号的第L帧的语音信号进行混响消除,可选的,也可以从幅度的角度对所述连续L帧语音信号的第L帧的语音信号进行混响消除,具体的,步骤501-504的技术特征可参见上述实施例中的步骤301-步骤304中的技术特征,本发明实施例对此不再赘述。
本发明实施例提供了一种消除混响的方法,该方法包括:获取第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的幅度,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响幅度系数以及第L帧的纯净语音信号幅度的系数,以及第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的幅度,其中,所述语音信号包含纯净语音信号和混响信号,所述连续L帧语音信号为频域信号,所述L大于1;根据所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的幅度,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的 混响幅度系数以及第L帧的纯净语音信号幅度的系数,对所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响幅度系数以及第L帧的纯净语音信号幅度的系数进行更新;根据所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的幅度,和所述第i个语音输入设备的更新后的第1帧至第L-1帧的纯净语音信号的混响幅度系数,估算所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号对所述第L帧语音信号产生的混响信号的混响幅度;根据所述第i个语音输入设备输入的连续L帧语音信号的第L帧信号的幅度和所述混响幅度,获得所述第L帧信号的纯净语音信号的幅度。基于该方法,对第1帧至第L-1帧的纯净语音信号的混响幅度系数进行了更新,得到的第1帧至第L-1帧的纯净语音信号对所述第L帧信号产生的混响信号的混响幅度更加准确,因此,通过该方法,可以更加准确的获得语音信号中的混响信号的幅度,并消除该混响信号的影响,从而提高了语音质量。
本发明实施例提供了一种消除混响的装置,结合图6,该装置包括:第一获得单元601,第一更新单元602,第一估算单元603和第二获得单元604;
所述第一获得单元601,用于获取第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的能量,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数,以及第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的能量,其中,所述语音信号包含纯净语音信号和混响信号,所述连续L帧语音信号为频域信号,所述L大于1;
所述第一更新单元602,用于根据所述第一获得单元601发送的所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的能量,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数,对所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净 语音信号的混响能量系数以及第L帧的语音信号能量的系数进行更新;
所述第一估算单元603,用于根据所述第一获得单元601发送的所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的能量,和所述第一更新单元602发送的所述第i个语音输入设备的更新后的第1帧至第L-1帧的纯净语音信号的混响能量系数,估算所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号对所述第L帧语音信号产生的混响信号的混响能量;
所述第二获得单元604,用于根据所述第一获得单元601发送的所述第i个语音输入设备输入的连续L帧语音信号的第L帧信号的能量和所述第一估算单元603发送的所述混响能量,获得所述第L帧信号的纯净语音信号的能量。
可选的,所述第一获得单元601具体用于:根据预设的冲激信号的能量衰减曲线的斜率q,通过第一公式,获得所述i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数g1、g2…gL-1以及第L帧的语音信号能量的系数gL,其中,所述第一公式为:
其中,1<=l<=L。
具体的,所述L为混响太阳城集团T与帧的预设太阳城集团长度的比值取整,其中,所述混响太阳城集团T为根据所述预设的冲激信号的能量衰减曲线的斜率q,估计的所述冲激信号的能量衰减至预设能量的太阳城集团。
具体的,所述第一更新单元602具体用于:根据第二公式获得第i个语音输入设备和第j个语音输入设备的连续L帧信号的能量的差,其中,所述第二公式为:
其中,当1<=l<=L-1时,所述gj,lEi,l为第j个语音输入设备的第l帧的纯净语音信号的混响能量系数与第i个语音输入设备的第l帧的信号能量的卷积,所述gi,lEj,l为第i个语音 输入设备的第l帧的纯净语音信号的混响能量系数与第j个语音输入设备的第l帧的信号能量的卷积,当l=L时,所述gj,lEi,l为第j个语音输入设备的第L帧的语音信号能量的系数与第i个语音输入设备的第L帧的信号能量的卷积,所述gi,lEj,l为第i个语音输入设备的第L帧的语音信号能量的系数与第j个语音输入设备的第L帧的信号能量的卷积;
根据所述第二公式获得所述第i个语音输入设备和其他M-1个语音输入设备两两之间的连续L帧信号的能量的差;
根据所述第i个语音输入设备和其他M-1个语音输入设备两两之间的连续L帧信号的能量的差,获得三公式,所述第三公式为:
其中,当1<=l<=L-1时,所述为第i个语音输入设备第l帧纯净语音信号的混响能量系数的更新值,所述gi,l为第i个语音输入设备第l帧纯净语音信号的混响能量系数,所述μl为预设置的第l帧的更新系数,所述h(ei,El)为根据第i个语音输入设备和其他M-1个语音输入设备两两之间的连续L帧信号的能量的差,以及其他M-1个语音输入设备的连续L帧语音信号的第1帧至第L帧的语音信号的能量得到的值;
根据所述第三公式,获得所述第i个语音输入设备的所述连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数的更新值。
具体的,所述μl>=μl-1,其中,所述μl为预设置的第l帧的更新系数,所述μl-1为预设置的第l-1帧的更新系数,所述第l-1帧是第l帧的前一帧,所述1<=l-1。
本发明实施例提供了一种消除混响的装置,该装置包括:第一获得单元,第一更新单元,第一估算单元和第二获得单元。所述第一获得单元获取第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的能量,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数,以及第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧 的纯净语音信号的能量,其中,所述语音信号包含纯净语音信号和混响信号,所述连续L帧语音信号为频域信号,所述L大于1;所述第一更新单元根据所述第一获得单元发送的所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的能量,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数,对所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数进行更新;所述第一估算单元根据所述第一获得单元发送的所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的能量,和所述第一更新单元发送的所述第i个语音输入设备的更新后的第1帧至第L-1帧的纯净语音信号的混响能量系数,估算所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号对所述第L帧语音信号产生的混响信号的混响能量;所述第二获得单元根据所述第一获得单元发送的所述第i个语音输入设备输入的连续L帧语音信号的第L帧信号的能量和所述第一估算单元发送的所述混响能量,获得所述第L帧信号的纯净语音信号的能量。基于该装置,对第1帧至第L-1帧的纯净语音信号的混响能量系数进行了更新,得到的第1帧至第L-1帧的纯净语音信号对所述第L帧信号产生的混响信号的混响能量更加准确,因此,通过该装置,可以更加准确的获得语音信号中的混响信号的能量,并消除该混响信号的影响,从而提高了语音质量。
本发明实施例提供了一种消除混响的装置,结合图7,该装置包括:第三获得单元701,第二更新单元702,第二估算单元703和第四获得单元704:
所述第三获得单元701,用于获取第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的幅度,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响幅度系数以及第L帧的纯净语音信号幅度的系数,以及第i个语音输入设备输入的连续L 帧语音信号的第1帧至第L-1帧的纯净语音信号的幅度,其中,所述语音信号包含纯净语音信号和混响信号,所述连续L帧语音信号为频域信号,所述L大于1;
所述第二更新单元702,用于根据所述第三获得单元701发送的所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的幅度,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响幅度系数以及第L帧的纯净语音信号幅度的系数,对所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响幅度系数以及第L帧的纯净语音信号幅度的系数进行更新;
所述第二估算单元703,用于根据所述第三获得单元701发送的所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的幅度,和所述第二更新单元702发送的所述第i个语音输入设备的更新后的第1帧至第L-1帧的纯净语音信号的混响幅度系数,估算所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号对所述第L帧语音信号产生的混响信号的混响幅度;
所述第四获得单元704,用于根据所述第三获得单元701发送的所述第i个语音输入设备输入的连续L帧语音信号的第L帧信号的幅度和所述第二估算单元703发送的所述混响幅度,获得所述第L帧信号的纯净语音信号的幅度。
本发明实施例提供了一种消除混响的装置,该装置包括:第三获得单元,第二更新单元,第二估算单元和第四获得单元。所述第三获得单元获取第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的幅度,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响幅度系数以及第L帧的纯净语音信号幅度的系数,以及第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的幅度,其中,所述语音信号包含纯净语音信号和混响信号,所述连续L帧语音信号为频域信号,所述L大于1; 所述第二更新单元根据所述第三获得单元发送的所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的幅度,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响幅度系数以及第L帧的纯净语音信号幅度的系数,对所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响幅度系数以及第L帧的纯净语音信号幅度的系数进行更新;所述第二估算单元根据所述第三获得单元发送的所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的幅度,和所述第二更新单元发送的所述第i个语音输入设备的更新后的第1帧至第L-1帧的纯净语音信号的混响幅度系数,估算所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号对所述第L帧语音信号产生的混响信号的混响幅度;所述第四获得单元根据所述第三获得单元发送的所述第i个语音输入设备输入的连续L帧语音信号的第L帧信号的幅度和所述第二估算单元发送的所述混响幅度,获得所述第L帧信号的纯净语音信号的幅度。基于该装置,对第1帧至第L-1帧的纯净语音信号的混响幅度系数进行了更新,得到的第1帧至第L-1帧的纯净语音信号对所述第L帧信号产生的混响信号的混响幅度更加准确,因此,通过该装置,可以更加准确的获得语音信号中的混响信号的幅度,并消除该混响信号的影响,从而提高了语音质量。
本发明实施例提供了一种消除混响的设备,结合图8,该设备包括:第一收发器801和第一处理器802;
所述第一收发器801用于:接收第i个语音输入设备以及其他M-1个语音输入设备输入的连续L帧语音信号;
所述第一处理器802用于:获取第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的能量,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数,以及第i个语音输入设备输入的连续L帧语音信 号的第1帧至第L-1帧的纯净语音信号的能量,其中,所述语音信号包含纯净语音信号和混响信号,所述连续L帧语音信号为频域信号,所述L大于1;
根据所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的能量,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数,对所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数进行更新;
根据所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的能量,和所述第i个语音输入设备的更新后的第1帧至第L-1帧的纯净语音信号的混响能量系数,估算所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号对所述第L帧语音信号产生的混响信号的混响能量;
根据所述第i个语音输入设备输入的连续L帧语音信号的第L帧信号的能量和所述混响能量,获得所述第L帧信号的纯净语音信号的能量。
可选的,所述第一处理器802还用于:
根据预设的冲激信号的能量衰减曲线的斜率q,通过第一公式,获得所述i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数g1、g2…gL-1以及第L帧的语音信号能量的系数gL,其中,所述第一公式为:
其中,1<=l<=L。
具体的,所述L为混响太阳城集团T与帧的预设太阳城集团长度的比值取整,其中,所述混响太阳城集团T为根据所述预设的冲激信号的能量衰减曲线的斜率q,估计的所述冲激信号的能量衰减至预设能量的太阳城集团。
具体的,所述第一处理器802用于:
根据第二公式获得第i个语音输入设备和第j个语音输入设备的连续L帧信号的能量的差,其中,所述第二公式为:
其中,当1<=l<=L-1时,所述gj,lEi,l为第j个语音输入设备的第l帧的纯净语音信号的混响能量系数与第i个语音输入设备的第l帧的信号能量的卷积,所述gi,lEj,l为第i个语音输入设备的第l帧的纯净语音信号的混响能量系数与第j个语音输入设备的第l帧的信号能量的卷积,当l=L时,所述gj,lEi,l为第j个语音输入设备的第L帧的语音信号能量的系数与第i个语音输入设备的第L帧的信号能量的卷积,所述gi,lEj,l为第i个语音输入设备的第L帧的语音信号能量的系数与第j个语音输入设备的第L帧的信号能量的卷积;
根据所述第二公式获得所述第i个语音输入设备和其他M-1个语音输入设备两两之间的连续L帧信号的能量的差;
根据所述第i个语音输入设备和其他M-1个语音输入设备两两之间的连续L帧信号的能量的差,获得三公式,所述第三公式为:
其中,当1<=l<=L-1时,所述为第i个语音输入设备第l帧纯净语音信号的混响能量系数的更新值,所述gi,l为第i个语音输入设备第l帧纯净语音信号的混响能量系数,所述μl为预设置的第l帧的更新系数,所述h(ei,El)为根据第i个语音输入设备和其他M-1个语音输入设备两两之间的连续L帧信号的能量的差,以及其他M-1个语音输入设备的连续L帧语音信号的第1帧至第L帧的语音信号的能量得到的值;
根据所述第三公式,获得所述第i个语音输入设备的所述连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数的更新值。
具体的,所述μl>=μl-1,其中,所述μl为预设置的第l帧的更新系数,所述μl-1为预设置的第l-1帧的更新系数,所述第l-1帧是第l帧的前一帧,所述1<=l-1。
本发明实施例提供了一种消除混响的设备,该设备包括:第一收发器和第一处理器。所述第一收发器接收第i个语音输入设备以及其他M-1个语音输入设备输入的连续L帧语音信号;所述第一处理器 获取第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的能量,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数,以及第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的能量,其中,所述语音信号包含纯净语音信号和混响信号,所述连续L帧语音信号为频域信号,所述L大于1;根据所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的能量,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数,对所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响能量系数以及第L帧的语音信号能量的系数进行更新;根据所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的能量,和所述第i个语音输入设备的更新后的第1帧至第L-1帧的纯净语音信号的混响能量系数,估算所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号对所述第L帧语音信号产生的混响信号的混响能量;根据所述第i个语音输入设备输入的连续L帧语音信号的第L帧信号的能量和所述混响能量,获得所述第L帧信号的纯净语音信号的能量。基于该设备,对第1帧至第L-1帧的纯净语音信号的混响能量系数进行了更新,得到的第1帧至第L-1帧的纯净语音信号对所述第L帧信号产生的混响信号的混响能量更加准确,因此,通过该设备,可以更加准确的获得语音信号中的混响信号的能量,并消除该混响信号的影响,从而提高了语音质量。
本发明实施例提供了一种消除混响的设备,结合图9,该设备包括:第二收发器901和第二处理器902;
所述第二收发器901用于:接收第i个语音输入设备以及其他M-1个语音输入设备输入的连续L帧语音信号;
所述第二处理器902用于:获取第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的幅度,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响幅度系数以及第L帧的纯净语音信号幅度的系数,以及第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的幅度,其中,所述语音信号包含纯净语音信号和混响信号,所述连续L帧语音信号为频域信号,所述L大于1;
根据所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的幅度,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响幅度系数以及第L帧的纯净语音信号幅度的系数,对所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响幅度系数以及第L帧的纯净语音信号幅度的系数进行更新;
根据所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的幅度,和所述第i个语音输入设备的更新后的第1帧至第L-1帧的纯净语音信号的混响幅度系数,估算所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号对所述第L帧语音信号产生的混响信号的混响幅度;
根据所述第i个语音输入设备输入的连续L帧语音信号的第L帧信号的幅度和所述混响幅度,获得所述第L帧信号的纯净语音信号的幅度。
本发明实施例提供了一种消除混响的设备,该设备包括:第二收发器和第二处理器。所述第二收发器接收第i个语音输入设备以及其他M-1个语音输入设备输入的连续L帧语音信号;所述第二处理器获取第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的幅度,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响幅度系数以及第L帧的纯净语音信号幅度的系数,以及第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的幅度,其中,所述语音信号包含纯净语音信号和混响信 号,所述连续L帧语音信号为频域信号,所述L大于1;根据所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L帧的语音信号的幅度,和所述第i个以及其他M-1个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响幅度系数以及第L帧的纯净语音信号幅度的系数,对所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的混响幅度系数以及第L帧的纯净语音信号幅度的系数进行更新;根据所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号的幅度,和所述第i个语音输入设备的更新后的第1帧至第L-1帧的纯净语音信号的混响幅度系数,估算所述第i个语音输入设备输入的连续L帧语音信号的第1帧至第L-1帧的纯净语音信号对所述第L帧语音信号产生的混响信号的混响幅度;根据所述第i个语音输入设备输入的连续L帧语音信号的第L帧信号的幅度和所述混响幅度,获得所述第L帧信号的纯净语音信号的幅度。基于该设备,对第1帧至第L-1帧的纯净语音信号的混响幅度系数进行了更新,得到的第1帧至第L-1帧的纯净语音信号对所述第L帧信号产生的混响信号的混响幅度更加准确,因此,通过该设备,可以更加准确的获得语音信号中的混响信号的幅度,并消除该混响信号的影响,从而提高了语音质量。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
太阳城集团以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

关 键 词:
一种 消除 混响 方法 装置 设备
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
太阳城集团本文
本文标题:一种消除混响的方法、装置和设备.pdf
链接地址:http://zh228.com/p-6140583.html
太阳城集团我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
葡京赌场|welcome document.write ('');