太阳城集团

  • / 13
  • 下载费用:30 金币  

改进的语音可懂度.pdf

摘要
申请专利号:

CN201610412732.0

申请日:

2016.06.13

公开号:

CN106257584A

公开日:

2016.12.28

当前法律状态:

实审

有效性:

审中

法律详情: 实质审查的生效IPC(主分类):G10L 21/0364申请日:20160613|||公开
IPC分类号: G10L21/0364(2013.01)I 主分类号: G10L21/0364
申请人: 恩智浦有限公司
发明人: 阿德里安·丹尼尔
地址: 荷兰埃因霍温高科技园区60
优先权: 2015.06.17 EP 15290161.7
专利代理机构: 中科专利商标代理有限责任公司 11021 代理人: 倪斌
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

CN201610412732.0

授权太阳城集团号:

|||

法律状态太阳城集团日:

2018.06.29|||2016.12.28

法律状态类型:

太阳城集团实质审查的生效|||公开

摘要

太阳城集团本文公开了一种包括处理器和存储器的装置。存储器包括从采样环境噪声计算噪声频谱估值的噪声频谱估计器,从输入语音计算语音频谱估值的语音频谱估计器,使用在语音频谱中检测的每个共振峰内的噪声频谱估值和语音频谱估值计算SNR估值的共振峰信噪比(SNR)估计器。存储器还包括共振峰升高估计器,其计算一组增益因数并将该组增益因数应用到输入语音的每个频率分量,使得在每个共振峰内的所得SNR达到预选目标值。

权利要求书

1.一种装置,其特征在于,包括:
处理器;
存储器,其中,所述存储器包括:
噪声频谱估计器,其从采样环境噪声计算噪声频谱估值;
语音频谱估计器,其从输入语音计算语音频谱估值;
共振峰信噪比(SNR)估计器,其使用在所述输入语音中所检测的每个共振峰内的所述
噪声频谱估值和语音频谱估值计算SNR估值;以及
共振峰提升估计器,其计算一组增益因数并将所述组增益因数应用到所述输入语音的
每个频率分量,使得在每个共振峰内的所得SNR达到预选的目标值。
2.根据权利要求1所述的装置,其特征在于,所述噪声频谱估计器被配置成通过使用通
过采样噪声的离散傅里叶变换获得的平滑参数和过去频谱幅值求平均值来计算噪声频谱
估值。
3.根据权利要求1或2所述的装置,其特征在于,所述语音频谱估计器被配置成使用低
阶线性预测滤波器计算所述语音频谱估值。
4.根据权利要求3所述的装置,其特征在于,所述低阶线性预测滤波器使用莱文森-德
宾算法。
5.根据在前的任一项权利要求所述的装置,其特征在于,所述共振峰SNR估计器被配置
成使用中心定在共振峰中心频率上的关键波段上的语音与噪声的频谱幅度估值平方的总
和的比率计算所述共振峰SNR估值,其中所述关键波段是听觉滤波器的频率带宽。
6.根据在前的任一项权利要求所述的装置,其特征在于,所述组增益因数通过在所述
输入语音中的每个共振峰分段乘以预选因数计算。
7.根据在前的任一项权利要求所述的装置,其特征在于,另外包括输出限制混频器,其
中所述共振峰提升估计器产生滤波器以过滤所述输入语音并且与所述输入语音组合的所
述滤波器的输出被传递通过所述输出限制混频器。
8.根据权利要求7所述的装置,其特征在于,另外包括共振峰解遮蔽滤波器,其过滤所
述输入语音并向将所述共振峰解遮蔽滤波器的输出输入到所述输出限制混频器。
9.根据权利要求6所述的装置,其特征在于,在所述语音输入中的所述每个共振峰通过
共振峰分段模块检测,其中所述共振峰分段模块将所述语音频谱估值分割成共振峰。
10.一种用于执行改进语音可懂度的操作的方法,其特征在于,包括:
接收输入语音信号;
从采样环境噪声计算噪声频谱估值;
从所述输入语音计算语音频谱估值;
计算在所述计算的噪声频谱估值和所述语音频谱估值中的共振峰信噪比(SNR);
分割在所述语音频谱估值中的共振峰;以及
基于所述计算的共振峰提升估值计算用于所述共振峰中的每个共振峰的共振峰提升
因数。
11.根据权利要求10所述的方法,其特征在于,所述噪声频谱估值通过使用通对采样环
境噪声的离散傅里叶变换获得的平滑参数和过去频谱幅值求平均值的过程来计算。
12.根据权利要求10或11所述的方法,其特征在于,所述计算所述噪声频谱估值包括使
用低阶线性预测滤波器计算所述语音频谱估值。
13.根据权利要求12所述的方法,其特征在于,所述低阶线性预测滤波器使用莱文森-
德宾算法。
14.根据权利要求10至13中任一项权利要求所述的方法,其特征在于,所述计算所述共
振峰SNR估值包括使用中心定在共振峰中心频率上的关键波段上的语音与噪声的频谱幅度
估值平方的总和的比率计算所述共振峰SNR估值,其中所述关键波段是听觉滤波器的频率
带宽。
15.根据权利要求10至14中任一项权利要求所述的方法,其特征在于,所述组增益因数
通过在所述输入语音中的每个共振峰分段乘以预选因数计算。

说明书

改进的语音可懂度

技术领域

本发明涉及一种包括处理器和存储器的装置。

背景技术

在移动装置中,降噪技术大大改进音频质量。为改进在嘈杂环境中的语音可懂度,
对于耳机,主动噪声消除(ANC)是有吸引力的提议并且ANC的确在某种程度改进在嘈杂环境
中的音频再现。然而,当移动电话在没有ANC耳机的情况下使用时,ANC方法很少或没有益
处。此外,ANC方法在可被消除的频率上受到限制。

然而,在嘈杂环境中,难以消除所有噪声分量。为了在存在噪声的情况下使语音信
号更可懂,ANC方法不对语音信号进行操作。

语音可懂度可通过提升共振峰来改善。共振峰提升可使用大约表示,通过增加匹
配共振峰的共振获得。接着共振可以出自线性预测编码(LPC)系数的参数形式获得。然而,
共振意味着使用计算上昂贵的多项式求根算法。为降低计算复杂度,这些共振可通过线谱
对表示法(LSP)来操控。增强共振主要在于使自回归传递函数的极点更接近单位圆移动。这
种解决方案还遇到相互作用的问题,其中由于彼此接近的共振相互作用,所以它们难以单
独操控。因此,需要可计算上昂贵的迭代方法。但是即使小心进行,增强共振使其带宽变窄,
这产生人工发声的语音。

发明内容

提供此发明内容以简化形式介绍在下文的具体实施方式中另外描述的概念选择。
该发明内容不旨在识别所要求保护的主题的关键特征或基本特征,也不旨在用于限制所要
求保护的主题的范围。

本文中所描述的实施例解决在存在独立噪声源的情况下改进待再现的语音信号
的可懂度的问题。举例来说,位于嘈杂环境中的用户正在通过电话收听对话者。在其中不可
能对噪声操作情况下,语音信号可被改进以使其在存在噪声的情况下更可懂。

本文公开了一种包括处理器和存储器的装置。存储器包括从采样的环境噪声计算
噪声频谱估值的噪声频谱估计器、从输入语音计算语音频谱估值的语音频谱估计器、使用
在输入语音中所检测到的每个共振峰内的噪声频谱估值和语音频谱估值计算SNR估值的共
振峰信噪比(SNR)估计器以及共振峰提升估计器,其计算一组增益因数并将该组增益因数
应用到输入语音的每个频率分量,使得在每个共振峰内的所得SNR达到预选的目标值。

在一些实施例中,噪声频谱估计器被配置成通过使用通过采样环境噪声的离散傅
里叶变换获得的平滑参数和过去频谱幅度值求平均值计算噪声频谱估值。在一个例子中,
语音频谱估计器被配置成使用低阶线性预测滤波器计算语音频谱估值。低阶线性预测滤波
器可使用莱文森-德宾(Levinson-Durbin)算法。

在一个例子中,共振峰SNR估计器被配置成使用在中心定在共振峰中心频率上的
关键波段上的语音与噪声频谱幅度估值平方的总和的比率计算共振峰SNR估值。关键波段
是听觉滤波器的频率带宽。

在一些例子中,该组增益因数通过在输入语音中的每个共振峰分段乘以预选因数
计算。

在一个实施例中,该装置还可包括输出限制混频器,以将通过共振峰提升估计器
形成的滤波器的输出限制为预选的最大均方根水平或峰值水平。共振峰提升估计器产生过
滤输入语音的滤波器,并且与输入语音组合的滤波器的输出穿过输出限制混频器。在语音
输入中的每个共振峰通过共振峰分段模块检测,其中共振峰分段模块将语音频谱估值分割
成多个共振峰。

在另一个实施例中,公开了一种用于执行改进语音可懂度的操作方法。此外,公开
了一种对应的计算机程序产品。所述操作包括接收输入语音信号、接收采样环境噪声、从采
样环境噪声计算噪声频谱估值、从输入语音计算语音频谱估值、从这些估值计算共振峰信
噪比(SNR)、分割在语音频谱估值中的共振峰并基于计算的共振峰提升估值计算用于共振
峰中的每个共振峰的共振峰提升因数。

在一些例子中,噪声频谱估值的计算包括通过使用通过采样环境噪声的离散傅里
叶变换获得的平滑参数和过去频谱幅度值求平均值。噪声频谱估值的计算还可包括使用低
阶线性预测滤波器。低阶线性预测滤波器可使用莱文森-德宾算法。

附图说明

为了可详细地理解本发明的上述特征的方式,可通过参考实施例添加上文简要地
概括的本发明的更特定描述,所述实施例中的一些实施例在附图中示出。然而,应注意,附
图仅示出本发明的典型实施例,且因此不应被视为限制本发明的范围,因为本发明可准许
其它同样有效的实施例。对于结合附图阅读本说明书的本领域的技术人员而言,所要求保
护的主题的优点将变得显而易见,其中相同的附图标号已用于指代相同的元件,其中:

图1是根据本公开的一或多个实施例的装置的一部分的示意图;

图2是根据本公开的一或多个实施例的装置的存储器的一部分的逻辑描述;

图3描绘根据本公开的一或多个实施例的装置的各模块之间的相互作用;

图4示出了根据本公开的更多实施例中的一个实施例的共振峰分段模块的操作;
以及

图5示出了根据本公开的更多实施例中的一个实施例的共振峰提升估算模块的操
作。

具体实施方式

当用户在嘈杂场所中接收移动电话呼叫或收听从电子装置输出的声音时,语音变
得不可懂。本公开的各种实施例通过改善语音可懂度和再现质量提高用户体验。本文中所
描述的实施例可用于包括语音再现的移动装置和其它电子装置中,诸如包括声音方向的
GPS接收器、收音机、音频书、播客等。

声道在被称作共振峰的语音信号-频谱峰值中的特定频率产生共振,其被听觉系
统使用以在元音之间区分。然后,在可懂度中的重要因素是频谱对比:在频谱峰值和频谱谷
值之间的能量差异。本文中所描述的实施例改进输入语音信号在噪声中的可懂度同时保持
其自然度。在本文中所描述的方法仅适用于有声分段。背后的主要推理在于单独频谱峰值
应以所解遮蔽特定水平而不是频谱谷值为目标。谷值可得到提升,因为解遮蔽增益被应用
于其环绕峰值,但是所述方法不应尝试专门解遮蔽谷值(否则,共振峰结构可被破坏)。此
外,不管噪声如何,本文中所描述的方法增加频谱对比,这已被证明改进可懂度。本文中所
描述的实施例可用于静态模式而与噪声采样无任何相关性,以根据预定义提升策略改善频
谱对比。另选地,噪声采样可用于改进语音可懂度。

本文所述的一或多个实施例提供低复杂度无失真的解决方案,其允许频谱解遮蔽
在噪声中再现的有声语音分段。这些实施例适用于实时应用,诸如电话对话。

为解遮蔽太阳城集团噪声特性的在嘈杂环境中再现的语音,可使用时域或频域方法的任
一个。时域方法遇到噪声的频谱特性的不良适应性。频域方法依赖于允许独立放大频率分
量的的语音和噪声两者频域表示法,由此定向特定频谱信噪比(SNR)。然而,共同困难是语
音频谱结构失真的风险-即,涉及获得允许小心操作此类修改的语音表示法的语音共振峰
和计算复杂度。

图1是无线通信装置100的示意图。如上所述,本文中所描述的实施例的应用不限
于无线通信装置。再现语音的任何装置可得益于由本文所述的一或多个实施例所产生的改
进的语音可懂度。无线通信装置100仅作为例子使用。以免混淆本文中所描述的实施例,无
线通信装置100的许多部件未示出。无线通信装置100可为移动电话或能够与另一个通信装
置建立音频/视频通信链路的任何移动装置。无线通信装置100包括处理器102、存储器104、
收发器114和天线112。应注意,如图所示的天线112仅为图示。天线112可为内部天线或外部
天线且可为与所示不同的形状。此外,在一些实施例中,可存在多个天线。收发器114包括在
单个半导体芯片中的发射器和接收器。在一些实施例中,发射器和接收器可彼此分开实现。
处理器102包括合适的逻辑和编程指令(可存储在存储器104中和/或处理器102的内部存储
器中)以处理通信信号并控制无线通信装置100的至少一些处理模块。处理器102被配置成
读取/写入并操控存储器104的内容。无线通信装置100还包括一或多个麦克风108和(一或
多个)扬声器和/或(一或多个)扩音器110。在一些实施例中,麦克风108和扩音器110可经由
标准接口技术诸如蓝牙耦接至无线通信装置100的外部部件。

无线通信装置100还包括编解码器106。编解码器106包括音频解码器和音频编码
器。音频解码器解码从收发器114的接收器接收到的信号并且音频编码器编码用于由收发
器114的发射器发射的音频信号。在上行链路上,从麦克风108接收的音频信号由出话语音
处理模块120处理用于音频改善。在下行链路上,从编解码器106接收到的解码的音频信号
由来话语音处理模块122处理用于音频改善。在一些实施例中,编解码器106可为软件实现
的编解码器并且可驻留在存储器104中并由处理器102执行。编解码器106可包括合适逻辑
以处理音频信号。编解码器106可被配置成处理通常用于移动电话的在不同采样率的数字
信号。来话语音处理模块122,(所述来话语音处理模块122的至少一部分可驻留在存储器
104中),被配置成使用如在以下段落中描述的提升模式改善语音。在一些实施例中,在下行
链路中的音频改善处理也可使用在本文的以下章节中描述的其它处理模块。

在一个实施例中,出话语音处理模块120使用降噪、回波消除和自动增益控制改善
上行链路语音。在一些实施例中,噪声估值(如下所述)可以借助于降噪和回波消除算法获
得。

图2为所述无线通信装置100的存储器104的一部分的逻辑描述。应注意,在图2所
描绘的处理模块中的至少一些还可在硬件中实现。在一个实施例中,存储器104包括编程指
令,当所述编程指令由处理器102实行时,形成噪声频谱估计器150以执行噪声频谱估计,语
音频谱估计器158用于计算语音频谱估值,共振峰信噪比(SNR)估计器154用于形成SNR估
值,共振峰分段模块156用于将语音频谱估值分割成共振峰(声道共振),共振峰提升估计器
形成应用到输入语音的每个频率分量的一组增益因数,输出限制混频器118用于查找应用
到输入信号和输出信号之间的差值的时变混合因数。

噪声频谱密度是每单位带宽的噪声功率;也就是说,噪声频谱密度是噪声的功率
谱密度。噪声频谱估计器150通过使用平滑参数和过去频谱幅度值(举例来说,使用采样环
境噪声的离散傅里叶变换获得的)求平均值产生噪声频谱估值。平滑参数可以是时变频率
相关的。在一个例子中,在电话呼叫的情形中,近端语音不应是噪声估值的一部分,并因此
所述平滑参数通过近端语音存在概率调节。

语音频谱估计器158借助于低阶线性预测滤波器(即,自回归模型)产生语音频谱
估值。在一些实施例中,此类滤波器可以使用莱文森-德宾算法计算。然后通过计算该自回
归滤波器的频率响应获得频谱估值。莱文森-德宾算法使用自相关法估计一段语音的线性
预测参数。线性预测编码(也被称作线性预测分析(LPA))用于以相对较少的参数表示一段
语音的波谱的形状。

共振峰SNR估计器154在语音波谱中检测的每个共振峰内产生SNR估值。为了这样
做,共振峰SNR估计器154使用来自噪声频谱估计器150和语音频谱估计器158的语音和噪声
频谱估值。在一个实施例中,与每个共振峰相关联的SNR被计算为在中心被定在共振峰中心
频率上的关键波段上的语音与噪声频谱幅度估值平方的总和的比率。

在听力学和心理声学中,术语“关键波段”是指由在内耳内的耳蜗、听觉的感测器
官所形成的“听觉滤波器”的频率带宽。关键波段大约是在该波段内通过听觉掩蔽第二音调
将干扰第一音调的感知的音频频率的波段。滤波器是提升某些频率并衰减其它频率的装
置。具体而言,带通滤波器允许在带宽内的频率范围穿过而阻止在截断频率之外的频率范
围。术语“关键波段”在Moore B.C.J.的“听觉心理学的介绍(An Introduction to the
Psychology of Hearing)”中论述,该文献以引用的方式并入本文中。

共振峰分段模块156将语音频谱估值分割为共振峰(例如,声道共振)。在一些实施
例中,共振峰被定义为在两个局部最小值(谷值)之间的光谱范围,并因此该模块检测在语
音频谱估值中的所有频谱谷值。每个共振峰的中心频率也通过此模块计算为在所述共振峰
频谱范围(即,在两个周围的谷值之间)中的最大频谱幅值。然后该模块基于检测的共振峰
分段归一化语音波谱。

共振峰提升估计器152产生应用在输入语音的每个频率分量的一组增益因数,以
便在每个共振峰内的所得SNR(如上文所论述)达到特定目标或预选目标。这些增益因数通
过每个共振峰分段乘以特定或预选因数获得,以确保达到在所述分段内的目标SNR。

输出限制混频器118查找应用到在输入信号和输出信号之间的差值的时变混合因
数,以便在与输入信号混合时,最大允许动态范围或均方根(RMS)水平未超出。因此,当输入
信号已达到所述最大动态范围RMS水平时,混合因数等于零并且输出等于输入。另一方面,
在输出信号未超出最大动态范围或RMS水平时,混合因数等于1,并且输出信号不衰减。

将语音的每个频谱分量独立提升到特定频谱信噪比(SNR)的目标根据噪声引起成
形语音。只要频率分辨率低(即,所述频率跨越超过单个语音频谱峰值),将峰值和谷值同样
地处理为给定输出SNR的目标产生可接受的结果。然而,在更精细分辨率的情况下,输出语
音可能是高度失真的。噪声可快速波动并且噪声估值可能是不完美的。此外,噪声和语音可
能不来自相同的空间位置。因此,收听者可认知地区分语音和噪声。甚至在存在噪声的情况
下,可察觉出语音失真,因为所述失真不被噪声完全遮蔽。

此类失真的一个例子是当噪声恰好在频谱语音谷值中存在时:对应于该谷值的所
述频率分量的水平的直式调节增加它们的SNR将感知调低其周围的峰值(即,然后频谱对比
度下降)。更合理的技术将是提升两个周围的峰值,因为噪声存在于峰值的附近。

共振峰提升通常使用适当的表示法,通过增加匹配共振峰的共振获得。共振可以
出自LPC系数的参数形式获得。然而,这意味着使用计算上昂贵的多项式求根算法。应急措
施通过线谱对表示法(LSP)操控这些共振。增强共振包括使自回归传递函数的极点移动成
更接近单位圆。这种解决方案还遇到相互作用的问题,其中由于彼此接近的共振相互作用,
所以它们难以单独操控。因此,解决方案需要计算上昂贵的迭代方法。增强共振还使它们的
带宽变窄,这产生人工发声的语音。

图3描绘在装置100的各模块之间的相互作用。基于帧的处理方案同步用于噪声和
语音两者。首先,在步骤202和208,计算采样环境噪声和语音输入帧的功率谱密度(PSD)。如
上文所解释,目的中的一个是仅改进频谱峰值周围的SNR。换句话说,频率分量越接近去掩
蔽的共振峰的峰值,对去掩蔽该共振峰的贡献应该越大。其结果是,在频谱谷值中的频率分
量的贡献应该是极小的。在步骤210,执行共振峰分段的过程。应注意,采样环境噪声是环境
噪声而不是输入语音中存在的噪声。

共振峰分段模块156专门将在步骤208计算的语音频谱估值分割成共振峰。在步骤
204,连同在步骤202计算的噪声频谱估值,该分段用于计算一组SNR估值,一个SNR估值在每
个共振峰区域中。该分段的另一个结果是匹配输入语音的共振峰结构的频谱提升模式。

在步骤206,基于该提升模式并且基于SNR估值,应用到每个共振峰的必要提升使
用共振峰提升估计器152计算。在步骤212,可应用共振峰去掩蔽滤波器,并且可选地,步骤
212的输出与输入语音混合以限制输出语音的动态范围和/或RMS水平。

在一个实施例中,低阶LPC分析,即,可采用自回归模型用于语音的频谱估算。高频
共振峰的建模另外可以通过在LPC分析之前在输入语音上应用预加强改进。然后频谱估值
以LPC系数的频率响应倒数获得。在下文中,假定频谱估值在对数域中,这避免幂升高运算
符(power elevation operators)。

图4示出了共振峰分段模块156的运算。通过共振峰分段模块156执行的运算中的
一个是将语音波谱分割成各共振峰。在一个实施例中,共振峰定义为在两个局部最小值之
间的频谱分段。然后这些局部最小值的频率指数定义频谱谷值的位置。在频谱谷值未达到
相同能级的意义上,语音自然是不均衡的。具体而言,在更多能量朝向低频率的情况下,语
音通常是倾斜的。因此,为改进语音波谱分割成共振峰的过程,波谱可以可选地预先“被均
衡”。在一个实施例中,在步骤302,该均衡通过使用倒谱低频滤波并从初始频谱减去平滑频
谱计算频谱的平滑版本来执行。在步骤304和306,局部最小值通过区分均衡语音频谱检测,
一旦检测到,则然后定位标志从负值改变为正值。区分长度n的信号X包括计算X的相邻元素
之间的差值:[X(2)-X(1)X(3)-X(2)…X(n)-X(n-1)]。所定位的标志变化的频率分量被标
记。在步骤308,分段线性信号由这些标记形成。均衡语音频谱包络的值被指派给所标记的
频率分量,并且在两者之间的值以线性方式插入。在步骤310,在所有局部最小值等于0dB的
情况下,从均衡语音频谱包络减去该分段线性信号以获得“归一化的”频谱包络。通常,负值
设定成0dB。步骤310的输出信号构成共振峰提升模式,该共振峰提升模式被传送到共振峰
提升估计器152上,而分段标记被传送到共振峰SNR估计模块156。

图5示出了共振峰提升估计器152的运算。共振峰提升估计器152计算应用到每个
共振峰的整体提升量,并接着计算为了这样做应用到每个频率分量的必要增益。在步骤
402,采用心理声学模型以单独确定每个共振峰的目标SNR。心理声学模型所需的能量估值
通过共振峰SNR估计器154计算。心理声学模型从所述目标SNR扣除一组提升因数βi≥0。在
步骤404,然后这些提升因数通过提升模式的分段i的每个采样乘以关联因数βi应用。举例
来说,非常基本的心理声学模型将确保在应用提升因数之后,与每个共振峰关联的SNR达到
特定的目标SNR。更高级的心理声学型号可以包括听觉掩蔽和语音感知的模型。步骤404的
结果是第一增益频谱,在步骤406,所述第一增益频谱被平滑出以形成共振峰揭露滤波器
408。然后输入语音通过共振峰去掩蔽滤波器408处理。

在一个例子中,为了示出确保与每个共振峰相关联的SNR达到某一的目标SNR的心
理声学模型,提升因数可如下计算。本例子仅考虑在当前帧中检测的所有共振峰的单个共
振峰。对于其它共振峰可重复相同过程。在所选的共振峰内的输入SNR可以表述为:

<mrow> <msub> <mi>&xi;</mi> <mrow> <mi>i</mi> <mi>n</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&Sigma;</mi> <mi>k</mi> </msub> <mi>S</mi> <msup> <mrow> <mo>&lsqb;</mo> <mi>k</mi> <mo>&rsqb;</mo> </mrow> <mn>2</mn> </msup> </mrow> <mrow> <msub> <mi>&Sigma;</mi> <mi>k</mi> </msub> <mi>D</mi> <msup> <mrow> <mo>&lsqb;</mo> <mi>k</mi> <mo>&rsqb;</mo> </mrow> <mn>2</mn> </msup> </mrow> </mfrac> </mrow>

其中,S和D分别是输入语音和噪声信号的幅值频谱(在线性单元中表示),并且指
数K属于中心定在所述共振峰中心频率上的关键波段。A[k]是当前帧的提升模式,并且β是
所考虑共振峰的寻求提升因数。然后当增益频谱在线性单元中表示时,将是A[k]β。在该增
益频谱应用之后,与该共振峰相关联的输出SNR变为:

<mrow> <msub> <mi>&xi;</mi> <mrow> <mi>o</mi> <mi>u</mi> <mi>t</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&Sigma;</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>S</mi> <mo>&lsqb;</mo> <mi>k</mi> <mo>&rsqb;</mo> <mi>A</mi> <msup> <mrow> <mo>&lsqb;</mo> <mi>k</mi> <mo>&rsqb;</mo> </mrow> <mi>&beta;</mi> </msup> <mo>)</mo> </mrow> <mn>2</mn> </mrow> <mrow> <msub> <mi>&Sigma;</mi> <mi>k</mi> </msub> <mi>D</mi> <msup> <mrow> <mo>&lsqb;</mo> <mi>k</mi> <mo>&rsqb;</mo> </mrow> <mn>2</mn> </msup> </mrow> </mfrac> </mrow>

在一个实施例中,寻找β的一个简单方式是通过迭代,从0开始,以固定步长增加其
值并在每个迭代计算ξout直到达到目标输出SNR。

均衡语音频谱使所有频谱谷值的能级更接近相同值。然后减去分段线性信号确保
所有局部最小值,即,每个频谱谷值的“中心”等于0dB。这些0dB连接点提供在所述提升模式
的各分段之间的必要一致性:将一组不等的提升因数应用到提升模式直到产生在各连续片
段之间具有平滑过渡的增益频谱。所得的增益频谱观察事先陈述的期望特性:因为在归一
化频谱中的局部最小值等于0dB,对应于频谱峰值的单独频率分量通过乘法运算提升,并且
频谱值越大,所得频谱增益就越大。增益频谱本身确保去掩蔽共振峰中的每个(在心理声学
模型中的极限),但是对于给定共振峰的必要提升可能是非常高的。因此,增益频谱可能是
非常陡峭的并且输出语音是不自然的。后续的平滑运算将增益稍微展开成谷值以获得更自
然的输出。

在一些应用中,输出动态范围和/或均方根(RMS)水平可被限制为例如在移动通信
应用中。为解决该问题,输出限制混频器118提供限制输出动态范围和/或RMS水平的机制。
在一些实施例中,由输出限制混频器118提供的RMS水平限制不基于信号衰减。

除非本文中另外指出或明显与内容相矛盾,否则在描述主题的情况下(尤其在以
上权利要求书的情况下)使用术语“一(a/an)”和“所述”以及类似指示物应理解为涵盖单数
和复数。除非本文中另有说明,否则本文中的值范围的叙述仅旨在充当单独地提及在所述
范围内的每一个单独的值的速记方法,并且每一个单独的值并入本说明书中,如同在本文
单独地叙述一般。此外,上述描述仅出于说明的目的,而不是出于限制的目的,因为寻求保
护的范围由附属权利要求及其任何等效物来限定。本文所提供的任何和所有例子或示例性
语言(例如,“诸如”)仅仅是旨在更好说明所述主题并不对所述主题的范围造成限制,除非
另有要求。使用术语“基于”和其它类似短语指示在附属权利要求和书面描述中产生结果的
条件,并不旨在排除产生该结果的其它条件。本说明书中的任何语言都不应理解为指示实
施所要求保护的本发明所必需的任何不要求保护的元件。

本文中描述的本发明的优选实施例,包括本发明人已知的用于进行所要求保护的
主题的最佳模式。当然,那些优选实施例的变型对于阅读上述描述的本领域普通技术人员
将是显而易见的。本发明人期望熟练的业内人士适当时采用此类变型,并且本发明人旨在
以不同于本文中特定描述的其它方式来实施本发明所要求保护的主题。因此,所要求保护
的主题包括可适用法律所准许的在附属权利要求中叙述的主题的所有变化和等效物。此
外,除非本文另外指示或以其他方式明确指出与内容相矛盾,否则本发明涵盖上述要素以
其所有可能的变化形式的任何组合。

关 键 词:
改进 语音 可懂度
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
太阳城集团本文
本文标题:改进的语音可懂度.pdf
链接地址:http://zh228.com/p-6100867.html
太阳城集团我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
葡京赌场|welcome document.write ('');