太阳城集团

  • / 17
  • 下载费用:30 金币  

处理基于对象的音频信号.pdf

摘要
申请专利号:

太阳城集团CN201510294063.7

申请日:

2015.06.01

公开号:

太阳城集团CN106303897A

公开日:

2017.01.04

当前法律状态:

撤回

有效性:

无权

法律详情: 发明专利申请公布后的视为撤回IPC(主分类):H04S 3/00申请公布日:20170104|||公开
IPC分类号: H04S3/00; G10L19/008(2013.01)I 主分类号: H04S3/00
申请人: 杜比实验室特许公司
发明人: A·西菲尔特; 芦烈; 张晨
地址: 美国加利福尼亚州
优先权:
专利代理机构: 北京市金杜律师事务所 11256 代理人: 王茂华;杨立
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

CN201510294063.7

授权太阳城集团号:

|||

法律状态太阳城集团日:

2018.12.18|||2017.01.04

法律状态类型:

发明专利申请公布后的视为撤回|||公开

摘要

本文公开的示例实施例涉及音频信号处理。公开了一种处理具有多个音频对象音频信号的方法,包括基于音频对象的空间元数据,计算针对每个音频对象中相对于多个预定义声道覆盖区域中的每个的平移系数,该预定义声道覆盖区域由分布在声场中的多个端点定义;基于音频对象和计算出的平移系数,将音频信号转换为相对于预定义声道覆盖区域的子混集,每个子混集指示多个音频对象相对于一个预定义声道覆盖区域中的分量之和;通过向子混集中的每一个应用音频处理而生成子混集增益;以及控制被应用至每个音频对象的对象增益,该对象增益为针对每个音频对象的平移系数以及相对于每个预定义声道覆盖区域的子混集增益的函数。还公开相应的系统和计算机程序产品。

权利要求书

1.一种处理音频信号的方法,所述音频信号具有多个音频对象,
所述方法包括:
基于所述音频对象的空间元数据,计算针对所述音频对象中的每
个音频对象相对于多个预定义声道覆盖区域中的每个预定义声道覆
盖区域的平移系数,所述预定义声道覆盖区域由分布在声场中的多个
端点定义;
基于所述音频对象和计算出的平移系数,将所述音频信号转换为
相对于所述预定义声道覆盖区域的子混集,所述子混集中的每个子混
集指示所述多个音频对象相对于所述预定义声道覆盖区域中的一个
预定义声道覆盖区域的分量之和;
通过向所述子混集中的每个子混集应用音频处理而生成子混集
增益;以及
控制被应用至所述音频对象中的每个音频对象的对象增益,所述
对象增益为针对所述音频对象中的每个音频对象的所述平移系数以
及相对于所述预定义声道覆盖区域中的每个预定义声道覆盖区域的
子混集增益的函数。
2.根据权利要求1所述的方法,进一步包括:
基于所述音频对象和所述对象增益呈现所述音频信号。
3.根据权利要求1所述的方法,其中所述子混集中的每个子混
集被转换为所述多个音频对象的加权平均值,其中所述权重为针对所
述音频对象中的每个音频对象的平移系数。
4.根据权利要求1所述的方法,其中所述预定义声道覆盖区域
的数量与被转换的子混集的数量相等。
5.根据权利要求1所述的方法,进一步包括:
确定所述音频对象是否属于对话对象;以及
响应于所述音频对象被确定为对话对象,将所述音频对象聚类为
对话子混集。
6.根据权利要求5所述的方法,其中以置信度分数来估计所述
音频对象是否属于对话对象,并且所述方法进一步包括基于所估计的
置信度分数而生成针对所述对话子混集的所述子混集增益。
7.根据权利要求1至6中任一项所述的方法,其中
所述预定义声道覆盖区域包括由前左声道和前右声道定义的前
区域,
由中央声道定义的中央区域,
由环绕左声道和环绕右声道定义的环绕区域,以及
由高度声道定义的高度区域。
8.根据权利要求7所述的方法,其中将所述音频信号转换为子
混集进一步包括:
基于针对所述音频对象的所述平移系数,将所述音频信号转换为
相对于所述前区域的前子混集;
基于针对所述音频对象的所述平移系数,将所述音频信号转换为
相对于所述中央区域的中央子混集;
基于针对所述音频对象的所述平移系数,将所述音频信号转换为
相对于所述环绕区域的环绕子混集;以及
基于针对所述音频对象的所述平移系数,将所述音频信号转换为
相对于所述高度区域的高度子混集。
9.根据权利要求8所述的方法,进一步包括:
将所述中央子混集与所述前子混集合并;以及
以所述对话子混集替换所述中央子混集。
10.根据权利要求8所述的方法,进一步包括:
在所述环绕子混集以及所述高度子混集应用相同的音频处理算
法,以生成对应的子混集增益。
11.根据权利要求1至6中任一项所述的方法,进一步包括:
针对所述音频对象中的每个音频对象,识别所述音频对象的类型;
以及
基于所述音频对象的所识别的类型,通过向所述子混集中的每个
子混集应用音频处理而生成所述子混集增益。
12.一种处理音频信号的系统,所述音频信号具有多个音频对象,
所述系统包括:
平移系数计算单元,被配置为基于所述音频对象的空间元数据,
计算针对所述音频对象中的每个音频对象相对于多个预定义声道覆
盖区域中的每个预定义声道覆盖区域的平移系数,所述预定义声道覆
盖区域由分布在声场中的多个端点定义;
子混集转换单元,被配置为基于所述音频对象和计算出的平移系
数,将所述音频信号转换为相对于所述预定义声道覆盖区域的子混集,
所述子混集中的每个子混集指示所述多个音频对象相对于所述预定
义声道覆盖区域中的一个预定义声道覆盖区域的分量之和;
子混集增益生成单元,被配置为通过向所述子混集中的每个子混
集应用音频处理而生成子混集增益;以及
对象增益控制单元,被配置为控制被应用至所述音频对象中的每
个音频对象的对象增益,所述对象增益为针对所述音频对象中的每个
音频对象的所述平移系数以及相对于所述预定义声道覆盖区域中的
每个预定义声道覆盖区域的子混集增益的函数。
13.根据权利要求12所述的系统,进一步包括:
音频信号呈现单元,被配置为基于所述音频对象和所述对象增益
呈现所述音频信号。
14.根据权利要求12所述的系统,其中所述子混集中的每个子
混集被转换为所述多个音频对象的加权平均值,其中所述权重为针对
所述音频对象中的每个音频对象的平移系数。
15.根据权利要求12所述的系统,其中所述预定义声道覆盖区
域的数量与被转换的子混集的数量相等。
16.根据权利要求12所述的系统,进一步包括:
对话确定单元,被配置为确定所述音频对象是否属于对话对象;
对话对象聚类单元,被配置为响应于所述音频丢向被确定为对话
对象,将所述音频对象聚类为对话子混集。
17.根据权利要求16所述的系统,其中以置信度分数来估计所
述音频对象是否属于对话对象,并且所述系统进一步包括对话子混集
增益生成单元,其被配置为基于所估计的置信度分数而生成针对所述
对话子混集的所述子混集增益。
18.根据权利要求12至17中任一项所述的系统,其中
所述预定义声道覆盖区域包括由前左声道和前右声道定义的前
区域,
由中央声道定义的中央区域,
由环绕左声道和环绕右声道定义的环绕区域,以及
由高度声道定义的高度区域。
19.根据权利要求18所述的系统,进一步包括:
前子混集转换单元,被配置为基于针对所述音频对象的所述平移
系数,将所述音频信号转换为相对于所述前区域的前子混集;
中央子混集转换单元,被配置为基于针对所述音频对象的所述平
移系数,将所述音频信号转换为相对于所述中央区域的中央子混集;
环绕子混集转换单元,被配置为基于针对所述音频对象的所述平
移系数,将所述音频信号转换为相对于所述环绕区域的环绕子混集;
以及
高度子混集转换单元,被配置为基于针对所述音频对象的所述平
移系数,将所述音频信号转换为相对于所述高度区域的高度子混集。
20.根据权利要求19所述的系统,进一步包括:
合并单元,被配置为将所述中央子混集与所述前子混集合并;以

替换单元,被配置为以所述对话子混集替换所述中央子混集。
21.根据权利要求19所述的系统,其中所述环绕子混集和所述
高度子混集被应用相同的音频处理算法,以便于生成对应的子混集增
益。
22.根据权利要求12至17中任一项所述的系统,进一步包括:
对象类型识别单元,被配置为针对所述音频对象中的每个音频对
象,识别所述音频对象的类型,并且其中所述子混集增益生成单元被
配置为基于所述音频对象的所识别的类型,通过向所述子混集中的每
个子混集应用音频处理而生成所述子混集增益。
23.一种用于呈现音频信号的计算机程序产品,所述计算机程序
产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执
行指令,所述计算机可执行指令在被执行时使得机器执行根据权利要
求1至11中任一项所述的方法的步骤。

说明书

处理基于对象的音频信号

技术领域

本文公开的示例实施例通常涉及音频信号处理,更具体地,涉及
用于处理基于对象的音频信号的方法和系统。

背景技术

存在在时域或者频域修改音频信号的若干音频处理算法。各种音
频处理算法被开发以便于改进音频信号的总体质量,并且因而增强用
户对回放的体验。以示例的方式,现有的处理算法可以包括环绕虚拟
器、对话增强器、音量调节器、动态均衡器等。

环绕虚拟器可以被用来在诸如耳机之类的立体声设备上呈现多
声道音频信号,因为其产生了用于立体声设备的虚拟环绕效果。对话
增强器旨在增强对话,以便于改进人类嗓音的清晰度和可理解性。音
量调节器旨在修改音频信号从而使得音频内容的响度随太阳城集团的一致
性更好,这可以在某些太阳城集团针对非常吵的对象降低输出音量,但在其
它一些太阳城集团针对微弱的对象增强输出音量。动态均衡器提供了在每个
频率带自动调节均衡增益的方式,以便于保持频谱平衡相对于期望的
音色或音调的总一致性。

传统地,现有的音频处理算法被开发用于处理基于声道的音频信
号,诸如立体声、5.1和7.1环绕信号。因为声场被解释为诸如前左、
前右、环绕左、环绕右以及甚至高度扬声器之类的若干端点(endpoint),
音场可以被所有的这些端点定义。基于声道的音频信号因此可以在声
场中被空间呈现。输入音频声道首先被降混(downmix)为若干子混
集(submix),诸如前、中和环绕子混集,以便于减小随后的音频处
理算法的计算复杂度。在上下文中,声场可以相对于端点布置被划分
为多个覆盖区域,并且子混集表示音频信号相对于特定覆盖区域的分
量之和。音频信号通常作为基于声道的音频信号被处理和呈现,意味
着与音频对象的位置、速度、大小等相关联的元数据在音频信号中不
存在。

近来,越来越多的基于对象的音频内容被创建,其可以包括音频
对象和与音频对象相关联的元数据。与传统的基于声道的音频内容相
比,这种类型的音频内容通过音频对象的更加灵活的呈现而提供了更
加3D沉浸式的音频体验。在回放时,呈现算法例如可以将音频对象
呈现至周围全都包括扬声器甚至在收听者上方也包括扬声器的沉浸
式扬声器布局。

然而,通过使用如以上提及的惯常音频处理算法,基于对象的音
频信号需要首先被呈现为基于声道的音频信号,以便于被降混为子混
集以用于音频处理。这意味着与这些基于对象的音频信号相关联的元
数据被丢弃,并且产生的呈现因而在回放表现方面是被妥协的。

有鉴于此,本领域需要一种用于处理及呈现基于对象的音频信号
而不丢弃其元数据的方案。

发明内容

为了解决前述和其它潜在的问题,本文公开的示例实施例提出了
用于处理基于对象的音频信号的方法和系统。

在一个方面,本文公开的示例实施例提供了一种处理音频信号的
方法,该音频信号具有多个音频对象。该方法包括基于音频对象的空
间元数据计算针对音频对象中的每个相对于多个预定义声道覆盖区
域中的每个的平移系数,以及基于计算出的平移系数和音频对象将音
频信号转换为相对于预定义的声道覆盖区域的子混集。预定义的声道
覆盖区域由分布在声场中的多个端点定义。每个子混集指示多个音频
对象相对于预定义的声道覆盖区域中的一个声道覆盖区域的分量之
和。该方法还包括通过向子混集中的每个子混集应用音频处理而生成
子混集增益,以及控制被应用至音频对象中的每个音频对象的对象增
益,该对象增益为针对音频对象中的每个音频对象的平移系数以及相
对于预定义的声道覆盖区域中的每个声道覆盖区域的子混集增益的
函数。

在另一个方面,本文公开的示例实施例提供了一种处理音频信号
的系统,该音频信号具有多个音频对象。该系统包括被配置为基于音
频对象的空间元数据计算针对音频对象中的每个相对于多个预定义
声道覆盖区域中的每个的平移系数的平移系数计算单元,以及基于计
算出的平移系数和音频对象将音频信号转换为相对于预定义的声道
覆盖区域的子混集的子混集转换单元。预定义的声道覆盖区域由分布
在声场中的多个端点定义。每个子混集指示多个音频对象相对于预定
义的声道覆盖区域中的一个声道覆盖区域的分量之和。该系统还包括
通过向子混集中的每个子混集应用音频处理而生成子混集增益的子
混集增益生成单元,以及控制被应用至音频对象中的每个音频对象的
对象增益的对象增益控制单元,该对象增益为针对音频对象中的每个
音频对象的平移系数以及相对于预定义的声道覆盖区域中的每个声
道覆盖区域的子混集增益的函数。

通过下面的描述,将理解的是依据本文公开的示例实施例,可以
考虑相关联的元数据而呈现基于对象的音频信号。因为当呈现所有的
音频对象时来自原始音频信号的元数据被保留并且被使用,音频信号
处理和呈现可以被更加准确地执行,并且因而产生的再现例如在被家
庭影院系统播放时更加地身临其境。同时,利用本文描述的子混过程,
基于对象的音频信号可以被转换为多个子混集,这些转换的子混集可
以被传统的音频处理算法所处理而这是有利的,因为已知的处理算法
对于基于对象的音频处理而言都是可应用的。另一方面,生成的平移
系数对于产生用于加权所有的原始音频对象的对象增益而言是有用
的。因为在基于对象的音频信号中的对象的数量通常比基于声道的音
频信号中的声道的数量大得多,对象的单独的加权与向声道应用处理
的子混集增益的常规方法相比,产生了音频信号的更加准确的处理和
呈现。本文公开的示例实施例所实现的其它优点将通过以下描述而变
得显而易见。

附图说明

通过参照附图的以下详细描述,本文公开的示例实施例的上述和
其它目的、特征和优点将变得更容易理解。在附图中,本文公开的示
例实施例将以示例以及非限制性的方式进行说明,其中:

图1图示了根据示例实施例的处理基于对象的音频信号的方法的
流程图;

图2图示了根据示例实施例的对于环绕端点的典型布置的预定义
声道覆盖区域的示例。

图3图示了根据示例实施例的基于对象的音频信号呈现的框图;

图4图示了根据另一示例实施例的处理基于对象的音频信号的方
法的流程图;

图5图示了根据示例实施例的用于处理基于对象的音频信号的系
统;以及

图6图示了适于实施本文公开的示例实施例的示例计算机系统的
框图。

在全部附图中,相同或相应的附图标记指代相同或相应的部分。

具体实施方式

现在将参照附图中所示的各种示例实施例对本文公开的示例实
施例的原理进行说明。应当理解,这些实施例的描述仅仅是使本领域
技术人员能够更好地理解并进一步实施本文公开的示例实施例,而不
意在以任何方式对范围进行限制。

本文公开的示例实施例假设作为输入的音频内容或音频信号是
基于对象的格式。其包括一个或多个音频对象,并且,每个音频对象
指的是具有相关联的空间元数据的个体音频元素,该空间元数据描述
了对象的特性,诸如位置、速度、大小等。音频对象可以基于单个声
道或多个声道。音频信号旨在于预定义的和固定的扬声器位置被再现,
其能够在如由听众感知到的位置和响度方面精确地表现音频对象。此
外,由于其太阳城集团量大的元数据,基于对象的音频信号易于被操纵或处
理,并且其可以被适配至不同的声学系统,诸如7.1环绕家庭影院以
及耳机。因此,与传统的基于声道的音频内容相比,基于对象的音频
信号可以通过音频对象的更加灵活的呈现而提供了更加沉浸式的音
频体验。

图1图示了根据示例实施例的处理基于对象的音频信号的方法
100的流程图,而图3图示了根据示例实施例的基于对象的音频信号
处理的示例框架300。同时,图2图示了由环绕端点的典型布置定义
的预定义声道覆盖区域的示例,其示出了用于环绕内容再现的典型的
使用环境。以下将参考图1至图3描述实施例。

在本文公开的一个示例实施例中,在步骤S101,基于每个对象的
空间元数据,即其在声场中相对于端点或扬声器的位置,计算出针对
音频对象的每个音频对象相对于预定义声道覆盖区域中的每个预定
义声道覆盖区域的平移系数。在上下文中,预定义声道覆盖区域可以
由分布在声场中的多个端点所定义,使得在声场中的任意音频对象的
位置可以相对于区域被描述。例如,如果特定的对象旨在于听众的后
侧被播放,其定位应当大部分由环绕区域贡献同时小部分由其它区域
贡献。平移系数是用于描述特定音频对象相对于若干预定义声道覆盖
区域中的每个预定义声道覆盖区域有多近的权重。每个预定义声道覆
盖区域可以对应于用来聚类音频对象相对于每个预定义声道覆盖区
域的分量的一个子混集。

图2图示了分布在由多个端点或扬声器形成的声场中的预定义声
道覆盖区域的示例,其中中央区域由中央声道211(由0.5指示的上
中圆圈)所定义,前区域由前左声道201和前右声道202(由0和1.0
分别指示的上左和上右圆圈)所定义,并且环绕区域由多个环绕声道,
例如为两个环绕左声道221、223(由0.5和1.0分别指示的左和左下
的圆圈)和两个环绕右声道222、224(由0.5和1.0分别指示的右和
右下圆圈)所定义。两个虚线的相交表示听众被推荐就座以便于体验
可能是最好的音质和环绕效果的甜蜜点。然而,听众可以在甜蜜点之
外的其它地方就座并且也可以感知到沉浸式的再现。

要指出的是,图2仅示出了可以以2D的方式由x轴和y轴描述
特定音频对象的声场。然而,高度区域也可以由高度声道被定义。大
多数可商业获得的环绕系统根据图2被布置,并且因而针对音频对象
的空间元数据可以为对应于图2中的坐标系统的[X,Y]或[X,Y,Z]的形
式。平移系数可以分别针对中央区域、前区域、环绕区域和高度区域
通过等式(1)至(4)针对每个子混集中的每个音频对象而被计算。

<mrow> <msub> <mi>&alpha;</mi> <mrow> <mi>i</mi> <mi>c</mi> </mrow> </msub> <mo>=</mo> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mfrac> <mi>&pi;</mi> <mn>2</mn> </mfrac> <mo>)</mo> </mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mfrac> <mi>&pi;</mi> <mn>2</mn> </mfrac> <mo>)</mo> </mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>z</mi> <mi>i</mi> </msub> <mfrac> <mi>&pi;</mi> <mn>2</mn> </mfrac> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>&alpha;</mi> <mrow> <mi>i</mi> <mi>f</mi> </mrow> </msub> <mo>=</mo> <mi>sin</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mfrac> <mi>&pi;</mi> <mn>2</mn> </mfrac> <mo>)</mo> </mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mfrac> <mi>&pi;</mi> <mn>2</mn> </mfrac> <mo>)</mo> </mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>z</mi> <mi>i</mi> </msub> <mfrac> <mi>&pi;</mi> <mn>2</mn> </mfrac> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>&alpha;</mi> <mrow> <mi>i</mi> <mi>s</mi> </mrow> </msub> <mo>=</mo> <mi>sin</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mfrac> <mi>&pi;</mi> <mn>2</mn> </mfrac> <mo>)</mo> </mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>z</mi> <mi>i</mi> </msub> <mfrac> <mi>&pi;</mi> <mn>2</mn> </mfrac> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>&alpha;</mi> <mrow> <mi>i</mi> <mi>h</mi> </mrow> </msub> <mo>=</mo> <mi>sin</mi> <mrow> <mo>(</mo> <msub> <mi>z</mi> <mi>i</mi> </msub> <mfrac> <mi>&pi;</mi> <mn>2</mn> </mfrac> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

其中α表示针对每个区域的平移系数,i表示对象指标,c,f,s,h表
示中央、前、环绕和高度区域、[xi,yi,zi]表示从原始对象位置[Xi,Yi,Zi]
导出的系数计算的修改的相对位置,即

<mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mrow> <mo>|</mo> <msub> <mi>X</mi> <mi>i</mi> </msub> <mo>-</mo> <mn>0.5</mn> <mo>|</mo> </mrow> <mn>0.5</mn> </mfrac> <mo>;</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>min</mi> <mrow> <mo>(</mo> <mn>2</mn> <msub> <mi>Y</mi> <mi>i</mi> </msub> <mo>,</mo> <mn>1.0</mn> <mo>)</mo> </mrow> <mo>;</mo> <msub> <mi>z</mi> <mi>i</mi> </msub> <mo>=</mo> <msub> <mi>Z</mi> <mi>i</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

要指出的是,如图2所示的端点布置和其对应的坐标系统是说明
性的。端点或扬声器如何被布置以及音频对象在声场内的位置被如何
表示并不被限制。此外,虽然前、中央、环绕和高度区域在本文公开
的示例实施例中被图示,应当理解的是,其它方式的区域分割也是可
能的,并且分割的区域的数量并不被限制。

在步骤S102,基于音频对象以及在如上所述的步骤S101计算出
的平移系数,音频信号被转换为相对于预定义声道覆盖区域的子混集。
将音频信号转换为子混集的步骤也可以指的是降混。在一个示例实施
例中,子混集可以被以下的等式(6)生成为每个音频对象的加权平
均值。

<mrow> <msub> <mi>s</mi> <mi>j</mi> </msub> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <msub> <mi>&alpha;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msub> <mi>object</mi> <mi>i</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

其中s表示子混集信号,其包括多个音频对象相对于预定义声道
覆盖区域的分量,j表示如之前定义的四个区域c,f,s,h中的一个,N表
示基于对象的音频信号中的音频对象的总数量,objecti表示与音频对
象相关联的信号,并且αij表示针对第i个对象相对于第j个区域的平移
系数。

在以上实施例中,子混集降混过程对每个区域实施,在每个区域
中平移系数针对所有的音频对象被加权。作为平移系数的结果,每个
对象可以在各个区域中被不同地分布。例如,在声场的右侧处的枪声
可以使得其主要的分量被降混到由图2中所示的201和202表示的前
子混集中,而其次要的(多个)分量被降混到其它(多个)子混集中。
换言之,一个子混集指示多个音频对象相对于一个预定义声道覆盖区
域的分量之和。

在一个示例实施例中,前子混集可以基于针对所有音频对象相对
于前区域的平移系数被转换,中央子混集可以基
于针对所有音频对象相对于中央区域的平移系数被
转换,环绕子混集可以基于针对所有音频对象相对于环绕区域
的平移系数被转换,并且高度子混集可以基于针对
所有音频对象相对于高度区域的平移系数被转换。

生成的高度子混集可以提供更高的解析度和更沉浸式的体验。然
而,常规的基于声道的音频处理算法通常仅处理前(F)、中央(C)
和环绕(S)子混集。因此,算法可需要被扩展以与C/F/S处理并行
地处理高度(H)子混集。

在一个示例实施例中,H子混集可以通过使用与处理S子混集相
同的方法被处理。这需要对常规的基于声道的音频处理算法的最少修
改。要指出的是,虽然应用了相同的方法,高度子混集和环绕子混集
获得的平移系数仍将是不同的,因为输入信号不同。可替代地,H子
混集可以通过根据其空间属性设计特定的方法而被处理。例如,特定
的响度模型和掩蔽模型可以被应用在H子混集中以用于音频处理,因
为比较前子混集或环绕子混集的掩蔽效果和响度感知可能是非常不
同的。

步骤S101和S102可以被如图3所示的对象子混集301实现,图
3图示了根据示例实施例的基于对象的音频信号处理和呈现的框架
300。输入音频信号是基于对象的音频信号,起包含多个对象以及它
们对应的元数据,诸如空间元数据。空间元数据通过等式(1)至(4)
被用来计算相对于四个预定义声道覆盖区域的平移系数,并且产生的
平移系数和原始对象通过等式(6)被用来生成子混集。平移系数的
计算和子混集的生成可以被对象子混器301完成。

对象子混器301是利用现有的基于声道的音频处理算法的关键部
件,其将输入多声道音频(例如,5.1或7.1)降混为三个子混集(F/C/S)
以便于减小计算复杂度。类似地,对象子混器301也基于对象的空间
元数据将音频对象转换或降混为子混集,并且子混集可以从现有的
F/C/S扩展以包括附加的空间解析度,例如可以扩展如上所述高度子
混集。如果对象类型的元数据是可用的,或者自动分类技术被用来识
别音频对象的类型,子混集可以进一步包括其它非空间特性,诸如用
于随后的对话增强的对话子混集,其将在以下说明书中具体解释。这
些子混集根据本文的方法和系统被转换,现有的基于声道的音频处理
算法可以被直接使用或略微修改以用于基于对象的音频处理。

在步骤S103,子混集增益可以通过向每个子混集应用音频处理被
生成。这可以通过如图3中所示的音频处理器302被实现,其从对象
子混器301接收子混集并且输出其相应的子混集增益。如以上所讨论
的,音频处理单元302可以包括现有的基于声道的音频处理算法,这
些算法包括环绕虚拟器、对话增强器、音量调节器、动态均衡器等,
因为基于对象的音频对象和其相应的元数据被转换为基于声道的处
理可以接受的子混集。就此而言,基于声道的音频处理可以不被改变
并且也可以被用于处理基于对象的音频对象。

在步骤S104,向每个音频对象应用的对象增益可以被控制。这可
以由如图3中所示的对象增益控制器303而实现,其被用来基于子混
集增益和平移系数而向原始音频对象应用增益。在如以上所述应用音
频处理算法之后,针对每个子混集将估计子混集增益的集合,指示音
频信号应当被如何修改。这些子混集增益随后被应用至原始音频对象,
与每个对象对每个子混集的贡献成比例。即,针对每个音频对象的对
象增益与针对每个子混集的子混集增益以及针对每个子混集中的音
频对象的平移系数相关。对象增益可以基于以下等式(7)被指派至
每个音频对象。

<mrow> <mtable> <mtr> <mtd> <mrow> <msub> <mi>ObjGain</mi> <mi>i</mi> </msub> <mo>=</mo> <msqrt> <mrow> <msup> <mrow> <mo>(</mo> <msub> <mi>&alpha;</mi> <mrow> <mi>i</mi> <mi>f</mi> </mrow> </msub> <mo>&CenterDot;</mo> <msub> <mi>g</mi> <mi>f</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <msup> <mrow> <mo>(</mo> <msub> <mi>&alpha;</mi> <mrow> <mi>i</mi> <mi>s</mi> </mrow> </msub> <mo>&CenterDot;</mo> <msub> <mi>g</mi> <mi>s</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <msup> <mrow> <mo>(</mo> <msub> <mi>&alpha;</mi> <mrow> <mi>i</mi> <mi>c</mi> </mrow> </msub> <mo>&CenterDot;</mo> <msub> <mi>g</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <msup> <mrow> <mo>(</mo> <msub> <mi>&alpha;</mi> <mrow> <mi>i</mi> <mi>h</mi> </mrow> </msub> <mo>&CenterDot;</mo> <msub> <mi>g</mi> <mi>h</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>~</mo> <mi>N</mi> </mrow> </mtd> </mtr> </mtable> <mo>;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

其中ObjGaini表示第个对象的对象增益,gf、gs、gc和gh表示相
应地针对前、环绕、中央和高度子混集的子混集增益,并且αif、αis、
αic和αih表示针对第i个对象相应地相对于前区域、环绕区域、中央区
域和高度区域的平移系数。

由于等式(7),相对于区域的位置(由αij反映,j表示四个区域
c,f,s,h中的一个区域)以及期望的处理效果(由gj反映,j表示四个
区域c,f,s,h中的一个区域)两者对于每个对象而言均被考虑,导致对
于所有的对象而言改进了音频处理的准确度。

在一个附加的示例实施例中,音频信号可以基于元是音频对象、
它们的相应的元数据以及对象增益而被呈现。该呈现步骤可以被如图
3中所示的对象呈现器304所实现。对象呈现器304可以利用各种回
放设备呈现经处理的(对象增益被应用)音频对象,回放设备可以是
分立声道、条形音箱、耳机等。任何现有的或潜在可用的用于基于对
象的音频信号的现成呈现器可以在此被应用,并且因此以下将省略其
细节。

应当指出的是,虽然针对音频对象的对象增益被举例为用于音频
呈现过程,对象增益可以单独地被提供而没有音频呈现过程。例如,
独立的解码过程可以产生多个对象增益作为其输出。

利用以上描述的子混过程,基于对象的音频信号可以被转换为多
个子混集,这些转换的子混集可以被传统的音频处理算法所处理而这
是有利的,因为已知的处理算法对于基于对象的音频处理而言都是可
应用的。另一方面,生成的平移系数对于产生用于加权所有的原始音
频对象的对象增益而言是有用的。因为在基于对象的音频信号中的对
象的数量通常比基于声道的音频信号中的声道的数量大得多,对象的
单独的加权与向声道应用处理的子混集增益的常规方法相比,产生了
音频信号处理和呈现的改进的准确度。此外,因为当呈现所有的音频
对象时来自原始音频信号的元数据被保留并且被使用,音频信号可以
被更加准确地呈现,并且因而产生的再现例如在被家庭影院系统播放
时更加地身临其境。

参考图4,更加复杂的流程图400被图示,其涉及创建(多个)
对话子混集及分析(多个)对象类型。

在本文公开的一个示例实施例中,在步骤S401,音频对象的类型
被识别。自动分类技术可以被用来识别正在被处理的音频信号的类型
以生成对话子混集。诸如在美国专利申请号61/811,062中涉及的现有
的方法可以被用于音频类型识别,并且其全部通过引用的方式被结合
至本文。

在另一实施例中,如果不提供自动分类而是提供音频对象的类型
的手动标签,特别是对话的类型,表示内容而不是空间特性的附加对
话(D)子混集也可以被生成。当诸如旁白之类的人类嗓音旨在独立
于其它音频对象而被处理时,对话子混集是有用的。

为了实现这一目的,需要在步骤S402确定基于对象的音频信号
是否包括(多个)对话对象。在对话子混集生成中,对象可以被排他
地指派至对话子混集,或部分地(具有权重)降混至对话子混集。例
如,音频分类算法通常输出相对于其确定对话存在的确信度分数(在
[0,1])。该确信度分数可以被用来估计针对对象的合理的权重。因而,
C/F/S/H/D子混集可以通过使用以下平移系数而被生成。

<mrow> <msub> <mi>&alpha;</mi> <mrow> <mi>i</mi> <mi>d</mi> </mrow> </msub> <mo>=</mo> <msubsup> <mi>c</mi> <mi>i</mi> <mn>2</mn> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msup> <msub> <mi>&alpha;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&prime;</mo> </msup> <mo>=</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msubsup> <mi>c</mi> <mi>i</mi> <mn>2</mn> </msubsup> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <msub> <mi>&alpha;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>

其中ci表示对话子混集的加权平移,其可以由音频对象的对话置
信度导出(或者直接等于对话置信度分数),αid表示针对第i个对象
相对于对话区域的平移系数,αij′表示通过考虑对话置信度分数对其
它子混集的修改的平移系数,并且j表示如之前定义的四个区域
c,f,s,h。

在这两个等式(8)和(9)中,被使用以用于能量保存,并且
以与等式(1)至(4)相同的方式被计算。如果一个或多个音频对象
被确定作为(多个)对话对象,该(多个)对话对象可以在步骤S403
被聚类为对话子混集。

利用获得的对话子混集,对话增强可以着手于干净的对话信号而
不是混合的信号(具有背景音乐或噪声的对话)。其带来的另一益处
在于在不同位置的对话可以同时被增强,而传统的对话增强仅可促进
中央声道中的对话。

在一些情况下,如果在包括对话子混集时希望维持与四个子混
集相同的计算复杂度,四个“增强”子混集可以从五个C/F/S/H/D子
混集中生成。一种可能的方式是,D可以被用来取代C,同时将原始
的C和F合并在一起,因而四个子混集被生成:(在C中的)D、C+F、
S和H。在该情况下,所有的对话被“有意地”放在中央子混集,因
为传统的对话增强假设人类嗓音被中央声道所再现,而本应被平移至
中央子混集的非对话对象被平移至前子混集。利用现有的音频处理算
法,以上过程平顺地工作。

在步骤S404,可以通过应用一些太阳城集团对话的特定的处理算法而针
对(多个)对话对象生成子混集增益,以便于表示特定对话子混集的
期望的加权。随后在步骤S405,剩余的音频对象可以被降混至子混集,
其与以上描述的步骤S101和S102相似。

由于对象类型在步骤S401可能已经被识别,如在美国专利申请
号61/811,062中存在的系统,所识别的类型可以在步骤S406被使用
来基于所识别的类型通过估计它们最合适的参数而自动引导音频处
理算法的行为。例如,智能均衡器的数量可以被设置为针对音乐信号
接近于1,并且将其设置为针对演讲信号接近于0。

最终,在步骤S407,被应用至每个音频对象的音频增益可以以与
步骤S104相比相似的方式被控制。

要指出的是,从S403至S406的步骤并不必依次被排序。(多个)
对话对象和其它(多个)对象可以同时被处理,使得针对所有的对象
产生的子混集增益在同太阳城集团被生成。在另一示例中,针对(多个)对
话对象的子混集增益可以在针对剩余的(多个)对象的子混集增益被
生成之后被生成。

利用根据本文描述的示例实施例的基于对象的音频信号处理过
程,对象可以更加准确地被呈现。此外,即使对话子混集要被利用,
计算复杂度与仅具有F/C/S/H子混集相比将不会被增大。

图5图示了根据本文描述的示例实施例的用于处理具有多个音频
对象的音频信号的系统500。如图所示,系统500包括平移系数计算
单元501,其被配置为基于音频对象的空间元数据,计算针对音频对
象中的每个音频对象相对于多个预定义声道覆盖区域中的每个预定
义声道覆盖区域的平移系数。系统500还包括子混集转换单元502,
其被配置为基于音频对象和计算出的平移系数而将音频信号转换为
相对于预定义声道覆盖区域的子混集。预定义的声道覆盖区域由分布
在声场中的多个端点定义。子混集指示中的每个子混集多个音频对象
相对于预定义的声道覆盖区域中的一个声道覆盖区域的分量之和。该
系统500还包括通过向子混集中的每个子混集应用音频处理而生成子
混集增益的子混集增益生成单元503,以及控制被应用至音频对象中
的每个音频对象的对象增益的对象增益控制单元504,该对象增益为
针对音频对象中的每个音频对象的平移系数以及相对于预定义的声
道覆盖区域中的每个声道覆盖区域的子混集增益的函数。

在一些示例实施例中,系统500可以包括音频信号呈现单元,其
被配置为基于音频对象和对象增益呈现音频信号。

在一些其它示例实施例中,子混集中的每个子混集可以被转换为
多个音频对象的加权平均值,其中权重为针对音频对象中的每个音频
对象的平移系数。

在另一示例实施例中,预定义声道覆盖区域的数量可以与被转换
的子混集的数量相等。

在又一示例实施例中,系统500可以进一步包括对话确定单元,
其被配置为确定音频对象是否属于对话对象,以及对话对象聚类单元,
其被配置为响应于音频对象被确定为对话对象而将音频对象聚类为
对话子混集。在本文公开的一些示例实施例中,可以以置信度分数来
估计音频对象是否属于对话对象,并且该系统500可以进一步包括对
话子混集增益生成单元,其被配置为基于所估计的置信度分数而生成
针对对话子混集的子混集增益。

在一些其它示例实施例中,预定义的声道覆盖区域可以包括由前
左声道和前右声道定义的前区域,由中央声道定义的中央区域,由环
绕左声道和环绕右声道定义的环绕区域,以及由高度声道定义的高度
区域。在一些其它实施例中,系统500进一步包括前子混集转换单元,
其基于针对音频对象的平移系数将音频信号转换为相对于前区域的
前子混集;中央子混集转换单元,其被配置为基于针对音频对象的平
移系数将音频信号转换为相对于中央区域的中央子混集;环绕子混集
转换单元,其被配置为基于针对音频对象的平移系数将音频信号转换
为相对于环绕区域的环绕子混集;以及高度子混集转换单元,其被配
置为基于针对音频对象的平移系数将音频信号转换为相对于高度区
域的高度子混集。在又一示例实施例中,系统500进一步包括合并单
元,其被配置为合并中央子混集和前子混集,以及替换单元,其被配
置为以对话子混集替换中央子混集。在又一示例实施例中,环绕子混
集和高度子混集被应用相同的音频处理算法,以便于生成对应的子混
集增益。

在一些其它示例实施例中,系统500可以进一步包括对象类型识
别单元,被配置为针对音频对象中的每个音频对象,识别音频对象的
类型,并且子混集增益生成单元被配置为基于音频对象的所识别的类
型,通过向子混集中的每个子混集应用音频处理而生成子混集增益。

为了清楚起见,系统500的一些可选部件在图5中并未示出。然
而应当理解的是,如上述参照图1至4所描述的特征均适用于系统500。
此外,系统500的部件可以是硬件模块或软件单元模块。例如,在一
些实施例中,系统500可以部分地或完全地以软件/或固件实现,例如
实现为收录在计算机可读介质中的计算机程序产品。可替代地或附加
地,系统500可以部分地或完全地基于硬件实现,例如作为集成电路
(IC)、应用专用集成电路(ASIC)、片上系统(SOC)、现场可编
程门阵列(FPGA)等。本发明的范围并不局限于该方面。

图6示出了适于实施本文公开的示例实施例的示例计算机系统
600的框图。如图所示,计算机系统600包括中央处理单元(CPU)
601,其能够根据存储在只读存储器(ROM)602中的程序或从存储
区608加载到随机存取存储器(RAM)603的程序而执行各种处理。
在RAM 603中,当CPU 601执行各种处理等等时,还根据所需存储
有所需的数据。CPU 601、ROM 602和RAM 603经由总线604彼此
相连。输入/输出(I/O)接口605也连接到总线604。

以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;
包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等
的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、
调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如
因特网之类的网络执行通信处理。驱动器610也根据需要连接至I/O
接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储
器等,根据需要安装在驱动器610上,使得从其上读出的计算机程序
根据需要被安装入存储部分608。

特别地,根据本文公开的示例实施例,上文参考图1至图4描述
的过程可以被实现为计算机软件程序。例如,本文公开的示例实施例
包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计
算机程序,该计算机程序包含用于执行方法100和/或300的程序代码。
在这样的实施例中,该计算机程序可以通过通信部分609从网络上被
下载和安装,和/或从可拆卸介质611被安装。

一般而言,本文公开的各种示例实施例可以在硬件或专用电路、
软件、逻辑、或其任何组合中实施。某些方面可以在硬件中实施,而
其它方面可以在可由控制器、微处理器或其它计算设备执行的固件或
软件中实施。当本文公开的示例实施例的各方面被图示或描述为框图、
流程图或使用某些其它图形表示时,将理解此处描述的方框、装置、
系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专
用电路或逻辑、通用硬件或控制器或其它计算设备,或其某些组合中
实施。

而且,流程图中的各框可以被看作是方法步骤,和/或计算机程序
代码的操作生成的操作,和/或理解为执行相关功能的多个耦合的逻辑
电路元件。例如,本文公开的示例实施例包括计算机程序产品,其包
括有形地实现在机器可读介质上的计算机程序,该计算机程序包含被
配置为执行上文描述方法的程序代码。

在本公开的上下文中,机器可读介质可以是包含或存储用于或有
太阳城集团指令执行系统、装置或设备的程序的任何有形介质。机器可读介
质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以
包括但不限于电子的、磁的、光学的、电磁的、红外的或半导体系统、
装置或设备,或其任意合适的组合。机器可读存储介质的更详细示例
包括带有一根或多个导线的电气连接、便携式计算机磁盘、硬盘、随
机存储存储器(RAM)、只读存储器(ROM)、可擦除可编程只读
存储器(EPROM或闪存)、光存储设备、磁存储设备,或其任意合
适的组合。

用于执行本发明的方法的计算机程序代码可以用一种或多种编
程语言编写。这些计算机程序代码可以提供给通用计算机、专用计算
机或其它可编程的数据处理装置的处理器,使得程序代码在被计算机
或其它可编程的数据处理装置执行的时候,引起在流程图和/或框图中
规定的功能/操作被实施。程序代码可以完全在计算机上、部分在计算
机上、作为独立的软件包、部分在计算机上且部分在远程计算机上或
完全在远程计算机或服务器上或在一个或多个远程计算机或服务器
之间分布而执行。

另外,尽管操作以特定顺序被描绘,但这并不应该被理解为要求
此类操作以示出的特定顺序或以相继顺序完成,或者执行所有图示的
操作以获取期望结果。在某些情况下,多任务或并行处理可能是有利
的。同样地,尽管上述讨论包含了某些特定的实施细节,但这并不应
解释为限制任何发明或权利要求的范围,而应解释为对可以针对特定
发明的特定实施例的描述。本说明书中在分开的实施例的上下文中描
述的某些特征也可以整合实施在单个实施例中。相反地,在单个实施
例的上下文中描述的各种特征也可以分离地在多个实施例火灾任意
合适的子组合中实施。

针对前述本发明的示例实施例的各种修改、改变将在连同附图查
看前述描述时对相关技术领域的技术人员变得明显。任何及所有修改
将仍落入非限制的和本发明的示例实施例范围。此外,前述说明书和
附图存在启发的益处,涉及这些实施例的技术领域的技术人员将会想
到此处阐明的其它示例实施例。

相应地,本文公开的示例实施例可以被体现为本文描述的任意形
式。例如,以下列举的示例实施例(EEE)描述了本发明的一些方面
的一些结构、特征和功能。

EEE 1.一种对象音频处理系统,包括:

-对象子混器,其基于对象的空间元数据呈现/降混音频对象为子
混集;

-音频处理器,其处理生成的子混集;

-增益应用器,其向原始音频对象应用从音频处理器获得的增益。

EEE 2.根据EEE1中的方法,其中该对象子混集生成四个子混
集:中央、前、环绕和高度,并且每个子混集被声称作为音频对象的
加权平均值,其中加权为每个对象在每个子混集中的平移增益。

EEE 3.根据EEE1中的方法,其中该对象子混集进一步基于手
动标记或自动音频分类而生成对话子混集,并且具体的计算在等式(8)
和(9)中被示出。

EEE 4.根据EEE2和3的方法,对象子混器通过以D替代C并
且合并原始的C和F在一起,从五个C/F/S/H/D子混集生成四个“增
大”的子混集。

EEE 5.根据EEE1的方法,音频处理器通过使用与处理环绕子
混集相同的方法来处理高度子混集。

EEE 6.根据EEE1的方法,音频处理器直接使用对话子混集以
用于对话增强。

EEE 7.根据EEE1的方法,其中每个音频对象的增益从由针对
每个子混集获得的增益和对象在每个子混集中的评议增益而计算,如
在等式(7)中所示。

EEE 8.根据EEE1的方法,其中内容识别模块可以被加入以用
于自动内容类型识别和音频处理算法的自动引导。

关 键 词:
处理 基于 对象 音频 信号
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
太阳城集团本文
本文标题:处理基于对象的音频信号.pdf
链接地址:http://zh228.com/p-6100596.html
太阳城集团我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
葡京赌场|welcome document.write ('');