太阳城集团

  • / 9
  • 下载费用:30 金币  

音频翻译多语言文字处理方法和系统.pdf

摘要
申请专利号:

CN201610647853.3

申请日:

2016.08.09

公开号:

太阳城集团CN106303695A

公开日:

2017.01.04

当前法律状态:

实审

有效性:

审中

法律详情: 实质审查的生效IPC(主分类):H04N 21/4402申请日:20160809|||公开
IPC分类号: H04N21/4402(2011.01)I; H04N21/488(2011.01)I; H04N21/439(2011.01)I; G06F17/28 主分类号: H04N21/4402
申请人: 北京东方嘉禾文化发展股份有限公司
发明人: 马士华
地址: 100007 北京市东城区藏经馆胡同17号嘉城印象B区3层
优先权:
专利代理机构: 北京润文专利代理事务所(普通合伙) 11317 代理人: 丁继恩
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

CN201610647853.3

授权太阳城集团号:

|||

法律状态太阳城集团日:

2017.02.01|||2017.01.04

法律状态类型:

太阳城集团实质审查的生效|||公开

摘要

本发明提供了一种音频翻译为多语言文字处理方法和系统,包括如下步骤:分析语音音频文件,根据用户语音的强弱程度产生多个波形文件;根据每个波形文件的波形特征确定多个语音的开始和结束,生成多个第一格式化处理结果,得到多个第一语音音频段;对每个第一语音音频段利用语音识别软件进行语音到文字的转换,并生成多个第二格式化的处理结果,得到多个第一语音音频段对应的多个原始文字文件;将第一格式处理结果、原始文字文件根据序列号进行合并,得到相应的音频的字幕文件。其实现快速大量甚至批量自动化地生成字幕。

权利要求书

1.一种音频翻译为多语言文字处理方法,包括如下步骤:
分析语音音频文件,根据用户语音的强弱程度产生多个波形文件;
根据每个波形文件的波形特征确定多个语音的开始和结束,生成多个第一格式处理结
果R1,得到多个语音音频段R2;
对每个第一语音音频段R2利用语音识别软件进行语音到文字的转换,并生成多个第二
格式处理结果R3,得到多个所述第一格式处理结果R1对应的多个原始文字文件;
将所述第一格式处理结果R1、所述第二格式处理结果R3根据序列号进行合并,得到相
应的音频的字幕文件。
2.根据权利要求1所述的多语言文字处理方法,其特征在于:
所述分析语音音频文件之前,还包括如下步骤:
提取视频文件里的音频,得到所述视频文件的语音音频文件;
所述所述第二格式处理结果R3、所述第一格式处理结果R1根据序列号进行合并之后,
还包括如下步骤:
将得到所述视频/音频对应的字幕文件,输出到视频/音频中。
3.根据权利要求1或2所述的多语言文字处理方法,其特征在于:
在得到多个原始文字文件后,还包括如下步骤:
对原始文字文件进行转换到其它语言的翻译处理,生成第三格式处理结果R4,得到其
它多种语言的多个多语言文字文件;
所述合并还包括对所述多语言文字文件的合并。
4.根据权利要求3所述的多语言文字处理方法,其特征在于:
所述第一格式处理结果R1包括但不限于一个序列号,太阳城集团片的开始太阳城集团,太阳城集团片的结
束太阳城集团。
5.根据权利要求4所述的多语言文字处理方法,其特征在于:
所述第二格式处理结果R3包括第一格式处理结果R1中的序列号、以及该太阳城集团段的音频
的原始文字结果。
6.根据权利要求3所述的多语言文字处理方法,其特征在于:
所述第三格式处理结果R4包括但不限于第一格式处理结果R1中的序列号、以及进行语
言翻译处理后的翻译结果。
7.根据权利要求3所述的多语言文字处理方法,其特征在于:
所述利用语音识别软件进行语音到文字的转换,包括如下步骤:
利用多种语音识别软件分别识别,并选择最优的语音识别作为原始文字文件。
8.一种音频翻译为多语言文字处理系统,其特征在于,包括:
波形提取模块,用于分析语音音频文件,根据用户语音的强弱程度产生多个波形文件;
波形识别模块,用于根据每个波形文件的波形特征确定多个语音的开始和结束,生成
多个第一格式处理结果R1,得到多个第一语音音频段R2;
语音文字化生成模块,用于对每个第一语音音频段R2利用语音识别软件进行语音到文
字的转换,并生成多个第二格式处理结果R3,得到多个第一语音音频段对应的多个原始文
字文件;
合并模块,用于将原始语语言文字文件与其它多种语言文字文件合并,生成字幕文件,
输出并合并到视频中。
9.根据权利要求8所述的多语言文字处理系统,其特征在于:
还包括音频提取模块,用于提取视频文件里的音频,得到所述视频文件的语音音频文
件;
所述合并模块,还包括输出子模块;
所述输出子模块,用于将生成的字幕文件,输出并合并到视频中。
10.根据权利要求8或9所述的多语言文字处理系统,其特征在于:
还包括翻译模块,用于根据多个原始语言文字文件利用翻译软件,生成第三格式处理
结果R4,得到其它多种语言文字文件;
所述合并模块,还包括翻译合并子模块;
所述翻译合并子模块,用于将格式化处理结果R1、原始文字文件及所述多语言文字文
件的合并,得到多语言的字幕文件。

说明书

音频翻译多语言文字处理方法和系统

技术领域

本发明涉及一种视频/音频中的音频处理技术,具体地涉及一种音频翻译为多语
言文字处理方法和系统。

背景技术

随着电影和电视剧全球发行的普及,对多语言字幕的需求越来越强。传统的字幕
语言翻译是基于人工的,分为两个阶段:一,根据语音来进行字幕的打点,即分辨出一段语
音的开始太阳城集团和结束太阳城集团;二,然后根据上一步的打点,来翻译出这个太阳城集团点对应的语言字
幕。但该方法采用纯人工的方式,所以效率低下,无法快速大量地产生出字幕。

发明内容

为了解决上述技术问题,本发明提供了一种音频翻译为多语言文字处理方法和系
统,其在视频或者音频中,利用音频的声波来判断并打点,然后将相应的音频翻译为多语
言,实现快速大量甚至批量自动化地生成字幕。

为实现上述目的,本发明提供了一种音频翻译为多语言文字处理方法,包括如下
步骤:

分析语音音频文件,根据用户语音的强弱程度产生多个波形文件;

根据每个波形文件的波形特征确定多个语音的开始和结束,生成多个第一格式处
理结果(以下简称R1),得到多个第一语音音频段(以下简称R2);

对每个第一语音音频段R2利用语音识别软件进行语音到文字的转换,并生成多个
第二格式处理结果(以下简称R3),得到多个第一语音音频段对应的多个原始文字文件;

将第一格式处理结果R1和原始文字文件根据序列号进行合并,得到相应的音频的
字幕文件。

为实现本发明目的,还提供一种音频翻译为多语言文字处理系统,包括:

波形提取模块,用于分析语音音频文件,根据用户语音的强弱程度产生多个波形
文件;

波形识别模块,用于根据每个波形文件的波形特征确定多个语音的开始和结束,
生成多个第一格式处理结果R1,得到多个第一语音音频段R2。

语音文字化生成模块,用于利用语音识别软件对每个第一语音音频段R2进行语音
到文字的转换,并生成多个第二格式处理结果R3,得到多个第一语音音频段R2对应的多个
原始文字文件;

合并模块,用于将第一格式处理结果R1、原始文字文件根据序列号进行合并,生成
字幕文件,输出并合并到视频中。

采用本发明的音频翻译为多语言文字处理方法和系统,其在视频或者音频中,利
用音频的声波来判断并打点,然后将相应的音频翻译为多语言,实现快速大量甚至批量自
动化地生成字幕。

附图说明

图1是本发明实施例的音频翻译为多语言文字处理方法流程图;

图2是本发明实施例的音频翻译为多语言文字处理系统示意图。

具体实施方式

下面将参考附图1~2对本发明中详细的代表性实施例进行描述。

本发明实施例的音频翻译为多语言文字处理方法,如图1所示,包括如下步骤:

步骤S100,提取视频文件里的音频,得到所述视频文件的语音音频文件。

步骤S200,分析所述语音音频文件,根据用户语音的强弱程度产生多个波形文件。

从语音音频文件提取声波文件,这个声波文件展示了语音的强弱,其指出了声音
的波形强弱。

分析所述语音音频文件,根据用户语音的强弱程度产生一个表示声音强弱的波形
文件,此波形文件具有-128到+127音频的波形特征来表示每一帧的声音强弱关系。

步骤S300,根据每个波形文件的波形特征确定多个语音的开始和结束,生成多个
第一格式处理结果R1,得到多个第一语音音频段R2。

作为一种可实施方式,可以根据声音波形太阳城集团阀值来进行判断语音的开始和结
束,例如声音波形静止太阳城集团超过10毫秒的,则表示该段语音开始或者结束。

从对波形文件基于听觉感知特性,如基音和音高等,可以提取并用于听觉感知的
检索,也可以提取其他能够区分不同声音的声学特征,形成特征矢量。比如,按太阳城集团片计算
一组听觉感知特征:基音、响度、音调等。考虑到声音波形随太阳城集团的变化,最终的特征矢量将
是这些特征的统计值,例如用平均值、方差和自相关值表示。对声音效果数据进行分类,如
动物声、机器声、乐器声、语音和其他自然声等。此结果生成第一格式处理结果R1。

该第一格式处理结果R1包括但不限于一个序列号,太阳城集团片的开始太阳城集团,太阳城集团片的
结束太阳城集团。

步骤S400,对每个第一语音音频段R2利用语音识别软件进行语音到文字的转换,
并生成多个第二格式处理结果R3,得到多个第一语音音频段R2对应的多个原始文字文件。

根据第一格式处理结果R1从语音音频里切出该太阳城集团段的音频文件R2,并通过语音
识别软件进行语音到预设格式语种的原始文字结果的转换并生成第二格式处理结果R3,该
第二格式处理结果R3包括但不限于第一格式处理结果中R1的序列号、以及该太阳城集团段的音频
的原始文字结果。

所述的预设格式语种包括但不限于中文、英文、日文、阿拉伯文、法文、德文等中的
一种或者几种。

原始文字是指该语音对应的语种的原始语言,可以预设或者由本发明进行识别而
设定,并自动全部翻译为该原始语言。

所述的语音识别软件包括但不限于OFFICE语音识别软件、百度语音识别软件、讯
飞语言等语音识别中的一种或者多种,较佳地,可以利用多种语音识别软件分别识别,并选
择最优的语音识别作为原始文字文件。

步骤S500,对原始文字文件进行转换到其它语言的翻译处理,生成第三格式处理
结果R4,得到其它多种语言的多个多语言文字文件。

对第二格式处理结果的文字使用现有的翻译软件进行转换到设定的语言的翻译
处理,生成第三格式处理结果R4。该第三格式处理结果R4包括但不限于第一格式处理结果
R1中的序列号、以及进行语言翻译处理后的翻译结果。

步骤S600,将第一格式处理结果R1、原始文字文件与多语言文字文件根据序列号
进行合并得到所述音频的字幕文件,将得到所述视频/音频对应的字幕文件,输出到视频/
音频中。

对第一格式处理结果R1、第二格式处理结果R3和第三格式处理结果R4进行根据序
列号合并,产生一个最终的翻译的结果,产生的结果可以如下:



采用本发明的音频翻译为多语言文字处理方法和系统,其在视频或者音频中,利
用音频的声波来判断并打点,然后将相应的音频翻译为多语言,实现快速大量甚至批量自
动化地生成字幕。

为了解决上述技术问题,本发明实施例还提供音频翻译为多语言文字处理系统,
如图2所示,包括:

波形提取模块20,用于分析语音音频文件,根据用户语音的强弱程度产生多个波
形文件;

波形识别模块30,用于根据每个波形文件的波形特征确定多个语音的开始和结
束,生成多个第一格式处理结果R1,得到多个第一语音音频段R2。

语音文字化生成模块40,用于对每个第一语音音频段利用语音识别软件进行语音
到文字的转换,并生成多个第二格式处理结果R3,得到多个第一语音音频段对应的多个原
始文字文件;

合并模块60,用于将原始语言文字文件与其它多种语言文字文件合并,生成字幕
文件,输出并合并到视频中。

作为一种可实施方式,所述多语言文字处理系统,还包括音频提取模块10,用于提
取视频文件里的音频,得到所述视频文件的语音音频文件;

所述合并模块60,还包括输出子模块70;

所述输出子模块70,用于将生成的字幕文件,输出并合并到视频中。

作为一种可实施方式,所述多语言文字处理系统,还包括翻译模块50,用于根据多
个原始语言文字文件利用翻译软件生成其它多种语言文字文件;

所述合并模块60,还包括翻译合并子模块80;

所述翻译合并子模块80,用于将第一格式处理结果R1、原始文字文件及所述多语
言文字文件的合并,得到多语言的字幕文件。

本发明实施例中的音频翻译为多语言文字处理系统,采用与音频翻译为多语言文
字处理方法基本相同的过程工作,得到基本相同的结果,取得基本相同的有益效果,因此,
在本发明实施例中,不再一一详细描述。

本发明实施例的音频翻译为多语言文字处理方法和系统,其在视频或者音频中,
利用音频的声波来判断并打点,然后将相应的音频翻译为多语言,实现快速大量甚至批量
自动化地生成字幕。

本发明的代表性实施例参照附图得到了详细的描述。这些详细的描述仅仅给本领
域技术人员更进一步的相信内容,以用于实施本发明的优选方面,并且不会对本发明的范
围进行限制。仅有权利要求用于确定本发明的保护范围。因此,在前述详细描述中的特征和
步骤的结合不是必要的用于在最宽广的范围内实施本发明,并且可替换地仅对本发明的特
别详细描述的代表性实施例给出教导。此外,为了获得本发明的附加有用实施例,在说明书
中给出教导的各种不同的特征可通过多种方式结合,然而这些方式没有特别地被列举出
来。

关 键 词:
音频 翻译 语言 文字处理 方法 系统
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
太阳城集团本文
本文标题:音频翻译多语言文字处理方法和系统.pdf
链接地址:http://zh228.com/p-6100568.html
太阳城集团我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
葡京赌场|welcome document.write ('');