太阳城集团

  • / 16
  • 下载费用:30 金币  

多媒体播放器中的多媒体文件存储方法和装置.pdf

摘要
申请专利号:

CN201510350659.4

申请日:

2015.06.19

公开号:

CN106257439A

公开日:

2016.12.28

当前法律状态:

实审

有效性:

审中

法律详情: 实质审查的生效IPC(主分类):G06F 17/27申请日:20150619|||公开
IPC分类号: G06F17/27; G06F17/30; G10L15/26 主分类号: G06F17/27
申请人: TCL集团股份有限公司
发明人: 蓝琪; 邓益群
地址: 516006 广东省惠州市仲恺高新技术开发区十九号小区
优先权:
专利代理机构: 深圳中一专利商标事务所 44237 代理人: 张全文
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

CN201510350659.4

授权太阳城集团号:

|||

法律状态太阳城集团日:

2017.01.25|||2016.12.28

法律状态类型:

太阳城集团实质审查的生效|||公开

摘要

本发明提供一种多媒体播放器中的多媒体文件存储方法和装置,该方法包括获取针对多媒体播放器中的多媒体文件输入的语音太阳城集团;对所述语音太阳城集团进行语音识别,将所述语音太阳城集团识别成对应的文字太阳城集团;将所述文字太阳城集团与所述多媒体文件进行关联存储。本发明可以减少多媒体文件存储过程中对多媒体播放器的文字输入设备的使用频率,进而提高了多媒体文件的存储效率,另外由于将语音太阳城集团识别成文字太阳城集团,并将文字太阳城集团与多媒体文件进行关联存储,从而利用与多媒体太阳城集团关联存储的文字太阳城集团可以对多媒体文件进行快速、高效、准确的定位和检索。

权利要求书

1.一种多媒体播放器中的多媒体文件存储方法,其特征在于,所述方法
包括:
获取针对多媒体播放器中的多媒体文件输入的语音太阳城集团;
对所述语音太阳城集团进行语音识别,将所述语音太阳城集团识别成对应的文字太阳城集团;
将所述文字太阳城集团与所述多媒体文件进行关联存储。
2.根据权利要求1所述的方法,其特征在于,在所述将所述文字太阳城集团与
所述多媒体文件进行关联存储之前,所述方法还包括:
对所述文字太阳城集团进行语义拆分,从所述文字太阳城集团中提取关键词;
所述将所述文字太阳城集团与所述音视频文件进行关联存储具体为:
将所述关键词与所述多媒体文件进行关联存储。
3.根据权利要求1所述的方法,其特征在于,在所述获取针对多媒体播
放器中的多媒体文件输入的语音太阳城集团之前,所述方法还包括:
通过多媒体播放器的多媒体采集设备录制多媒体片段;
通过多媒体播放器中的预设算法对录制的多媒体片段进行去噪声和增益
调整处理;
将处理后的多媒体片段存储成多媒体播放器中的音视频文件。
4.根据权利要求3所述的方法,其特征在于,所述通过多媒体播放器中
的预设算法对录制的多媒体片段进行去噪声和增益调整处理具体包括:
对录制的多媒体片段进行去噪声处理;
采用多媒体播放器中预设的回声抑制算法对去噪处理后的多媒体片段进
行回声抑制处理;
对回声抑制处理后的多媒体片段进行增益调整。
5.根据权利要求4所述的方法,其特征在于,所述对录制的多媒体片段
进行去噪声具体包括:
将录制的多媒体片段的频谱与录制的环境背景噪声的频谱相减,其中所
述环境背景噪声的频谱为在录制多媒体片段时录制的环境背景噪声的频谱,
或者当在录制多媒体片段时未录制环境背景噪声时,统计录制的多媒体片段
的幅值,将幅值低于预设幅值阈值的多媒体片段的平均频谱作为环境背景噪
声的频谱;
统计与环境背景噪声的频谱相减后的多媒体片段的频率,去除该多媒体
片段中频率过高以及频率过低的异常频段。
6.根据权利要求4所述的方法,其特征在于,所述对回声抑制处理后的
多媒体片段进行增益调整具体包括:
统计环境背景噪声的幅值,所述环境背景噪声的幅值为在录制多媒体片
段时录制的环境背景噪声的,或者为录制的多媒体片段中幅值低于预设幅值
阈值的多媒体片段的平均幅值;
当录制的多媒体片段的幅值远大于环境背景噪声的幅值时,降低录制的
多媒体片段的幅值;当录制的多媒体片段的幅值远小于环境背景噪声的幅值
时,提高录制的多媒体片段的幅值。
7.根据权利要求1所述的方法,其特征在于,所述获取针对多媒体播放
器中的多媒体文件输入的语音具体包括:
通过多媒体播放器中的多媒体采集设备采集针对多媒体播放器中的多媒
体文件输入的语音太阳城集团;和/或,
从多媒体播放器中的多媒体文件中提取语音太阳城集团。
8.根据权利要求7所述的方法,其特征在于,所述通过多媒体播放器中
的多媒体采集设备采集针对多媒体播放器中的多媒体文件输入的语音太阳城集团具
体包括:
通过多媒体播放器中的多媒体采集设备采集至少一段针对多媒体播放器
中的多媒体文件输入的语音片段,将所述至少一段语音片段组合成针对多媒
体播放器中的多媒体文件输入的语音太阳城集团,所述语音太阳城集团包括主题部分和标
题部分。
9.根据权利要求7所述的方法,其特征在于,从多媒体播放器中的多媒
体文件中提取语音太阳城集团具体包括:
按照预设的太阳城集团间隔从多媒体文件中截取预设长度的语音片段;
将截取的语音片段的频率与预先存储的噪声语音库中的噪声的频率进行
比对,去除截取的语音片段中的噪声部分;
在剩余的语音片段的附近位置截取固定长度的语音片段,将截取到的固
定长度的语音片段组合成针对音视频播放器中的音视频文件输入的语音信
息。
10.一种多媒体播放器中的多媒体文件存储装置,其特征在于,所述装
置包括:
语音太阳城集团获取单元,用于获取针对多媒体播放器中的多媒体文件输入的
语音太阳城集团;
语音识别单元,用于对所述语音太阳城集团进行语音识别,将所述语音太阳城集团识
别成对应的文字太阳城集团;
文件存储单元,用于将所述文字太阳城集团与所述多媒体文件进行关联存储。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
关键词提取单元,用于对所述语音识别单元识别得到的所述文字太阳城集团进
行语义拆分,从所述文字太阳城集团中提取关键词;
所述文件存储单元将所述关键词与所述多媒体文件进行关联存储。
12.根据权利要求10所述的装置,其特征在于,所述语音太阳城集团获取单元
具体包括:
语音太阳城集团采集模块,用于通过多媒体播放器中的多媒体采集设备采集针
对多媒体播放器中的多媒体文件输入的语音太阳城集团;和/或,
语音太阳城集团提取模块,用于从多媒体播放器中的多媒体文件中提取语音信
息。
13.根据权利要求12所述的装置,其特征在于,
所述语音太阳城集团采集模块具体用于通过多媒体播放器中的多媒体采集设备
采集至少一段针对多媒体播放器中的多媒体文件输入的语音片段,将所述至
少一段语音片段组合成针对多媒体播放器中的多媒体文件输入的语音太阳城集团,
所述语音太阳城集团包括主题部分和标题部分;
所述语音太阳城集团提取模块具体用于按照预设的太阳城集团间隔从多媒体文件中截
取预设长度的语音片段,将截取的语音片段的频率与预先存储的噪声语音库
中的噪声的频率进行比对,去除截取的语音片段中的噪声部分,在剩余的语
音片段的附近位置截取固定长度的语音片段,将截取到的固定长度的语音片
段组合成针对音视频播放器中的音视频文件输入的语音太阳城集团。

说明书

多媒体播放器中的多媒体文件存储方法和装置

技术领域

本发明涉及家电技术领域,更具体地说,涉及多媒体播放器中的多媒体
文件存储方法和装置。

背景技术

目前,随着科技的进步,智能设备越来越多,功能也越来越强大。例如
各种多媒体播放器(如电视、手机、相机等)不仅能够接入互联网,实现上
网冲浪,获取各种网络资源;同时强大的多媒体功能让其成为人们制作多媒
体素材的工具,尤其是多媒体播放器中内置有多媒体采集设备(如麦克风等),
给人们带来了极大的便利。人们可以随时随地用多媒体播放器中内置的多媒
体采集设备进行拍照、录像、录音等来记录重要的片段,成为生活和工作的
一部分。但是随着多媒体播放器采集的多媒体太阳城集团的数量的增多,如何快速、
准确、高效的定位或检索到用户需要的多媒体太阳城集团已经成为目前急需解决的
问题。

尤其随着多媒体播放器,如电视的智能化发展,智能电视不仅能够接入
互联网,实现上网冲浪,获取各种网络资源;还将成为家庭娱乐中心,人们
可以方便的在电视上进行K歌、聚会、共享亲友视频、安防监控、留言等,
这些功能的普及将使得电视录制的各种多媒体文件,如音视频文件的数量巨
大,但是在电视上对数量巨大的多媒体文件进行管理时,由于电视遥控器操
作较为复杂繁琐,交互性较差,因此受到电视的文字输入设备的限制,导致
对电视等多媒体播放器中的多媒体文件进行存储管理时存在效率低的问题。

发明内容

有鉴于此,本发明提供了一种多媒体播放器中的多媒体文件的存储方法,
以解决现有的由于受多媒体播放器的输入设备的限制而导致的对多媒体播放
器中的多媒体文件进行存储管理时存在的效率低的问题。

第一方面,提供一种多媒体播放器中的多媒体文件的存储方法,所述方
法包括:

获取针对多媒体播放器中的多媒体文件输入的语音太阳城集团;

对所述语音太阳城集团进行语音识别,将所述语音太阳城集团识别成对应的文字太阳城集团;

将所述文字太阳城集团与所述多媒体文件进行关联存储。

优选的,在所述将所述文字太阳城集团与所述多媒体文件进行关联存储之前,
所述方法还包括:

对所述文字太阳城集团进行语义拆分,从所述文字太阳城集团中提取关键词;

所述将所述文字太阳城集团与所述音视频文件进行关联存储具体为:

将所述关键词与所述多媒体文件进行关联存储。

优选的,在所述获取针对多媒体播放器中的多媒体文件输入的语音太阳城集团
之前,所述方法还包括:

通过多媒体播放器的多媒体采集设备录制多媒体片段;

通过多媒体播放器中的预设算法对录制的多媒体片段进行去噪声和增益
调整处理;

将处理后的多媒体片段存储成多媒体播放器中的音视频文件。

优选的,所述通过多媒体播放器中的预设算法对录制的多媒体片段进行
去噪声和增益调整处理具体包括:

对录制的多媒体片段进行去噪声处理;

采用多媒体播放器中预设的回声抑制算法对去噪处理后的多媒体片段进
行回声抑制处理;

对回声抑制处理后的多媒体片段进行增益调整。

优选的,所述对录制的多媒体片段进行去噪声具体包括:

将录制的多媒体片段的频谱与录制的环境背景噪声的频谱相减,其中所
述环境背景噪声的频谱为在录制多媒体片段时录制的环境背景噪声的频谱,
或者当在录制多媒体片段时未录制环境背景噪声时,统计录制的多媒体片段
的幅值,将幅值低于预设幅值阈值的多媒体片段的平均频谱作为环境背景噪
声的频谱;

统计与环境背景噪声的频谱相减后的多媒体片段的频率,去除该多媒体
片段中频率过高以及频率过低的异常频段。

优选的,所述对回声抑制处理后的多媒体片段进行增益调整具体包括:

统计环境背景噪声的幅值,所述环境背景噪声的幅值为在录制多媒体片
段时录制的环境背景噪声的,或者为录制的多媒体片段中幅值低于预设幅值
阈值的多媒体片段的平均幅值;

当录制的多媒体片段的幅值远大于环境背景噪声的幅值时,降低录制的
多媒体片段的幅值;当录制的多媒体片段的幅值远小于环境背景噪声的幅值
时,提高录制的多媒体片段的幅值。

优选的,所述获取针对多媒体播放器中的多媒体文件输入的语音具体包
括:

通过多媒体播放器中的多媒体采集设备采集针对多媒体播放器中的多媒
体文件输入的语音太阳城集团;和/或,

从多媒体播放器中的多媒体文件中提取语音太阳城集团。

优选的,所述通过多媒体播放器中的多媒体采集设备采集针对多媒体播
放器中的多媒体文件输入的语音太阳城集团具体包括:

通过多媒体播放器中的多媒体采集设备采集至少一段针对多媒体播放器
中的多媒体文件输入的语音片段,将所述至少一段语音片段组合成针对多媒
体播放器中的多媒体文件输入的语音太阳城集团,所述语音太阳城集团包括主题部分和标
题部分。

优选的,从多媒体播放器中的多媒体文件中提取语音太阳城集团具体包括:

按照预设的太阳城集团间隔从多媒体文件中截取预设长度的语音片段;

将截取的语音片段的频率与预先存储的噪声语音库中的噪声的频率进行
比对,去除截取的语音片段中的噪声部分;

在剩余的语音片段的附近位置截取固定长度的语音片段,将截取到的固
定长度的语音片段组合成针对音视频播放器中的音视频文件输入的语音信
息。

第二方面,提供一种多媒体播放器中的多媒体文件存储装置,所述装置
包括:

语音太阳城集团获取单元,用于获取针对多媒体播放器中的多媒体文件输入的
语音太阳城集团;

语音识别单元,用于对所述语音太阳城集团进行语音识别,将所述语音太阳城集团识
别成对应的文字太阳城集团;

文件存储单元,用于将所述文字太阳城集团与所述多媒体文件进行关联存储。

优选的,所述装置还包括:

关键词提取单元,用于对所述语音识别单元识别得到的所述文字太阳城集团进
行语义拆分,从所述文字太阳城集团中提取关键词;

所述文件存储单元将所述关键词与所述多媒体文件进行关联存储。

优选的,所述语音太阳城集团获取单元具体包括:

语音太阳城集团采集模块,用于通过多媒体播放器中的多媒体采集设备采集针
对多媒体播放器中的多媒体文件输入的语音太阳城集团;和/或,

语音太阳城集团提取模块,用于从多媒体播放器中的多媒体文件中提取语音信
息。

优选的,所述语音太阳城集团采集模块具体用于通过多媒体播放器中的多媒体
采集设备采集至少一段针对多媒体播放器中的多媒体文件输入的语音片段,
将所述至少一段语音片段组合成针对多媒体播放器中的多媒体文件输入的语
音太阳城集团,所述语音太阳城集团包括主题部分和标题部分;

所述语音太阳城集团提取模块具体用于按照预设的太阳城集团间隔从多媒体文件中截
取预设长度的语音片段,将截取的语音片段的频率与预先存储的噪声语音库
中的噪声的频率进行比对,去除截取的语音片段中的噪声部分,在剩余的语
音片段的附近位置截取固定长度的语音片段,将截取到的固定长度的语音片
段组合成针对音视频播放器中的音视频文件输入的语音太阳城集团。。

与现有技术相比,本发明所提供的技术方案具有以下优点:

本发明通过多媒体播放器中的音视频采集设备采集针对多媒体播放器中
的多媒体文件输入的语音太阳城集团,对该语音太阳城集团进行语音识别,以将该语音信
息识别成文字太阳城集团,将该文字太阳城集团与该多媒体文件进行关联存储,从而可以
减少多媒体文件存储过程中对多媒体播放器的文字输入设备的使用频率,进
而提高了多媒体文件的存储效率,另外由于将语音太阳城集团识别成文字太阳城集团,并
将文字太阳城集团与多媒体文件进行关联存储,从而利用与多媒体太阳城集团关联存储的
文字太阳城集团可以对多媒体文件进行快速、高效、准确的定位和检索。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实
施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面
描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,
在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明第一实施例提供的多媒体播放器中的多媒体文件存储方法
的实现流程图;

图2为本发明第二实施例提供的多媒体播放器中的多媒体文件存储方法
的实现流程图;

图3为本发明第三实施例提供的多媒体播放器中的多媒体文件存储方法
的实现流程图;

图4为本发明实施例提供的图3中的S32的具体实现流程图;

图5为本发明实施例提供的多媒体播放器中的多媒体文件存储装置的结
构框图。

具体实施方式

本发明提供了一种多媒体播放器中的多媒体文件的存储方法,所述方法
包括:

获取针对多媒体播放器中的多媒体文件输入的语音太阳城集团;

对所述语音太阳城集团进行语音识别,将所述语音太阳城集团识别成对应的文字太阳城集团;

将所述文字太阳城集团与所述多媒体文件进行关联存储。

本发明还提供了一种多媒体播放器中的多媒体文件存储装置,所述装置
包括:

语音太阳城集团获取单元,用于获取针对多媒体播放器中的多媒体文件输入的
语音太阳城集团;

语音识别单元,用于对所述语音太阳城集团进行语音识别,将所述语音太阳城集团识
别成对应的文字太阳城集团;

文件存储单元,用于将所述文字太阳城集团与所述多媒体文件进行关联存储。

以上是本发明的核心思想,为使本发明的上述目的、特征和优点能够更
加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发
明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以
在不违背本发明内涵的情况下做类似应用,因此本发明不受下面公开的具体
实施例的限制。

其次,本发明结合示意图进行详细描述,在详述本发明实施例时,为便
于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意
图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包
含长度、宽度及深度的三维空间尺寸。

下面通过几个实施例详细描述。

实施例一

图1示出了本发明实施例提供的多媒体播放器中的多媒体文件的存储方
法的实现流程,详述如下:

S11,获取针对多媒体播放器中的多媒体文件输入的语音太阳城集团。

其中多媒体播放器可以为电视、手机等。多媒体播放器中的多媒体文件
为音频文件、视频文件、音视频文件等。针对多媒体播放器中的多媒体文件
输入的语音太阳城集团可以为语音太阳城集团或者包含语音太阳城集团的视频太阳城集团等。该语音信
息可以包括一段语音片段,也可以包括两段或者两段以上的语音片段。

其中获取语音太阳城集团的方式可以为现有技术提供的任意一种方式,也可以
为本发明实施例提供的如下两种方式:

一种是通过多媒体播放器中的多媒体采集设备采集针对多媒体播放器中
的多媒体文件输入的语音太阳城集团。其中多媒体采集设备包括但不限于音频采集
器、视频采集器、音视频采集器等。其中音频采集器包括麦克风等。

另一种是从多媒体播放器中的多媒体文件中提取语音太阳城集团。

具体的,通过多媒体播放器中的多媒体采集设备采集针对多媒体播放器
中的多媒体文件输入的语音太阳城集团的具体过程如下:

通过多媒体播放器中的多媒体采集设备采集至少一段针对多媒体播放器
中的多媒体文件输入的语音片段,将该至少一段语音片段组合成针对多媒体
播放器中的多媒体文件输入的语音太阳城集团。优选的,该语音太阳城集团包括主题部分
和标题部分。

在本实施例中,当通过多媒体播放器中的多媒体采集设备采集一段针对
多媒体播放器中的多媒体文件输入的语音片段时,该语音片段中包括主题部
分和标题部分,其中主题部分和标题部分之间具有一定长度的停顿太阳城集团。当
通过多媒体播放器中的多媒体采集设备采集两段或者两段以上针对多媒体播
放器中的多媒体文件输入的语音片段时,至少一段语音片段包含主题部分,
至少另一段语音片段包含标题部分,此时,将采集到的两段或者两段以上针
对多媒体播放器中的多媒体文件输入的语音片段组成针对多媒体播放器中的
多媒体文件输入的语音太阳城集团。

例如在某种场景中(如宝宝5岁生日那天)在不同场合不同时刻分别录
制并保存了多个不同的音视频文件,此时,针对每个音视频文件可以输入一
段包含主题部分和标题部分的语音,或者针对每个音视频文件输入一段包含
主题部分的语音和一段包含标题部分的语音。比如针对录制的反映宝宝生日
时的同学聚会的场景的音视频文件,可以输入一段包含主题为“宝宝5岁生
日”标题为“同学聚会”的语音,或者输入一段包含主题为“宝宝5岁生日”
的语音和一段包含标题为“同学聚会”的语音。针对录制的反映宝宝生日时
的生日礼物的场景的音视频文件,可以输入一段包含主题为“宝宝5岁生日”
标题为“生日礼物”的语音,或者输入一段包含主题为“宝宝5岁生日”的
语音和一段包含标题为“生日礼物”的语音。针对录制的反映宝宝生日时的
舞蹈表演的场景的音视频文件,可以输入一段包含主题为“宝宝5岁生日”
标题为“舞蹈表演”的语音,或者输入一段包含主题为“宝宝5岁生日”的
语音和一段包含标题为“舞蹈表演”的语音。

具体的,从多媒体播放器中的多媒体文件中提取语音太阳城集团的具体过程如
下:

A1、按照预设的太阳城集团间隔从多媒体文件中截取预设长度的语音片段。

其中预设太阳城集团间隔和预设长度可以根据需要和不同场景进行设置,在此
不做任何限定。优选的,该预设长度越小越好。

A2、将截取的语音片段的频率与预先存储的噪声语音库中的噪声的频率
进行比对,去除截取的语音片段中的噪声部分。

其中预先存储的噪声语音库中存储有环境背景噪声,如汽车声、狗叫声、
喇叭声等。在本实施例中,可以通过多媒体播放器的多媒体采集设备采集环
境背景噪声,并将采集到的环境背景噪声存储至噪声语音库中。也可以直接
从其它设备,如通过网络等下载环境背景噪声,并将下载的环境背景噪声存
储至噪声语音库中。

优选的,可以对噪声语音库中的环境背景噪声进行分类,如按照环境场
景分类,这样,在将截取的语音片段的频率与预先存储的噪声语音库中的噪
声的频率进行比对时,可以先根据截取的语音片段的环境场景选择噪声语音
库中的其中一类环境背景噪声与截取的语音片段的频率进行比对,从而加快
比对速度。

A3、在剩余的语音片段的附近位置截取固定长度的语音片段,将截取到
的固定长度的语音片段组合成针对音视频播放器中的音视频文件输入的语音
太阳城集团。

具体的,在剩余的语音片段的附近位置是指在剩余的语音片段的前后预
设长度的位置。该预设长度可以根据音视频文件所反映的场景进行设置,在
此不做任何限定。

在本发明另一实施例中,获取针对多媒体播放器中的多媒体文件输入的
语音太阳城集团的具体过程还可以如下所示:

B1,通过多媒体播放器中的多媒体采集设备采集针对多媒体播放器中的
多媒体文件输入的语音太阳城集团,其具体过程如上所示。

B2,当在步骤B1中未采集到针对多媒体播放器中的多媒体文件输入的语
音太阳城集团时,从多媒体播放器中的多媒体文件中提取语音太阳城集团。

在本实施例中,优先采集针对多媒体播放器中的多媒体文件输入的语音
太阳城集团,如果未采集到该语音太阳城集团,如用户未输入该语音太阳城集团或者多媒体播放
器中的音频采集设备损坏而未采集到该语音太阳城集团,才从多媒体播放器中的多
媒体文件中提取语音太阳城集团。

S12,对所述语音太阳城集团进行语音识别,将所述语音太阳城集团识别成对应的文字
太阳城集团。

在本实施例中,将S11中针对音视频播放器中的音视频文件输入的语音
太阳城集团进行语音识别,将该语音太阳城集团识别成文字太阳城集团。其中语音识别的具体方
法可以采用现有技术提供的任意一种方式,还可以采用本发明实施例提供的
如下方式:

C1、多媒体播放器将该语音太阳城集团上传至云服务器中;

C2、云服务器根据预设的语音识别算法对上传的语音太阳城集团进行语音识别,
得到对应的文字太阳城集团;

其中语音识别算法可以采用现有技术提供的任意一种语音识别算法。由
于语音识别算法是现有技术,在此不再赘述。

C3、云服务器将语音识别得到的文字太阳城集团回传至多媒体播放器。

S13、将该文字太阳城集团与多媒体文件进行关联存储。

具体的,当该语音太阳城集团中包含两个或者两个以上的语音片段时,云服务
器对该语音太阳城集团中包含的每个语音片段进行语音识别,得到与语音片段对应
的文字片段,并向多媒体播放器回传针对每个语音片段识别得到的对应文字
片段,多媒体播放器将每个语音片段识别得到的对应文字片段组合成文字信
息。

在将该文字太阳城集团与多媒体文件进行关联存储时,可以直接将该文字太阳城集团
作为该多媒体文件的文件名,或者建立该多媒体文件与该文字太阳城集团之间的映
射关系。

在本实施例中,通过多媒体播放器中的音视频采集设备采集针对多媒体
播放器中的多媒体文件输入的语音太阳城集团,对该语音太阳城集团进行语音识别,以将
该语音太阳城集团识别成文字太阳城集团,将该文字太阳城集团与该多媒体文件进行关联存储,
从而可以减少多媒体文件存储过程中对多媒体播放器的文字输入设备的使用
频率,进而提高了多媒体文件的存储效率,另外由于将语音太阳城集团识别成文字
太阳城集团,并将文字太阳城集团与多媒体文件进行关联存储,从而利用与多媒体太阳城集团关
联存储的文字太阳城集团可以对多媒体文件进行快速、高效、准确的定位和检索。

实施例二

图2示出了本发明另一实施例提供的多媒体播放器中的多媒体文件的存
储方法的实现流程,详述如下:

S21,获取针对多媒体播放器中的多媒体文件输入的语音太阳城集团。其具体过
程如上述实施例一所示,在此不再赘述。

S22,对该语音太阳城集团进行语音识别,将该语音太阳城集团识别成文字太阳城集团。其具
体过程如上述实施例一所示,在此不再赘述。

S23,对该文字太阳城集团进行语义拆分,从该文字太阳城集团中提取关键词。其具体
过程如下:

将该文字太阳城集团进行拆分,形成单词以及词组;

去除拆分形成的单词以及词组中的文字噪声,将去除了文字噪声的单词
以及词组的组合作为从该文字太阳城集团中提取出的关键词。其中去除拆分形成的
单词以及词组中的文字噪声的具体过程如下:

去除拆分形成的单词以及词组中不能组合成单词的汉字噪声;

统计单词词频以及逆文档词频,去除拆分形成的单词以及词组中单词词
频和逆文档词频均高的单词。其中单词词频是指该单词在文字太阳城集团中出现的
频率。逆文档词频是指包含该单词的语音文件占总语音文件个数的比值。具
体如下:

单词词频:tf=n逆文档词频:

其中n代表单词在语音太阳城集团中出现的次数,m代表语音太阳城集团包含的语音
片段的个数。如果单词词频tf和逆文档词频idf的数值都大,则表示该单词是
一个非关键词的可能性非常大,如常用的结构助词:的等。

S24,将该关键词与多媒体文件进行关联存储。

在将该关键词与多媒体文件进行关联存储时,可以直接将该关键词作为
该多媒体文件的文件名,或者建立该多媒体文件与该关键词之间的映射关系。

在本实施例中,通过从语音太阳城集团识别得到的文字太阳城集团中提取关键词,将
该关键词与多媒体文件进行关联存储,从而使得存储的太阳城集团量少而简洁,进
一步提高了多媒体播放器中多媒体文件的存储效率,同时更有利于多媒体文
件的定位和检索。

实施例三

图3示出了本发明另一实施例提供的多媒体播放器中的多媒体文件的存
储方法的实现流程,该方法是在上述的实施例一或者二的基础上,增加了录
制多媒体播放器中的多媒体文件的步骤,其中录制多媒体播放器中的多媒体
文件的具体过程如图3所示,详述如下:

S31,通过多媒体播放器的多媒体采集设备录制多媒体片段。

其中多媒体采集设备包括但不限于音频采集器、视频采集器、音视频采
集器等。其中音频采集器包括麦克风等。

在本发明另一实施例中,在通过多媒体播放器的多媒体采集设备录制多
媒体片段的同时,可以选择性的录制环境背景噪声,并将环境背景噪声存储
至噪声语音库中。

S32,通过多媒体播放器中的预设算法对录制的多媒体片段进行去噪声和
增益调整处理。

其中通过多媒体播放器中的预设算法对录制的多媒体片段进行去噪声和
增益调整处理的具体过程如图4所示,详述如下:

S321,对录制的多媒体片段进行去噪声处理。其中对录制的多媒体片段
进行去噪声处理的具体过程如下:

D1、将录制的多媒体片段的频谱与录制的环境背景噪声的频谱相减,其
中环境背景噪声的频谱为在录制多媒体片段时录制的环境背景噪声的频谱,
或者当在录制多媒体片段时未录制环境背景噪声时,统计录制的多媒体片段
的幅值,将幅值低于预设幅值阈值的多媒体片段的平均频谱作为环境背景噪
声的频谱。

D2、统计与环境背景噪声的频谱相减后的多媒体片段的频率,去除该多
媒体片段中频率过高以及频率过低的异常频段。

S322,采用多媒体播放器中预设的回声抑制算法对去噪处理后的多媒体
片段进行回声抑制处理。

其中回声抑制算法采用归一化的最小均方算法(NLMS),具体表述为:

<mrow> <msub> <mi>y</mi> <mi>k</mi> </msub> <mo>=</mo> <msub> <mi>W</mi> <mi>K</mi> </msub> <msubsup> <mi>X</mi> <mi>K</mi> <mi>T</mi> </msubsup> </mrow>

ek=dK-yk

Wk+1=WK+2uekXK/PK(x)

其中:XK代表输入信号向量,T代表转置,WK代表权向量,yk代表NLMS
滤波器处理过后的输出信号,ek代表滤波器期望误差,dK代表滤波器期待响
应,u代表迭代步长,PK(x)代表输入信号的能量估计。

Wk+1=WK+2uekXK/δ+PK(x)

其中δ是一个很小的正数,可以避免信号输入过小产生的数值计算问题。

<mrow> <msub> <mi>P</mi> <mi>K</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>a</mi> <mo>)</mo> </mrow> <msub> <mi>P</mi> <mrow> <mi>K</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>+</mo> <msubsup> <mi>ax</mi> <mi>k</mi> <mn>2</mn> </msubsup> </mrow>

其中a是一个0-1之间的常数。

最终经过多次迭代得到最终的输出信号yk。

S323,对回声抑制处理后的多媒体片段进行增益调整。其具体过程如下:

统计环境背景噪声的幅值,该环境背景噪声的幅值可以为在录制多媒体
片段时录制的环境背景噪声的,或者为录制的多媒体片段中幅值低于预设幅
值阈值的多媒体片段的平均幅值。

当录制的多媒体片段的幅值远大于环境背景噪声的幅值时,降低录制的
多媒体片段的幅值;当录制的多媒体片段的幅值远小于环境背景噪声的幅值
时,提高录制的多媒体片段的幅值。这样,可以有效的提高录制的多媒体片
段的质量。

S33,将处理后的多媒体片段存储成多媒体播放器中的音视频文件。

实施例四

图5示出了本发明实施例提供的多媒体播放器中的多媒体文件存储装置
的结构框图,该多媒体播放器中的多媒体文件存储装置可以是内置于多媒体
播放器中的软件单元、硬件单元或者软硬件相结合的单元,或者作为独立的
挂件集成到多媒体播放器或者多媒体播放器的应用系统中。该多媒体播放器
中的多媒体文件存储装置包括语音太阳城集团获取单元51,语音识别单元52以及文
件存储单元53。其中:

语音太阳城集团获取单元51获取针对多媒体播放器中的多媒体文件输入的语音
太阳城集团。

其中多媒体播放器可以为电视、手机等。多媒体播放器中的多媒体文件
为音频文件、视频文件、音视频文件等。针对多媒体播放器中的多媒体文件
输入的语音太阳城集团可以为语音太阳城集团或者包含语音太阳城集团的视频太阳城集团等。该语音信
息可以包括一段语音片段,也可以包括两段或者两段以上的语音片段。

具体的,所述语音太阳城集团获取单元51包括语音太阳城集团采集模块511和/或语音
太阳城集团提取模块512。其中:

语音太阳城集团采集模块511通过多媒体播放器中的多媒体采集设备采集针对
多媒体播放器中的多媒体文件输入的语音太阳城集团。

具体的,所述语音太阳城集团采集模块511具体用于通过多媒体播放器中的多
媒体采集设备采集至少一段针对多媒体播放器中的多媒体文件输入的语音片
段,将所述至少一段语音片段组合成针对多媒体播放器中的多媒体文件输入
的语音太阳城集团,所述语音太阳城集团包括主题部分和标题部分。

语音太阳城集团提取模块512从多媒体播放器中的多媒体文件中提取语音太阳城集团。

具体的,所述语音太阳城集团提取模块512具体用于按照预设的太阳城集团间隔从多
媒体文件中截取预设长度的语音片段,将截取的语音片段的频率与预先存储
的噪声语音库中的噪声的频率进行比对,去除截取的语音片段中的噪声部分,
在剩余的语音片段的附近位置截取固定长度的语音片段,将截取到的固定长
度的语音片段组合成针对音视频播放器中的音视频文件输入的语音太阳城集团。

语音识别单元52对所述语音太阳城集团进行语音识别,将所述语音太阳城集团识别成
对应的文字太阳城集团。

其中语音识别单元52将语音太阳城集团上传至云服务器,云服务器根据预设的
语音识别算法对上传的语音太阳城集团进行语音识别,得到对应的文字太阳城集团,云服
务器将语音识别得到的文字太阳城集团回传至语音识别单元52。

文件存储单元53将所述文字太阳城集团与所述多媒体文件进行关联存储。

在将该文字太阳城集团与多媒体文件进行关联存储时,可以直接将该文字太阳城集团
作为该多媒体文件的文件名,或者建立该多媒体文件与该文字太阳城集团之间的映
射关系。

在本发明另一实施例中,该装置还包括关键词提取单元54。该关键词提
取单元54对所述语音识别单元52识别得到的所述文字太阳城集团进行语义拆分,
从所述文字太阳城集团中提取关键词,此时所述文件存储单元53将所述关键词与所
述多媒体文件进行关联存储。

具体的,该关键词提取单元54将该文字太阳城集团进行拆分,形成单词以及词
组;

去除拆分形成的单词以及词组中的文字噪声,将去除了文字噪声的单词
以及词组的组合作为从该文字太阳城集团中提取出的关键词。其中去除拆分形成的
单词以及词组中的文字噪声的具体过程如下:

去除拆分形成的单词以及词组中不能组合成单词的汉字噪声;

统计单词词频以及逆文档词频,去除拆分形成的单词以及词组中单词词
频和逆文档词频均高的单词。

在本发明另一实施例中,该装置还包括多媒体文件录制单元55。该多媒
体文件录制单元55通过多媒体播放器的多媒体采集设备录制多媒体片段,通
过多媒体播放器中的预设算法对录制的多媒体片段进行去噪声和增益调整处
理,将处理后的多媒体片段存储成多媒体播放器中的音视频文件。

具体的,该多媒体文件录制单元55包括去噪声处理模块551、回声抑制
模块552以及增益调整模块553。其中:

去噪声处理模块551对录制的多媒体片段进行去噪声处理。其具体过程
如下:

将录制的多媒体片段的频谱与录制的环境背景噪声的频谱相减,其中所
述环境背景噪声的频谱为在录制多媒体片段时录制的环境背景噪声的频谱,
或者当在录制多媒体片段时未录制环境背景噪声时,统计录制的多媒体片段
的幅值,将幅值低于预设幅值阈值的多媒体片段的平均频谱作为环境背景噪
声的频谱;

统计与环境背景噪声的频谱相减后的多媒体片段的频率,去除该多媒体
片段中频率过高以及频率过低的异常频段。

回声抑制模块552采用多媒体播放器中预设的回声抑制算法对去噪处理
后的多媒体片段进行回声抑制处理。其具体过程如上述方法所示,在此不再
赘述。

增益调整模块553对回声抑制处理后的多媒体片段进行增益调整。其具
体过程如下:

统计环境背景噪声的幅值,所述环境背景噪声的幅值为在录制多媒体片
段时录制的环境背景噪声的,或者为录制的多媒体片段中幅值低于预设幅值
阈值的多媒体片段的平均幅值;

当录制的多媒体片段的幅值远大于环境背景噪声的幅值时,降低录制的
多媒体片段的幅值;当录制的多媒体片段的幅值远小于环境背景噪声的幅值
时,提高录制的多媒体片段的幅值。

以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,
凡是利用本发明说明书及附图内容所作的等效结构或者直接、间接运用在其
他相关的技术领域,均视为包括在本发明的专利保护范围内。

关 键 词:
多媒体 播放 中的 文件 存储 方法 装置
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
太阳城集团本文
本文标题:多媒体播放器中的多媒体文件存储方法和装置.pdf
链接地址:http://zh228.com/p-6100798.html
太阳城集团我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
葡京赌场|welcome document.write ('');