太阳城集团

  • / 17
  • 下载费用:30 金币  

数据提取的方法及装置.pdf

摘要
申请专利号:

CN201510474190.5

申请日:

2015.08.05

公开号:

太阳城集团CN105045900A

公开日:

2015.11.11

当前法律状态:

实审

有效性:

审中

法律详情: 实质审查的生效IPC(主分类):G06F 17/30申请日:20150805|||公开
IPC分类号: G06F17/30 主分类号: G06F17/30
申请人: 石河子大学
发明人: 郑亮; 陈根方
地址: 832003新疆维吾尔自治区石河子市北四路221号
优先权:
专利代理机构: 北京鼎佳达知识产权代理事务所(普通合伙)11348 代理人: 王伟锋; 刘铁生
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

CN201510474190.5

授权太阳城集团号:

|||

法律状态太阳城集团日:

2015.12.09|||2015.11.11

法律状态类型:

太阳城集团实质审查的生效|||公开

摘要

太阳城集团本发明公开了一种数据提取的方法及装置,涉及数据处理领域,为解决人工提取数据效率低下的问题而发明。本发明的方法包括:对数据进行预处理,获得位置在前的第一数据和位置在后的第二数据;计算第一数据和第二数据的相似度;若第一数据和第二数据的相似度满足预设的相似度阈值,则删除位置在后的第二数据;保留位置在前的第一数据,获得摘要太阳城集团。本发明适合应用在对大量的、不同格式的节日数据进行提取的过程中。

权利要求书

1.一种数据提取的方法,其特征在于,所述方法包括:
对数据进行预处理,获得位置在前的第一数据和位置在后的第二数据;
计算所述第一数据和所述第二数据的相似度;
若所述第一数据和所述第二数据的相似度满足预设的相似度阈值,则
删除位置在后的所述第二数据;
保留位置在前的所述第一数据,获得摘要太阳城集团。
2.根据权利要求1所述的方法,其特征在于,所述数据包括文本数据、
图片数据及视频数据。
3.根据权利要求2所述的方法,其特征在于,所述数据为文本数据,
所述对数据进行预处理,获得位置在前的第一数据和位置在后的第二数据,
包括:
对所述文本数据进行分词处理,获得先后相邻的两个语句;
所述计算所述第一数据和所述第二数据的相似度,包括:
通过最大公共子序列LCS算法计算所述先后相邻的两个语句的相似
度;
所述若所述第一数据和所述第二数据的相似度满足预设的相似度阈
值,则删除位置在后的所述第二数据,包括:
若所述先后相邻的两个语句的相似度大于λT,则删除位置在后的语句。
4.根据权利要求3所述的方法,其特征在于,所述通过最大公共子序
列LCS算法计算所述先后相邻的两个语句的相似度,包括:
基于同义词库对所述先后相邻的两个语句的相似度进行模糊匹配。
5.根据权利要求2所述的方法,其特征在于,所述数据为图片数据,
所述对数据进行预处理,获得位置在前的第一数据和位置在后的第二数据,
包括:
按照预设的特征值对图片数据进行分类,获得多个图片集合;
针对每个图片集合,从中反复抽取任意两张图片;
所述计算所述第一数据和所述第二数据的相似度,包括:
通过颜色直方图计算抽取的两张图片的相似度;
所述若所述第一数据和所述第二数据的相似度满足预设的相似度阈
值,则删除位置在后的所述第二数据,包括:
若两张图片的相似度大于λU,则删除位置在后的图片。
6.根据权利要求2所述的方法,其特征在于,所述数据为视频数据,
所述对数据进行预处理,获得位置在前的第一数据和位置在后的第二数据,
包括:
对所述视频数据进行帧分割,获得视频帧序列;
从所述视频帧序列中抽取任意相邻的两个视频帧;
所述计算所述第一数据和所述第二数据的相似度,包括:
通过帧差法计算所述两个视频帧的相似度;
所述若所述第一数据和所述第二数据的相似度满足预设的相似度阈
值,则删除位置在后的所述第二数据,包括:
若两相邻视频帧的相似度大于λV,则删除位置在后的视频帧。
7.根据权利要求1所述的方法,其特征在于,在所述保留位置在前的
所述第一数据,获得摘要太阳城集团之后,所述方法进一步包括:
将所述摘要太阳城集团与标准摘要太阳城集团进行比对,获得所述摘要太阳城集团是否准
确的评估结果;
若所述摘要太阳城集团的准确度未达到预设要求,则对所述相似度阈值进行
调整;
基于调整后的相似度阈值对再次进行相似度计算。
8.根据权利要求7所述的方法,其特征在于,所述将所述摘要太阳城集团与
标准摘要太阳城集团进行比对,获得所述摘要太阳城集团是否准确的评估结果,包括:
将所述摘要太阳城集团和所述标准摘要太阳城集团分别转化为第一语义序列和第二
语义序列;
计算所述第一语义序列和所述第二语义序列的最大公共子序列;
计算所述最大公共子序列与所述第二语义序列的比值;
若所述比值达到预设比例阈值,则确定所述摘要太阳城集团的准确度达到预
设要求。
9.根据权利要求1至8中任一项所述的方法,其特征在于,所述数据
为节日主题数据。
10.一种数据提取的装置,其特征在于,所述装置包括:
处理单元,用于对数据进行预处理,获得位置在前的第一数据和位置
在后的第二数据;
计算单元,用于计算所述处理单元获得的所述第一数据和所述第二数
据的相似度;
删除单元,用于当所述计算单元计算的所述第一数据和所述第二数据
的相似度满足预设的相似度阈值时,删除位置在后的所述第二数据,保留
位置在前的所述第一数据,获得摘要太阳城集团。
11.根据权利要求10所述的装置,其特征在于,所述处理单元处理的
所述数据包括文本数据、图片数据及视频数据。
12.根据权利要求11所述的装置,其特征在于,所述处理单元处理的
所述数据为文本数据,所述处理单元用于:
对所述文本数据进行分词处理,获得先后相邻的两个语句;
所述计算单元用于:
通过最大公共子序列LCS算法计算所述先后相邻的两个语句的相似
度;
所述删除单元用于:
当所述先后相邻的两个语句的相似度大于λT时,删除位置在后的语句。
13.根据权利要求12所述的装置,其特征在于,所述计算单元用于基
于同义词库对所述先后相邻的两个语句的相似度进行模糊匹配。
14.根据权利要求11所述的装置,其特征在于,所述处理单元处理的
数据为图片数据,所述处理单元用于:
按照预设的特征值对图片数据进行分类,获得多个图片集合;
针对每个图片集合,从中反复抽取任意两张图片;
所述计算单元用于:
通过颜色直方图计算抽取的两张图片的相似度;
所述删除单元,用于当所述相似度阈值大于λu时,删除位置在后的所
述第二数据。
15.根据权利要求11所述的装置,其特征在于,所述处理单元处理的
数据为视频数据,所述处理单元用于:
对所述视频数据进行帧分割,获得视频帧序列;
从所述视频帧序列中抽取任意相邻的两个视频帧;
所述计算单元用于:
通过帧差法计算所述第一数据和所述第二数据的相似度;
所述删除单元,用于当所述第一数据和所述第二数据的相似度大于λV
时,删除位置在后的视频帧。
16.根据权利要求10所述的装置,其特征在于,所述装置进一步包括:
比对单元,用于在所述删除单元保留位置在前的所述第一数据,获得
摘要太阳城集团之后,将所述删除单元获得的摘要太阳城集团与标准摘要太阳城集团进行比对,
获得所述摘要太阳城集团是否准确的评估结果;
调整单元,用于当所述比对单元获得的摘要太阳城集团的准确度未达到预设
要求时,对所述计算单元使用的相似度阈值进行调整;
所述计算单元,用于基于调整后的相似度阈值对再次进行相似度计算。
17.根据权利要求16所述的装置,其特征在于,所述比对单元包括:
转化模块,用于将所述删除单元获得的摘要太阳城集团和所述标准摘要太阳城集团
分别转化为第一语义序列和第二语义序列;
计算模块,用于计算所述转化模块转化的所述第一语义序列和所述第
二语义序列的最大公共子序列,计算所述最大公共子序列与所述第二语义
序列的比值;
确定模块,用于当所述计算模块计算的所述比值达到预设比例阈值时,
则确定所述摘要太阳城集团的准确度达到预设要求。
18.根据权利要求10至17中任一项所述的装置,其特征在于,所述
处理单元处理的数据为节日主题数据。

说明书

数据提取的方法及装置

技术领域

本发明涉及数据处理领域,尤其涉及一种数据提取的方法及装置。

背景技术

现今数据种类繁多,在对数据的数字化处理过程中,可采集到各种类
型的数据,对某一类事件或现象的记录和采集有多种方式,比如文字描述、
相机拍照、拍摄、电话记录、短信、微信、博客、邮件、电视台、广播台
等。在这些数据中,体现出数据类型多样、数据源多样、数据结构复杂、
数据容量庞大等特征。

面对这些多种多样且数量十分庞大的数据,如果需要进行某种数据提
取或数据统计的话,目前主流的处理思路在于通过数据相似度的比较,将
过于相似甚至完全相同的多份数据择一保留,剔除重复数据,达到数据去
重的目的。例如,对拍摄内容基本相同的多张照片进行去重处理,或者对
语义内容实质相同的文本太阳城集团进行去重处理等。由于数据类型多种多样,
并且数据本身大多又是半结构化或非结构化的异构数据,因此现有的数据
提取方式主要是由人工操作实现,网络运营人员通过肉眼比对及手动筛选
的方式完成有用数据的提取。

在上述数据提取的过程中,发明人发现:随着大数据时代的到来,网
络中的数据量将会成几何状增长。面对如此庞大的数据量,人工提取数据
的方式需要消耗大量的处理太阳城集团,提取效率过于低下。

发明内容

本发明提供了一种数据提取的方法及装置,能够解决人工提取数据效
率低下的问题。

为解决上述技术问题,一方面,本发明提供了一种数据提取的方法,
该方法包括:

对数据进行预处理,获得位置在前的第一数据和位置在后的第二数据;

计算所述第一数据和所述第二数据的相似度;

若所述第一数据和所述第二数据的相似度满足预设的相似度阈值,则
删除位置在后的所述第二数据;

保留位置在前的所述第一数据,获得摘要太阳城集团。

另一方面,本发明还提供了一种数据提取的装置,该装置包括:

处理单元,用于对数据进行预处理,获得位置在前的第一数据和位置
在后的第二数据;

计算单元,用于计算所述处理单元获得的所述第一数据和所述第二数
据的相似度;

删除单元,用于当所述计算单元计算的所述第一数据和所述第二数据
的相似度满足预设的相似度阈值时,删除位置在后的所述第二数据,保留
位置在前的所述第一数据,获得摘要太阳城集团。

本发明提供的数据提取的方法及装置,能够通过计算机自动对数据进
行预处理,获得第一数据和第二数据,并对第一数据和第二数据的相似度
进行计算,若两者满足相似度阈值,则说明第一数据和第二数据是重复的,
计算机自动删除第二数据以达到剔除冗余数据,保留数据摘要太阳城集团的目的。
与现有技术相比,本发明可以通过计算机处理快速得到数据摘要太阳城集团,无
需人工对原始数据进行查看比对、手动筛选,大大的减少了数据的处理时
间,能够提高数据提取的效率。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的
技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和
其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于
本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目
的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符
号表示相同的部件。在附图中:

图1示出了本发明实施例提供的一种数据提取的方法流程图;

图2示出了本发明实施例提供的一种文本格式数据摘要太阳城集团提取的方
法流程图;

图3示出了本发明实施例提供的一种图片格式数据摘要太阳城集团提取的方
法流程图;

图4示出了本发明实施例提供的一种视频格式数据摘要太阳城集团提取的方
法流程图;

图5示出了本发明实施例提供的一种摘要太阳城集团提取评估方法的流程图;

图6示出了本发明实施例提供的一种数据提取的装置的组成框图;

图7示出了本发明实施例提供的另一种数据提取装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显
示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开
而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更
透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术
人员。

为解决现有技术中人工提取摘要太阳城集团效率低下的问题,本发明实施例
提供了一种数据提取的方法,如图1所示,该方法包括:

101、对数据进行预处理,获得位置在前的第一数据和位置在后的第二
数据。

在本实施例中,进行预处理的数据包括不同形式的数据,对不同形式
的数据预处理的方式也不同。

对数据进行预处理是对不同形式的数据进行按不同的特征进行简单的
分类处理,得到更小范围的数据,也为接下来的数据相似度的计算提供更
明确的数据集合,节约计算的太阳城集团。

对通过不同方法得到的每个数据集合中的相邻数据进行定义,为便于
表述,这里将位置在前数据的定为第一数据,将位置在后的数据定为第二
数据。

本实施例中对数据的定义方式不是唯一的,也可以将相邻数据中位置
在前的数据定为第二数据,位置在后的数据定为第一数据。

102、计算第一数据和第二数据的相似度。

将步骤101中获得的第一数据和第二数据进行相似度的计算,不同的
数据形式所用的计算方法不同。

本实施例中计算相似度的原理是通过比较第一数据和第二数据的相同
或相似的程度来定义相似度的。本步骤中计算相似度的目的在于找出重复
的第一数据和第二数据,相似度的计算结果用于为后续步骤中删除重复数
据提供参考。

103、若第一数据和第二数据的相似度满足预设的相似度阈值,则删除
位置在后的第二数据。

本实施例中第一数据和第二数据的相同或相似的判定,是通过一个预
设的阈值来衡量的,不同形式数据对应的相似度阈值不同。

由步骤102获得的相似度值与预设相似度阈值进行比较,若相似度满
足其相应形式的预设阈值,则认为第一数据和第二数据相同或相似,两者
互为重复数据,删除位置在后的第二数据;若数据的相似度不满足相似度
阈值,则认为第一数据和第二数据不相同或不相似,两者不为重复数据,
保留第一数据和第二数据。

本实施例中删除第二数据的目的在于删除两个相似度高的数据中的一
个数据,以达到数据“去重”的效果,并继而实现摘要太阳城集团的提取。本实
施例仅要求将重复的第一数据和第二数据中的一者删除即可,删除第二数
据仅为本实施例提供的一种实现方式,实际应用中,也可以删除位置在前
的第一数据。为避免混淆,本发明后续实施例将以删除位置在后的第二数
据为例进行说明。

104、保留位置在前的第一数据,获得摘要太阳城集团。

在步骤103删除了位置在后的第二数据后,获得的保留下来的位置在
前的第一数据。

在获得第一数据后,重复执行步骤101至步骤104,对数据集合中剩余
的数据重新进行排序,区分第一数据和第二数据,并再次进行数据相似度
的计算和比较,删除其中的重复数据。通过反复执行上述步骤101至步骤
104,将数据集合中所有重复的数据全部删除,直至数据集合中不再存在任
何相同或相似的数据,即得到两两数据相似度阈值均满足预设相似度的数
据集合,也就是提取得到了数据的摘要太阳城集团。不同形式的数据经过处理得
到不同形式的摘要形式。

本发明实施例提供的数据提取的方法,能够通过计算机自动对数据进
行预处理,获得第一数据和第二数据,并对第一数据和第二数据的相似度
进行计算,若两者满足相似度阈值,则说明第一数据和第二数据是重复的,
计算机自动删除第二数据以达到剔除冗余数据,保留数据摘要太阳城集团的目的。
与现有技术相比,本发明实施例可以通过计算机处理快速得到数据摘要信
息,无需人工对原始数据进行查看比对、手动筛选,大大的减少了数据的
处理太阳城集团,能够提高数据提取的效率。

进一步的,作为对图1所示实施例的细化及扩展,本发明还提供了以
下不同实施例。

在本发明的一个实施例中,可以对文字、图片及视频格式的数据进行
摘要太阳城集团的提取,下面针对不同的数据格式,给出三种摘要太阳城集团提取的实
现方式。应当明确,以下实现方式中的具体公式、算法、参数仅为示例性
说明,不作为对实际应用的具体限制。

如图2所示,针对文本格式的摘要太阳城集团的提取方式包括:

201、对文本数据进行分词处理,获得先后相邻的两个语句。

本实施例中对文本数据进行分词处理包括,在分词前对源文本数据根
据特征值分成不同集合的文本数据,然后对不同集合中的文本数据进行分
段处理和分句处理。

将得到的文本语句数据进行分词处理,这里的分词方法可以是正向最
大匹配法,就是按照从左至右的方式进行分词。例如将“不知道你在说什
么”按照正向最大匹配法进行分词就可以分为“不知道”、“你”、“在”、“说
什么”。本实施例中的分词方法只是具体的实现方式的一种,在实际的应用
中也可以按照反向最大匹配法、最短路径分词法、双向最大匹配法的方法
进行分词。

将经过分词处理得到的文本语句进行定义,为了方便叙述,将相邻的
文本数据中位置在先的文本数据定为第一语句,将位置在后的文本数据定
为第二语句。

202、计算第一语句和第二语句的相似度。

本实施例中计算相似度的算法为最大公共子序列LCS算法,具体的实
现方式包括:

首先,将由步骤201获得的第一语句与第二语句进行比对找出最大公
共子序列,也就是找出两个语句最大连续相同的文本太阳城集团。

考虑到实际应用中存在两个词词义相同但是文字表达不同的情况,例
如,“天安门广场”和“广场”,虽然在字面上判断不相同,但在特定的环
境都代表了天安门广场,应当认为是相同的词;或者“高兴”和“兴奋”
也是同义词的不同表述方式。

为了避免上述类似情况下错判的发生,并保证相似度的计算精确度,
本实施例加入了同义词库。该同义词库是由不同领域专家总结的在不同实
际应用中同义词的不同表达方式。

用基于同义词库的LCS算法对先后相邻的两个语句进行模糊匹配,找
出第一语句和第二语句的最大公共子序列。在基于同义词库的LCS算法对
先后相邻的两个语句进行模糊匹配的过程中,本实施例还提供了一种使用
名词作为特征词进行向前搜索的方法来匹配,该方法是考虑到在体现和表
达语句的含义时,名词相比与动词或其它词性的词具有更好的特征性。

然后,由得到的第一语句和第二语句的最大公共子序列进行相似度的
计算,输出得到相似度值λ1

203、若第一语句和第二语句的相似度满足预设的相似度阈值,则删除
位置在后的第二语句。

本实施例中,文本数据的预设相似度阈值设为λT,将由步骤202得到
的相似度λ1与λT进行比对,若λ1>λT,则认为满足预设相似度阈值,说明
第一语句和第二语句是重复的,计算机自动删除第二语句以达到剔除冗余
文本数据的目的;若λ1≤λT,则认为不满足预设相似度阈值,说明第一语
句和第二语句不相同或不相似,两者不为重复语句,保留第一语句和第二
语句。

204、保留第一语句,得到文本摘要太阳城集团。

在步骤203删除了位置在后的第二语句后,获得的保留下来的位置在
前的第一语句。

在获得第一语句后,重复执行步骤201至步骤204,对文本数据集合中
剩余的数据重新进行排序,区分第一语句和第二语句,并再次进行语句相
似度的计算和比较,删除其中的重复语句。通过反复执行上述步骤201至
步骤204,将文本数据集合中所有重复的数据全部删除,直至数据集合中不
再存在任何相同或相似的语句,即得到两两语句相似度阈值均满足预设相
似度的数据集合,也就是提取得到了文本数据的摘要太阳城集团。

如图3所示,针对图片格式的摘要太阳城集团的提取方式包括:

301、按照预设的特征值对图片数据进行分类,获得多个图片集合。

目前对图片数据进行摘要太阳城集团提取时,是对所有的图片中的数据进行
两两比对,考虑到现有方法一次处理数据对象数量大,计算的太阳城集团长,本
实施例中,提供了一种对图片数据进行预处理的方法。该方法可以将所有
的图片数据分成不同的数据集合,然后对每个集合中的图片进行处理就可
以减少一次处理的数据,节省了太阳城集团。

具体的本发明实施例是通过一些固定的特征值,由计算机来对图片数
据进行分类的。比如按地点对图片数据分类,可以将图片分成几种不同地
点的数据集合。这些特征值在特定的情况下是固定的。当然,本实施例对
特征值的识别是基于图片识别技术实现的。

在得到的不同集合的图片数据中,反复抽取任意两张图片,得到第一
图片和第二图片。

302、计算第一图片和第二图片的相似度。

将步骤301得到的第一图片和第二图片进行相似度计算的方法为颜色
直方图统计法。该方法的具体实现方式包括:

首先,对第一图片和第二图片中的所有像素点的颜色分别进行统计。
例如,一个图片中由1000个像素点,通过统计得到红色的像素点有300个,
绿色的像素点有300个,蓝色的像素点有400个。

其次,实现第一图片和第二图片的直方图均衡化,直方图均衡化是通
过灰度变换将一幅图片转换为另一幅具有均衡直方图,即在每个灰度级上
都具有相同的像素点数过程。对于黑白图片用单通道的灰色图像函数就行,
对于彩色图片,可以把每个通道R、G、B分别均衡化,再合成为彩色图
像。

最后,得到高斯分布图,黑白图片为一维高斯分布,彩色图片为三维
高斯分布。本实施例中为了对比的快速性,删除由第一图片和第二图片得
到的高斯分布中小于10%的部分,对剩下的部分进行匹配对比,计算得到
相似度λ2。

303、若第一图片和第二图片的相似度满足预设的相似度阈值,则删除
位置在后的所述第二图片。

本实施例中,图片数据的预设相似度阈值设为λU,将由步骤302得到
的相似度λ2与λU进行比对,若λ2>λU,则认为满足预设相似度阈值,说明
第一图片和第二图片是重复的,计算机自动删除第二图片以达到剔除冗余
图片数据的目的;若λ2≤λU,则认为不满足预设相似度阈值,说明第一图
片和第二图片不相同或不相似,两者不为重复图片,保留第一图片和第二
图片。

304、保留第一图片,得到图片摘要太阳城集团。

在步骤303删除了位置在后的第二图片后,获得的保留下来的位置在
前的第一图片。

在获得第一图片后,重复执行步骤302至步骤304,对图片数据集合中
剩余的数据再次进行图片相似度的计算和比较,删除其中的重复图片。通
过反复执行上述步骤302至步骤304,将图片数据集合中所有重复的图片全
部删除,直至图片集合中不再存在任何相同或相似的图片,即得到两两图
片相似度阈值均满足预设相似度的数据集合,也就是提取得到了图片数据
的摘要太阳城集团。

如图4所示,针对视频格式的摘要太阳城集团的提取方式包括:

401、对视频数据进行帧分割,获得视频帧序列,从视频帧序列中抽取
任意相邻的两个视频帧。

本实施例中,在帧分割之前先对全部的视频进行人工去重处理,即对
内容基本一致的视频只保留其中一个视频,删除多余的重复数据。然后对
剩余的内容不同的视频进行帧分割,获得视频帧序列,并从中去抽取任意
相邻的两个帧,为后面的相似度计算作准备。

将经过帧分割处理得到的视频帧进行定义,为了方便叙述,将相邻的
视频帧中位置在先的视频帧数据定为第一帧,将位置在后的视频帧数据定
为第二帧。

402、计算第一帧和第二帧的相似度。

本实施例中是通过帧差法来计算两个视频帧的相似度的。帧差法通常
是用来将运动目标从背景图像中提取出来的一种方法,原理是在图像序列
相邻两帧或三帧间采用基于像素的太阳城集团差分通过闭值化来提取出图像中的
运动区域。考虑帧差法是依据视频中背景图像的基本不变来找出变化区域,
因此,本实施例就运用帧差法这一原理就可以找到背景相同或相似的帧,
从而删除视频中重复相同的帧。具体的实现方式如下:

首先,步骤401获得的第一帧和第二帧进行处理,得到他们的像素值。
若为黑白图片他们的灰度值就是其像素值,若为彩色图片,则需要对其先
进性灰度化处理,分别得到R、G、B三维空间上的灰度值,来构成其像素
值;

其次,对比第一帧和第二帧的对应点的像素值的变化,得到差分图像,
将差分图像再进行二值化处理;

最后,根据处理过的差分图像来计算第一帧和所述第二帧的相似度
λ3。

403、若第一帧和第二帧的相似度满足预设的相似度阈值,则删除位置
在后的第二帧。

本实施例中,视频数据的预设相似度阈值设为λV,将由步骤402得到
的相似度λ3与λV进行比对,若λ3>λV,则认为满足预设相似度阈值,说明
第一帧和第二帧是重复的,计算机自动删除第二帧以达到剔除冗余视频帧
数据的目的;若λ2≤λU,则认为不满足预设相似度阈值,说明第一帧和第
二帧不相同或不相似,两者不为重复帧,保留第一帧和第二帧。

404、保留第一帧,得到视频摘要太阳城集团。

在步骤403删除了位置在后的第二帧后,获得的保留下来的位置在前
的第一帧。

在获得第一帧后,重复执行步骤402至步骤404,对各视频数据中剩余
的视频帧再次进行帧相似度的计算和比较,删除其中的重复帧。通过反复
执行上述步骤402至步骤404,将视频数据中所有重复的帧全部删除,直至
视频数据中不再存在任何相同或相似的帧,即得到相邻两两帧相似度阈值
均满足预设相似度的数据集合,也就是提取得到了视频数据的摘要太阳城集团。

在上述图2至图4所示的实现方式中各相似度值的范围均为
λ1,λ2,λ3,λT,λU,λV∈[0,1]。

进一步的,作为对上述图1至图4所示流程的补充,考虑到本实施例
得到的摘要太阳城集团可能不准确,为保证该数据提取方法的准确性,本实施例
提供了一种评估方法。如图5所示,包括:

501、将得到的摘要太阳城集团与标准摘要太阳城集团进行比对。

将由步骤204、步骤304和步骤404得到的摘要太阳城集团和标准摘要太阳城集团分
别转化为第一语义序列和第二语义序列。为了方便表述,定义第一语义序
列为X,第二语义序列为Y。本实施例中,标准摘要太阳城集团是指由几个专家
提取出的摘要太阳城集团。

运用最大公共子序列LCS算法计算X与Y的最大公共子序列得到Z,
然后根据公式来评估摘要太阳城集团的准确性。其中len(Z)、len(X)分别
表示序列Z和序列Y的长度。

502、若获得的比值达到预设比例阈值,则确定摘要太阳城集团的准确度达到
预设要求。若摘要太阳城集团的准确度未达到预设要求,则对相似度阈值进行调
整。基于调整后的相似度阈值对再次进行相似度计算。

将由步骤501得到的比值γ与预设的比例阈值对比,来判断摘要太阳城集团提
取的准确度,本实施例中预设比例阈值的范围是[0,1],若γ与预设值的差值
较小,在一个设定的范围之内则认为满足预设要求,提取的摘要太阳城集团准确;
若γ与预设值的差值较大,在一个设定的范围之外就认为提取的摘要太阳城集团不
准确,需要重新调整步骤203、步骤303和步骤403中预设的相似度阈值
λT,λU,λV。

对重新调整得到的λT,λU,λV再重复执行步骤203步和骤204、步骤303
和步骤304、步骤403和步骤404,步骤501和步骤502,对各种不同形式
数据进行摘要的重提取和评估,直到γ满足预设要求为止。

进一步的,在本实施例的一个应用场景中,上述各实施例中提到的数
据具体可以是节日主题数据,包括:节日名称、地点、日期等数据。例如,
对于文本数据而言,节日主体数据可以是:“肉孜节”、“古尔邦节”、“河边”、
“广场”等;对于图片数据而言,节日主题数据可以是:“节日会场的整体
图”“人们围坐一起游戏图”“象征不同节日的吉祥物图”等;对于视频数
据而言,节日主题数据可以是:“节日仪式流程”“各类节目表演”等。

进一步的,作为对上述图1至图5所示方法的实现,本发明另一实施
例还提供了一种数据提取的装置,用于对上述图1至图5所示的方法进行
实现。如图6所示,该装置包括:处理单元61、计算单元62以及删除单元
63;其中,

处理单元61,用于对数据进行预处理,获得位置在前的第一数据和位
置在后的第二数据;

计算单元62,用于计算处理单元61获得的第一数据和第二数据的相似
度;

删除单元63,用于当计算单元62计算的第一数据和第二数据的相似度
满足预设的相似度阈值时,删除位置在后的第二数据,保留位置在前的第
一数据,获得摘要太阳城集团。

进一步的,处理单元61处理的数据包括文本数据、图片数据及视频数
据。

进一步的,处理单元61处理的数据为文本数据,处理单元61用于:

对文本数据进行分词处理,获得先后相邻的两个语句;

计算单元62用于:

通过最大公共子序列LCS算法计算先后相邻的两个语句的相似度;

删除单元63用于:

当先后相邻的两个语句的相似度大于λT时,删除位置在后的语句。

进一步的,计算单元62用于基于同义词库对先后相邻的两个语句的相
似度进行模糊匹配。

进一步的,处理单元61处理的数据为图片数据,处理单元61用于:

按照预设的特征值对图片数据进行分类,获得多个图片集合;

针对每个图片集合,从中反复抽取任意两张图片;

计算单元62用于:

通过颜色直方图计算抽取的两张图片的相似度;

删除单元63,用于当相似度阈值大于λu时,删除位置在后的第二数据。

进一步的,处理单元61处理的数据为视频数据,处理单元61用于:

对视频数据进行帧分割,获得视频帧序列;

从视频帧序列中抽取任意相邻的两个视频帧;

计算单元62用于:

通过帧差法计算第一数据和第二数据的相似度;

删除单元63,用于当第一数据和第二数据的相似度大于λV时,删除位
置在后的视频帧。

进一步的,如图7所示,该装置进一步包括:

比对单元64,用于在删除单元63保留位置在前的第一数据,获得摘要
太阳城集团之后,将删除单元63获得的摘要太阳城集团与标准摘要太阳城集团进行比对,获得
摘要太阳城集团是否准确的评估结果;

调整单元65,用于当比对单元64获得的摘要太阳城集团的准确度未达到预设
要求时,对计算单元62使用的相似度阈值进行调整;

计算单元62,用于基于调整后的相似度阈值对再次进行相似度计算。

进一步的,如图7所示,比对单元64包括:

转化模块641,用于将删除单元63获得的摘要太阳城集团和标准摘要太阳城集团分
别转化为第一语义序列和第二语义序列;

计算模块642,用于计算转化模块641转化的第一语义序列和第二语义
序列的最大公共子序列,计算最大公共子序列与第二语义序列的比值;

确定模块643,用于当计算模块642计算的比值达到预设比例阈值时,
则确定摘要太阳城集团的准确度达到预设要求。

进一步的,处理单元61处理的数据为节日主题数据。

本实施例提供的数据提取的装置,能够通过计算机自动对数据进行预
处理,获得第一数据和第二数据,并对第一数据和第二数据的相似度进行
计算,若两者满足相似度阈值,则说明第一数据和第二数据是重复的,计
算机自动删除第二数据以达到剔除冗余数据,保留数据摘要太阳城集团的目的。
与现有技术相比,本实施例可以通过计算机处理快速得到数据摘要太阳城集团,
无需人工对原始数据进行查看比对、手动筛选,大大的减少了数据的处理
太阳城集团,能够提高数据提取的效率。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没
有详述的部分,可以参见其他实施例的相关描述。

可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,
上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施
例的优劣。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述
描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的
对应过程,在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备
固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的
描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对
任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本
发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实
施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,
本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,
并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一
个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征
有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将
该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个
权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要
求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。
因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,
其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行
自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。
可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及
此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或
过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明
书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开
的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本
说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提
供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括
其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征
的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下
面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合
方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处
理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员
应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现
根据本发明实施例的发明名称(如确定网站内链接等级的装置)中的一些
或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所
描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和
计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质
上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网
站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限
制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出
替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成
对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步
骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明
可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实
现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通
过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示
任何顺序。可将这些单词解释为名称。

关 键 词:
数据 提取 方法 装置
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
太阳城集团本文
本文标题:数据提取的方法及装置.pdf
链接地址:http://zh228.com/p-6401437.html
太阳城集团我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
葡京赌场|welcome document.write ('');