太阳城集团

  • / 11
  • 下载费用:30 金币  

一种基于视频标题和内容的视频过滤方法和系统.pdf

摘要
申请专利号:

CN201310631404.6

申请日:

2013.12.02

公开号:

太阳城集团CN103678527A

公开日:

2014.03.26

当前法律状态:

授权

有效性:

有权

法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20131202|||公开
IPC分类号: G06F17/30 主分类号: G06F17/30
申请人: TCL集团股份有限公司
发明人: 刘世才; 毛海涛; 宋轲
地址: 516001 广东省惠州市鹅岭南路6号TCL工业大厦8楼技术中心
优先权:
专利代理机构: 深圳市君胜知识产权代理事务所 44268 代理人: 王永文;刘文求
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

太阳城集团CN201310631404.6

授权太阳城集团号:

||||||

法律状态太阳城集团日:

太阳城集团2017.10.24|||2015.01.14|||2014.03.26

法律状态类型:

太阳城集团授权|||实质审查的生效|||公开

摘要

本发明公开了一种基于视频标题和内容的视频过滤方法和系统,通过对视频的标题进行拆词,计算标题的相似度和比较视频流的相似度。并将标题的相似度和视频流的相似度作为组合条件进行视频过滤,达到视频去重的效果。从而可以对相似度高的视频新闻进行有效过滤,最大限度的去掉一些类似的视频新闻,让用户在有限太阳城集团内观看到的新闻都是当日的头条新闻,为用户带来更好的体验。

权利要求书

权利要求书
1.  一种基于视频标题和内容的视频过滤方法,其特征在于,包括:
获取两则视频;
比较两则视频的视频标题是否一样,若是则过滤掉其中一则视频,否则对两则视频的视频标题进行拆词处理;
判断拆词后的视频标题的匹配度是否超过预先设定的匹配度阈值,若是则过滤掉其中一则视频,否则比较两则视频的视频内容是否一致,若一致则过滤掉其中一则视频。

2.  根据权利要求1所述的基于视频标题和内容的视频过滤方法,其特征在于,所述过滤掉其中一则视频步骤中,包括:
进一步比较两则视频的属性值,根据所述属性值确定过滤掉哪一则视频;
其中,所述视频的属性值包括:视频的连接速度和视频的清晰度。

3.  根据权利要求1所述的基于视频标题和内容的视频过滤方法,其特征在于,比较两则视频的视频内容是否一致具体包括:
A、根据两则视频的播放地址,分别获取与所述播放地址对应的视频太阳城集团文件,并从所述视频太阳城集团文件里面获取两则视频的视频地址;
B、根据两则视频的视频地址,下载并获取二进制的数据流内容,并对数据流内容进行比较;
C、若两个二进制的数据流内容一致,则确定两则视频的视频内容一致,否则为不同的视频内容。

4.  根据权利要求3所述的基于视频标题和内容的视频过滤方法,其特征在于,所述步骤B中对数据流内容进行比较具体为使用开发语言提供的处理数据流的类库的方法对数据流内容进行读取并比较。

5.  根据权利要求1所述的基于视频标题和内容的视频过滤方法,其特征在于,预先设定的匹配度阈值为60%。

6.  一种基于视频标题和内容的视频过滤系统,其特征在于,包括:
提取单元,用于获取两则视频;
第一过滤单元,用于比较两则视频的视频标题是否一样,若是则过滤掉其中一则视频,否则对两则视频的视频标题进行拆词处理;
第二过滤单元,用于判断拆词后的视频标题的匹配度是否超过预先设定的匹配度阈值,若是则过滤掉其中一则视频,否则比较两则视频的视频内容是否一致,若一致则过滤掉其中一则视频。

7.  根据权利要求6所述的基于视频标题和内容的视频过滤系统,其特征在于,所述第一过滤单元中过滤掉其中一则视频具体包括:
比较模块,用于进一步比较两则视频的属性值,根据所述属性值确定过滤掉哪一则视频;
其中,所述视频的属性值包括:视频的连接速度和视频的清晰度。

8.  根据权利要求6所述的基于视频标题和内容的视频过滤系统,其特征在于,所述第二过滤单元中比较两则视频的视频内容是否一致具体包括:
视频地址获取模块,用于根据两则视频的播放地址,分别获取与所述播放地址对应的视频太阳城集团文件,并从所述视频太阳城集团文件里面获取两则视频的视频地址;
数据流获取模块,用于根据两则视频的视频地址,下载并获取二进制的数据流内容,并对数据流内容进行比较;
判断模块,用于当两个二进制的数据流内容一致,则确定两则视频的视频内容一致,否则为不同的视频内容。

9.  根据权利要求8所述的基于视频标题和内容的视频过滤系统,其特征在于,所述数据流获取模块中对数据流内容进行比较具体为使用开发语言提供的处理数据流的类库的方法对数据流内容进行读取并比较。

10.  根据权利要求6所述的基于视频标题和内容的视频过滤系统,其特征在于,预先设定的匹配度阈值为60%。

说明书

说明书一种基于视频标题和内容的视频过滤方法和系统
技术领域
本发明涉及视频比对技术领域,特别涉及一种基于视频标题和内容的视频过滤方法和系统。 
背景技术
为了使用户更快、更多、更准确地获取最新的新闻视频内容,如何抓取各大视频网站最新的新闻并及时的推荐给用户成为当前的研究方向之一。
但是这种从各大视频网站聚合的新闻,内容相似的非常多。比如:同样是禽流感的新闻,可能存在多个新闻都是介绍禽流感的,用户观看起来就很乏味,因此,需要对抓取的视频新闻进行分析,对相似内容进行有效过滤。
有鉴于此,现有技术还有待改进和提高。 
发明内容
鉴于上述现有技术的不足之处,本发明的目的在于提供一种基于视频标题和内容的视频过滤方法和系统,以解决现有各大视频网站聚合的新闻视频内容重复率高,不利于向用户推送的问题。
为了达到上述目的,本发明采取了以下技术方案:
一种基于视频标题和内容的视频过滤方法,其中,包括:
获取两则视频;
比较两则视频的视频标题是否一样,若是则过滤掉其中一则视频,否则对两则视频的视频标题进行拆词处理;
判断拆词后的视频标题的匹配度是否超过预先设定的匹配度阈值,若是则过滤掉其中一则视频,否则比较两则视频的视频内容是否一致,若一致则过滤掉其中一则视频。
所述的基于视频标题和内容的视频过滤方法,其中,所述过滤掉其中一则视频步骤中,包括:
进一步比较两则视频的属性值,根据所述属性值确定过滤掉哪一则视频;
其中,所述视频的属性值包括:视频的连接速度和视频的清晰度。
所述的基于视频标题和内容的视频过滤方法,其中,比较两则视频的视频内容是否一致具体包括:
A、根据两则视频的播放地址,分别获取与所述播放地址对应的视频太阳城集团文件,例如m3u文件,并从所述视频太阳城集团文件里面获取两则视频的视频地址;
B、根据两则视频的视频地址,下载并获取二进制的数据流内容,并对数据流内容进行比较;
C、若两个二进制的数据流内容一致,则确定两则视频的视频内容一致,否则为不同的视频内容。
所述的基于视频标题和内容的视频过滤方法,其中,所述步骤B中对数据流内容进行比较具体为使用开发语言提供的处理数据流的类库的方法对数据流内容进行读取并比较。
所述的基于视频标题和内容的视频过滤方法,其中,预先设定的匹配度阈值为60%。
一种基于视频标题和内容的视频过滤系统,其中,包括:
提取单元,用于获取两则视频;
第一过滤单元,用于比较两则视频的视频标题是否一样,若是则过滤掉其中一则视频,否则对两则视频的视频标题进行拆词处理;
第二过滤单元,用于判断拆词后的视频标题的匹配度是否超过预先设定的匹配度阈值,若是则过滤掉其中一则视频,否则比较两则视频的视频内容是否一致,若一致则过滤掉其中一则视频。
所述的基于视频标题和内容的视频过滤系统,其中,所述第一过滤单元中过滤掉其中一则视频具体包括:
比较模块,用于进一步比较两则视频的属性值,根据所述属性值确定过滤掉哪一则视频;
其中,所述视频的属性值包括:视频的连接速度和视频的清晰度。
所述的基于视频标题和内容的视频过滤系统,其中,所述第二过滤单元中比较两则视频的视频内容是否一致具体包括:
视频地址获取模块,用于根据两则视频的播放地址,分别获取与所述播放地址对应的视频太阳城集团文件,例如m3u文件,并从所述视频太阳城集团文件里面获取两则视频的视频地址;
数据流获取模块,用于根据两则视频的视频地址,下载并获取二进制的数据流内容,并对数据流内容进行比较;
判断模块,用于当两个二进制的数据流内容一致,则确定两则视频的视频内容一致,否则为不同的视频内容。
所述的基于视频标题和内容的视频过滤系统,其中,所述判断模块中当两则视频的视频标题一样, 进一步比较具有相同视频标题的视频的属性值,根据所述属性值确定过滤掉哪一则视频;其中,所述视频的属性值包括:视频的连接速度和视频的清晰度。
所述的基于视频标题和内容的视频过滤系统,其中,预先设定的匹配度阈值为60%。
相较于现有技术,本发明提供的基于视频标题和内容的视频过滤方法和系统,通过对视频的标题进行拆词,计算标题的相似度和比较视频流的相似度。并将标题的相似度和视频流的相似度作为组合条件进行视频过滤,达到视频去重的效果。从而可以对相似度高的视频新闻进行有效过滤,最大限度的去掉一些类似的视频新闻,让用户在有限太阳城集团内观看到的新闻都是当日的头条新闻,为用户带来更好的体验。
附图说明
图1为本发明提供的基于视频标题和内容的视频过滤方法的流程图。
图2为本发明提供的基于视频标题和内容的视频过滤系统的结构框图。
具体实施方式
本发明提供一种基于视频标题和内容的视频过滤方法和系统,为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
请参阅图1,其为本发明提供的基于视频标题和内容的视频过滤方法的流程图。如图所示,所述基于视频标题和内容的视频过滤方法包括:
S100、获取两则视频;
S200、比较两则视频的视频标题是否一样,若是则过滤掉其中一则视频,否则对两则视频的视频标题进行拆词处理;
S300、判断拆词后的视频标题的匹配度是否超过预先设定的匹配度阈值,若是则过滤掉其中一则视频,否则比较两则视频的视频内容是否一致,若一致则过滤掉其中一则视频。
在步骤S100至S300只是其中两则视频进行比较的一个过程,当具有多个相同视频内容的多个视频源时候,分别进行两两比较,直到保留最后一则或者数则视频即可。
下面分别针对上述步骤进行描述:
步骤S100为获取两则视频。在本实施例中,以视频新闻为例,选取两则视频新闻。视频新闻的太阳城集团包括视频新闻的视频标题和视频内容。为了最大限度的去掉类似的视频新闻,我们从视频新闻的视频标题和视频内容入手进行过滤。
步骤S200为比较两则视频的视频标题是否一样,若是则过滤掉其中一则视频,否则对两则视频的视频标题进行拆词处理。具体来说,我们直接通过标题比较去重:若两则视频新闻的标题完全一样,则过滤掉其中一帧。否则我们即对视频标题进行拆词处理。在本实施例中,所述拆词方法为使可用开源项目lucene的词库(在JAVA程序代码引入程序包lucene-core-2.4.1.jar,使用智能中文分词模块SmartChineseAnalyzer即可)进行拆词,比如:杰出人物(如:李东生)、明星(如:刘德华)等检索量大的词 ,按照正向拆分法对新闻标题进行切分。(正向拆分法:从前往后匹配。如:"湖南大学堂屋顶",正向拆分为"湖南 大学 堂屋 顶"。)
下面通过一个具体的例子来说明:有三个标题如下:
第一标题:北京至南宁高铁贯通 全程仅需10小时”
进行拆词后变成:[北京,南宁,高铁,全程,10,小时];
第二标题:北京至南宁全程贯通高铁啦!只要10小时[凤凰新闻网]
进行拆词后变成: [北京,南宁,全程,贯通,高铁,10,小时,凤凰,新闻, 网];
第三标题:衡柳高铁和柳南客运专线贯通 南宁到北京全程高铁10小时
进行拆词后变成: [衡柳,高铁,和,柳南,客运,专线,贯通,南宁,北京,全程,高铁,10,小时];
通过拆词匹配,我们可以看出:第一标题和第二、第三标题的匹配程度达到100%;第二标题和第三标题匹配程度(例如可以采用各个词匹配计数的方式衡量文字匹配相同的程度)达到85%。
进一步地,当两则视频的视频标题是一致时,需要过滤掉其中一则视频,保留其中一则视频。
为了保证保留的视频是最佳的(尤其是当视频个数较多时)视频。本发明的基于视频标题和内容的视频过滤方法进一步比较具有相同视频标题的视频的属性值,其中,所述视频的属性值包括:视频的连接速度、视频的清晰度等。每一属性具有不同的权重(所述权重的大小可以根据客户需要来设定),通过比较所述具有相同视频标题的视频的属性值,来确保保留下的视频是最佳的。举例来说,当两则视频的视频标题是一致的,那么我们先来判断两则视频的连接速度,当发现一则视频无法链接播放时,则过滤掉。若两则视频的连接速度相同,我们进一步比较两则视频的清晰度,过滤掉清晰度比较差的一则视频。当所有属性相同时,可随机滤掉一则视频。
步骤S300 为判断拆词后的视频标题的匹配度是否超过预先设定的匹配度阈值(在本实施例中,所述匹配度的阈值为60%),若是则过滤掉其中一则视频,否则比较两则视频的视频内容是否一致,若一致则过滤掉其中一则视频。具体来说,预先设定一匹配度阈值,将拆词后的视频标题的匹配度与预先设定的匹配度阈值进行比较:若拆词后的视频标题的匹配度超过预先设定的匹配度阈值,则判断两则视频的视频标题基本一致,过滤掉其中一条视频,否则再对视频内容进行判断:比较两则视频的视频内容是否一致,若一致则过滤掉其中一则视频。
在本实施例中,比较两则视频的视频内容是否一致具体包括:
S110、根据两则视频的播放地址,分别获取与所述播放地址对应的视频太阳城集团文件,例如m3u文件,并从所述视频太阳城集团文件里面获取两则视频的视频地址;
其中,所述视频的播放地址为提供视频内容的地址,然后,根据所述播放地址对应的视频文件内容里面获取视频地址太阳城集团。一般来说,做视频推荐类的应用时候,使用的视频可以从优酷及土豆上获取的,其实它们也提供了开放的API,可以获取视频地址以及视频的多个标签,视频的同类视频推荐,视频同类目下的视频等,使用者可以直接去申请。
在本实施例中,所述播放地址优选为m3u8地址,其也是一种M3U地址,只是它的编码格式是UTF-8格式。m3u8地址是用来流播放,直播流或者点播形式,目的是实现时实性及保密性它会不让你获取它的视频所在地址。M3U本质上说不是音频文件,它是音频文件的列表文件,是纯文本文件。根据两则视频的m3u8地址,分别获取与所述m3u8地址对应的m3u8文件内容,并从所述文件内容里面获取两则视频的视频地址。
S120、根据两则视频的视频地址,下载并获取二进制的数据流(也称视频流)内容,并对数据流内容进行比较;以JAVA部分代码为例说明如下:
private boolean contentEquals(String address1, String address2) {
    InputStream is1 = null;
    InputStream is2 = null;
    URLConnection conn1 = null;
    URLConnection conn2 = null;
    try {
        URL url1 = new URL(address1);
        conn1 = url1.openConnection();
        conn1.setConnectTimeout(5000);
        is1 = conn1.getInputStream();
        URL url2 = new URL(address2);
        conn2 = url2.openConnection();
        conn2.setConnectTimeout(5000);
        is2 = conn2.getInputStream();
        if (IOUtils.contentEquals(is1, is2))
         return false;
    } catch (MalformedURLException e) {
        e.printStackTrace();
    } catch (IOException e) {
        e.printStackTrace();
    } finally {
        IOUtils.close(conn1);
        IOUtils.close(conn2);
        IOUtils.closeQuietly(is1);
        IOUtils.closeQuietly(is2);
    }
    return true;
}
上述源码描述的是通过两则视频的视频地址,下载并获取二进制的数据流(也称视频流)内容,并对数据流内容进行比较的过程。
S130、若两个二进制的数据流内容一致,则确定两则视频的视频内容一致,否则为不同的视频内容。
举例说明:
第一视频的m3u8地址、视频地址和视频流(即二进制的数据流)内容分别如下:
a1)    m3u8地址(即播放地址,下同):
http://v.youku.com/player/getRealM3U8/vid/XNTU0NjIxNjI0/type/mp4/video.m3u8
b1)    视频地址:
http://183.60.145.137/6573AB247393F81012EB6E2127/0300020200518BD10B0893076443B2EAA5E66C-C04F-E90B-EA30-8E2670F78AF2.flv.ts?ts_start=0&ts_end=6&ts_seg_no=0&ts_keyframe=1
c1)     视频流内容:
[-128, 0, 0, 1, 101, -120, -124, 1, -1, -96, -12, -80, 5, -21, 86, 46, -85, 64, -107, -20, 121, -81, 16, 96, 106, -30, 95, -31, 106, 92, -128, 104, -30, -64, -103, 20, -9, -3, 67, -31, -44, -80, -7, 115, -65, -109, -128, 104, -51, -74, -77, 4, -2, 71, … …]。
第二视频的m3u8地址、视频地址和视频流(即二进制的数据流)内容分别如下:
a2)    m3u8地址:
http://v.youku.com/player/getRealM3U8/vid/XNTU1OTIwNDMy/type/mp4/video.m3u8
b2)    视频地址:
http://119.147.103.25/6573C8B07C93381DEC31ED2F6C/0300020200518F9744860308FFF8B98B79AC98-7C6E-1222-F1D8-BCAFA9757802.flv.ts?ts_start=0&ts_end=6&ts_seg_no=0&ts_keyframe=1
c2)     视频流内容:
[-128, 0, 0, 1, 101, -120, -124, 1, -1, -96, -28, -116, 12, 55, -110, -71, 76, -46, -106, -52, -23, -56, -72, 65, -65, 38, -64, 99, 56, -6, -47, -36, -67, 52, -36, 98, 111, 106, -102, 115, 18, -107, 90, 79, 29, 14, 18, -4, 57, -11, 18, -5, -77, -66, 73… …]。
通过对第一视频和第二视频的两个视频流内容的比较,可以确定两个两个视频流内容不一致,从而确定第一视频和第二视频为不同的视频。
值得说明的是,这里比较的两个则视频流的内容指的是比较两则视频的相同播放位置,例如文件头或者文件尾部的二进制码流数据,其针对的是拷贝来源相同,压制格式相同的视频。当其压缩比不相同时候,可通过其他方式,例如通过图像分析的方法对两则视频的图像进行分析,并得出是否为同一内容的视频的判断。
本发明还相应提供一种基于视频标题和内容的视频过滤系统,如图2所示,其包括:
提取单元100,用于获取两则视频;
第一过滤单元200,用于比较两则视频的视频标题是否一样,若是则过滤掉其中一则视频,否则对两则视频的视频标题进行拆词处理;
第二过滤单元300,用于判断拆词后的视频标题的匹配度是否超过预先设定的匹配度阈值,若是则过滤掉其中一则视频,否则比较两则视频的视频内容是否一致,若一致则过滤掉其中一则视频。
进一步地,所述的基于视频标题和内容的视频过滤系统中,所述第一过滤单元中对两则视频的视频标题进行拆词处理具体包括:
使用开源项目lucene的词库按照正向拆分法对视频标题进行切分。
进一步地,所述的基于视频标题和内容的视频过滤系统中,所述第一过滤单元中过滤掉其中一则视频具体包括:比较模块,用于进一步比较两则视频的属性值,根据所述属性值确定过滤掉哪一则视频;其中,所述视频的属性值包括:视频的连接速度和视频的清晰度。
进一步地,所述的基于视频标题和内容的视频过滤系统中,所述第二过滤单元中比较两则视频的视频内容是否一致具体包括:
视频地址获取模块,用于根据两则视频的播放地址,分别获取与所述播放地址对应的视频太阳城集团文件,例如m3u文件,并从所述视频太阳城集团文件里面获取两则视频的视频地址;
数据流获取模块,用于根据两则视频的视频地址,下载并获取二进制的数据流内容,并对数据流内容进行比较;
判断模块,用于当两个二进制的数据流内容一致,则确定两则视频的视频内容一致,否则为不同的视频内容。
进一步地,所述的基于视频标题和内容的视频过滤系统中,所述数据流获取模块中对数据流内容进行比较具体为使用开发语言提供的处理数据流的类库的方法对数据流内容进行读取并比较。比如,在本实施例中,使可用开源项目lucene的词库(在JAVA程序代码引入程序包lucene-core-2.4.1.jar,使用智能中文分词模块SmartChineseAnalyzer即可)进行拆词。
这里获取两则视频相同位置的二进制的数据流进行比较,值得说明的是,一般点播的视频文件最先加载的为视频文件头的内容,一般可比较文件头即可。
进一步地,所述的基于视频标题和内容的视频过滤系统中,预先设定的匹配度阈值为60%。
具体来说,所述匹配度阈值即为临界值,意思是在本发明的基于视频标题和内容的视频过滤系统中,若判断拆词后的视频标题之间的匹配度达到或者超过60%时,即认为拆词后的视频标题是一样的,过滤掉其中一则视频。
上述各个部分的功能都已经在上述方法中进行了详细介绍,这里就不再冗述了。
综上所述,本发明提供的基于视频标题和内容的视频过滤方法和系统,通过对视频的标题进行拆词,计算标题的相似度和比较视频流的相似度。并将标题的相似度和视频流的相似度作为组合条件进行视频过滤,达到视频去重的效果。从而可以对相似度高的视频新闻进行有效过滤,最大限度的去掉一些类似的视频新闻,让用户在有限太阳城集团内观看到的新闻都是当日的头条新闻,为用户带来更好的体验。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

关 键 词:
一种 基于 视频 标题 内容 过滤 方法 系统
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
太阳城集团本文
本文标题:一种基于视频标题和内容的视频过滤方法和系统.pdf
链接地址:http://zh228.com/p-6180853.html
太阳城集团我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
葡京赌场|welcome document.write ('');