太阳城集团

  • / 10
  • 下载费用:30 金币  

一种不良语料内容检测装置和方法.pdf

摘要
申请专利号:

太阳城集团CN201680001769.2

申请日:

2016.06.29

公开号:

CN106716397A

公开日:

2017.05.24

当前法律状态:

实审

有效性:

审中

法律详情: 实质审查的生效IPC(主分类):G06F 17/27申请日:20160629|||公开
IPC分类号: G06F17/27; G06F17/30 主分类号: G06F17/27
申请人: 深圳狗尾草智能科技有限公司
发明人: 杨新宇; 王昊奋; 邱楠
地址: 518000 广东省深圳市南山区粤海街道科苑路16号东方科技大厦1307-09
优先权:
专利代理机构: 深圳市华优知识产权代理事务所(普通合伙) 44319 代理人: 李丽君
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

太阳城集团CN201680001769.2

授权太阳城集团号:

|||

法律状态太阳城集团日:

2017.06.16|||2017.05.24

法律状态类型:

实质审查的生效|||公开

摘要

本发明公开了一种不良语料内容的检测装置和方法,该装置包括:语义框架确定模块,用于对待检测语料进行分词,确定待检测语料的语义框架;检测标准设定模块,连接语料库和语义框架确定模块,用于将语料库中的语料传输到语义框架确定模块,以确定语料库中语料的语义框架,同时提取对语料库进行分词处理时得到的不良内容词汇;检测模块,用于比对待检测语料的分词结果和不良内容词汇,并比对待检测语义框架和全部语义框架,确定待检测语料是否为不良语料内容。通过本发明,能够与已知语义框架种类进行比对,辨别待检测的语义框架是否为不良内容语料,能够对精确判断待检测语料是否为不良内容,防止漏判现象。

权利要求书

1.一种不良语料内容的检测装置,其特征在于,包括:
语义框架确定模块,用于对待检测语料进行分词,确定所述待检测语料的语义框架;
检测标准设定模块,连接语料库和所述语义框架确定模块,用于将所述语料库中的语
料传输到所述语义框架确定模块,以确定所述语料库中语料的语义框架,同时提取对语料
库进行分词处理时得到的不良内容词汇;
检测模块,用于比对所述待检测语料的分词结果和所述不良内容词汇,并比对所述待
检测语义框架和全部所述语义框架,确定所述待检测语料是否为不良语料内容。
2.根据权利要求1的不良语料内容检测装置,其特征在于,所述语义框架确定模块包
括:
分词单元,用于对所述待检测语料和所述语料库中的语料进行分词;
语义框架确定单元,用于根据所述分词单元分词后得到的分词结果确定所述待检测语
料和所述语料库中的语料的语义框架,并根据所述待检测语料的上下文确定其所属场景。
3.根据权利要求2的不良语料内容检测装置,其特征在于,检测标准设定模块包括:
不良内容词汇获取单元,连接所述语料库,用于从所述语料库中获取所述不良内容词
汇;
语义框架分类单元,用于按照所述语料库中语料的语义框架将全部的语义框架分类为
正常语义框架和不良语义框架,以及按照每一所述语料所属场景对所述正常语义框架和不
良语义框架进行分组。
4.根据权利要求3的不良语料内容检测装置,其特征在于,若经对比检测到所述待检测
语料的分词中包含所述不良内容词汇中的至少之一者,而所述待检测语料的语义框架属于
正常语义框架时,确定所述待检测语料为正常内容的语料。
5.根据权利要求4的不良语料内容检测装置,其特征在于,若所述待检测语料的语义框
架不属于所述语料库中语料的语义框架时,根据所述分词与不良内容词汇的比较结果确定
所述待检测语料是否为不良语料。
6.一种不良语料内容检测方法,其特征在于,包括:
对待检测语料进行分词,确定所述待检测语料的语义框架;
提取所述语料库中语料的语义框架,同时提取对语料库进行分词处理时得到的不良内
容词汇;
比对所述待检测语料的分词结果和所述不良内容词汇,并比对所述待检测语义框架和
全部所述语义框架,确定所述待检测语料是否为不良语料内容。
7.根据权利要求6的不良语料内容检测方法,其特征在于,在提取所述待检测语料的待
检测语义框架的步骤中,包括步骤:
对所述待检测语料和所述语料库中的语料进行分词;
根据分词结果确定所述待检测语料和所述语料库中的语料的语义框架,并根据所述待
检测语料的上下文确定其所属场景。
8.根据权利要求7的不良语料内容检测方法,其特征在于,在确定语义框架种类,提取
已知的不良内容词汇的步骤中,包括步骤:
从所述语料库中获取所述不良内容词汇;
按照所述语料库中语料的语义框架将全部的语义框架分类为正常语义框架和不良语
义框架,以及按照每一所述语料所属场景对所述正常语义框架和不良语义框架进行分组。
9.根据权利要求8的不良语料内容检测方法,其特征在于,若经对比检测到所述待检测
语料的分词中包含所述不良内容词汇中的至少之一者,所述待检测语料的语义框架属于正
常语义框架时,确定所述待检测语料为正常内容的语料。
10.根据权利要求9的不良语料内容检测方法,其特征在于,若所述待检测语料的语义
框架不属于所述语料库中语料的语义框架时,根据所述分词与不良内容词汇的比较结果确
定所述待检测语料是否为不良语料。

说明书

一种不良语料内容检测装置和方法

技术领域

本发明涉及文字处理领域,特别是涉及一种不良语料内容检测装置和方法。

背景技术

随着互联网的发展,网络检索的需求也越来越高,因此需要储备更多的关键词,以
及语料,存储于云端的语料库中,供网民上网搜索时使用。为优化网络环境,往往需要对网
络用户输入的词汇或语料进行不良内容检测,屏蔽不良内容的词汇或语料。

现有技术中,对于不良语料的检测方法通常采用统计方法,统计方法主要是根据
不良太阳城集团词库来判断是否是不良内容,现有技术的缺点在于准确率不高,无法精确全面的
检测到待检测内容中的全部不良内容,容易造成漏判。

发明内容

本发明主要解决的技术问题是提供一种不良语料内容检测装置和方法,能够通过
与已知语义框架种类进行比对,辨别待检测的语义框架是否为不良内容语料,能够对精确
判断待检测语料是否为不良内容,防止漏判现象。

为解决上述技术问题,本发明采用的一个技术方案是:提供一种不良语料内容检
测装置,该装置包括:语义框架确定模块,用于对待检测语料进行分词,确定待检测语料的
语义框架;检测标准设定模块,连接语料库和语义框架确定模块,用于将语料库中的语料传
输到语义框架确定模块,以提取语料库中语料的语义框架,同时提取对语料库进行分词处
理时得到的不良内容词汇;检测模块,用于比对待检测语料的分词结果和不良内容词汇,并
比对待检测语义框架和全部语义框架,确定待检测语料是否为不良语料内容。

为解决上述技术问题,本发明采用的一个技术方案是:提供一种不良语料内容检
测方法,该方法的步骤包括:对待检测语料进行分词,确定待检测语料的语义框架;提取语
料库中语料的语义框架,同时提取对语料库进行分词处理时得到的不良内容词汇;比对待
检测语料的分词结果和不良内容词汇,并比对待检测语义框架和全部语义框架,确定待检
测语料是否为不良语料内容。

区别于现有技术,本发明的不良语料内容检测装置通过对待检测的语料进行分词
处理,分词后根据语料中每一分词的语义确定其语义框架,通过和已知的语义框架进行比
较,确定是否为不良语料内容。通过本发明,能够通过与已知语义框架种类进行比对,辨别
待检测的语义框架是否为不良内容语料,能够对精确判断待检测语料是否为不良内容,防
止漏判现象。

附图说明

图1是本发明提供的一种不良语料内容检测装置的实施方式的结构示意图;

图2是本发明提供的一种不良语料内容检测方法的实施方式的流程示意图。

具体实施方式

下面结合具体实施方式对本发明的技术方案作进一步更详细的描述。显然,所描
述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,
本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都应属于
本发明保护的范围。

语料库的建设是统计学习方法的重要基础,近年来,语料库资源对于自然语言研
究的巨大价值已经得到越来越多的认可。特别是双语语料库(Bilingual Corpus),已经成
为机器翻译、机器辅助翻译以及翻译知识获取研究不可或缺的重要资源。一方面,双语语料
库的出现直接推动了机器翻译新技术的发展,像平行语料库为统计机器翻译的模型构建提
供了必不可少的训练数据,基于统计(Statistic-Based)和基于实例(Example-Based)等基
于语料库的翻译方法为机器翻译研究提供了新的思路,有效改善了翻译质量,在机器翻译
研究领域掀起了新的高潮。另一方面,双语语料库又是获取翻译知识的重要来源,从中可以
挖掘学习各种细粒度的翻译知识,如翻译词典和翻译模板,从而改进传统的机器翻译技术。
此外,双语语料库也是跨语言太阳城集团检索,翻译词典编撰、双语术语自动提取以及多语言对比
研究等的重要基础资源。当前的网络中,为创建健康网络环境,需要对网络现有的语料以及
网络用户实时输入的语料的内容进行诊断检测。语料库内容的不断丰富壮大,给语料库内
容的检测带来困难。

参阅图1,图1是本发明提供的一种不良语料内容检测装置的实施方式的结构示意
图。该装置100包括:语义框架确定模块110、检测标准设定模块120和检测模块130,其中,检
测标准设定模块120连接到语义框架确定模块110和语料库101。

语料库101是指经科学取样和加工的大规模电子文本库。借助计算机分析工具,研
究者可开展相关的语言理论及应用研究。语料库有多种类型,确定类型的主要依据是它的
研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。通常把语料库分成四
种类型:⑴异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种
语料;⑵同质的(Homogeneous):只收集同一类内容的语料;⑶系统的(Systematic):根据预
先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言
事实;⑷专用的(Specialized):只收集用于某一特定用途的语料。

语义框架确定模块110对待检测语料进行分词,提取待检测语料的待检测语义框
架。语义框架确定模块110包括分词单元111和语义框架确定单元112。语义框架确定单元
112根据分词单元111分词后得到的分词结果确定待检测语料和语料库中的语料的语义框
架,并根据待检测语料的上下文确定其所属场景。在用户输入语料时,对用户输入的语料进
行检测,首先通过分词单元111对待检测的语料进行分词处理,分词可通过现有的分词工具
进行处理。分词完成后,生成语义独立的单词。在本实施方式中,需要确定语料库101中现有
语料的语义框架,故应先通过分词单元111对语料库101中的现有语料进行分词处理。且在
分词处理后,识别全部分词的语义,可从中筛选不良语义的词汇,将全部的不良语义词汇汇
总并存储。

语义框架确定单元112根据分词单元111对待检测语料的分词处理结果,结合每一
分词的语义类型确定待检测语料的语义框架。同时,对于现有语料库101中的已知语料经过
分词单元111分词处理后,语义框架确定单元112结合已知语料的语义确定该语料的语义框
架,并根据该待检测语料的上下文确定其所属的场景。汇总语料的语义框架,将语义框架按
照场景进行分组,并在每一分组中区分正常语料的语义框架和不良语料的语义框架。将全
部种类的语义框架存储。

检测标准设定模块120连接语料库101和语义框架确定模块110,用于将语料库中
的语料传输到检测标准提取模块110,以提取语料库中语料的语义框架,确定语义框架种
类,提取已知的不良内容词汇,同时将全部语义框架和已知不良内容词汇存储。

检测标准设定模块120包括不良内容词汇获取单元121和语义框架分类单元122。
不良内容词汇获取单元121连接语料库101,用于从语料库101中获取已知的不良内容词汇。
在本实施方式中,分词单元111对现有语料库101中的语料进行分词处理后,对分词处理结
果进行辨别,筛选其中的不良内容词汇,汇总并存储。不良内容词汇获取单元121连接语料
库101,将语料库101筛选汇总的不良内容词汇提取。在其他实施方式中,网络云端已经存储
了不良内容词汇的词汇库,不良内容词汇获取单元121可直接连接到网络云端,提取网络云
端存储的不良内容词汇的词汇库中已知的不良内容词汇。语义框架分类单元122按照语料
库101中语料的语义框架将全部的语义框架分类为正常语义框架和不良语义框架。其中,包
含反动、暴力、淫秽、政治敏感等类型的词汇均为不良内容词汇,包含相关词汇的语料,或者
虽然未包含上述类型词汇,但是经分析其语义类型为攻击或谩骂类型的语料,可将其分类
为不良语义框架,除不良语义框架之外的语料的语义框架为正常语义框架。然后按照每一
语料所属场景对正常语义框架和不良语义框架进行分组。

检测模块130比对待检测语料的分词结果和已知不良内容词汇,以及比对待检测
语义框架和全部语义框架,确定待检测语料是否为不良语料内容。当分词单元111将待检测
语料进行分词处理后,将待检测语料的分词和不良内容词汇获取单元121获取的不良内容
词汇进行比对,检测其中是否包含不良内容词汇,若包含,则认定为不良语料内容;若不包
含,通过语义框架确定单元112确定待检测语料的语义框架,比对待检测语料的语义框架和
现有语料库101中的语料的语义框架,分析待检测语料的语义框架属于正常语义框架或不
良语义框架,从而检测出待检测的语料是否为不良语料内容。

在对比判断过程中,若经对比检测到待检测语料的分词中包含不良内容词汇中的
至少之一者,而待检测语料的语义框架属于正常语义框架时,确定待检测语料为正常内容
的语料。若待检测语料的语义框架不属于语料库中语料的语义框架的任意一者时,根据分
词与不良内容词汇的比较结果确定待检测语料是否为不良语料。即若在检测模块130对比
发现待检测语料的分词中包含至少一个不良内容词汇中的词汇,但对比待检测语料的语义
框架和语料库101中相同场景下的全部语义框架时,待检测语料的语义框架属于相应场景
下的现有正常语料的语义框架时,则认定该语料内容为正常语料内容。若检测模块130经过
对比待检测语料的语义框架和现有语料库中相同场景下语料的语义框架,发现该待检测语
料的语义框架不属于语料库中该场景下的语义框架,则该待检测语料是否为不良内容则根
据该待检测语料的分词结果和不良内容词汇的比较结果确定,若含有不良内容词汇,则为
不良内容的语料。

区别于现有技术,本发明的不良语料内容检测装置通过对待检测的语料进行分词
处理,分词后根据语料中每一分词的语义确定其语义框架,通过和已知的语义框架进行比
较,确定是否为不良语料内容。通过本发明,能够通过与已知语义框架种类进行比对,辨别
待检测的语义框架是否为不良内容语料,能够对精确判断待检测语料是否为不良内容,防
止漏判现象。

参阅图2,图2是本发明提供的一种不良语料内容检测方法的实施方式的流程示意
图。该方法的步骤包括:

S210:对待检测语料进行分词,确定待检测语料的语义框架。

对待检测语料进行分词,提取待检测语料的待检测语义框架。根据分词后得到的
分词结果确定待检测语料和语料库中的语料的语义框架,并根据待检测语料的上下文确定
其所属场景。在用户输入语料时,对用户输入的语料进行检测,首先对待检测的语料进行分
词处理,分词可通过现有的分词工具进行处理。分词完成后,生成语义独立的单词。在本实
施方式中,需要确定语料库中现有语料的语义框架,故应先对语料库中的现有语料进行分
词处理。且在分词处理后,识别全部分词的语义,可从中筛选不良语义的词汇,将全部的不
良语义词汇汇总并存储。

根据对待检测语料的分词处理结果,结合每一分词的语义类型确定待检测语料的
语义框架。同时,对于现有语料库中的已知语料经过分词处理后,结合已知语料的语义确定
该语料的语义框架,并根据该待检测语料的上下文确定其所属的场景。汇总语料的语义框
架,将语义框架按照场景进行分组,并在每一分组中区分正常语料的语义框架和不良语料
的语义框架。将全部种类的语义框架存储。

S220:提取语料库中语料的语义框架,同时对语料库进行分词处理时得到的不良
内容词汇。

提取语料库中语料的语义框架,确定语义框架种类,提取已知的不良内容词汇,同
时将全部语义框架和已知不良内容词汇存储。

从语料库中获取已知的不良内容词汇。在本实施方式中,对现有语料库中的语料
进行分词处理后,对分词处理结果进行辨别,筛选其中的不良内容词汇,汇总并存储。将语
料库筛选汇总的不良内容词汇提取。在其他实施方式中,网络云端已经存储了不良内容词
汇的词汇库,可直接连接到网络云端,提取网络云端存储的不良内容词汇的词汇库中已知
的不良内容词汇。按照语料库中语料的语义框架将全部的语义框架分类为正常语义框架和
不良语义框架。其中,包含反动、暴力、淫秽、政治敏感等类型的词汇均为不良内容词汇,包
含相关词汇的语料,或者虽然未包含上述类型词汇,但是经分析其语义类型为攻击或谩骂
类型的语料,可将其分类为不良语义框架,除不良语义框架之外的语料的语义框架为正常
语义框架。然后按照每一语料所属场景对正常语义框架和不良语义框架进行分组。

S230:比对待检测语料的分词结果和不良内容词汇,并比对待检测语义框架和全
部语义框架,确定待检测语料是否为不良语料内容。

比对待检测语料的分词结果和已知不良内容词汇,以及比对待检测语义框架和全
部语义框架,确定待检测语料是否为不良语料内容。将待检测语料进行分词处理后,将待检
测语料的分词和获取的不良内容词汇进行比对,检测其中是否包含不良内容词汇,若包含,
则认定为不良语料内容;若不包含,确定待检测语料的语义框架,比对待检测语料的语义框
架和现有语料库中的语料的语义框架,分析待检测语料的语义框架属于正常语义框架或不
良语义框架,从而检测出待检测的语料是否为不良语料内容。

在对比判断过程中,若经对比检测到待检测语料的分词中包含不良内容词汇中的
至少之一者,而待检测语料的语义框架属于正常语义框架时,确定待检测语料为正常内容
的语料。若待检测语料的语义框架不属于语料库中语料的语义框架的任意一者时,根据分
词与不良内容词汇的比较结果确定待检测语料是否为不良语料。即若对比发现待检测语料
的分词中包含至少一个不良内容词汇中的词汇,但对比待检测语料的语义框架和语料库中
相同场景下的全部语义框架时,待检测语料的语义框架属于相应场景下的现有正常语料的
语义框架时,则认定该语料内容为正常语料内容。若经过对比待检测语料的语义框架和现
有语料库中相同场景下语料的语义框架,发现该待检测语料的语义框架不属于语料库中该
场景下的语义框架,则该待检测语料是否为不良内容则根据该待检测语料的分词结果和不
良内容词汇的比较结果确定,若含有不良内容词汇,则为不良内容的语料。

区别于现有技术,本发明的不良语料内容检测方法通过对待检测的语料进行分词
处理,分词后根据语料中每一分词的语义确定其语义框架,通过和已知的语义框架进行比
较,确定是否为不良语料内容。通过本发明,能够通过与已知语义框架种类进行比对,辨别
待检测的语义框架是否为不良内容语料,能够对精确判断待检测语料是否为不良内容,防
止漏判现象。

以上所述仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本
发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的
技术领域,均同理包括在本发明的专利保护范围内。

关 键 词:
一种 不良 语料 内容 检测 装置 方法
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
太阳城集团本文
本文标题:一种不良语料内容检测装置和方法.pdf
链接地址:http://zh228.com/p-6059872.html
太阳城集团我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
葡京赌场|welcome document.write ('');