太阳城集团

  • / 7
  • 下载费用:30 金币  

一种基于深度神经网络与多标记分类的病句检测方法.pdf

摘要
申请专利号:

太阳城集团CN201510408379.4

申请日:

2015.07.13

公开号:

太阳城集团CN105045779A

公开日:

2015.11.11

当前法律状态:

撤回

有效性:

无权

法律详情: 发明专利申请公布后的视为撤回IPC(主分类):G06F 17/27申请公布日:20151111|||实质审查的生效IPC(主分类):G06F 17/27申请日:20150713|||公开
IPC分类号: G06F17/27 主分类号: G06F17/27
申请人: 北京大学
发明人: 王厚峰; 张龙凯
地址: 100871北京市海淀区颐和园路5号
优先权:
专利代理机构: 北京万象新悦知识产权代理事务所(普通合伙)11360 代理人: 贾晓玲
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

太阳城集团CN201510408379.4

授权太阳城集团号:

||||||

法律状态太阳城集团日:

太阳城集团2018.04.03|||2015.12.09|||2015.11.11

法律状态类型:

太阳城集团发明专利申请公布后的视为撤回|||实质审查的生效|||公开

摘要

本发明提供一种基于深度神经网络与多标记分类的病句检测方法,该方法的核心是先对句子进行词法分析、句法分析,在此基础上抽取基层特征,包括词特征,词关系特征等;然后,利用深度神经网络学习抽象的特征表示,以获得不同错误与特征之间的关系;最后,通过多标记分类方法推断句子中可能存在的语病。本发明针对句子识别其中语病,并且可以做到识别句子中的多种语病,避免了人工选择特征,同时也能提升多种语病的预测的准确度。

权利要求书

1.一种病句检测方法,其特征在于,包括如下步骤:
步骤一:对于一个输入的句子,表示为一个实例;然后根据词法、句法分析提取特征,
将实例转换为特征向量;
步骤二:将步骤一得到的特征向量作为深度神经网络的输入,通过深度神经网络的计算,
逐层获得压缩表示;
步骤三:将最后一层神经网络的压缩表示作为多标记分类层的输入,计算得到最终确定
的语病类型。
2.如权利要求1所述的病句检测方法,其特征在于,步骤一包括:对实例进行预处理,
包括汉语词切分和词性标注以及依存分析。
3.如权利要求1所述的病句检测方法,其特征在于,步骤一包括:以出现的词、词性、
词与词之间的依存关系作为特征。
4.如权利要求1所述的病句检测方法,其特征在于,步骤三包括:计算获得各种语病对
应的概率值,设定阈值,若针对某一种语病的概率输出超过该阈值,则认为该句子包含这种
错误。

说明书

一种基于深度神经网络与多标记分类的病句检测方法

技术领域

本发明提出了一种基于深度神经网络与多标记分类的病句检测方法,属于文本挖掘和信
息检索领域。

背景技术

所谓语病识别,就是判断一个句子是否有语病,如果有,则找出语病。汉语有很多种语
病,包括词序不当、搭配不当、成分缺失、成分冗余、结构颠倒、语义不明、不合逻辑等。
其中,词序不当是指词语的顺序错误,例如中心词和修饰语之间以及多个修饰与之间顺序的
颠倒等。搭配不当包括主谓搭配不当、谓词和宾语搭配不当以及中心词和修饰语搭配不当等。
成分的缺失及冗余主要指主语、谓词等的空缺或多余。结构颠倒主要是句子结构的混杂。不
合逻辑错误是指自我矛盾、主宾颠倒等错误。

语病会导致句子的词性标注以及依存分析结果异常,使句子的正常分析变得更为困难。
现有语病识别工作大多仅针对某一类特定的错误进行识别。若识别句子中的所有类型语病,
则需要针对每一种错误训练一种对应的错误识别模型,这样做既繁琐又无法考虑错误之间的
关系。在遣词造句时,有时会出现含多类语病的句子,尤其是第二语言学习者。例如一个句
子可能既包含把字句错误,同时又缺失了主语。在第二外语学习者的作文中,有相当比例的
句子含有多种语病。语病识别是一个复杂的问题,受到很多因素的影响。为了便于分类处理,
需要预先定义很多特征。但是,究竟哪些特征真正有用,特别是,哪些特征组合后能产生好
的效果,一直是一个大的问题。当然,可以通过手工进行大量的尝试,但不仅耗时而且费力。

发明内容

为了便于说明,先约定下列概念:

句子:这里指待判定是否为病句的句子,通常以句号结束。

语病:句子中包含不符合语法或者语义规范的描述。

本发明的目的是提供一种方法,在没有人工干预的情况下,容易检测出一个给定的句子
是否是病句(即包含至少一种语病)。

本发明的技术方案如下:

一种基于深度神经网络与多标记分类的病句检测方法(参图1),其特征是,包括如下步
骤:

步骤一:对于一个输入的句子,表示为一个实例;然后根据词法、句法分析提取特征,
将实例转换为特征向量;

步骤二:将步骤一得到的特征向量作为深度神经网络的输入,通过深度神经网络的计算,
逐层获得压缩表示;

步骤三:将最后一层神经网络的压缩表示作为多标记分类层的输入,计算得到最终确定
的语病类型。

步骤一进一步包括:对实例进行预处理,包括汉语词切分和词性标注以及依存分析。

步骤三进一步包括:计算获得各种语病对应的概率值,设定阈值,若针对某一种语病的
概率输出超过该阈值,则认为该句子包含这种错误。

本发明利用从句子中提取特征,将句子变为特征向量;再将特征向量输入到深度神经网
络模型中,获得深层次特征表示;最后针对于多标记分类的神经网络输出,获得最终多标记
分类结果,从而准确定位到句子中究竟包含哪些错误。实现了将句子的特征表示升级到基于
神经网络的隐藏层表示中,通过多标记的方法输出可能的语病,从而完成病句的检测。

本发明针对句子识别其中语病,并且可以做到识别句子中的多种语病,避免了人工选择
特征,同时也能提升多种语病的预测的准确度。

附图说明

图1是本发明所述方法流程示意图;

图2是基本的单隐藏层神经网络示意图;

图3是病句分析示例。

具体实施方式

下面通过实例对本发明做进一步的说明,但是需要注意的是,给出实例的目的在于帮助
进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的
精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实例所公开的内容,
本发明要求保护的范围以权利要求书界定的范围为准。

输入句子“通过这次学习,使我的水平有了很大的提高”为一个实例,本发明首先需要
获得词的太阳城集团及句法分析太阳城集团,这里采用带词性太阳城集团的词作为句子中词的太阳城集团,采用依存分
析结果作为句子中句法分析的太阳城集团。如对应的词、词性序列是“通过/P,这/DT,次/M,学习/NN,,
/PU,使/VV,我/PN,的/DEG,水平/NN,有/VE,了/AS,极大/JJ,的/DEG,提高/NN。/PU”。,
其对应的依存关系包括:“prep(使-6,通过-1),det(学习-4,这-2),clf(这-2,次-3),pobj(通过-1,
学习-4),root(ROOT-0,使-6),assmod(水平-9,我-7),assm(我-7,的-8),dobj(使-6,水平-9),
dep(使-6,有-10),asp(有-10,了-11),assmod(提高。-14,极大-12),assm(极大-12,的-13),
dobj(有-10,提高。-14)”。

特征就是句子的一种抽象表示。可以直接使用已有的特征提取方法,也可以自己定义特
征。例如,以出现的词、词性、词与词之间的依存关系作为特征,形成特征集合。当然,特
征集合可以不限于此。

接下来需要将特征向量输入到深度神经网络模型中,通过深度神经网络的计算,得到深
层次压缩表示。深度神经网络模型算法可以是现有的任何一种深度神经网络算法。基本的单
隐藏层神经网络示意图见图2。

深度神经网络的最后一层输出,作为多标记分类层的输入,计算得到最终确定的语病类
型。分类标注层输出包含每一种语病的概率,按照一定的准则得到最终确定的语病结果。这
里按阈值筛选方法,取概率超过给定阈值的语病类型作为句子包含的语病;如果没有一种语
病的概率超过阈值,则认为句子不包含语病。

用于多标记分类的神经网络的激活函数可以选择Softmax,此时,归一化的公式为:

y j = exp ( w j * h ) 1 + exp ( w j * h ) ]]>

其中,yi为第i种语病,h是隐藏层的值,wi对应第i个输出的权重向量。

下面以几个例子说明病句的识别。

图3分别列出了三个包含多种语病的病句例子。例如第一句,原句为“后来一个人搞小
小的摊位,把这个企业慢慢大,现在开了一个很大的商场了。”,其中包含了“缺失定语”与
“把字句错误”,修改后正确的句子应当是:“后来一个人搞小小的摊位,这个企业慢慢大,
现在开了一个很大的商场了”。本发明给出的方法可以根据原句提取对应的特征序列,通过深
度神经网络与多标记分类,得出该句话包含“缺失定语”错误以及“把字句错误”。

其它两个句子也可以通过类似的方法分析。其对应的正确的句子分别是:“朝鲜战争以后
所有的一切被破坏了,大部分人很穷”与“可以说我对旅游的内外部结构的了解已达到一定
的水平”。

关 键 词:
一种 基于 深度 神经网络 标记 分类 病句 检测 方法
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
太阳城集团本文
本文标题:一种基于深度神经网络与多标记分类的病句检测方法.pdf
链接地址:http://zh228.com/p-6401544.html
太阳城集团我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
葡京赌场|welcome document.write ('');