太阳城集团

  • / 14
  • 下载费用:30 金币  

一种基于依存关系模板抽取观点评价对象的BOOTSTRAPPING算法.pdf

摘要
申请专利号:

CN201610537567.1

申请日:

2016.07.08

公开号:

太阳城集团CN106257455A

公开日:

2016.12.28

当前法律状态:

实审

有效性:

审中

法律详情: 实质审查的生效IPC(主分类):G06F 17/30申请日:20160708|||公开
IPC分类号: G06F17/30; G06F17/27 主分类号: G06F17/30
申请人: 闽江学院
发明人: 杨晓燕; 徐戈
地址: 350108 福建省福州市闽侯县上街镇文贤路1号
优先权:
专利代理机构: 福州元创专利商标代理有限公司 35100 代理人: 蔡学俊
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

太阳城集团CN201610537567.1

授权太阳城集团号:

|||

法律状态太阳城集团日:

2017.01.25|||2016.12.28

法律状态类型:

太阳城集团实质审查的生效|||公开

摘要

太阳城集团本发明涉及一种基于依存关系模板抽取观点评价对象的Bootstrapping算法,考虑了情感词与观点评价对象词之间的语法、语义关系,构造观点评价对象词与情感词之间的依存关系模板,采用Bootstrapping方法抽取观点评价对象。本发明避免了直接采用词汇上下文抽取评价对象方法所带来的噪音,提高了观点评价对象抽取性能。

权利要求书

1.一种基于依存关系模板抽取观点评价对象的Bootstrapping算法,其特征在于:包括
以下步骤:
步骤S1:以情感词为中心寻找与初始依存关系模板匹配的词,并对该词进行过滤处理,
获得候选观点评价对象词;
步骤S2:用下式计算候选观点评价对象词j的分数:
<mrow> <msub> <mi>sw</mi> <mi>j</mi> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>u</mi> </munderover> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>*</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>u</mi> </munderover> <mfrac> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>v</mi> </munderover> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> </mrow> <mi>u</mi> </mfrac> <mo>;</mo> </mrow>
将依存关系模板与候选观点评价对象词之间的匹配关系用二维矩阵表示:W=(wij),i
={1,2,...,u},j={1,2,...,v},其中,u表示模板个数,v表示候选观点评价对象词候选个
数;当第i个依存关系模块与第j个候选观点评价对象词存在匹配关系时,wij=wij+1;
步骤S3:按候选观点评价对象词的分数排序,挑选分数最高的5个词进入观点评价对象
种子集;
步骤S4:从观点评价对象种子集出发寻找观点评价对象词与情感词之间的依存关系,
如果存在依存关系则构造候选依存关系模板;
步骤S5:用下式计算候选依存关系模板分数:
<mrow> <msub> <mi>sp</mi> <mi>j</mi> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>*</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mfrac> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> </mrow> <mi>m</mi> </mfrac> <mo>;</mo> </mrow>
将一个观点评价对象词与候选依存关系模板的关系用二维矩阵表示:P=(pij),i={1,
2,...,m},j={1,2,...,n},其中,m表示观点评价对象个数,n表示候选依存关系模板个数;
当第i个观点评价对象词与第j个候选依存关系模板存在匹配关系时,pij=pij+1;
步骤S6:按候选依存关系模板的分数排序,挑选分数大于阈值θ的依存关系模板进入模
板集;
步骤S7:重复步骤S1至步骤S6,直至没有新的候选观点评价对象词产生;
步骤S8:利用依存分析和语义角色标注技术的规则,对得到的候选观点评价对象进行
边界识别。
2.根据权利要求1所述的一种基于依存关系模板抽取观点评价对象的Bootstrapping
算法,其特征在于:步骤S1中所述对该词进行过滤处理具体包括词性过滤与停用词过滤;所
述词性过滤为将名词短语作为候选观点评价对象;所述停用词包括通用停用词与领域停用
词。
3.根据权利要求1所述的一种基于依存关系模板抽取观点评价对象的Bootstrapping
算法,其特征在于:步骤S8中,所述依存分析和语义角色标注技术的规则具体包括:
合并规则:如果当前词是观点评价对象词,该词的前一个词或后一个词出现在候选观
点评价对象集中,则前一个词或后一个词扩展为观点评价对象词;
ATT规则:如果当前词是观点评价对象,前一个词或后一个词与该词具有ATT或QUN或DE
句法依存关系,则前一个词或后一个词扩展为观点评价对象词;
LAD规则:如果当前词与当前词的父亲词依存关系是LAD且前一个词是观点评价对象
词,则当前词的父亲词是观点评价对象词;
COO规则:如果当前词与当前词的儿子词依存关系是COO,且当前词是观点评价对象词,
则当前词的儿子词是观点评价对象词;
SRL规则:如果当前词与某些词的语义关系是施事关系同时又与另外一些词的语义关
系存在受事关系且受事者中包含情感词则施事者是观点评价对象词。

说明书

一种基于依存关系模板抽取观点评价对象的Bootstrapping算法

技术领域

本发明涉及观点挖掘领域,特别是一种基于依存关系模板抽取观点评价对象的
Bootstrapping算法。

背景技术

随着网络的快速发展,互联网上产生了一种由大量用户参与的崭新的模式—用户
生成内容(Users Generate Content,UGC)模式。在UGC上用户发表对于诸如事件、产品、人
物等评论太阳城集团,这些评论太阳城集团对于用户购买决策、兴趣挖掘、个性化太阳城集团服务、舆情监控、信
息预测等工作都具有重要的价值和意义。然而,这些评论数量庞大,品质良莠不齐,且多为
短文本描述,手工分析和挖掘异常困难,因此,设计实现面向评论的观点挖掘(opinion
mining)工具成为自然语言处理和数据挖掘界的热点问题之一。

目前观点挖掘算法中,基于模板匹配的方法使用得较为普遍,其本质是从样本中
构造相关模板,将待分析文本与模板进行匹配从而提取需要的太阳城集团。王昌厚等将种子词出
现位置的前一个词和后一个词的组合构造词形模式库用于抽取情感词。张凌等通过提取情
感对象到情感词之间的一组词性模板形成词性模板库,用于提取原子情感对象。宋晓雷等
利用种子词的前一个词和后一个词的词形、词性分别构造词形模板、词性模板用于抽取观
点评价对象。然而,基于词形、词性模板的方法只考虑词、词性太阳城集团,句法太阳城集团没得到有效利
用。例如“329/m元/q的/u价格/n是/v酷冷/a爱好者/n不错/a的/u选择/v。”这句中“价格”是
观点评价对象,如果用该词的前一个词和后一个词的词形、词性构造词形模板和词性模板
并用该模板去匹配待分析文本“这/r款/q产品/n最/d大/a的/u特点/n是/v性价比/n非常/d
高/a。/wp”会抽取得到“特点”这个词作为观点评价对象,而这个句子的观点评价对象是“性
价比”。产生错误的原因就是在获取观点评价对象过程中仅考虑词的太阳城集团而忽略了情感词
与观点评价对象词在语法和语义上的太阳城集团。

国内外太阳城集团观点评价对象抽取的研究如下:观点评价对象抽取(opinion target)
是指抽取出评论所针对的对象或对象的属性。如“索尼NWZ-A826外形设计简约大气。”这个
句子中观点评价对象是“索尼NWZ-A826外形设计”,“简约大气”是评价短语。观点评价对象
抽取为太阳城集团分类、检索与归纳等工作打下基础,是观点挖掘的重要任务。目前自动抽取观点
评价对象已成为观点挖掘亟待解决的问题,国际上一些著名的评测如TREC Blog Track和
NTCIR以及国内中文倾向性分析评测都将观点评价对象抽取作为其任务之一。观点评价对
象抽取算法可以归结为无监督的机器学习(unsupervised machine learning)、监督的机
器学习(supervised machine learning)、半监督的机器学习(semi-supervised
learning)。无监督机器学习方法抽取观点评价对象主要采用模板和规则两种方法。张凌等
提出利用词性模板库提取情感要素的方法。顾正甲等使用SBV极性传递法从语料中抽取观
点评价对象。赵妍妍等基于句法路径获取观点评价对象。任彬等基于依存句法分析的方法
通过规则匹配的方式从文本中提取太阳城集团。王素格等利用词对之间的依存关系和相关词性,
构建含有情感词和观点评价对象的组块规则,再以此为基础抽取候选观点评价对象。在英
文方面,Bloom等基于依存分析人工制定了31条依存规则用于抽取评价短语-观点评价对象
的搭配。总的来说,无监督的机器学习方法不需标注语料,能降低成本,但是由于模板、规则
构造不完备,因此泛化能力较差,获取的观点评价对象准确率较低。监督的机器学习方法抽
取观点评价对象是将观点评价对象抽取问题看成是标注问题,这方面的代表方法有张磊等
引入词形、词性、依存关系结构特征、距离特征、路径等特征模板,利用最大熵模型进行训
练,提取观点评价对象-情感词对。袁璐等对句子进行浅层句法分析并制定相应规则,再结
合隐马尔科夫模型进行训练。戴敏等引入词形、依存关系、语义角色标注等特征基于条件随
机场模型进行观点评价对象抽取。以上方法均采用监督学习的方法进行观点评价对象识
别,这些方法需要标注大量的训练数据,费时费力,精确率较高,但召回率较低。而且不同领
域的训练数据是无法共享的,这大大影响了监督机器学习方法的适用性。针对中文语料库
规模较小的不足之处,许多学者采用半监督学习算法抽取观点评价对象。半监督机器学习
算法能够避免数据和资源的浪费,同时解决监督学习算法的模型泛化能力不强和无监督学
习算法的模型不精确等问题,已经被应用于解决实际问题,尤其是自然语言处理问题。半监
督机器学习的一种主流方法是自举(Bootstrapping)方法。该方法通过人工干预得到种子,
然后增量式地迭代,在每一轮迭代中,都将产生新的标注样例,用这些新的有标注样例重新
训练模型,如此循环往复,直到最终收敛结束。Michael Thelen等基于Bootstrapping算法
原理提出词与模板双向评分的词典生成算法,取得较理想的效果。Wei Jin等将候选观点评
价对象的同义词、近义词标注为候选观点评价对象,再重新训练模型,但该方法带入许多低
频词汇影响识别性能。Shu Zhang等采用图模型识别观点评价对象与情感词,把观点评价对
象与情感词看做是一个评价搭配关系对,每增加m个候选观点评价对象就产生n个候选情感
词,这样不断迭代产生观点评价对象与情感词,该方法不足之处是评价候选观点评价对象
时只考虑候选观点评价对象与情感种子词的共现率,召回率较低。Qiu Guang等提出利用小
规模种子情感词以及观点评价对象和情感词之间的依存关系,通过观点评价对象和情感词
之间的双向传播策略,增量式地识别新情感词和观点评价对象,但该方法需要依靠人工经
验构造依存关系模板。宋晓雷等从种子观点评价对象和种子词形模板、词性模板出发通过
Bootstrapping方法识别观点评价对象,但该方法忽略情感词的作用。由于Bootstrapping
方法的优良特性,本发明采用Bootstrapping方法进行观点评价对象的抽取。

国内外太阳城集团依存分析技术的研究如下:依存分析(dependency parsing)是一种语
言结构,通过分析语言单位内成分之间的依存关系揭示其句法结构,描述句中词和词之间
存在的支配与被支配的依存关系,由于依存分析可以反映出句子各成分之间的语义修饰关
系,可以获得长距离的搭配太阳城集团,并且依存分析与句子成分的物理位置无关,更倾向于人的
语言直觉,能够提供更精确的结果,因此依存分析技术得到人们的广泛关注。例句1“这款产
品最大的特点是性价比非常高。”的依存分析结构图如图1所示。图1中带箭头的有向弧表示
两个词之间的从属关系,这条有向弧叫做依存弧。每个依存弧上标记依存关系类型,如果词
与词之间直接发生依存关系,则其中一个词称为核心词,也叫支配词;另一个词称为修饰
词,也叫从属词,依存弧的方向总是由核心(父亲)词指向修饰(儿子)词。

国内外太阳城集团语义角色标注技术的研究如下:语义角色标注(semantic role
labeling)是自然语言处理领域的一个热门研究内容。它并不对整个语句做详细的语义分
析,而只是标注句子中给定谓词的语义角色,从而使计算机对语句有一个“浅层”的理解。对
于汉语中的大多数谓词来讲,其角色参数在句中比较固定,A0一般表示动作结果的施事者,
A1表示动作结果的受事者。如例句2:“明系列是摩托罗拉手机的一个顶峰。”该句的语义角
色标注结果如图2所示。句子中“是”是谓词,“明系列”是谓词“是”的“施事者”,“摩托罗拉手
机的一个顶峰”是谓词“是”的“受事者”。

发明内容

有鉴于此,本发明的目的是提出一种基于依存关系模板抽取观点评价对象的
Bootstrapping算法,避免了直接采用词汇上下文抽取评价对象方法所带来的噪音,提高了
观点评价对象抽取性能。

本发明采用以下方案实现:一种基于依存关系模板抽取观点评价对象的
Bootstrapping算法,具体包括以下步骤:

步骤S1:以情感词为中心寻找与初始依存关系模板匹配的词,并对该词进行过滤
处理,获得候选观点评价对象词;

步骤S2:用下式计算候选观点评价对象词j的分数:

<mrow> <msub> <mi>sw</mi> <mi>j</mi> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>u</mi> </munderover> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>*</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>u</mi> </munderover> <mfrac> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>v</mi> </munderover> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> </mrow> <mi>u</mi> </mfrac> <mo>;</mo> </mrow>

将依存关系模板与候选观点评价对象词之间的匹配关系用二维矩阵表示:W=
(wij),i={1,2,...,u},j={1,2,...,v},其中,u表示模板个数,v表示候选观点评价对象词
候选个数;当第i个依存关系模块与第j个候选观点评价对象词存在匹配关系时,wij=wij+
1;

步骤S3:按候选观点评价对象词的分数排序,挑选分数最高的5个词进入观点评价
对象种子集;

步骤S4:从观点评价对象种子集出发寻找观点评价对象词与情感词之间的依存关
系,如果存在依存关系则构造候选依存关系模板;

步骤S5:用下式计算候选依存关系模板分数:

<mrow> <msub> <mi>sp</mi> <mi>j</mi> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>*</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mfrac> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> </mrow> <mi>m</mi> </mfrac> <mo>;</mo> </mrow>

将一个观点评价对象词与候选依存关系模板的关系用二维矩阵表示:P=(pij),i
={1,2,...,m},j={1,2,...,n},其中,m表示观点评价对象个数,n表示候选依存关系模板
个数;当第i个观点评价对象词与第j个候选依存关系模板存在匹配关系时,pij=pij+1;

步骤S6:按候选依存关系模板的分数排序,挑选分数大于阈值θ的依存关系模板进
入模板集;

步骤S7:重复步骤S1至步骤S6,直至没有新的候选观点评价对象词产生;

步骤S8:利用依存分析和语义角色标注技术的规则,对得到的候选观点评价对象
进行边界识别。

进一步地,步骤S1中所述对该词进行过滤处理具体包括词性过滤与停用词过滤;
所述词性过滤为将名词短语作为候选观点评价对象;所述停用词包括通用停用词与领域停
用词。

进一步地,步骤S8中,所述依存分析和语义角色标注技术的规则具体包括:

合并规则:如果当前词是观点评价对象词,该词的前一个词或后一个词出现在候
选观点评价对象集中,则前一个词或后一个词扩展为观点评价对象词;

ATT规则:如果当前词是观点评价对象,前一个词或后一个词与该词具有ATT或QUN
或DE句法依存关系,则前一个词或后一个词扩展为观点评价对象词;

LAD规则:如果当前词与当前词的父亲词依存关系是LAD且前一个词是观点评价对
象词,则当前词的父亲词是观点评价对象词;

COO规则:如果当前词与当前词的儿子词依存关系是COO,且当前词是观点评价对
象词,则当前词的儿子词是观点评价对象词;

SRL规则:如果当前词与某些词的语义关系是施事关系同时又与另外一些词的语
义关系存在受事关系且受事者中包含情感词则施事者是观点评价对象词。

观点评价对象抽取与传统的太阳城集团抽取任务不同,抽取的太阳城集团必须是与情感词存在
修饰关系的词语,而非客观描述的对象,所以在抽取时要考虑情感词对观点评价对象抽取
的影响。观点评价对象词与情感词的依存关系存在以下5种形式,如图3-7所示。其中T代表
观点评价对象词,O代表情感词,M代表中间词。图3表示“父亲关系”,即观点评价对象词是情
感词的父亲节点;图4表示“儿子关系”,即观点评价对象词是情感词的儿子节点;图5表示
“祖父关系”,即观点评价对象词是情感词的父亲的父亲节点;图6表示“孙子关系”,即观点
评价对象词是情感词的儿子的儿子节点,图7表示“兄弟关系”,即观点评价对象词与情感词
有同一个祖先词。我们将这5种关系形式分为两组,一组称为直接依存关系,包括“父亲关
系”和“儿子关系”,另一组称为间接依存关系,包括“祖父关系”、“孙子关系”、“兄弟关系”。

针对以上依存关系形式,本发明提出观点评价对象词与情感词之间的直接依存关
系模板和间接依存关系模板。直接依存关系模板表示为(dp,target,relate,opinion)。其
中:dp表示观点评价对象词与情感词之间的依存关系类型;target指观点评价对象词,
opinion指情感词;relate表示观点评价对象词与情感词之间的依存关系形式,(-1)表示观
点评价对象词是情感词的父亲节点;(+1)表示上观点评价对象词是情感词的儿子节点。间
接依存关系模板表示为(dp1,target,relate1,middle)+(dp2,middle,relate2,opinion),
其中dp1表示观点评价对象词与中间词的依存关系类型;relate1表示观点评价对象词与中
间词的依存关系形式,(-1)表示观点评价对象词是中间词的父亲节点;(+1)表示观点评价
对象词是中间词的儿子节点;dp2表示情感词与中间词的依存关系类型;middle指中间词;
relate2表示情感词与中间词的依存关系形式,(-1)表示中间词是情感词的父亲节点;(+1)
表示中间词是情感词的儿子节点。以例句1为例,观点评价对象词“性价比”与情感词“高”之
间的依存关系类型是SBV关系,用直接依存关系模板表示为:(SBV,性价比,+1,高)。

与现有技术相比,本发明有以下有益效果:本发明采用一种以种子词与情感词之
间的依存关系构造模板,并采用Bootstrapping方法实现观点评价对象的抽取。通过在
COAE2011电子数据集上的实验结果表明本发明提出的方法能有效利用情感词与观点评价
对象词之间的语法、语义太阳城集团,避免了直接采用词汇上下文抽取评价对象方法所带来的噪
音,提高了观点评价对象抽取性能。

附图说明

图1为本发明背景技术中依存分析结构示意图。

图2为本发明背景技术中语义角色标注示意图。

图3为本发明观点评价对象词与情感词的依存关系形式之父亲关系。

图4为本发明观点评价对象词与情感词的依存关系形式之儿子关系。

图5为本发明观点评价对象词与情感词的依存关系形式之祖父关系。

图6为本发明观点评价对象词与情感词的依存关系形式之孙子关系。

图7为本发明观点评价对象词与情感词的依存关系形式之兄弟关系。

图8为本发明实施例中阈值的设置对性能的影响。

图9为本发明实施例中合并规则、ATT规则示意图。

图10为本发明实施例中COO规则示意图。

图11为本发明实施例中SRL规则示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

本实施例提供了一种基于依存关系模板抽取观点评价对象的Bootstrapping算
法,具体包括以下步骤:

步骤S1:以情感词为中心寻找与初始依存关系模板匹配的词,并对该词进行过滤
处理,获得候选观点评价对象词;

步骤S2:用下式计算候选观点评价对象词j的分数:

<mrow> <msub> <mi>sw</mi> <mi>j</mi> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>u</mi> </munderover> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>*</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>u</mi> </munderover> <mfrac> <msub> <mi>w</mi> <mi>k</mi> </msub> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>v</mi> </munderover> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> </mrow> <mi>u</mi> </mfrac> <mo>;</mo> </mrow>

将依存关系模板与候选观点评价对象词之间的匹配关系用二维矩阵表示:W=
(wij),i={1,2,...,u},j={1,2,...,v},其中,u表示模板个数,v表示候选观点评价对象词
候选个数;当第i个依存关系模块与第j个候选观点评价对象词存在匹配关系时,wij=wij+
1;

在本实施例中,设集合X={x1,x2,...,xi,...,xu}与集合Y={y1,y2,...,yj,...,
yv},我们取X×Y的一个子集R构造一个从X到Y的匹配关系。即若<xi,yj>∈R,即称xi与yj有
匹配关系,记作xiRyj。若即称xi与yj没有匹配关系,记作

步骤S3:按候选观点评价对象词的分数排序,挑选分数最高的5个词进入观点评价
对象种子集;

步骤S4:从观点评价对象种子集出发寻找观点评价对象词与情感词之间的依存关
系,如果存在依存关系则构造候选依存关系模板;

步骤S5:用下式计算候选依存关系模板分数:

<mrow> <msub> <mi>sp</mi> <mi>j</mi> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>*</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mfrac> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> </mrow> <mi>m</mi> </mfrac> <mo>;</mo> </mrow>

将一个观点评价对象词与候选依存关系模板的关系用二维矩阵表示:P=(pij),i
={1,2,...,m},j={1,2,...,n},其中,m表示观点评价对象个数,n表示候选依存关系模板
个数;当第i个观点评价对象词与第j个候选依存关系模板存在匹配关系时,pij=pij+1;

步骤S6:按候选依存关系模板的分数排序,挑选分数大于阈值θ的依存关系模板进
入模板集;

步骤S7:重复步骤S1至步骤S6,直至没有新的候选观点评价对象词产生;

步骤S8:利用依存分析和语义角色标注技术的规则,对得到的候选观点评价对象
进行边界识别。

在本实施例中,步骤S1中所述对该词进行过滤处理具体包括词性过滤与停用词过
滤;所述词性过滤为将名词短语作为候选观点评价对象;所述停用词包括通用停用词与领
域停用词。

在本实施例中,步骤S8中,所述依存分析和语义角色标注技术的规则具体包括:

合并规则:如果当前词是观点评价对象词,该词的前一个词或后一个词出现在候
选观点评价对象集中,则前一个词或后一个词扩展为观点评价对象词;

ATT规则:如果当前词是观点评价对象,前一个词或后一个词与该词具有ATT或QUN
或DE句法依存关系,则前一个词或后一个词扩展为观点评价对象词;

LAD规则:如果当前词与当前词的父亲词依存关系是LAD且前一个词是观点评价对
象词,则当前词的父亲词是观点评价对象词;

COO规则:如果当前词与当前词的儿子词依存关系是COO,且当前词是观点评价对
象词,则当前词的儿子词是观点评价对象词;

SRL规则:如果当前词与某些词的语义关系是施事关系同时又与另外一些词的语
义关系存在受事关系且受事者中包含情感词则施事者是观点评价对象词。

在本实施例中,观点评价对象抽取与传统的太阳城集团抽取任务不同,抽取的太阳城集团必须
是与情感词存在修饰关系的词语,而非客观描述的对象,所以在抽取时要考虑情感词对观
点评价对象抽取的影响。观点评价对象词与情感词的依存关系存在以下5种形式,如图3-7
所示。其中T代表观点评价对象词,O代表情感词,M代表中间词。图3表示“父亲关系”,即观点
评价对象词是情感词的父亲节点;图4表示“儿子关系”,即观点评价对象词是情感词的儿子
节点;图5表示“祖父关系”,即观点评价对象词是情感词的父亲的父亲节点;图6表示“孙子
关系”,即观点评价对象词是情感词的儿子的儿子节点,图7表示“兄弟关系”,即观点评价对
象词与情感词有同一个祖先词。我们将这5种关系形式分为两组,一组称为直接依存关系,
包括“父亲关系”和“儿子关系”,另一组称为间接依存关系,包括“祖父关系”、“孙子关系”、
“兄弟关系”。

针对以上依存关系形式,本发明提出观点评价对象词与情感词之间的直接依存关
系模板和间接依存关系模板。直接依存关系模板表示为(dp,target,relate,opinion)。其
中:dp表示观点评价对象词与情感词之间的依存关系类型;target指观点评价对象词,
opinion指情感词;relate表示观点评价对象词与情感词之间的依存关系形式,(-1)表示观
点评价对象词是情感词的父亲节点;(+1)表示上观点评价对象词是情感词的儿子节点。间
接依存关系模板表示为(dp1,target,relate1,middle)+(dp2,middle,relate2,opinion),
其中dp1表示观点评价对象词与中间词的依存关系类型;relate1表示观点评价对象词与中
间词的依存关系形式,(-1)表示观点评价对象词是中间词的父亲节点;(+1)表示观点评价
对象词是中间词的儿子节点;dp2表示情感词与中间词的依存关系类型;middle指中间词;
relate2表示情感词与中间词的依存关系形式,(-1)表示中间词是情感词的父亲节点;(+1)
表示中间词是情感词的儿子节点。以例句1为例,观点评价对象词“性价比”与情感词“高”之
间的依存关系类型是SBV关系,用直接依存关系模板表示为:(SBV,性价比,+1,高)。

通过对数据集的分析,本实施例将出现频率较高的6个观点评价对象作为初始种
子词,分别为“外观”、“性能”、“设计”、“配置”、“功能”、“价格”;选4个出现频率较高的依存
关系模板作为初始种子模板,其中直接关系模板3个分别是“SBV,target,-1,opinion”、
“SBV,target,+1,opinion”、“ATT,target,+1,opinion”和一个间接关系模板“ATT,
target,-1,middle”+“VOB,middle,+1,opinion”。

在本实施例中,为了提高算法的精确率,对候选观点评价对象词进行打分之前对
其进行如下过滤处理。具体包括词性过滤与停用词过滤。词性过滤:我们将名词或名词短语
作为候选观点评价对象。虽然其他词性的词语也可能是候选观点评价对象,但这些词性的
引入会带来较大噪声。停用词过滤:这里的停用词包括通用停用词和领域停用词,如“上”,
“的”,“时”等。

在本实施例中,还对比了现有技术与本申请的实验结果,其中,实验数据来自
COAE2011电子领域评论语料大约150篇。语料中每个句子用哈尔滨工业大学的语言技术平
台(Language Technology Platform,LTP)进行分句、分词、词性分析、依存分析、语义角色
标注等预处理工作。评价短语、候选观点评价对象的答案由人工标注。以准确率、召回率和
调和评价值作为评价标准,公式如下所示。评价方法采用精确评价和覆盖评价两种方法。精
确评价是指系统抽取结果与答案完全匹配,覆盖评价是指系统抽取结果与答案有重叠就算
正确。

其中,准确率的计算如下:


召回率的计算如下:


调和评价值得计算如下:

<mrow> <mi>F</mi> <mo>-</mo> <mi>s</mi> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mo>=</mo> <mfrac> <mrow> <mn>2</mn> <mo>&times;</mo> <mi>Re</mi> <mi>c</mi> <mi>a</mi> <mi>l</mi> <mi>l</mi> <mo>&times;</mo> <mi>Pr</mi> <mi>e</mi> <mi>c</mi> <mi>i</mi> <mi>s</mi> <mi>i</mi> <mi>o</mi> <mi>n</mi> </mrow> <mrow> <mi>Re</mi> <mi>c</mi> <mi>a</mi> <mi>l</mi> <mi>l</mi> <mo>+</mo> <mi>Pr</mi> <mi>e</mi> <mi>c</mi> <mi>i</mi> <mi>s</mi> <mi>i</mi> <mi>o</mi> <mi>n</mi> </mrow> </mfrac> <mo>;</mo> </mrow>

在本实施例中,实验结果与分析如下:

实验一:阈值设定对结论的影响。

为了说明阈值θ的设定对结论的影响,本文对阈值θ取不同值进行实验,实验结果
如图8所示。通过实验验证阈值θ取0.10时得到的观点评价对象结果达到最优。

实验二:初始种子集、初始模板集、过滤处理、边界识别规则对结论的影响。

为了验证初始种子集、初始模板集、过滤处理、边界识别规则对观点评价对象抽取
的影响,我们采用如下五种方法进行实验,实验结果见表1。

方法一:以初始观点评价对象种子集出发进行观点评价对象的自动抽取,并对候
选观点评价对象进行过滤处理、边界识别。

方法二:以初始依存关系模板集出发进行观点评价对象的自动抽取,并对候选观
点评价对象经过过滤处理、边界识别。

方法三:以初始依存关系模板集及初始观点评价对象种子集出发抽取候选观点评
价对象,未对候选观点评价对象进行过滤处理,对候选观点评价对象的边界进行识别。

方法四:以初始依存关系模板集及初始观点评价对象种子集出发抽取候选观点评
价对象,对候选观点评价对象进行过滤处理,未对观点评价对象使用边界识别规则。

本发明用初始依存模板集及初始观点评价对象种子集进行观点评价对象的自动
抽取并对候选观点评价对象进行过滤处理,对观点评价对象的边界进行识别。

表1观点评价对象自动抽取结果



本发明方法与方法一、方法二对比,说明同时使用初始观点评价对象种子集和初
始依存关系模板集抽取观点评价对象相对于单一使用初始观点评价对象种子集或初始依
存关系模板集性能有一定提升。

本发明方法与方法三对比说明词性过滤处理和停用词过滤处理对观点评价对象
抽取结果影响较大,在一定程度上可以减少噪声(即非观点评价对象)的产生。

本发明方法与方法四对比说明增加边界识别规则能使观点评价对象抽取性能有
一定提升。如例句3:“索尼NWZ-A826外形设计简约大气。”的依存分析结果如图9所示。已知
“设计”是观点评价对象种子词,而“外形”是候选观点评价对象,根据合并规则将“外形设
计”作为观点评价对象。再依据依存分析“索尼”与“外形”、“NWZ-A826”与“外形”的依存关系
分别是“ATT”、“ATT”,根据ATT规则得到“索尼NWZ-A826外形设计”这个太阳城集团完整的观点评价
对象。

如例句4:“E60的扬声器音量和穿透力很强。”的依存分析结果如图10所示。这个句
子中,“音量”是观点评价对象词,“音量”与其儿子词“穿透力”的依存关系是“COO”,根据COO
规则,“穿透力”也是观点评价对象词。

如例句2:“明系列是摩托罗拉手机的一个顶峰。”的依存分析结果如图11所示。该
句中“是”是谓词,“明系列”是谓词“是”的施事者,“摩托罗拉手机的一个顶峰”是谓词“是”
的受事者。根据SRL规则谓词“是”的受事者中包含情感词“顶峰”,因此施事者“明系列”是观
点评价对象。

实验三:与词性、词形模板进行对比。

为了验证本发明提出的基于依存关系模板的Bootstrapping方法抽取观点评价对
象有效性,使用王昌厚等基于词形模板的Bootstrapping算法和宋晓雷等基于词性、词形模
板的Bootstrapping算法作为对比模型。本发明和王昌厚等、宋晓雷等方法采用相同的数据
集、过滤处理方法、初始观点评价对象种子集、相同的计算观点评价对象词、模板的公式以
及采用相同的边界识别规则和自举算法。宋晓雷等方法的初始词性模板4个分别为:“#,
word,a”,“a,word,c”,“u,word,d”,“u,word,v”。王昌厚等、宋晓雷等方法的初始词形模板
选4个分别为:“在,word,方面”,“在,word,上”,“的,word,是”,“#,word,还是”。其中“#”代
表句子的开始。实验结果如表2所示。

表2本文方法与词性、词形模板对比



由实验结果可知:采用依存关系构造模板相对词性、词形模板的方法,在精确评
价、覆盖评价都有很大提高。主要原因是词性、词形模板方法只利用词的太阳城集团而忽略了情感
词与观点评价对象词之间的语法、语义太阳城集团。如例句1“这款产品最大的特点是性价比非常
高。”,该句子情感词“高”与儿子词“性价比”之间的依存关系类型是SBV,采用本发明方法能
与模板库中已存在的依存关系模板SBV匹配,因此能获得“性价比”这个观点评价对象,而词
性、词形模板方法只利用词性、词形太阳城集团忽略了情感词的作用只能抽取得到“特点”作为观
点评价对象,因此观点评价对象抽取性能较低。

以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与
修饰,皆应属本发明的涵盖范围。

关 键 词:
一种 基于 依存 关系 模板 抽取 观点 评价 对象 BOOTSTRAPPING 算法
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
太阳城集团本文
本文标题:一种基于依存关系模板抽取观点评价对象的BOOTSTRAPPING算法.pdf
链接地址:http://zh228.com/p-6100773.html
太阳城集团我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
葡京赌场|welcome document.write ('');