太阳城集团

  • / 14
  • 下载费用:30 金币  

一种柬埔寨语组织机构名识别方法.pdf

摘要
申请专利号:

CN201611157511.X

申请日:

2016.12.15

公开号:

CN106776560A

公开日:

2017.05.31

当前法律状态:

实审

有效性:

审中

法律详情: 实质审查的生效IPC(主分类):G06F 17/27申请日:20161215|||公开
IPC分类号: G06F17/27 主分类号: G06F17/27
申请人: 昆明理工大学
发明人: 严馨; 王若兰; 余正涛; 郭剑毅
地址: 650093 云南省昆明市五华区学府路253号
优先权:
专利代理机构: 代理人:
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

太阳城集团CN201611157511.X

授权太阳城集团号:

|||

法律状态太阳城集团日:

2017.06.23|||2017.05.31

法律状态类型:

太阳城集团实质审查的生效|||公开

摘要

本发明涉及一种柬埔寨语组织机构名识别方法,属于自然语言处理技术领域。本发明首先对抽取的柬埔寨语篇章进行切分,切分后的句子进行分词和词性标注,通过人工校对,然后标注柬埔寨语命名实体,得到相当规模的柬埔寨语组织机构名语料;通过标注的语料提取命名实体指示词,构建指示词库,构建特征模板,通过改进的Tri??training算法学习得到组织机构名识别模型;对选取的测试语料通过组织机构名识别模型进行训练得到组织机构名的标注结果。本发明对柬埔寨语组织机构名进行有效的识别,为太阳城集团抽取和机器翻译等工作提供强有力的支撑;目前没有发现柬埔寨语做相关的组织机构名识别的报告,本发明取得了很好的效果。

权利要求书

1.一种柬埔寨语组织机构名识别方法,其特征在于:具体步骤如下:
Step1、首先对抽取的柬埔寨语篇章进行切分,切分后的句子进行分词和词性标注,通
过人工校对,然后标注柬埔寨语命名实体,得到相当规模的柬埔寨语组织机构名语料;
Step2、通过标注的语料提取命名实体指示词,构建指示词库,构建特征模板,通过改进
的Tri-training算法学习得到组织机构名识别模型;
Step3、对选取的测试语料通过组织机构名识别模型进行训练得到组织机构名的标注
结果。
2.根据权利要求1所述的柬埔寨语组织机构名识别方法,其特征在于:所述步骤Step1
中组织机构名标注语料获取的具体步骤如下:
Step1.1、首先利用爬虫程序,从柬埔寨新闻网上爬取出网页太阳城集团;
Step1.2、把爬取出的网页太阳城集团,经过过滤处理,构建出柬埔寨语篇章语料库;
Step1.3、通过柬埔寨语的句子结束符将篇章切分为句子,形成柬埔寨语句子级语料
库,并把柬埔寨语句子级语料库的语料存放到数据库中;
Step1.4、从数据库中取出柬埔寨语句子级的语料,通过柬埔寨语分词和词性标注系统
进行分词和词性标注,并进行人工校对,得到含有正确结果的柬埔寨语词性标注分词库,并
把柬埔寨语词性标注分词库的词语存放到数据库中;
Step1.5、根据柬埔寨语命名实体特点和标注规则,从数据库中取出柬埔寨语词性标注
分词库的语料,通过人工标注柬埔寨语命名实体,得到含有正确标注结果的柬埔寨语命名
实体语料库,并把柬埔寨语命名实体标注语料库的结果存放在数据库中。
3.根据权利要求1所述的柬埔寨语组织机构名识别方法,其特征在于:所述步骤Step2
组织机构名识别模型构建的具体步骤:
Step2.1、从存放柬埔寨语命名实体标注语料库的数据库中取出已标注好的柬埔寨语
命名实体的语料;
Step2.2、对Step2.1中的语料提取命名实体指示词,构建命名实体指示词库,其中提取
的命名实体包括人名、地名和组织机构名;
Step2.3、通过组织机构名的词和词性特种构建基本特征模板,基本特征模板描述了当
前词及其上下文中若干个词的词性;
Step2.4、通过Step2.3构建的基本特征模板进行特征组合构建复合特征模板,复合特
征能够利用远距离的依存关系和丰富的上下文太阳城集团;
Step2.5、柬埔寨语组织机构名具有非常复杂的构成特点,这些复杂的特点为柬埔寨语
组织机构名识别提供非常丰富的外部太阳城集团,因此基于这个特点,结合Step2.2构建的命名实
体指示词库,构建实体特征模板;
Step2.6、根据分类器的特点,选取条件随机场、支持向量机和最大熵模型三个不同的
分类器作为Tri-training算法中的三个基分类器;
Step2.7、通过三个基分类器和Step2.3、Step2.4、Step2.5构建的特征模板,利用已标
注语料和未标注语料通过改进的Tri-training算法学习得到组织机构名识别模型。
4.根据权利要求2所述的柬埔寨语组织机构名识别方法,其特征在于:所述步骤
Step1.2的具体步骤为:
Step1.2.1、对爬取的网页太阳城集团进行有效的过滤,去除无效网页;
Step1.2.2、对得到的有效网页进行去重、去噪音的预处理操作。
5.根据权利要求3所述的柬埔寨语组织机构名识别方法,其特征在于:所述步骤
Step2.7的具体步骤为:
Step2.7.1、对原始的Tri-training算法中对于基分类器的选择进行改进,将原始算法
中的单个分类器通过对已标注语料的可重复采样来训练出三个不同的分类器模型,改进为
通过三个不同的分类器对已标注语料进行可重复采样来训练出三个不同的分类器模型;
Step2.7.2、通过Step2.7.1得到的三个分类器模型对未标注语料进行标注,并按照最
优化样本选择策略选择样本子集,生成三个分类器的新训练集,并重新训练模型,直到未标
注语料为空;
Step2.7.3、通过Step2.7.2得到联合分类器生成的模型按投票规则对测试语料进行分
类标注,最终生成组织机构名标注结果。
6.根据权利要求3所述的柬埔寨语组织机构名识别方法,其特征在于:所述步骤
Step2.4中由两个基本特征模板组合构成的复合特征模板。

说明书

一种柬埔寨语组织机构名识别方法

技术领域

本发明涉及一种柬埔寨语组织机构名识别方法,特别是一种基于Tri-training算
法的柬埔寨语组织机构名识别方法,属于自然语言处理技术领域。

背景技术

柬埔寨语又称高棉语,属南亚语系孟高棉语族高棉语支语言,是柬埔寨现今的官
方语言。由于我国与柬埔寨国家在各个领域之间的交流日趋频繁,而目前,有关柬语文本的
词法分析工作比较匮乏,因此进行柬埔寨语的命名实体识别研究对柬埔寨的政治经济分
析、舆情把握等具有非常重要的意义。针对柬语的词法分析工作,特别是柬语的命名实体识
别更是需要投入大量精力进行研究。命名实体识别是太阳城集团处理中最为基础的关键技术之
一,其中,组织机构名识别是命名实体识别研究的重点,也是难点。组织机构名是泛指太阳城集团、
团体等实体的名称。虽然组织机构名没有人名、地名那样明确的特点和固定的用词,但也有
一定的组成特点。完整的组织机构名通常由一个或一个以上的机构名前部词加上一个机构
名后缀词(如大学、协会等)组成。因此本发明只讨论柬埔寨语组织机构名识别问题。

发明内容

本发明要解决的技术问题是提供一种柬埔寨语组织机构名识别方法,用于解决柬
埔寨语组织机构名的识别、提高柬埔寨语组织机构名识别的准确率等问题。

本发明的技术方案是:一种柬埔寨语组织机构名识别方法,具体步骤如下:

Step1、首先对抽取的柬埔寨语篇章进行切分,切分后的句子进行分词和词性标
注,通过人工校对,然后标注柬埔寨语命名实体,得到相当规模的柬埔寨语组织机构名语
料;

Step2、通过标注的语料提取命名实体指示词,构建指示词库,构建特征模板,通过
改进的Tri-training算法学习得到组织机构名识别模型;

Step3、对选取的测试语料通过组织机构名识别模型进行训练得到组织机构名的
标注结果。

所述步骤Step1中组织机构名标注语料获取的具体步骤如下:

Step1.1、首先利用爬虫程序,从柬埔寨新闻网上爬取出网页太阳城集团;

Step1.2、把爬取出的网页太阳城集团,经过过滤处理,构建出柬埔寨语篇章语料库;

Step1.3、通过柬埔寨语的句子结束符等将篇章切分为句子,形成柬埔寨
语句子级语料库,并把柬埔寨语句子级语料库的语料存放到数据库中;

Step1.4、从数据库中取出柬埔寨语句子级的语料,通过柬埔寨语分词和词性标注
系统进行分词和词性标注,并进行人工校对,得到含有正确结果的柬埔寨语词性标注分词
库,并把柬埔寨语词性标注分词库的词语存放到数据库中;

Step1.5、根据柬埔寨语命名实体特点和标注规则,从数据库中取出柬埔寨语词性
标注分词库的语料,通过人工标注柬埔寨语命名实体,得到含有正确标注结果的柬埔寨语
命名实体语料库,并把柬埔寨语命名实体标注语料库的结果存放在数据库中。

所述步骤Step2组织机构名识别模型构建的具体步骤:

Step2.1、从存放柬埔寨语命名实体标注语料库的数据库中取出已标注好的柬埔
寨语命名实体的语料;

Step2.2、对Step2.1中的语料提取命名实体指示词,构建命名实体指示词库,其中
提取的命名实体包括人名、地名和组织机构名;

Step2.3、通过组织机构名的词和词性特种构建基本特征模板,基本特征模板描述
了当前词及其上下文中若干个词的词性;

Step2.4、通过Step2.3构建的基本特征模板进行特征组合构建复合特征模板,复
合特征能够利用远距离的依存关系和丰富的上下文太阳城集团;

Step2.5、柬埔寨语组织机构名具有非常复杂的构成特点,这些复杂的特点为柬埔
寨语组织机构名识别提供非常丰富的外部太阳城集团,因此基于这个特点,结合Step2.2构建的命
名实体指示词库,构建实体特征模板;

Step2.6、根据分类器的特点,选取条件随机场、支持向量机和最大熵模型三个不
同的分类器作为Tri-training算法中的三个基分类器;

Step2.7、通过三个基分类器和Step2.3、Step2.4、Step2.5构建的特征模板,利用
已标注语料和未标注语料通过改进的Tri-training算法学习得到组织机构名识别模型。

所述步骤Step1.2的具体步骤为:

Step1.2.1、对爬取的网页太阳城集团进行有效的过滤,去除无效网页;

Step1.2.2、对得到的有效网页进行去重、去噪音的预处理操作。

所述步骤Step2.7的具体步骤为:

Step2.7.1、对原始的Tri-training算法中对于基分类器的选择进行改进,将原始
算法中的单个分类器通过对已标注语料的可重复采样来训练出三个不同的分类器模型,改
进为通过三个不同的分类器对已标注语料进行可重复采样来训练出三个不同的分类器模
型;

Step2.7.2、通过Step2.7.1得到的三个分类器模型对未标注语料进行标注,并按
照最优化样本选择策略选择样本子集,生成三个分类器的新训练集,并重新训练模型,直到
未标注语料为空;

Step2.7.3、通过Step2.7.2得到联合分类器生成的模型按投票规则对测试语料进
行分类标注,最终生成组织机构名标注结果。

所述步骤Step2.4中由两个基本特征模板组合构成的复合特征模板。

本发明的有益效果是:

1、本发明的柬埔寨语组织机构名识别方法,对柬埔寨语组织机构名识别的问题做
了前所未有的工作,目前没有发现柬埔寨语做相关的组织机构名识别的报告,本发明取得
了很好的效果;

2、本发明的柬埔寨语组织机构名识别方法,对柬埔寨语组织机构名进行有效的识
别,为太阳城集团抽取和机器翻译等工作提供强有力的支撑。

附图说明

图1为本发明中的总流程图;

图2为本发明中的建模流程图;

图3为本发明中的组织机构名识别方法应用的流程图。

具体实施方式

实施例1:如图1-3所示,一种柬埔寨语组织机构名识别方法,具体步骤如下:

Step1、首先对抽取的柬埔寨语篇章进行切分,切分后的句子进行分词和词性标
注,通过人工校对,然后标注柬埔寨语命名实体,得到相当规模的柬埔寨语组织机构名语
料;

Step2、通过标注的语料提取命名实体指示词,构建指示词库,构建特征模板,通过
改进的Tri-training算法学习得到组织机构名识别模型;

Step3、对选取的测试语料通过组织机构名识别模型进行训练得到组织机构名的
标注结果。

进一步地,所述步骤Step1中组织机构名标注语料获取的具体步骤如下:

Step1.1、首先利用爬虫程序,从柬埔寨新闻网上爬取出网页太阳城集团;

Step1.2、把爬取出的网页太阳城集团,经过过滤处理,构建出柬埔寨语篇章语料库;

Step1.3、通过柬埔寨语的句子结束符等将篇章切分为句子,形成柬埔寨
语句子级语料库,并把柬埔寨语句子级语料库的语料存放到数据库中;

Step1.4、从数据库中取出柬埔寨语句子级的语料,通过柬埔寨语分词和词性标注
系统进行分词和词性标注,并进行人工校对,得到含有正确结果的柬埔寨语词性标注分词
库,并把柬埔寨语词性标注分词库的词语存放到数据库中;

Step1.5、根据柬埔寨语命名实体特点和标注规则,从数据库中取出柬埔寨语词性
标注分词库的语料,通过人工标注柬埔寨语命名实体,得到含有正确标注结果的柬埔寨语
命名实体语料库,并把柬埔寨语命名实体标注语料库的结果存放在数据库中。

其中得到的语料规模为5000句,含有2863个组织机构名,通过人工标注获得2000
句的标注语料,1000句用于训练语料和1000句用于测试语料,其余3000句为未标注语料用
于Tri-training训练中。

进一步地,所述步骤Step2组织机构名识别模型构建的具体步骤:

Step2.1、从存放柬埔寨语命名实体标注语料库的数据库中取出已标注好的柬埔
寨语命名实体的语料;

Step2.2、对Step2.1中的语料提取命名实体指示词,构建命名实体指示词库,其中
提取的命名实体包括人名、地名和组织机构名;

Step2.3、通过组织机构名的词和词性特种构建基本特征模板,基本特征模板描述
了当前词及其上下文中若干个词的词性;

Step2.4、通过Step2.3构建的基本特征模板进行特征组合构建复合特征模板,复
合特征能够利用远距离的依存关系和丰富的上下文太阳城集团;

Step2.5、柬埔寨语组织机构名具有非常复杂的构成特点,这些复杂的特点为柬埔
寨语组织机构名识别提供非常丰富的外部太阳城集团,因此基于这个特点,结合Step2.2构建的命
名实体指示词库,构建实体特征模板;

Step2.6、根据分类器的特点,选取条件随机场、支持向量机和最大熵模型三个不
同的分类器作为Tri-training算法中的三个基分类器;

Step2.7、通过三个基分类器和Step2.3、Step2.4、Step2.5构建的特征模板,利用
已标注语料和未标注语料通过改进的Tri-training算法学习得到组织机构名识别模型。

进一步地,所述步骤Step1.2的具体步骤为:

Step1.2.1、对爬取的网页太阳城集团进行有效的过滤,去除无效网页;

Step1.2.2、对得到的有效网页进行去重、去噪音的预处理操作。

所述步骤Step2.7的具体步骤为:

Step2.7.1、对原始的Tri-training算法中对于基分类器的选择进行改进,将原始
算法中的单个分类器通过对已标注语料的可重复采样来训练出三个不同的分类器模型,改
进为通过三个不同的分类器对已标注语料进行可重复采样来训练出三个不同的分类器模
型;

Step2.7.2、通过Step2.7.1得到的三个分类器模型对未标注语料进行标注,并按
照最优化样本选择策略选择样本子集,生成三个分类器的新训练集,并重新训练模型,直到
未标注语料为空;

Step2.7.3、通过Step2.7.2得到联合分类器生成的模型按投票规则对测试语料进
行分类标注,最终生成组织机构名标注结果。

进一步地,所述步骤Step2.4中由两个基本特征模板组合构成的复合特征模板。

所述步骤Step2.2中:

构建的命名实体指示词库:

针对柬埔寨语人名、地名、组织机构名所具有的实体特性,人工收集命名实体指示
词并构建命名实体指示词库如表1所示。

表1 命名实体指示词库



所述步骤Step2中:

1)支持向量机的特征选择

对于支持向量机的特征选择,本发明主要考虑词本身的词形或词性特征和词相邻
的上下文特征,以及组织机构名的BISO标注等特征,上下文窗口大小定为[-2,2]。最终的样
本特征为X={pi-2,ti-2,pi-1,ti-1,pi,pi+1,pi+2,},其中pi表示该词的词性标注,pi-k、ti-k(k=
1、2)表示前k个位置的词的词性标注及BISO标注;pi+k(k=1、2)表示后k个位置的词的词性
标注。

2)构建基本特征模板

根据条件随机场和最大熵模型依据对特征模板的构建来进行实验,其中基本特征
模板描述了当前词及其上下文中若干个词的词性如下表2所示。

表2 基本特征模板

序号
模板形式
模板含义
1
Word(0)
当前词
2
Word(-1)
当前词左边第一个词
3
Word(-2)
当前词左边第二个词
4
Word(1)
当前词右边第一个词
5
Word(2)
当前词右边第二个词
6
POS(0)
当前词的词性
7
POS(-1)
当前词左边第一个词的词性
8
POS(-2)
当前词左边第二个词的词性
9
POS(1)
当前词右边第一个词的词性
10
POS(2)
当前词右边第二个词的词性

3)构建的复合特征模板

复合特征模板就是将基本特征模板中的特征进行组合,能够利用依存关系和丰富
的上下文太阳城集团,本文采用由两个基本特征模板所构成的复合特征模板,复合特征模板如下
表3所示。

表3 复合特征模板



4)构建的实体特征模板:

柬埔寨语组织机构名具有非常复杂的构成特点,这些复杂的特点为柬埔寨语组织
机构名识别提供非常丰富的外部太阳城集团,柬埔寨语中组织机构名的书写顺序与汉语相反,如
“昆明理工大学”对应的柬语为“大学理工昆明”。
柬埔寨语的组织机构名一般是定中结构,且定语为后置,前缀表明组织机构所属类型,绝大
多数的机构名指示词均以前缀的形式出现在机构名中。结合构建的命名实体指示词库,构
建实体特征模板如表4所示。

表4 实体特征模板


所述步骤Step2.7中:改进的Tri-training算法流程

输入:初始已标注样本集L,未标注样本集U,测试集T,分类器H1、H2、H3;

输出对测试集T的标注结果S;

步骤1初始化:选取初始已标注样本集L中的样本放入样本集中,将样本
加入分类器H1、H2、H3中进行第一次训练得到模型





步骤2:对已标注样本集L进行重复采样即Bootstrap sampling,并由三个分类器
H1、H2、H3训练得到模型。

步骤3:由对未标注样本集U进行标注,并按照最优化样
本选择策略选择样本子集{P1}、{P2}、{P3}。

步骤4:将样本子集{P1}、{P2}、{P3}分别加入到样本集生成三个分类
器的新训练集并重新进行训练
得到模型







步骤5:判断未标注样本集U是否为空,若不为空,则转步骤2;若为空,则转步骤6。

步骤6:联合分类器生成的模型{Model1、Model2、Model3},按投票规则对测试集T进
行分类标注,最终生成标注结果S。

所述步骤Step2.7.2中:

最优化样本选择策略:

对于任意给定的数据序列X={x1,x2,...,xn},通过三个分类器{H1,H2,H3}训练生
成三个模型{Model1,Model2,Model3},以此来对U进行标注,得到三个标注序列S1={s11,s21,
s31,....,sn1},S2={s12,s22,s32,....,sn2},S3={s13,s23,s33,....,sn3},那么定义Hi和Hj(其
中i、j取1、2、3,且i≠j)之间的一致性评价函数F为:


其中:

当F(Hi,Hj)值越大,说明两者差异性越小。

采用的原则是:若H1和H2对某一样本U标注结果一致,则认为该标注正确;若H1对U
的标注与其他两个分类器不一致,则认为该样本U可以改善H1的分类效果。因此对由三个分
类器{Hi,Hj,Hk}每轮迭代后标注的结果{Si,Sj,Sk}进行如下选择:

a)计算Si和Sj的样本一致性,按30%的比例选择出一致性评价函数F值最低的样本
子集;

b)计算Sj和Sk的样本一致性,按30%的比例选择出一致性评价函数F值最高的样本
子集;

c)取这两个子集的交集,交给分类器Hj重新标注,生成样本集添加到分类器Hi
的训练集中;

采用同样的方法对另外两个分类器扩充训练集,因此采用这个策略来对每次迭代
后样本集的扩充进行样本选择。

所述步骤Step2.7.3中:

投票规则:

由于考虑到基分类器的差异性,投票规则采用少数服从多数投票与加权投票相结
合的投票规则。

对于分类器H1、H2、H3,如果三个分类器的标注结果相同,则选择该标注结果;如果
两个分类器的标注结果相同,与第三个分类器的标注结果不同,则按照少数服从多数原则
选择标注结果;对于三个分类器标注结果不同的情况,采用加权投票规则进行标注结果的
选择。

加权投票规则采用公式(2)对训练所得联合分类器进行类别标记,在集成时考虑
每个分类器的性能权重,权重H(1,2,3)由三个分类器在初始已标注语料L上的分类准确率
Pi(L)所决定,其中y代表B、I、S、O标记,Hi(x)表示在Hi分类器中第x个样本的标注结果。


其中:

衡量命名实体识别系统性能的主要性能指标包括准确率P、召回率R以及综合反映
两者的综合指标F值。

具体定义为:




为了证明改进的Tri-training算法对组织机构名识别模型的识别效果更好,我们
进行了三个基分类器的识别结果与Co-training算法和Tri-training算法通过10轮迭代后
的识别结果的比较,如表5所示。

表5 三个基分类器与Co-training算法、Tri-training算法的识别结果

识别模型
P
R
F
条件随机场
60.56%
62.23%
61.38%
支持向量机
55.68%
57.35%
56.50%
最大熵模型
57.25%
55.83%
56.53%
Co-training
62.43%
64.59%
63.49%
Tri-training
65.68%
67.83%
66.74%

从表5可以看出,利用Tri-training算法的识别结果相比三个基分类器的效果有
明显的提升,相比Co-training算法识别效果也有一定的提升,因此证明采用该方法进行柬
埔寨语组织机构名的识别达到了更好的效果。其中三个基分类器的识别效果中,条件随机
场的准确率和召回率最高,因此F值最高的是条件随机场模型。由于三个基分类器的识别效
果不同,表明特征模板对三个基分类器的影响各不同。

为了进一步观察Tri-training算法对于每一轮迭代后的识别效果,我们列举了10
轮Tri-training算法迭代后的识别结果。实验结果如表6所示。

表6 Tri-training算法每轮迭代结果

迭代次数
P
R
F
1
68.69%
60.27%
64.24%
2
67.53%
62.95%
65.17%
3
66.85%
64.56%
65.69%
4
66.20%
65.83%
66.01%
5
65.98%
66.67%
66.32%
6
65.83%
67.13%
66.47%
7
65.75%
67.41%
66.57%
8
65.71%
67.63%
66.66%
9
65.68%
67.79%
66.72%
10
65.68%
67.83%
66.74%

从表6中可以看出,在第一轮训练结束后,准确率最高,与基分类器的准确率较高
有关,召回率相对较低,通过多轮的训练,准确率有所下降,召回率逐渐提升,F值一直在增
加,但随着迭代次数的增加,F值增加的幅度逐渐减小,趋于一致。

上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述
实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前
提下作出各种变化。

关 键 词:
一种 柬埔寨 组织机构 识别 方法
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
太阳城集团本文
本文标题:一种柬埔寨语组织机构名识别方法.pdf
链接地址:http://zh228.com/p-6019828.html
太阳城集团我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
葡京赌场|welcome document.write ('');