太阳城集团

  • / 44
  • 下载费用:30 金币  

多词单元提取方法和设备及人工神经网络训练方法和设备.pdf

摘要
申请专利号:

CN201210320806.X

申请日:

2012.08.31

公开号:

CN103678318A

公开日:

2014.03.26

当前法律状态:

授权

有效性:

有权

法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20120831|||公开
IPC分类号: G06F17/30; G06N3/08 主分类号: G06F17/30
申请人: 富士通株式会社
发明人: 付亦雯; 葛乃晟; 郑仲光; 孟遥; 于浩
地址: 日本神奈川县
优先权:
专利代理机构: 北京集佳知识产权代理有限公司 11227 代理人: 王萍;李春晖
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

CN201210320806.X

授权太阳城集团号:

||||||

法律状态太阳城集团日:

太阳城集团2016.12.21|||2014.04.23|||2014.03.26

法律状态类型:

太阳城集团授权|||实质审查的生效|||公开

摘要

太阳城集团本申请公开了一种多词单元提取方法和设备及人工神经网络训练方法和设备。提取多词单元的方法包括:针对将语句进行分词得到的多个分词块中的每个分词块,获取每个分词块中的分词的语言学特征作为特征量;将特征量作为参数输入到人工神经网络中;采用人工神经网络计算每个分词块中的分词是多词单元的一部分的第一可能性和该分词不是多词单元的一部分的第二可能性,并且根据第一和第二可能性判断该分词是否为多词单元的一部分;提取相邻的两个或更多个被判断为多词单元的一部分的分词以形成多词单元;以及获取与当前分词块相邻的先前分词块的判断的结果作为反馈太阳城集团,并且将反馈太阳城集团也作为当前分词块中的分词的特征量。

权利要求书

权利要求书
1.  一种提取语句中的多词单元的方法,包括:
针对将语句进行分词得到的多个分词块中的每个分词块,获取每个分词块中的分词的一个或多个语言学特征作为特征量;
将所述特征量作为人工神经网络的参数输入到所述人工神经网络中;
采用所述人工神经网络计算每个分词块中的分词是多词单元的一部分的第一可能性和该分词不是多词单元的一部分的第二可能性,并且根据所述第一可能性和第二可能性来判断该分词是否为多词单元的一部分;以及
提取相邻的两个或更多个被判断为多词单元的一部分的分词,以形成多词单元,
其中,所述方法还包括:获取与当前分词块相邻的先前分词块的判断的结果作为反馈太阳城集团,并且将所述反馈太阳城集团也作为所述当前分词块中的分词的特征量。

2.  根据权利要求1中所述的方法,还包括:
依次将所述语句中相邻的N个分词组合为N元组以形成所述分词块,其中N为大于或等于2的自然数。

3.  根据权利要求2所述的方法,还包括:
将所述N元组中的分词的词形替换为相应的词性,以得到混合了词形与词性的泛化N元组;以及
根据所述泛化N元组中的分词的词形特征和词性特征,从词性容错模板中获取所述泛化N元组中的分词是多词单元的一部分的提取概率作为词性容错太阳城集团,并且将所述词性容错太阳城集团也作为所述N元组中的分词的特征量。

4.  一种提取语句中的多词单元的设备,包括:
语言学特征获取单元,其针对将语句进行分词得到的多个分词块中的每个分词块,获取每个分词块中的分词的一个或多个语言学特征作为特征量;
输入单元,其将所述特征量作为人工神经网络的参数输入到所述人工神经网络中;
判断单元,其采用所述人工神经网络计算每个分词块中的分词是多词单元的一部分的第一可能性和该分词不是多词单元的一部分的第二可能性,并且根据所述第一可能性和第二可能性来判断该分词是否为多词单元的一部分;以及
提取单元,其提取相邻的两个或更多个被判断为多词单元的一部分的分词,以形成多词单元,
其中,所述设备还包括:反馈太阳城集团获取单元,其获取与当前分词块相邻的先前分词块的判断的结果作为反馈太阳城集团,并且将所述反馈太阳城集团也作为所述当前分词块中的分词的特征量。

5.  根据权利要求4所述的设备,还包括:
组合单元,其依次将所述语句中相邻的N个分词组合为N元组以形成所述分词块,其中N为大于或等于2的自然数。

6.  根据权利要求5,还包括:
泛化单元,其将所述N元组中的分词的词形替换为相应的词性,以得到混合了词形与词性的泛化N元组;以及
词性容错太阳城集团获取单元,其根据所述泛化N元组中的分词的词形特征和词性特征,从词性容错模板中获取所述泛化N元组中的分词是多词单元的一部分的提取概率作为词性容错太阳城集团,并且将所述词性容错太阳城集团也作为所述N元组中的分词的特征量。

7.  一种训练人工神经网络的方法,所述人工神经网络用于提取语句中的多词单元,所述方法包括:
针对将每个训练语句进行分词得到的多个分词块中的每个分词块,获取每个分词块中的分词的一个或更多个语言学特征作为特征量,其中,所述训练语句中的多词单元已被标注;
将所述特征量作为人工神经网络的参数输入到所述人工神经网络中;
采用所述人工神经网络计算每个分词块中的分词是多词单元的一部分的第一可能性和该分词不是多词单元的一部分的第二可能性,并且根据所述第一可能性和第二可能性的比较结果来判断该分词是否为多词单元的一部分;以及
根据判断的结果和标注的结果,来训练所述人工神经网络,
其中,所述方法还包括:获取与当前分词块相邻的先前分词块的判断的结果作为反馈太阳城集团,并且将所述反馈太阳城集团也作为所述当前分词块中的分词的特征量。

8.  根据权利要求7所述的方法,还包括:
依次将所述训练语句中相邻的N个分词组合为N元组以形成所述分词块,其中N为大于或等于2的自然数。

9.  根据权利要求8所述的方法,还包括:
将所述N元组中的分词的词形替换为相应的词性,以得到混合了词形与词性的泛化N元组;以及
根据标注的结果和所述泛化N元组中的分词的词形特征和词性特征,计算所述泛化N元组中的分词是多词单元的一部分的提取概率作为词性容错太阳城集团,以生成词性容错模板。

10.  一种训练人工神经网络的设备,所述人工神经网络用于提取语句中的多词单元,所述设备包括:
语言学特征获取装置,其针对将每个训练语句进行分词得到的多个分词块中的每个分词块,获取每个分词块中的分词的一个或更多个语言学特征作为特征量,其中,所述训练语句中的多词单元已被标注;
输入装置,其将所述特征量作为人工神经网络的参数输入到所述人工神经网络中;
判断装置,采用所述人工神经网络计算每个分词块中的分词是多词单元的一部分的第一可能性和该分词不是多词单元的一部分的第二可能性,并且根据所述第一可能性和第二可能性的比较结果来判断该分词是否为多词单元的一部分;以及
训练装置,其根据判断的结果和标注的结果,来训练所述人工神经网络,
其中,所述设备还包括:反馈太阳城集团获取装置,其获取与当前分词块相邻的先前分词块的判断的结果作为反馈太阳城集团,并且将所述反馈太阳城集团也作为所述当前分词块的特征量。

说明书

说明书多词单元提取方法和设备及人工神经网络训练方法和设备
技术领域
本申请总体上涉及自然语言处理的领域,尤其涉及提取语句中的多词单元的方法和设备以及训练用于提取语句中的多词单元的人工神经网络的方法和设备。
背景技术
经典的自然语言处理系统通常假设每个词为一个语义单元,但是这并没有包含多词单元的情形。多词单元跨越词的边界,因而多词单元有着特殊的解读方法。识别和提取多词单元是多词单元处理领域的主要关注点,并且也被认为是进一步研究的瓶颈。多词单元是自然语言处理中比较普遍并且没有精确定义的一个概念。一般,多词单元指的是两个或两个以上的词单元同时出现在一起的概率相对较高的词组合,并且该词组合具有完整的语义。多词单元在自然语言处理领域是相当普遍的现象,因此多词单元的识别和提取非常重要。由于没有充足的词搭配知识,并且词组合太阳城集团分散于各个分词之中,因此将分开的词根据原意重新组合以成为独立语义单元,从而获得原来的完整语义是非常困难的,尤其是处理像中文这种文字间没有分割的语言。
多词单元的识别和提取可广泛应用于机器翻译、高效句法分析、优化太阳城集团检索和词义消歧等方面。目前普遍应用于识别和提取多词单元的方法有排序方法、局部最大值方法(Local Maxima)和条件随机场方法(Conditional Random Fields)等。在识别和提取多词单元时使用的特征值包括分词间互太阳城集团、t分数、熵和共现频率等。另外,识别和提取多词单元还涉及分词工具、词形标注工具、词性标注工具和停词表等的使用。
现有技术中的识别和提取多词单元的方法基本上采用如下过程:对目标语句进行分词和/或词性标注;根据分析和/或词性标注的结果计算相应的特征值,例如频率、分词共现率和互太阳城集团等;以及根据所计算的特征值使用特定算法或模型对候选多词单元进行筛选,从而得到比较准确的多词单元。但是,现有技术中的方法无法保证对目标语句进行分词和/或词性 标注的准确性,从而经常引入错误太阳城集团,导致训练过程中的太阳城集团本身就包含相互矛盾的数据,或者导致实际应用中的特征值本身与实际情况有偏差。
多词单元是与短语或词块不同的概念,因此多词单元的识别和提取方法不同于短语或词块的识别和提取方法。具体地,短语中的某些介词短语并不具有完整的语义,因此利用短语的识别和提取方法来识别和提取多词单元并不能取得良好的效果。另外,词块是定义在句法层面中的,因此在识别和提取词块时需要考虑组成词块的句法太阳城集团和词性太阳城集团,对于语义的完整性并没有严格的要求,所以将词块的识别和提取方法应用到多词单元的识别和提取也是不可行的。
因此,期望提供一种提取语句中的多词单元的方法和设备,其能够提高多词单元的识别和提取的准确性和效率。
发明内容
在下文中将给出太阳城集团本发明的简要概述,以便提供太阳城集团本发明的某些方面的基本理解。应当理解,这个概述并不是太阳城集团本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明将人工神经网络应用到多词单元的识别和提取。人工神经网络是一种模拟动物神经网络行为特征来进行分布式并行太阳城集团处理的算法模型。人工神经网络依靠系统的复杂程度,通过调整内部大量节点之间的相互连接关系,达到处理太阳城集团的目的。人工神经网络包括大量的节点及其之间的相互连接。人工神经网络中的每个节点表示一种特定的输出函数,节点之间的连接表示对应于该连接的加权值,称之为权重,其相当于人工神经网络的记忆。人工神经网络的输出根据人工神经网络的连接方式、权重值和输出函数的不同而不同。
根据本发明的实施例,提供了一种提取语句中的多词单元的方法,包括:针对将语句进行分词得到的多个分词块中的每个分词块,获取每个分词块中的分词的一个或多个语言学特征作为特征量;将特征量作为人工神经网络的参数输入到人工神经网络中;采用人工神经网络计算每个分词块中的分词是多词单元的一部分的第一可能性和该分词不是多词单元的一 部分的第二可能性,并且根据第一可能性和第二可能性来判断该分词是否为多词单元的一部分;以及提取相邻的两个或更多个被判断为多词单元的一部分的分词,以形成多词单元,其中,该方法还包括:获取与当前分词块相邻的先前分词块的判断的结果作为反馈太阳城集团,并且将反馈太阳城集团也作为当前分词块中的分词的特征量。
根据上述提取语句中的多词单元的方法,还包括:依次将语句中相邻的N个分词组合为N元组以形成分词块,其中N为大于或等于2的自然数。
根据上述提取语句中的多词单元的方法,还包括:将N元组中的分词的词形替换为相应的词性,以得到混合了词形与词性的泛化N元组;以及根据泛化N元组中的分词的词形特征和词性特征,从词性容错模板中获取泛化N元组中的分词是多词单元的一部分的提取概率作为词性容错太阳城集团,并且将词性容错太阳城集团也作为N元组中的分词的特征量。
根据本发明的另一实施例,提供了一种提取语句中的多词单元的设备,包括:语言学特征获取单元,其针对将语句进行分词得到的多个分词块中的每个分词块,获取每个分词块中的分词的一个或多个语言学特征作为特征量;输入单元,其将特征量作为人工神经网络的参数输入到人工神经网络中;判断单元,其采用人工神经网络计算每个分词块中的分词是多词单元的一部分的第一可能性和该分词不是多词单元的一部分的第二可能性,并且根据第一可能性和第二可能性来判断该分词是否为多词单元的一部分;以及提取单元,其提取相邻的两个或更多个被判断为多词单元的一部分的分词,以形成多词单元,其中,该设备还包括:反馈太阳城集团获取单元,其获取与当前分词块相邻的先前分词块的判断的结果作为反馈太阳城集团,并且将反馈太阳城集团也作为当前分词块的特征量。
根据上述提取语句中的多词单元的设备,还包括:组合单元,其依次将语句中相邻的N个分词组合为N元组以形成分词块,其中N为大于或等于2的自然数。
根据上述提取语句中的多词单元的设备,还包括:泛化单元,其将N元组中的分词的词形替换为相应的词性,以得到混合了词形与词性的泛化N元组;以及词性容错太阳城集团获取单元,其根据泛化N元组中的分词的词形特征和词性特征,从词性容错模板中获取泛化N元组中的分词是多词单元的一部分的提取概率作为词性容错太阳城集团,并且将词性容错太阳城集团也作为N元组中的分词的特征量。
根据本发明的又一实施例,提供了一种训练人工神经网络的方法,人工神经网络用于提取语句中的多词单元,该方法包括:针对将每个训练语句进行分词得到的多个分词块中的每个分词块,获取每个分词块中的分词的一个或更多个语言学特征作为特征量,其中,训练语句中的多词单元已被标注;将特征量作为人工神经网络的参数输入到人工神经网络中;采用人工神经网络计算每个分词块中的分词是多词单元的一部分的第一可能性和该分词不是多词单元的一部分的第二可能性,并且根据第一可能性和第二可能性的比较结果来判断该分词是否为多词单元的一部分;以及根据判断的结果和标注的结果,来训练人工神经网络,其中,该方法还包括:获取与当前分词块相邻的先前分词块的判断的结果作为反馈太阳城集团,并且将反馈太阳城集团也作为当前分词块中的分词的特征量。
根据上述一种训练人工神经网络的方法,还包括:依次将训练语句中相邻的N个分词组合为N元组以形成分词块,其中N为大于或等于2的自然数。
根据上述一种训练人工神经网络的方法,还包括:将N元组中的分词的词形替换为相应的词性,以得到混合了词形与词性的泛化N元组;以及根据标注的结果和泛化N元组中的分词的词形特征和词性特征,计算泛化N元组中的分词是多词单元的一部分的提取概率作为词性容错太阳城集团,以生成词性容错模板。
根据本发明的再一实施例,提供了一种训练人工神经网络的设备,该人工神经网络用于提取语句中的多词单元,该设备包括:语言学特征获取装置,其针对将每个训练语句进行分词得到的多个分词块中的每个分词块,获取每个分词块中的分词的一个或更多个语言学特征作为特征量,其中,训练语句中的多词单元已被标注;输入装置,其将特征量作为人工神经网络的参数输入到人工神经网络中;判断装置,采用人工神经网络计算每个分词块中的分词是多词单元的一部分的第一可能性和该分词不是多词单元的一部分的第二可能性,并且根据第一可能性和第二可能性的比较结果来判断该分词是否为多词单元的一部分;以及训练装置,其根据判断的结果和标注的结果,来训练人工神经网络,其中,该设备还包括:反馈太阳城集团获取装置,其获取与当前分词块相邻的先前分词块的判断的结果作为反馈太阳城集团,并且将反馈太阳城集团也作为当前分词块中的分词的特征量。
根据本发明,通过将具有反馈配置的人工神经网络应用于多词单元的识别和提取,可以提高多词单元的识别和提取的准确性和效率。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
图1是示出根据本发明的实施例的提取语句中的多词单元的方法的示意性流程图;
图2是示出根据本发明的实施例的利用具有反馈配置的人工神经网络提取语句中的多词单元的示意图;
图3是示出根据本发明的实施例的采用N元组来提取语句中的多词单元的方法的示意性流程图;
图4是示出根据本发明的实施例的采用N元组来提取语句中的多词单元的示意图;
图5是示出根据本发明的实施例的采用N元组来获取词形提取概率和/或词性提取概率的方法的示意性流程图;
图6是示出根据本发明的实施例的采用N元组进行词性容错的方法的示意性流程图;
图7是示出根据本发明的实施例的采用N元组进行词性容错的示意图;
图8是示出根据本发明的实施例的提取语句中的多词单元的设备的示意性框图;
图9是示出根据本发明的另一实施例的提取语句中的多词单元的设备的示意性框图;
图10是示出根据本发明的另一实施例的提取语句中的多词单元的设备的示意性框图;
图11是示出根据本发明的另一实施例的提取语句中的多词单元的设备的示意性框图;
图12是示出根据本发明的实施例的训练用于提取语句中的多词单元 的人工神经网络的方法的示意性流程图;
图13是示出根据本发明的实施例的采用N元组来训练用于提取语句中的多词单元的人工神经网络的方法的示意性流程图;
图14是示出根据本发明的实施例的采用N元组生成词形模板和/或词性模板的方法的示意性流程图;
图15是示出根据本发明的实施例的采用N元组生成词性容错模板的方法的示意性流程图;
图16是示出根据本发明的实施例的采用N元组生成词性容错模板的示意图;
图17是示出根据本发明的实施例的训练用于提取语句中的多词单元的人工神经网络的设备的示意性框图;
图18是示出根据本发明的另一实施例的训练用于提取语句中的多词单元的人工神经网络的设备的示意性框图;
图19是示出根据本发明的另一实施例的训练用于提取语句中的多词单元的人工神经网络的设备的示意性框图;
图20是示出根据本发明的另一实施例的训练用于提取语句中的多词单元的人工神经网络的设备的示意性框图;以及
图21是示出可用于作为实施根据本发明的实施例的太阳城集团处理设备的示意性框图。
具体实施方式
在下文中将结合附图对本发明的示例性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中可以做出很多特定于实施方式的决定,以便实现开发人员的具体目标,并且这些决定可能会随着实施方式的不同而有所改变。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构,而省略了与本发明关系不大的其他细节。
下面将结合图1和图2来描述根据本发明的实施例的提取语句中的多 词单元的方法。图1是示出根据本发明的实施例的提取语句中的多词单元的方法的示意性流程图,而图2是示出根据本发明的实施例的利用具有反馈配置的人工神经网络提取语句中的多词单元的示意图。
如图1所示,该处理在S100开始。接着,该处理前进到S102。
在S102,针对将语句进行分词得到的多个分词块中的每个分词块,获取每个分词块中的分词的一个或多个语言学特征作为特征量。
对语料中的语句进行分词,从而将语句切分为多个分词块,其中分词块中可以包含至少一个分词。对切分得到的多个分词块中的每个分词块中的分词按照其在原来的语句中的语序依次进行处理。例如,可以对分词块中的分词进行处理以获取分词的一个或多个语言学特征。例如,分词的语言学特征可以为以下中的一个或更多个:分词的词性、分词的词形、分词序号或分词出现概率。本领域技术人员应当理解,分词的语言学特征不限于上面列举的示例。在获取分词的语言学特征之后,可以将获得的分词的语言学特征作为特征量以用于后续的处理。
例如,对于语句“最初施用引物的步骤”,对该语句进行分词,从而得到如下的分词结果“最初/施用/引/物/的/步骤”,也就是说,将语句“最初施用引物的步骤”切分为以下多个分词块{“最初”,“施用”,“引”,“物”,“的”,“步骤”},其中每个分词块中包含一个分词。接着,对得到的多个分词块中的每个分词块中的分词{“最初”,“施用”,“引”,“物”,“的”,“步骤”}按照“最初”→“施用”→“引”→“物”→“的”→“步骤”的顺序依次进行处理。例如,可以对多个分词{“最初”,“施用”,“引”,“物”,“的”,“步骤”}进行处理以分别得到上述各个分词的词性{“(最初)形容词”,“(施用)动词”,“(引)名词”,“(物)名词”,“(的)介词”,“(步骤)名词”}。本领域技术人员应当理解,还可以获得上述多个分词{“最初”,“施用”,“引”,“物”,“的”,“步骤”}的其它语言学特征,这里不再赘述。
在S102之后,该处理前进到S104。在S104,将特征量作为人工神经网络的参数输入到人工神经网络中。
如图2所示,人工神经网络205中的每个圆圈代表一个或多个神经元,用来处理圆圈内标识的太阳城集团。人工神经网络205中的神经元分为三个层次组合在一起,分别为:输入层202、隐匿层203和输出层204。后一层的神经元的值由前一层的神经元的值计算得到。图2中的黑箭头代表人工神 经网络205中太阳城集团的流动方向,相邻的两层神经元是完全连接的,并且太阳城集团由前一层流向后一层。本领域技术人员应当理解,虽然图2中的隐匿层203仅示出了一层,但是根据实际需要,隐匿层203可以包括两层或更多层。
如图2所示,在人工神经网络205的输入层202中,将当前正处理的分词的t个特征量{特征量1,特征量2,…,特征量i,…,特征量t-1,特征量t}作为人工神经网络205的参数输入到人工神经网络205中,其中,i和t均为大于或等于1的自然数,并且1≤i≤t。可以将上述步骤S102中提取的分词的一个或多个语言学特征作为上述特征量。例如,可以将分词的词性、分词的词形、分词序号或分词出现概率作为上述特征量。
还是以语句“最初施用引物的步骤”为例,对于分词“最初”,例如可以获取分词“最初”的词性“名词”、分词“最初”的词形“最初”、分词“最初”的序号“1”和分词“最初”的出现概率“0.43”等作为分词“最初”的特征量,并且将分词“最初”的上述特征量作为人工神经网络205的参数输入到人工神经网络205中。
在S104之后,该处理前进到S106。在S106,采用人工神经网络计算每个分词块中的分词是多词单元的一部分的第一可能性和该分词不是多词单元的一部分的第二可能性,并且根据第一可能性和第二可能性来判断该分词是否为多词单元的一部分。
在将特征量作为人工神经网络205的参数输入到人工神经网络205中之后,人工神经网络205根据下面的公式来确定当前神经元的值:
f(x)=K((∑iwi×gi(x))+biasW+biasV)
其中,K表示活化函数,例如可以将用作活化函数。wi表示当前神经元与前一层神经元中的第i个神经元之间的权重,在图2中由黑线表示。gi(x)表示在前一层神经元中由黑线连接到当前神经元的所有神经元的值。biasW和biasV分别表示当前神经元的偏置权重和偏置值。本领域技术人员应当理解,上述活化函数和用来确定当前神经元的值的公式仅是示例性的,还可以采用其它形式的活化函数,或者采用其它形式的公式来确定当前神经元的值。
在图2所示的人工神经网络205中,输入层202中的神经元的值就是特征量本身的值,每一条黑线代表一个特定的权重。除输入层202中的神经元以外,隐匿层203和输出层204中的神经元都有偏置权重和偏置值。
如图2所示,人工神经网络205中的输出层204包括两个神经元:表示当前处理的分词是多词单元的一部分的第一可能性的神经元206,和表示当前处理的分词不是多词单元的一部分的第二可能性的神经元207。具体地,神经元206的值表示通过人工神经网络205计算得到的确定当前处理的分词是多词单元的一部分的可能性或概率。例如,如果神经元206的值为0.9,则表示人工神经网络205通过计算确定当前处理的分词是多词单元的一部分的可能性或概率为0.9。类似地,神经元207的值表示通过人工神经网络205计算得到的确定当前处理的分词不是多词单元的一部分的可能性或概率。例如,如果神经元207的值为0.6,则表示人工神经网络205通过计算确定当前处理的分词不是多词单元的一部分的可能性或概率为0.6。
在计算得到由神经元206的值表示的第一可能性和由神经元207的值表示的第二可能性之后,如图2中的208所示的,可以对第一可能性和第二可能性进行比较。如果第一可能性大于等于第二可能性,则如图2中的210所示的,判断当前处理的分词是多词单元的一部分。如果第一可能性小于第二可能性,则如图2中的209所示的,判断当前处理的分词不是多词单元的一部分。例如,针对当期处理的分词,如果由神经元206的值表示的第一可能性为0.9,而由神经元207的值表示的第二可能性为0.6,则由于第一可能性0.9大于第二可能性0.6,所以判断当前处理的分词为多词单元的一部分。然后,可以在图2的211处将分词的序号n加1得到序号为n+1的分词,以便对序号为n+1的分词进行处理。
在S106之后,该处理前进到S108。在S108,提取相邻的两个或更多个被判断为多词单元的一部分的分词,以形成多词单元。
还是以语句“最初施用引物的步骤”为例,在分词得到的多个分词块中的分词{“最初”,“施用”,“引”,“物”,“的”,“步骤”}中,假设分词“引”和分词“物”被判断为是多词单元的一部分,并且由于分词“引”和分词“物”是相邻的两个分词,因此提取分词“引”和分词“物”以形成多词单元“引物”。如果有多于两个的相邻分词被判断为均为多词单元的一部分,则也将这样的多于两个的相邻分词提取出来以形成多词单元。
在S108之后,该处理前进到S110。在S110,获取与当前分词块相邻 的先前分词块的判断的结果作为反馈太阳城集团,并且将反馈太阳城集团也作为当前分词块中的分词的特征量。
如图2所示,假设n和n+1等表示所处理的分词块的序号,则当处理完序号为n的分词块之后,紧接着将序号加1以处理下一个分词块(即序号为n+1的分词块)。此时,序号为n+1的分词块成为当前分词块,而序号为n的分词块为与当前分词块相邻的先前分词块。因为已经对序号为n的先前分词块进行了处理,所以已经获取了序号为n的先前分词块中的分词是多词单元的一部分还是不是多词单元的一部分的判断结果。因此,如图2所示,可以将序号为n的先前分词块的判断结果作为反馈太阳城集团反馈回到人工神经网络205的输入层202,并且在对序号为n+1的当前分词块进行处理时,将该反馈太阳城集团也作为序号为n+1的当前分词块中的分词的特征量输入到人工神经网络205中。也就是说,使序号为n的先前分词块的判断结果参与到序号为n+1的当前分词块的判断处理中。
由于人工神经网络205具有反馈配置,即人工神经网络205在判断当前分词块中的分词是否为多词单元的一部分时,还考虑与当前分词块相邻的先前分词块中的分词是否为多词单元的一部分,所以人工神经网络205判断分词是否为多词单元的一部分的准确性和效率可以在很大程度上得到提高。
最后,该处理在S112处结束。
根据本实施例的方法,通过将具有反馈配置的人工神经网络应用于多词单元的识别和提取,可以提高多词单元的识别和提取的准确性和效率。
下面结合图3和图4来描述根据本发明的实施例的采用N元组来提取语句中的多词单元的方法。图3是示出根据本发明的实施例的采用N元组来提取语句中的多词单元的方法的示意性流程图,而图4是示出根据本发明的实施例的采用N元组来提取语句中的多词单元的示意图。
如图3所示,该处理在S300开始。接着,该处理前进到S302。
在S302,依次将语句中相邻的N个分词组合为N元组以形成分词块,其中N为大于或等于2的自然数。
可以将语句中相邻的N个分词组合为N元组以形成分词块,并且以N元组为单位进行后续的处理。例如,可以将与当前分词左右相邻的两个分词与当前分词组合为三元组。对于在句首的分词,三元组的第一个元素为空;对于在句尾的分词,三元组的最后一个元素为空。
还是以语句“最初施用引物的步骤”为例,可以如图4中的黑方框所示,依次将上述语句中的分词“最初”和“施用”组合为三元组<NULL,最初,施用>,将分词“最初”、“施用”和“引”组合为三元组<最初,施用,引>,……,将分词“的”和“步骤”组合为三元组<的,步骤,NULL>,其中,NULL表示空。容易理解,在此,三元组即是包含有三个分词的分词块的一种示例。
在确定N元组之后,可以获取N元组中的每个元素的语言学特征。例如,可以用词性分析工具获取N元组中的每个元素的词性。例如,可以使用斯坦福词性分析工具来获取N元组中的每个元素的词性。如图4所示,对于三元组<最初,施用,引>,可以分别获得其中的第一个元素“最初”的词性为形容词JJ,第二个元素“施用”的词性为动词VBG,以及第三个元素“引”的词性为名词NN。另外,也可以采用相应的工具获取N元组中的每个元素的其它语言学特征,这里不再赘述。
在获取了N元组中的每个元素的语言学特征之后,可以将获取的每个元素的语言学特征均作为该元素的属性。例如,如图4所示,针对N元组中的每个元素,总共列出了m个属性{属性1,属性2,属性3,…,属性m},其中m为大于或等于1的自然数。上述m个属性例如可以是分词的词性、分词的词形、分词序号或分词出现概率等等,但不限于此。例如,对于三元组<最初,施用,引>中的第一个元素“最初”,可以获取其属性1的值为“1”,属性2的值为“2”,属性3的值为“23”,……,属性m的值为“假”。
可以以N元组为单位,依次将N元组中的每个元素的m个属性作为特征量输入到人工神经网络(ANN)205中进行计算,以判断该元素是否为多词单元的一部分,其具体判断过程及后续处理与图1中的步骤S106至步骤S110的处理类似,只是分词块中所包含的分词的数量不同而已,因此其具体细节在此不再赘述。图4中的叉号表示对应的元素被判断为不是多词单元的一部分,而对号表示对应的元素被判断为是多词单元的一部分。两个或两个以上连续的对号表示一个完整的多词单元。如图4所示,因为元素“引”对应对号,元素“物”也对应对号,并且元素“引”和“物”彼此相邻,因此将“引物”提取为多词单元。
最后,该处理在S304处结束。
根据本实施例的方法,可以以N元组为单位进行处理以提取语句中的多词单元,从而进一步提高多词单元的识别和提取的准确性和效率。
下面结合图5来描述根据本发明的实施例的采用N元组来获取词形提取概率和/或词性提取概率的方法。图5是示出根据本发明的实施例的采用N元组来获取词形提取概率和/或词性提取概率的方法的示意性流程图。
如图5所示,该处理开始于S500。接着,该处理前进到S502。
在步骤S502,根据N元组中的分词的词形特征,从词形模板中获取N元组中的分词是多词单元的一部分的词形提取概率,并且将词形提取概率也作为N元组中的分词的特征量。
例如,对于三元组<最初,施用,引>,该三元组<最初,施用,引>中的分词的词形特征为“最初,施用,引”。可以根据上述词形特征“最初,施用,引”在词形模板中查找对应的词形,从而得到与该词形对应的词形提取概率,该词形提取概率表示该三元组<最初,施用,引>中的分词“最初”、“施用”或“引”是多词单元的一部分的概率。然后,可以将获取的词形提取概率也作为该三元组<最初,施用,引>中的分词的特征量输入到人工神经网络205中。如果没有查找到词形提取概率,则按照预设的默认概率进行处理。词形模板中预先存储了N元组的词形及其对应的词形提取概率,该词形提取概率表示该N元组中的分词为多词单元的一部分的概率。本领域技术人员可以理解,词形模板可以预先设定。另外,作为替代,词形模板也可以通过对人工神经网络205进行训练来生成。作为非限制性的示例,下文中将对如何通过对人工神经网络205进行训练来生成词形模板进行详细描述。
在S502之后,该处理前进到S504。在S504,根据N元组中的分词的词性特征,从词性模板中获取N元组中的分词是多词单元的一部分的词性提取概率,并且将词性提取概率也作为N元组中的分词的特征量。
类似地,例如,对于三元组<最初,施用,引>,该三元组<最初,施用,引>中的分词的词性特征为“形容词,动词,名词”。可以根据上述词性特征“形容词,动词,名词”在词性模板中查找对应的词性,从而得到与该词性对应的词性提取概率,该词性提取概率表示该三元组<最初,施用,引>中的分词“最初”、“施用”或“引”是多词单元的一部分的概率。然后,可以将获取的词性提取概率也作为该三元组<最初,施用,引>中的分词的特征量输入到人工神经网络205中。如果没有查找到词性提取概率,则按照预设的默认概率进行处理。词性模板中预先存储了N元组的词性及其对应的词性提取概率,该词性提取概率表示该N元组中的分词 为多词单元的一部分的概率。本领域技术人员可以理解,词性模板可以预先设定。另外,作为替代,词性模板也可以通过对人工神经网络205进行训练来生成。作为非限制性的示例,下文中将对如何通过对人工神经网络205进行训练来生成词性模板进行详细描述。
最后,该处理在S506处结束。
本领域技术人员应当理解,图5中所示的步骤S502和S504可以顺序执行,也可以并行执行,或者可以仅执行步骤S502和S504中的任一个。根据本实施例的方法,可以根据N元组从词形模板和词性模板中获取词形提取概率和/或词性提取概率,以利用有关多词单元的已有知识并且增加输入到人工神经网络中的特征量,从而进一步提高了多词单元的识别和提取的准确性和效率。
下面结合图6和图7来描述根据本发明的实施例的采用N元组进行词性容错的方法。图6是示出根据本发明的实施例的采用N元组进行词性容错的方法的示意性流程图,而图7是示出根据本发明的实施例的采用N元组进行词性容错的示意图。
如图6所示,该处理开始于S600。接着,该处理前进到S602。
在步骤S602,将N元组中的分词的词形替换为相应的词性,以得到混合了词形与词性的泛化N元组。
下面结合图7来描述根据本发明的实施例的采用N元组进行词性容错的方法。如图7所示,在702处,选择要进行处理的可能包含错误词性的N元组。例如,对于语句“抗原释放物释放抗原”进行分词后得到的多个分词{“抗原”,“释放”,“物”,“释放”,“抗原”},可将分词“抗原”、“释放”和“物”形成为一个三元组<抗原,释放,物>,其中分词“抗原”的词性被标注为“名词”,分词“释放”的词性被标注为“动词”,分词“物”的词性被标注为“名词”。假设要处理的三元组为<抗原,释放,物>,并且“抗原释放物”应该是一个多词单元,但是由于其中的分词“释放”的词性被错误地标注为动词,所以在分析“释放”这个分词时不会将其标注为多词单元的一部分,从而无法正确识别整个多词表达“抗原释放物”。
如图7所示,在704处进行N元组泛化。下面结合图16来描述N元组的泛化过程。如图16所示,在1602处确定需要泛化的N元组,并且确定该N元组中的元素的个数N。在1604处,选择要泛化的元素的个数 x,x一般从1开始,根据x的值将任意x个分词泛化为词性。在1606处,根据x的值从待泛化的N元组中选择x个元素,并列出所有可能的组合,将该元素以其词性代替词形放回N元组中,并存储所有可能的泛化后的N元组。在1608处判断x是否等于N,如果为否,则在1610处将x加1,以在1612处得到新的x值。然后,根据新的x值重复1604、1606和1608处的处理,直至x等于N为止。
还是以语句“抗原释放物释放抗原”进行分词后得到的多个分词{“抗原”,“释放”,“物”,“释放”,“抗原”}为例,假设要对三元组<抗原,释放,物>进行泛化,则该三元组中的元素的个数N为3,x可以为1、2或3。当x为1时,将三元组<抗原,释放,物>中的一个元素的词形替换为词性,从而可以得到如下的泛化后的三元组:<名词,释放,物>,<抗原,动词,物>,<抗原,释放,名词>。当x为2时,将三元组<抗原,释放,物>中的两个元素的词形替换为词性,从而可以得到如下的泛化后的三元组:<名词,动词,物>,<抗原,动词,名词>,<名词,释放,名词>。当x为3时,将三元组<抗原,释放,物>中的三个元素的词形替换为词性,从而可以得到如下的泛化后的三元组:<名词,动词,名词>。
在S602之后,该处理前进到S604。在S604,根据泛化N元组中的分词的词形特征和词性特征,从词性容错模板中获取泛化N元组中的分词是多词单元的一部分的提取概率作为词性容错太阳城集团,并且将词性容错太阳城集团也作为N元组中的分词的特征量。
通过上述步骤S602的处理可以得到所有可能的泛化后的N元组。然后,如图7所示,在706处,可以根据所有可能的泛化后的N元组,分别在词性容错模板中查找对应的泛化N元组,从而获取与泛化N元组对应的提取概率作为词性容错太阳城集团,该提取概率表示该泛化N元组中的分词是多词单元的一部分的概率。可以将获取的词性容错太阳城集团也作为N元组中的分词的特征量输入到人工神经网络205中,并且结合在708处的人工神经网络的其它特征量进行训练,从而在710处使人工神经网络强化对判断结果的影响。因此,如在712处所述的,可以在错误词性出现在目标元素中时,降低词性错误造成的偏差,从而实现词性容错。
如果没有查找到作为词性容错太阳城集团的提取概率,则按照预设的默认概率进行处理。词性容错模板中预先存储了泛化N元组及其对应的提取概率,该提取概率表示该泛化N元组中的分词为多词单元的一部分的概率。本领域技术人员可以理解,词性容错模板可以预先设定。另外,作为替代, 词性容错模板也可以通过对人工神经网络205进行训练来生成。作为非限制性的示例,下文中将对如何通过对人工神经网络205进行训练来生成词性容错模板进行详细描述。
还是以上述三元组<抗原,释放,物>为例,通过泛化可以得到以下一系列的泛化三元组:<名词,释放,物>,<抗原,动词,物>,<抗原,释放,名词>,<名词,动词,物>,<抗原,动词,名词>,<名词,释放,名词>,<名词,动词,名词>。根据上述一系列的泛化三元组中的每个,分别在词性容错模板中查找对应的泛化三元组,从而得到三元组<抗原,释放,物>中的分词为多词单元的一部分的提取概率作为词性容错太阳城集团。
最后,该处理在S606处结束。
根据本实施例的方法,可以缓解由词性标注错误引起的特征值的偏差,因此即使在词性标注过程中引用了错误太阳城集团,也可以正确地识别和提取语句中的多词单元,从而可以进一步提高多词单元的识别和提取的准确性和效率。
下面结合图8至图11来说明根据本发明的实施例的提取语句中的多词单元的设备。
图8是示出根据本发明的实施例的提取语句中的多词单元的设备的示意性框图。如图8所示,提取语句中的多词单元的设备800包括:语言学特征获取单元802,其针对将语句进行分词得到的多个分词块中的每个分词块,获取每个分词块中的分词的一个或多个语言学特征作为特征量;输入单元804,其将特征量作为人工神经网络的参数输入到人工神经网络中;判断单元806,其采用人工神经网络计算每个分词块中的分词是多词单元的一部分的第一可能性和该分词不是多词单元的一部分的第二可能性,并且根据第一可能性和第二可能性来判断该分词是否为多词单元的一部分;提取单元808,其提取相邻的两个或更多个被判断为多词单元的一部分的分词,以形成多词单元;以及反馈太阳城集团获取单元810,其获取与当前分词块相邻的先前分词块的判断的结果作为反馈太阳城集团,并且将反馈太阳城集团也作为当前分词块中的分词的特征量。
需要指出的是,在与设备有关的实施例中所涉及的相关术语或表述与以上对根据本发明的实施例的方法的实施例阐述中所使用的术语或表述对应,在此不再赘述。
图9是示出根据本发明的另一实施例的提取语句中的多词单元的设 备的示意性框图。如图9所示,提取语句中的多词单元的设备900包括语言学特征获取单元802、输入单元804、判断单元806、提取单元808、反馈太阳城集团获取单元810和组合单元902。提取语句中的多词单元的设备900中的语言学特征获取单元802、输入单元804、判断单元806、提取单元808和反馈太阳城集团获取单元810与提取语句中的多词单元的设备800中的语言学特征获取单元802、输入单元804、判断单元806、提取单元808和反馈太阳城集团获取单元810相同,其细节在此不再赘述。另外,提取语句中的多词单元的设备900中的组合单元902用于依次将语句中相邻的N个分词组合为N元组以形成分词块,其中N为大于或等于2的自然数。
图10是示出根据本发明的另一实施例的提取语句中的多词单元的设备的示意性框图。如图10所示,提取语句中的多词单元的设备1000包括语言学特征获取单元802、输入单元804、判断单元806、提取单元808、反馈太阳城集团获取单元810、组合单元902、词形提取概率获取单元1002和词性提取概率获取单元1004。提取语句中的多词单元的设备1000中的语言学特征获取单元802、输入单元804、判断单元806、提取单元808、反馈太阳城集团获取单元810和组合单元902与提取语句中的多词单元的设备900中的语言学特征获取单元802、输入单元804、判断单元806、提取单元808、反馈太阳城集团获取单元810和组合单元902相同,其细节在此不再赘述。另外,提取语句中的多词单元的设备1000中的词形提取概率获取单元1002,其根据N元组中的分词的词形特征,从词形模板中获取N元组中的分词是多词单元的一部分的词形提取概率,并且将词形提取概率也作为N元组中的分词的特征量;词性提取概率获取单元1004,其根据N元组中的分词的词性特征,从词性模板中获取N元组中的分词是多词单元的一部分的词性提取概率,并且将词性提取概率也作为N元组中的分词的特征量。
图11是示出根据本发明的另一实施例的提取语句中的多词单元的设备的示意性框图。如图11所示,提取语句中的多词单元的设备1100包括语言学特征获取单元802、输入单元804、判断单元806、提取单元808、反馈太阳城集团获取单元810、组合单元902、泛化单元1102和词性容错太阳城集团获取单元1104。提取语句中的多词单元的设备1100中的语言学特征获取单元802、输入单元804、判断单元806、提取单元808、反馈太阳城集团获取单元810和组合单元902与提取语句中的多词单元的设备900中的语言学特征获取单元802、输入单元804、判断单元806、提取单元808、反馈太阳城集团获取单元810和组合单元902相同,其细节在此不再赘述。另外,提取语句中的多词单元的设备1100中的泛化单元1102将N元组中的分词的词形替 换为相应的词性,以得到混合了词形与词性的泛化模板;词性容错太阳城集团获取单元1104获取泛化模板中的中间分词为多词单元的一部分的概率作为词性容错太阳城集团,并且将词性容错太阳城集团也作为N元组中的每个分词的特征量。
上述图8至图11中的各个装置和/或单元例如可以被配置成按照相应方法中的相应步骤的工作方式来操作。细节参见上述针对根据本申请的实施例的方法所阐述的实施例。在此不再赘述。
下面将结合图12来描述根据本发明的实施例的训练用于提取语句中的多词单元的人工神经网络的方法。图12是示出根据本发明的实施例的训练用于提取语句中的多词单元的人工神经网络的方法的示意性流程图。
如图12所示,该处理在S1200开始。接着,该处理前进到S1202。
在S1202,针对将每个训练语句进行分词得到的多个分词块中的每个分词块,获取每个分词块中的分词的一个或更多个语言学特征作为特征量,其中,训练语句中的多词单元已被标注。
除了是处理对每个训练语句进行分词得到的多个分词块之外,S1202的处理与图1中的S102的处理基本相同,其具体细节在此不再赘述。另外,太阳城集团训练语句,已经对其中的多词单元进行了标注。
在S1202之后,该处理前进到S1204。在S1204,将特征量作为人工神经网络的参数输入到人工神经网络中。
除了是处理对每个训练语句进行分词得到的多个分词块之外,S1204的处理与图1中的S104的处理基本相同,其具体细节在此不再赘述。
在S1204之后,该处理前进到S1206。在S1206,采用人工神经网络计算每个分词块中的分词是多词单元的一部分的第一可能性和该分词不是多词单元的一部分的第二可能性,并且根据第一可能性和第二可能性来判断该分词是否为多词单元的一部分。
除了是处理对每个训练语句进行分词得到的多个分词块之外,S1206的处理与图1中的S106的处理基本相同,其具体细节在此不再赘述。
在S1206之后,该处理前进到S1208。在S1208,根据判断的结果和标注的结果,来训练人工神经网络。
人工神经网络205的训练过程就是对人工神经网络205中的权值进行求解的过程。本发明中采用BP(Back Propagation,误差反向传播)算 法来进行人工神经网络205的训练。具体过程如下:
a)初始化人工神经网络205,选用随机产生的权重;
b)将带有期望值的训练数据的项目逐一输入到人工神经网络205中,并且计算输出值;
c)比较输出值与期望值之间的差异,计算人工神经网络205中的每个神经元的误差;
d)调整权重并减小误差;
e)重复执行步骤b)-d),直至误差小于预定的阈值为止。本领域技术人员应当理解,可以根据经验值、或者根据实验来设定上述预定的阈值。
训练人工神经网络205的过程由输出层神经元权值向隐匿层神经元权重逐一进行求解,分别计算每个权重的变化量。首先,按照下面的公式求解每个输出层神经元的误差:其中,是第i个神经元所期望的输出值,是第i个神经元的实际输出值,是活化函数的导数。按照下面的公式计算隐匿层神经元的误差:其中,wij是第j个输出层神经元与第i个隐匿层神经元之间的权值,是第i个输出层神经元的误差,是第i个隐匿层神经元的实际输出值,其中h表示该神经元是隐匿层神经元。输入层神经元的输入值即为输出值,因此没有误差。
计算出每个神经元的误差后,可以计算权重的调整幅度:Δw=ρ×δi×ni,其中ρ是学习率,δi是第i个神经元的误差,ni是当前神经元的值。新的权重就是当前权重加上Δw。
本领域技术人员应当理解,上述训练人工神经网络205的方法仅是示例性的,还可以采用其它的方法来训练人工神经网络205。
在S1208之后,该处理前进到S1210。在S1210,获取与当前分词块相邻的先前分词块的判断的结果作为反馈太阳城集团,并且将反馈太阳城集团也作为当前分词的特征量。
除了是处理对每个训练语句进行分词得到的多个分词块之外,S1210的处理与图1中的S110的处理基本相同,其具体细节在此不再赘述。
最后,该处理在S1212处结束。
根据本实施例的方法,通过训练可以得到具有反馈配置的人工神经网络,将训练得到的人工神经网络应用于多词单元的识别和提取,可以提高多词单元的识别和提取的准确性和效率。
下面结合图13来描述根据本发明的实施例的采用N元组来训练用于提取语句中的多词单元的人工神经网络的方法。图13是示出根据本发明的实施例的采用N元组来训练用于提取语句中的多词单元的人工神经网络的方法的示意性流程图。
如图13所示,该处理在S1300开始。接着,该处理前进到S1302。
在S1302,依次将训练语句中相邻的N个分词组合为N元组以形成分词块,其中N为大于或等于2的自然数。
除了是处理对每个训练语句进行分词得到的多个分词块之外,S1302的处理与图3中的S302的处理基本相同,其具体细节在此不再赘述。
最后,该处理在S1304处结束。
根据本实施例的方法,可以根据N元组的诸如词性组合知识、词形组合知识等已有知识来训练人工神经网络,将训练得到的人工神经网络应用于提取语句中的多词单元,可以进一步提高多词单元的识别和提取的准确性和效率。
下面结合图14来描述根据本发明的实施例的采用N元组生成词形模板和/或词性模板的方法。图14是示出根据本发明的实施例的采用N元组生成词形模板和/或词性模板的方法的示意性流程图。
如图14所示,该处理开始于S1400。接着,该处理前进到S1402。
在步骤S1402,根据标注的结果和N元组中的分词的词形特征,计算N元组中的分词被标注为多词单元的一部分的词形提取概率,以生成词形模板。
例如,对于三元组<最初,施用,引>,其中的分词“最初”和“施用”被标注为不是多词单元的一部分,而其中的分词“引”被标注为是多词单元的一部分,并且该三元组<最初,施用,引>中的分词的词形特征为“最初,施用,引”。可以根据上述太阳城集团,通过人工神经网络205来计算该三元组<最初,施用,引>中的分词“最初”、“施用”或“引”被标注多词单元的一部分的词形提取概率,并且相关联地存储该词形提取概率和当前分词所对应的三元组,从而生成词形模板。
在步骤S1404,根据标注的结果和N元组中的分词的词性特征,计算N元组中的分词是多词单元的一部分的词性提取概率,以生成词性模板。
类似地,例如,对于三元组<最初,施用,引>,其中的分词“最初”和“施用”被标注为不是多词单元的一部分,而其中的分词“引”被标注为是多词单元的一部分,并且该三元组<最初,施用,引>中的分词的词性特征为“形容词,动词,名词”。可以根据上述太阳城集团,通过人工神经网络205来计算该三元组<最初,施用,引>中的分词“最初”、“施用”或“引”被标注多词单元的一部分的词性提取概率,并且相关联地存储该词性提取概率和当前分词所对应的三元组,从而生成词性模板。
最后,该处理在S1406处结束。
本领域技术人员应当理解,图14中所示的步骤S1402和S1404可以顺序执行,也可以并行执行,或者可以仅执行步骤S1402和S1404中的任一个。根据本实施例的方法,可以采用N元组来训练人工神经网络以生成词形模板或词性模板,将生成的词形模板和词性模板应用于多词单元的识别和提取,可以进一步提高多词单元的识别和提取的准确性和效率。
下面结合图15和图16来描述根据本发明的实施例的采用N元组生成词性容错模板的方法。图15是示出根据本发明的实施例的采用N元组生成词性容错模板的方法的示意性流程图。图16是示出根据本发明的实施例的采用N元组生成词性容错模板的示意图。
如图15所示,该处理开始于S1500。接着,该处理前进到S1502。
在步骤S1502,将N元组中的分词的词形替换为相应的词性,以得到混合了词形与词性的泛化N元组。
除了是处理对每个训练语句进行分词得到的多个分词之外,S1502的处理与图6中的S602的处理基本相同,其具体细节在此不再赘述。
在S1502之后,该处理前进到S1504。在S1504,根据标注的结果和 泛化N元组中的分词的词形特征和词性特征,计算泛化N元组中的分词被标注多词单元的一部分的提取概率作为词性容错太阳城集团,以生成词性容错模板。
通过上述步骤S1502的处理可以得到所有可能的泛化后的N元组。然后,可以根据标注的结果和所有可能的泛化后的N元组,分别计算泛化N元组中的分词被标注多词单元的一部分的提取概率作为词性容错太阳城集团。
还是以上述三元组<抗原,释放,物>为例,其中分词“抗原”、“释放”和“物”均被标注为是多词单元的一部分,上述三元组通过泛化可以得到以下一系列的泛化三元组:<名词,释放,物>,<抗原,动词,物>,<抗原,释放,名词>,<名词,动词,物>,<抗原,动词,名词>,<名词,释放,名词>,<名词,动词,名词>。因此,如图16所示,在1614处,根据上述标注的结果和上述一系列的泛化三元组中的每个,分别计算上述泛化三元组中的分词被标注为多词单元的一部分的提取概率作为词性容错太阳城集团,并且相关联地存储该词性容错太阳城集团和当前分词所对应的三元组,从而生成词性容错模板。
由于大部分词性容错模板中均包含词性太阳城集团和词形太阳城集团,并且N元组模板中不仅包含当前目标分词还包含当前分词的前后分词太阳城集团,所以可以极大地弱化单个错误词性所造成的影响,当将错误词性输入到人工神经网络中,词性容错模板中的分词是多词单元的一部分的概率可以通过人工神经网络的计算来抑制错误词性对最终判断结果的影响。
最后,该处理在S1506处结束。
根据本实施例的方法,可以在训练人工神经网络的过程中缓解由词性标注错误引起的特征值的偏差,并且生成词性容错模板,如果将生成的词性容错模板应用于多词单元的识别和提取,则即使在词性标注过程中引用了错误太阳城集团,也可以正确地识别和提取语句中的多词单元,从而可以进一步提高多词单元的识别和提取的准确性和效率。
下面结合图17至图20来说明根据本发明的实施例的训练用于提取语句中的多词单元的人工神经网络的设备。
图17是示出根据本发明的实施例的训练用于提取语句中的多词单元的人工神经网络的设备的示意性框图。如图17所示,训练用于提取语句中的多词单元的人工神经网络的设备1700包括:语言学特征获取装置 1702,其针对将每个训练语句进行分词得到的多个分词块中的每个分词块,获取每个分词块中的分词的一个或更多个语言学特征作为特征量,其中,训练语句中的多词单元已被标注;输入装置1704,其将特征量作为人工神经网络的参数输入到人工神经网络中;判断装置1706,其采用人工神经网络计算每个分词块中的分词是多词单元的一部分的第一可能性和该分词不是多词单元的一部分的第二可能性,并且根据第一可能性和第二可能性的比较结果来判断该分词是否为多词单元的一部分;训练装置1708,其根据判断的结果和标注的结果,来训练人工神经网络;以及反馈太阳城集团获取装置1710,其获取与当前分词块相邻的先前分词块的判断的结果作为反馈太阳城集团,并且将反馈太阳城集团也作为当前分词块中的分词的特征量。
需要指出的是,在与设备有关的实施例中所涉及的相关术语或表述与以上对根据本发明的实施例的方法的实施例阐述中所使用的术语或表述对应,在此不再赘述。
图18是示出根据本发明的另一实施例的训练用于提取语句中的多词单元的人工神经网络的设备的示意性框图。如图18所示,训练用于提取语句中的多词单元的人工神经网络的设备1800包括语言学特征获取装置1702、输入装置1704、判断装置1706、训练装置1708、反馈太阳城集团获取装置1710和组合装置1802。训练用于提取语句中的多词单元的人工神经网络的设备1800中的语言学特征获取装置1702、输入装置1704、判断装置1706、训练装置1708和反馈太阳城集团获取装置1710与训练用于提取语句中的多词单元的人工神经网络的设备1700中的语言学特征获取装置1702、输入装置1704、判断装置1706、训练装置1708和反馈太阳城集团获取装置1710相同,其细节在此不再赘述。另外,训练用于提取语句中的多词单元的人工神经网络的设备1800中的组合装置1802依次将训练语句中相邻的N个分词组合为N元组以形成分词块,其中N为大于或等于2的自然数。
图19是示出根据本发明的另一实施例的训练用于提取语句中的多词单元的人工神经网络的设备的示意性框图。如图19所示,训练用于提取语句中的多词单元的人工神经网络的设备1900包括语言学特征获取装置1702、输入装置1704、判断装置1706、训练装置1708、反馈太阳城集团获取装置1710、组合装置1802、词形模板生成装置1902和词性模板生成装置1904。训练用于提取语句中的多词单元的人工神经网络的设备1900中的语言学特征获取装置1702、输入装置1704、判断装置1706、训练装置1708、反馈太阳城集团获取装置1710和组合装置1802与训练用于提取语句中的多词单 元的人工神经网络的设备1800中的语言学特征获取装置1702、输入装置1704、判断装置1706、训练装置1708、反馈太阳城集团获取装置1710和组合装置1802相同,其细节在此不再赘述。另外,训练用于提取语句中的多词单元的人工神经网络的设备1900中的词性模板生成装置1902,其根据标注的结果和N元组中的分词的词形特征,计算N元组中的分词是多词单元的一部分的词形提取概率,以生成词形模板;和/或词性模板生成装置1904,其根据标注的结果和N元组中的分词的词性特征,计算N元组中的分词是多词单元的一部分的词性提取概率,以生成词性模板。
图20是示出根据本发明的另一实施例的训练用于提取语句中的多词单元的人工神经网络的设备的示意性框图。如图20所示,训练用于提取语句中的多词单元的人工神经网络的设备2000包括语言学特征获取装置1702、输入装置1704、判断装置1706、训练装置1708、反馈太阳城集团获取装置1710、组合装置1802、泛化装置2002和词性容错模板生成装置2004。训练用于提取语句中的多词单元的人工神经网络的设备2000中的语言学特征获取装置1702、输入装置1704、判断装置1706、训练装置1708、反馈太阳城集团获取装置1710和组合装置1802与训练用于提取语句中的多词单元的人工神经网络的设备1800中的语言学特征获取装置1702、输入装置1704、判断装置1706、训练装置1708、反馈太阳城集团获取装置1710和组合装置1802相同,其细节在此不再赘述。另外,训练用于提取语句中的多词单元的人工神经网络的设备2000中的泛化装置2002,将N元组中的分词的词形替换为相应的词性,以得到混合了词形与词性的泛化N元组;词性容错模板生成装置2004,其根据标注的结果和泛化N元组中的分词的词形特征和词性特征,计算泛化N元组中的分词是多词单元的一部分的提取概率作为词性容错太阳城集团,以生成词性容错模板。
本领域技术人员理解,在上面描述的根据本发明各实施例的提取语句中的多词单元的方法中的各步骤或者提取语句中的多词单元的设备中的各功能单元,可以根据实际需要进行任意的组合,即,一个提取语句中的多词单元的方法实施例中的处理步骤可以与其它提取语句中的多词单元的方法实施例中的处理步骤进行组合,或者,一个提取语句中的多词单元的设备实施例中的功能单元可以与其它提取语句中的多词单元的设备实施例中的功能单元进行组合,以便实现所期望的技术目的。类似地,在上面描述的根据本发明各实施例的训练人工神经网络的方法中的各步骤或者训练人工神经网络的设备中的各功能单元,可以根据实际需要进行任意的组合,即,一个训练人工神经网络的方法实施例中的处理步骤可以与其 它训练人工神经网络的方法实施例中的处理步骤进行组合,或者,一个训练人工神经网络的设备实施例中的功能单元可以与其它训练人工神经网络的设备实施例中的功能单元进行组合,以便实现所期望的技术目的
此外,本申请的实施例还提出了一种程序产品,该程序产品承载机器可执行的指令,当在太阳城集团处理设备上执行指令时,指令使得太阳城集团处理设备执行根据上述本发明的实施例的提取语句中的多词单元的方法。类似地,本申请的实施例还提出了一种程序产品,该程序产品承载机器可执行的指令,当在太阳城集团处理设备上执行指令时,指令使得太阳城集团处理设备执行根据上述本发明的实施例的训练人工神经网络的方法。
此外,本申请的实施例还提出了一种存储介质,该存储介质包括机器可读的程序代码,当在太阳城集团处理设备上执行程序代码时,程序代码使得太阳城集团处理设备执行根据上述本发明的实施例的提取语句中的多词单元的方法。类似地,本申请的实施例还提出了一种存储介质,该存储介质包括机器可读的程序代码,当在太阳城集团处理设备上执行程序代码时,程序代码使得太阳城集团处理设备执行根据上述本发明的实施例的训练人工神经网络的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
根据本发明的实施例的提取语句中的多词单元的设备及其各个组成单元可通过软件、固件、硬件或其组合的方式进行配置。类似地,根据本发明的实施例的训练人工神经网络的设备及其各个组成单元也可通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的太阳城集团处理设备(例如图21所示的通用计算机2100)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
在图21中,中央处理单元(CPU)2101根据只读存储器(ROM)2102中存储的程序或从存储部分2108加载到随机存取存储器(RAM)2103的程序执行各种处理。在RAM 2103中,也根据需要存储当CPU 2101执行各种处理等等时所需的数据。CPU 2101、ROM 2102和RAM 2103经由总线2104彼此连接。输入/输出接口2105也连接到总线2104。
下述部件连接到输入/输出接口2105:输入部分2106(包括键盘、鼠 标等等)、输出部分2107(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分2108(包括硬盘等)、通信部分2109(包括网络接口卡比如LAN卡、调制解调器等)。通信部分2109经由网络比如因特网执行通信处理。根据需要,驱动器2110也可连接到输入/输出接口2105。可拆卸介质2111比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器2110上,使得从中读出的计算机程序根据需要被安装到存储部分2108中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质2111安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图21所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质2111。可拆卸介质2111的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 2102、存储部分2108中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
最后,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外,在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。再者,由措辞“第一”,“第二”,“第三”等等限定的技术特征或者参数,并不因为这些措辞的使用而具有特定的顺序或者优先级或者重要性程度。换句话说,这些措辞的使用只是为了区分或识别这些技术特征或者参数而没有任何其他的限定含义。
通过以上的描述不难看出,本发明的实施例提供的技术方案包括但不限于:
附记1、一种提取语句中的多词单元的方法,包括:
针对将语句进行分词得到的多个分词块中的每个分词块,获取每个分 词块中分词的一个或多个语言学特征作为特征量;
将所述特征量作为人工神经网络的参数输入到所述人工神经网络中;
采用所述人工神经网络计算每个分词块中的分词是多词单元的一部分的第一可能性和该分词不是多词单元的一部分的第二可能性,并且根据所述第一可能性和第二可能性来判断该分词是否为多词单元的一部分;以及
提取相邻的两个或更多个被判断为多词单元的一部分的分词,以形成多词单元,
其中,所述方法还包括:获取与当前分词块相邻的先前分词块的判断的结果作为反馈太阳城集团,并且将所述反馈太阳城集团也作为所述当前分词块中的分词的特征量。
附记2、根据附记1所述的方法,其中,所述语言学特征为以下中的一个或更多个:分词的词性、分词的词形、分词序号或分词出现概率。
附记3、根据附记1-2中任一项所述的方法,还包括:
依次将所述语句中相邻的N个分词组合为N元组以形成分词块,其中N为大于或等于2的自然数。
附记4、根据附记3所述的方法,还包括:
根据所述N元组中的分词的词形特征,从词形模板中获取所述N元组中的分词是多词单元的一部分的词形提取概率,并且将所述词形提取概率也作为所述N元组中的分词的特征量;和/或
根据所述N元组中的分词的词性特征,从词性模板中获取所述N元组中的分词是多词单元的一部分的词性提取概率,并且将所述词性提取概率也作为所述N元组中的分词的特征量。
附记5、根据附记4所述的方法,还包括:
将所述N元组中的分词的词形替换为相应的词性,以得到混合了词形与词性的泛化N元组;以及
根据所述泛化N元组中的分词的词形特征和词性特征,从词性容错模板中获取所述泛化N元组中的分词是多词单元的一部分的提取概率作为词性容错太阳城集团,并且将所述词性容错太阳城集团也作为所述N元组中的分词的特征量。
附记6、一种提取语句中的多词单元的设备,包括:
语言学特征获取单元,其针对将语句进行分词得到的多个分词块中的每个分词块,获取每个分词块中的分词的一个或多个语言学特征作为特征量;
输入单元,其将所述特征量作为人工神经网络的参数输入到所述人工神经网络中;
判断单元,其采用所述人工神经网络计算每个分词块中的分词是多词单元的一部分的第一可能性和该分词不是多词单元的一部分的第二可能性,并且根据所述第一可能性和第二可能性来判断该分词是否为多词单元的一部分;以及
提取单元,其提取相邻的两个或更多个被判断为多词单元的一部分的分词,以形成多词单元,
其中,所述设备还包括:反馈太阳城集团获取单元,其获取与当前分词块相邻的先前分词块的判断的结果作为反馈太阳城集团,并且将所述反馈太阳城集团也作为所述当前分词块中的分词的特征量。
附记7、根据附记6所述的设备,其中,所述语言学特征为以下中的一个或更多个:分词的词性、分词的词形、分词序号或分词出现概率。
附记8、根据附记6-7中任一项所述的设备,还包括:
组合单元,其依次将所述语句中相邻的N个分词组合为N元组以形成分词块,其中N为大于或等于2的自然数。
附记9、根据附记8所述的设备,还包括:
词形提取概率获取单元,其根据所述N元组中的分词的词形特征,从词形模板中获取所述N元组中的分词是多词单元的一部分的词形提取概率,并且将所述词形提取概率也作为所述N元组中的分词的特征量;和/或
词性提取概率获取单元,其根据所述N元组中的分词的词性特征,从词性模板中获取所述N元组中的分词是多词单元的一部分的词性提取概率,并且将所述词性提取概率也作为所述N元组中的分词的特征量。
附记10、根据附记8所述的设备,还包括:
泛化单元,其将所述N元组中的分词的词形替换为相应的词性,以 得到混合了词形与词性的泛化N元组;以及
词性容错太阳城集团获取单元,其根据所述泛化N元组中的分词的词形特征和词性特征,从词性容错模板中获取所述泛化N元组中的分词是多词单元的一部分的提取概率作为词性容错太阳城集团,并且将所述词性容错太阳城集团也作为所述N元组中的每个分词的特征量。
附记11、一种训练人工神经网络的方法,所述人工神经网络用于提取语句中的多词单元,所述方法包括:
针对将每个训练语句进行分词得到的多个分词块中的每个分词块,获取每个分词块中的分词的一个或更多个语言学特征作为特征量,其中,所述训练语句中的多词单元已被标注;
将所述特征量作为人工神经网络的参数输入到所述人工神经网络中;
采用所述人工神经网络计算每个分词块中的分词是多词单元的一部分的第一可能性和该分词不是多词单元的一部分的第二可能性,并且根据所述第一可能性和第二可能性的比较结果来判断该分词是否为多词单元的一部分;以及
根据判断的结果和标注的结果,来训练所述人工神经网络,
其中,所述方法还包括:获取与当前分词块相邻的先前分词块的判断的结果作为反馈太阳城集团,并且将所述反馈太阳城集团也作为所述当前分词块中的分词的特征量。
附记12、根据附记11所述的方法,其中,所述语言学特征为以下中的一个或更多个:分词的词性、分词的词形、分词序号或分词出现概率。
附记13、根据附记11或12所述的方法,还包括:
依次将所述训练语句中相邻的N个分词组合为N元组以形成分词块,其中N为大于或等于2的自然数。
附记14、根据附记13所述的方法,还包括:
根据标注的结果和所述N元组中的分词的词形特征,计算所述N元组中的分词是多词单元的一部分的词形提取概率,以生成词形模板;和/或
根据标注的结果和所述N元组中的分词的词性特征,计算所述N元组中的分词是多词单元的一部分的词性提取概率,以生成词性模板。
附记15、根据附记13所述的方法,还包括:
将所述N元组中的分词的词形替换为相应的词性,以得到混合了词形与词性的泛化N元组;以及
根据标注的结果和所述泛化N元组中的分词的词形特征和词性特征,计算所述泛化N元组中的分词是多词单元的一部分的提取概率作为词性容错太阳城集团,以生成词性容错模板。
附记16、一种训练人工神经网络的设备,所述人工神经网络用于提取语句中的多词单元,所述设备包括:
语言学特征获取装置,其针对将每个训练语句进行分词得到的多个分词块中的每个分词块,获取每个分词块中的分词的一个或更多个语言学特征作为特征量,其中,所述训练语句中的多词单元已被标注;
输入装置,其将所述特征量作为人工神经网络的参数输入到所述人工神经网络中;
判断装置,采用所述人工神经网络计算每个分词块中的分词是多词单元的一部分的第一可能性和该分词不是多词单元的一部分的第二可能性,并且根据所述第一可能性和第二可能性的比较结果来判断该分词是否为多词单元的一部分;以及
训练装置,其根据判断的结果和标注的结果,来训练所述人工神经网络,
其中,所述设备还包括:反馈太阳城集团获取装置,其获取与当前分词块相邻的先前分词块的判断的结果作为反馈太阳城集团,并且将所述反馈太阳城集团也作为所述当前分词块中的分词的特征量。
附记17、根据附记16所述的设备,其中,所述语言学特征为以下中的一个或更多个:分词的词性、分词的词形、分词序号或分词出现概率。
附记18、根据附记16或17所述的设备,还包括:
组合装置,其依次将所述训练语句中相邻的N个分词组合为N元组以形成分词块,其中N为大于或等于2的自然数。
附记19、根据附记18所述的设备,还包括:
词形模板生成装置,其根据标注的结果和所述N元组中的分词的词形特征,计算所述N元组中的分词是多词单元的一部分的词形提取概率, 以生成词形模板;和/或
词性模板生成装置,其根据标注的结果和所述N元组中的分词的词性特征,计算所述N元组中的分词是多词单元的一部分的词性提取概率,以生成词性模板。
附记20、根据附记18所述的设备,还包括:
泛化装置,其将所述N元组中的分词的词形替换为相应的词形,以得到混合了词形与词性的泛化N元组;以及
词性容错模板生成装置,其根据标注的结果和所述泛化N元组中的分词的词形特征和词性特征,计算所述泛化N元组中的分词是多词单元的一部分的提取概率作为词性容错太阳城集团,以生成词性容错模板。
尽管已示出和描述了本发明的优选实施例,可以设想,本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改。

关 键 词:
单元 提取 方法 设备 人工 神经网络 训练
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
太阳城集团本文
本文标题:多词单元提取方法和设备及人工神经网络训练方法和设备.pdf
链接地址:http://zh228.com/p-6180847.html
太阳城集团我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
葡京赌场|welcome document.write ('');