太阳城集团

  • / 69
  • 下载费用:30 金币  

使用互联网语料库的自动的上下文相关的语言校正和增强.pdf

摘要
申请专利号:

太阳城集团CN201510351019.5

申请日:

2008.07.31

公开号:

CN105045777A

公开日:

2015.11.11

当前法律状态:

撤回

有效性:

无权

法律详情: 发明专利申请公布后的视为撤回IPC(主分类):G06F 17/27申请公布日:20151111|||实质审查的生效IPC(主分类):G06F 17/27申请日:20080731|||公开
IPC分类号: G06F17/27; G06F17/30 主分类号: G06F17/27
申请人: 金格软件有限公司
发明人: Y·卡罗夫赞格威尔; A·赞格威尔
地址: 美国马塞诸塞州
优先权: 60/953,209 2007.08.01 US
专利代理机构: 永新专利商标代理有限公司72002 代理人: 王英; 张立达
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

CN201510351019.5

授权太阳城集团号:

||||||

法律状态太阳城集团日:

2018.04.03|||2015.12.09|||2015.11.11

法律状态类型:

太阳城集团发明专利申请公布后的视为撤回|||实质审查的生效|||公开

摘要

一种计算机辅助语言校正系统,其包括使用互联网语料库的利用上下文特征序列功能的拼写校正功能、误用词校正功能、语法校正功能和词汇增强功能。

权利要求书

1.一种计算机辅助语言校正系统,包括:
以下各项中的至少一个:
拼写校正功能;
误用词校正功能;
语法校正功能;以及
词汇增强功能;以及
与以下各项中的至少一个协作并且使用互联网语料库的上下文特征序
列功能:所述拼写校正功能、所述误用词校正功能、语法校正功能和所述
词汇增强功能。
2.根据权利要求1所述的计算机辅助语言校正系统,其中,所述语法
校正功能包括标点、动词变形、单数/复数、冠词和介词校正功能中的至少
一个。
3.根据权利要求1或权利要求2所述的计算机辅助语言校正系统,其
中,所述语法校正功能包括替换、插入和省略校正功能中的至少一个。
4.根据权利要求1-3中的任意一项所述的计算机辅助语言校正系统,
包括以下各项中的至少两个:
所述拼写校正功能;
所述误用词校正功能;
所述语法校正功能;以及
所述词汇增强功能;并且
其中,所述上下文特征序列功能与以下各项中的至少两个进行合作并
且使用互联网语料库:所述拼写校正功能、所述误用词校正功能、所述语
法校正功能和所述词汇增强功能。
5.根据权利要求1-3中的任意一项所述的计算机辅助语言校正系统,
包括以下各项中的至少三个:
所述拼写校正功能;
所述误用词校正功能;
所述语法校正功能;
所述词汇增强功能;并且
其中,所述上下文特征序列功能与以下各项中的至少三个进行合作并
且使用互联网语料库:所述拼写校正功能、所述误用词校正功能、所述语
法校正功能和所述词汇增强功能。
6.根据权利要求1-3中的任意一项所述的计算机辅助语言校正系统,
包括:
所述拼写校正功能;
所述误用词校正功能;
所述语法校正功能;以及
所述词汇增强功能;并且
其中,所述上下文特征序列功能与以下各项功能进行合作并且使用互
联网语料库:所述拼写校正功能、所述误用词校正功能、所述语法校正功
能和所述词汇增强功能。
7.根据权利要求1-6中的任意一项所述的计算机辅助语言校正系统,
其中,所述校正生成器包括校正语言生成器,用于在不需要用户干预的情
况下,基于所述选择器做出的选择,提供校正语言输出。

说明书

使用互联网语料库的自动的上下文相关的语言校正和增强

本申请是申请日为2008年7月31日并且申请号为200880101405.7的
中国专利申请的分案申请。

相关申请的参考

参考2007年8月1日提交的、题目为“METHODSFORCONTEXT
SENSITIVEERRORDETECTIONANDCORRECTION”、申请号为
60/953,209的美国临时专利申请,以引用方式将其公开并入本文,并且依照
37CFR1.78(a)(4)和(5)(i)要求其优先权。

技术领域

本发明总体上涉及计算机辅助语言校正。

背景技术

认为以下公开代表技术的当前状态:

美国专利号为5,659,771;5,907,839;6,424,983;7,296,019;5,956,739
25和4,674,065的专利

美国公开专利申请号为2006/0247914和2007/0106937的申请。

发明内容

本发明尝试提供用于计算机辅助语言校正的改进的系统和功能。

因此,根据本发明的优选实施例提供了一种计算机辅助语言校正系统,
其包括备选词生成器,基于输入句子,生成为所述句子中的多个词的中每
一个提供多个备选词的基于文本的表示,选择器,用于至少部分地基于互
联网语料库,针对所述句子中的所述多个词的每一个,在至少所述多个备
选词中进行选择,以及校正生成器,用于基于所述选择器做出的选择来提
供校正输出。

优选地,所述选择器用于,基于以下校正功能中的至少一个来做出所
述选择:拼写校正、误用词校正、语法校正和词汇增强。

根据本发明的优选实施例,所述选择器用于,基于以下校正功能中的
至少两个来做出所述选择:拼写校正、误用词校正、语法校正和词汇增强。
此外,所述选择器用于,基于校正的以下太阳城集团顺序中的至少一项来做出所
述选择:先于误用词校正、语法校正和词汇增强的至少一个的拼写校正,
以及先于词汇增强的误用词校正和语法校正。

此外或可选地,由以下功能中的一个来提供所述输入句子:词处理器
功能、机器翻译功能、语音到文本转换功能、光学字符识别功能,以及即
时通信功能,并且所述选择器用于,基于以下校正功能中的至少一个来做
出所述选择:误用词校正、语法校正以及词汇增强。

优选地,所述校正生成器包括校正语言输入生成器,用于在不需要用
户干预的情况下,基于所述选择器做出的选择,提供校正语言输出。此外
或可选地,所述语法校正功能包括标点、动词变形、单数/复数、冠词和介
词校正功能中的至少一个。

根据本发明的优选实施例,所述语法校正功能包括替换、插入和省略
校正功能中的至少一个。

优选地,所述选择器包括基于上下文计分功能,用于至少部分地基于
在互联网语料库中上下文特征序列(CFS)出现的频率,排序所述多个备选
词。此外,所述基于上下文计分功能,还用于至少部分地基于在所述互联
网语料库中标准化CFS出现的频率,排序所述多个备选词。

根据本发明的另一个优选实施例还提供了一种计算机辅助语言校正系
统,其包括以下中的至少一个:拼写校正功能、误用词校正功能、语法校
正功能、词汇增强功能,以及与以下各项中的至少一个协作并且使用互联
网语料库的上下文特征序列功能:所述拼写校正功能;所述误用词校正功
能、语法校正功能和所述词汇增强功能。

优选地,所述语法校正功能包括标点、动词变形、单数/复数、冠词和
介词校正功能中的至少一个。此外或可选地,所述语法校正功能包括替换、
插入和省略校正功能中的至少一个。

根据本发明的优选实施例,所述计算机辅助语言校正系统包括以下各
项中的至少两个:所述拼写校正功能、所述误用词校正功能、所述语法校
正功能、所述词汇增强功能,并且所述上下文特征序列功能与以下各项中
的至少两个进行协作并且使用互联网语料库:所述拼写校正功能、所述误
用词校正功能、所述语法校正功能和所述词汇增强功能。

优选地,所述计算机辅助语言校正系统还包括以下各项中的至少三个:
所述拼写校正功能、所述误用词校正功能、所述语法校正功能、所述词汇
增强功能,并且所述上下文特征序列功能与以下各项中的至少三个进行协
作并且使用互联网语料库:所述拼写校正功能;所述误用词校正功能,所
述语法校正功能和所述词汇增强功能。

根据本发明的优选实施例,所述的计算机辅助语言校正系统还包括:
所述拼写校正功能、所述误用词校正功能、所述语法校正功能,和所述词
汇增强功能,并且所述上下文特征序列功能与以下各项功能进行协作并且
使用互联网语料库:所述拼写校正功能;所述误用词校正功能,所述语法
校正功能和所述词汇增强功能。

优选地,所述校正生成器包括校正语言生成器,用于在不需要用户干
预的情况下,基于所述选择器做出的选择,用于提供校正语言输出。

根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正
系统,其包括:备选词生成器,基于语言输入,生成为所述句子中的多个
词中的每一个提供多个备选词的基于文本的表示;选择器,用于至少部分
地基于为所述语言输入中的所述多个词中的至少一些选择的所述多个备选
词中的多个之间的关系,为所述语言输入中的所述多个词中的每一个,在
至少所述多个备选词之间进行选择;校正生成器,用于基于由所述选择器
做出的选择,来提供校正输出。

优选地,所述语言输入包括输入句子和输入文本中的至少一个。此外
或可选地,所述语言输入是语音并且所述生成器将语音中的所述语言输入
转换为为所述语言输入中的多个词提供多个备选词的基于文本的表示。

根据本发明的优选实施例,所述语言输入是以下各项中的至少一个:
文本输入、光学字符识别功能的输出、机器翻译功能的输出,以及词处理
功能的输出,并且所述生成器将文本中的所述语言输入转换为为语言输入
中的多个词提供多个备选词的基于文本的表示。

优选地,所述选择器,用于至少基于以下校正功能中的两个,做出所
述选择:拼写错误、误用词校正、语法校正,以及词汇增强。此外,所述
选择器用于,基于校正的以下太阳城集团顺序中的至少一个来做出所述选择:先
于误用词校正、语法校正和词汇增强中的至少一个的拼写校正,以及先于
词汇增强的误用词校正和语法校正。

根据本发明的优选实施例,所述语言输入是语音并且所述选择器用于
基于以下校正功能中的至少一个来做出所述选择:误用词校正、语法校正,
以及词汇增强。

优选地,所述选择器用于通过执行以下功能中的至少两个来做所述选
择:选择包括比初始选择的所述语言输入中的所有所述多个词少的第一组
词或词的组合;之后对所述第一组词或词的组合的元素进行排序以建立选
择的优先级;之后为了所述第一组词的元素,当在所述多个备选词之间选
择时,选择其它词而不是所有所述多个词作为上下文来影响所述选择。此
外或可选地,所述选择器用于通过执行以下功能来做所述选择:当选择具
有至少两个词的元素时,结合用于所述至少两个词彼此的所述多个备选词
的每一个来评估用于所述至少两个词的每一个的所述多个备选词的每一
个。

根据本发明的优选实施例,所述校正生成器包括校正语言输入生成器,
用于在不需要用户干预的情况下,基于所述选择器做出的选择,提供校正
语言输出。

根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正
系统,其包括:误用词怀疑器,基于所述语言输入的上下文中词的合适度
来评估语言输入中的至少大部分词;校正生成器,用于至少部分地基于由
所述怀疑器执行的评估,提供校正输出。

优选地,所述的计算机辅助语言校正系统还包括:备选词生成器,基
于所述语言输入,生成为所述语言输入中的所述至少大部分词的至少一个
提供多个备选词的基于文本的表示;选择器,用于为所述语言输入中的所
述至少大部分的词中的所述至少一个的每一个,在至少所述多个备选词中
进行选择,并且其中,所述校正生成器,用于基于所述检测器做出的选择,
提供所述校正输出。此外或可选地,所述的计算机辅助语言校正系统还包
括:怀疑词输出指示器,其指示所述语言输入中的所述词的所述至少大部
分的至少一些被怀疑为误用词的程度。

根据本发明的优选实施例,所述校正生成器包括自动校正语言生成器,
用于在不需要用户干预的情况下,至少部分地基于由所述怀疑器执行的评
估,提供校正文本输出。

优选地,所述语言输入是语音并且所述选择器用于,基于以下校正功
能的至少一个,做所述选择:误用词校正、语法校正,以及词汇增强。

根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正
系统,包括:误用词怀疑器,用于评估语言输入中的词;备选词生成器,
为由所述怀疑器评估为怀疑词的、所述语言输入中的至少一些词生成多个
备选词,所述语言输入中的词的所述多个备选词的至少一个与互联网语料
库中所述语言输入中的所述词的上下文特征一致;选择器,用于在至少所
述多个备选词之间进行选择;校正生成器,用于至少部分地基于由所述选
择器做出的选择,用于提供校正输出。

根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正
系统,包括:误用词怀疑器,评估语言输入中的词并且识别怀疑的词;备
选词生成器,生成用于所述怀疑词的多个备选词;选择器,根据多个选择
标准对每个所述怀疑词以及为此由所述备选词生成器生成的所述多个备选
词的一个进行评级,并且应用与为此由所述备选词生成器生成的所述多个
备选词中的一个有关的所述怀疑的词有利的偏值;校正生成器,用于至少
部分地基于由所述选择器做出的选择,提供校正输出。

根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正
系统,包括:备选词生成器,基于输入为所述输入中的至少一个词生成多
个备选词;选择器,根据多个选择标准对每一个所述至少一个词以及为此
由所述备选词生成器生成的所述多个备选词的多个进行评级,并且应用与
为此由所述备选词生成器生成的所述多个备选词中的一个有关的所述至少
一个词有利的偏值,所述偏值是指示提供了输入的人的不确定度的所述输
入不确定度度量的函数;校正生成器,用于基于所述选择器做出的选择,
提供校正输出。

根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正
系统,包括:不正确词怀疑器,评估语言输入中的词的至少大部分,所述
怀疑器至少部分地响应于指示提供了输入的人的不确定度的输入不确定度
度量,所述怀疑器提供怀疑的不正确词输出;备用词生成器,为由所述怀
疑的不正确词输出所识别的怀疑的不正确词生成多个备选词;选择器,用
于在每一个怀疑的不正确词和由所述备选词生成器生成的所述多个备选词
中进行选择;用于基于所述选择器做出的选择,提供校正输出的校正生成
器。

根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正
系统,包括:接收多个词输入并且提供校正输出的拼写校正模块、误用词
校正模块、语法校正模块和词汇增强模块中的至少一个,拼写校正模块、
误用词校正模块、语法校正模块和词汇增强模块中的所述至少一个的每一
个包括:备选词候选生成器包括语音相似性功能,用于基于与所述输入中
的词的语音相似性,提出备选词,并且用于指示语音相似性的度量;字符
串相似性功能,用于基于与所述输入中的词的字符串相似性,来提出备选
词,并且指示用于每一个备选词的字符串相似性的度量;选择器,用于通
过使用所述语音相似性和字符串相似性度量以及基于上下文选择功能,选
择所述输出中的词或由所述备选词候选者生成器提出的备选词候选者。

根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正
系统,包括:怀疑词识别功能,接收多个词语言输入并且提供指示怀疑词
的怀疑词输出;特征识别功能,用于识别包括所述怀疑词的特征;备选词
选择器,识别用于所述怀疑词的备选词;特征出现功能,使用语料库并提
供出现输出,太阳城集团在所述语料库中的使用频率来排序包括所述备选词的各
种特征;选择器,使用所述出现输出来提供校正输出,所述特征识别功能
包括特征过滤功能,所述特征过滤功能包括以下中的至少一个:用于消除
包含怀疑的错误的特征的功能;用于消极地偏置包含在所述多个词输入的
较早的校正迭代中引入的词并且具有在可信度预定的阈值以下的可信度的
特征的功能;用于消除包含在具有在预定的频率阈值之上的出现的频率的
另一个特征中所包含的特征的功能。

优选地,所述选择器用于至少基于以下校正功能的两个来做该选择:
拼写校正、误用词校正、语法校正,以及词汇增强。此外,所述选择器用
于基于校正的以下太阳城集团顺序中的至少一个来做出所述选择:先于误用词校
正、语法校正和词汇增强中的至少一个的拼写校正;先于词汇增强的误用
词校正和语法校正。

根据本发明的优选实施例,所述语言输入是语音并且所述选择器是用
于基于以下校正功能的至少一个来做所述选择:语法校正、误用词校正、
词汇增强。

优选地,所述校正生成器包括校正语言输入生成器,用于在不需要用
户干预的情况下,基于所述选择器做出的选择,提供校正语言输出。

根据本发明的优选实施例,所述选择器还用于,至少部分地基于用户
输入不确定度度量来做所述选择。此外,所述用户输入不确定度度量是基
于提供了所述输入的人的不确定度的测量的函数。此外或可选地,所述选
择器还使用用户输入历史学习功能。

根据本发明的优选实施例,还提供了一种计算机辅助语言校正系统,
包括:怀疑词识别功能,接收多个词语言输入并且提供指示怀疑词的怀疑
词输出;特征识别功能,用于识别包括所述怀疑词的特征;备选词选择器,
识别用于所述怀疑词的备选词;出现功能,使用语料库并提供出现输出,
太阳城集团在所述语料库中词的使用频率来排序包括所述备选词的特征,;校正输
出生成器,使用所述出现输出以提供校正输出,所述特征识别功能包括以
下各项中的至少一个:N-gram识别功能;共同出现识别功能;以下各项中
的至少一个:skip-gram识别功能、switch-gram识别功能,以及之前由用户
使用的特征识别功能。

根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正
系统,包括:语法错误怀疑器,基于在所述语言输入的上下文中词的适合
度,评估语言输入中所述词的至少大部分;校正生成器,用于至少部分地
基于由所述怀疑器执行的评估,提供校正输出。

优选地,所述的计算机辅助语言校正系统还包括:备选词生成器,基
于所述语言输入,生成为在所述语言输入中的所述至少大部分词中的至少
一个提供多个备选词的基于文本的表示;选择器,用于为所述语言输入中
的所述至少大部分词中的所述至少一个的每一个,在至少所述多个备选词
中进行选择,并且其中,所述校正生成器,用于基于由所述选择器做出的
选择,提供所述校正输出。

根据本发明的优选实施例,所述的计算机辅助语言校正系统并且还包
括:怀疑词输出指示器,其指示所述语言输入中的所述词的所述至少大部
分的至少一些被怀疑为包含语法错误的程度。

优选地,所述校正生成器包括自动校正语言生成器,用于在不需要用
户干预的情况下,至少部分地基于由所述怀疑器执行的评估,提供校正文
本输出。

根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正
系统,包括:语法错误怀疑器,评估语言输入中的词;备选词生成器,为
由所述怀疑器评估为怀疑词的所述语言输入中的至少一些词生成多个备选
词,用于所述语言输入中的词的所述多个备选词的至少一个与所述语言输
入中的所述词的上下文特征一致;选择器,用于在至少所述多个备选词之
间进行选择;校正生成器,用于至少部分地基于由所述检测器做出的选择,
提供校正输出。

根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正
系统,包括:语法错误怀疑器,评估语言输入中的词并且识别怀疑的词;
备选生成器,生成用于所述怀疑词的多个备选词;选择器,根据多个选择
标准对每一个所述怀疑的词以及为此由所述备选词生成器生成的所述多个
备选词的一个进行评级,并且应用与为此由所述备选词生成器生成的所述
多个备选词中的一个有关的所述怀疑的词有利的偏值;校正生成器,用于
至少部分地基于由所述选择器做出的选择,提供校正输出。

优选地,所述校正生成器包括校正语言输入生成器,用于在不需要用
户干预的情况下,基于由所述选择器做出的选择,提供校正语言输出。

根据本发明的另一个优选实施例,还提供了一种包括各种备选词校正
的基于上下文计分的计算机辅助语言校正系统,至少部分地基于在互联网
语料库中上下文特征序列(CFS)出现的频率。

优选地,所述计算机辅助语言校正系统还包括以下各项中的至少一个:
与所述基于上下文计分协作的拼写校正功能、误用词校正功能、语法校正
功能,以及词汇增强功能。

根据本发明的优选实施例,所述基于上下文计分还至少部分地基于在
互联网语料库中的标准化CFS出现的频率。此外或可选地,所述基于上下
文计分还至少部分地基于CFS重要性得分。此外,所述CFS重要性得分是
以下各项中的至少一个的函数:词性标注和句子分析功能的操作;CFS长
度;在CFS和CFS类型中的每一个词的出现的频率。

根据本发明的另一个优选实施例,还提供了一种包括词汇增强功能的
计算机辅助语言校正系统,包括:词汇挑战的词识别功能;备选词词汇增
强生成功能;基于上下文计分功能,其至少部分地基于在互联网语料库中
上下文特征序列(CFS)出现的频率,所述备选词词汇增强生成功能,其包
括词典预处理功能,用于生成备选词词汇增强。

根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正
系统,包括:备选词生成器,基于输入句子,生成为所述句子中的多个词
的每一个提供多个备选词的基于文本的表示;选择器,为了所述句子中的
所述多个词的每一个,在至少所述多个备选词中选择;可信度分配器,用
于将可信度分配到来自所述多个备选词的选择的备选词;校正生成器,用
于基于所述选择器做出的选择并且至少部分地基于所述可信度,提供校正
输出。

优选地,基于上下文特征序列(CFS)来评估所述多个备选词,并且所
述可信度是基于以下参数中的至少一个:选择的CFS的数量、类型和得分;
在CFS上下文中,所述多个备选词的出现的频率的统计显著性的测量;基
于每一个所述CFS的优先选择度量和所述多个备选词的词相似性得分,选
择所述多个备选词中的一个的一致性程度;所述多个备选词中的所述一个
的不基于上下文相似性得分在第一预定的最低阈值以上;基于上下文数据
可用性的程度,其由所述CFS的数量来指示,其中,所述CFS具有在第二
预定最低阈值以上并且具有在第三预定阈值之上的优先选择得分。

根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正
系统,包括:标点错误怀疑器,基于语言输入的上下文中的合适度,评估
所述语言输入中的所述词和标点中的至少一些,其中,所述语言输入的合
适度是基于互联网语料库中所述语言输入的feature-gram的出现的频率;校
正生成器,用于至少部分地基于由所述怀疑器执行的评估,提供校正输出。

优选地,所述校正生成器包括丢失标点校正功能、冗余标点校正功能
和标点替换校正功能中的至少一个。

根据本发明的另一个优选实施例,还提供了一种计算机辅助语言校正
系统,包括:语法元素错误怀疑器,基于语言输入的上下文中的合适度,
评估所述语言输入中的所述词中的至少一些,其中,所述语言输入的合适
度是基于互联网语料库中所述语言输入的feature-gram的出现的频率;校正
生成器,用于至少部分地基于由所述怀疑器执行的评估,提供校正输出。

优选地,所述校正生成器至少包括丢失语法元素校正功能、冗余语法
元素校正功能和语法元素替换校正功能中的至少一个。此外或可选地,所
述语法元素是冠词、介词和连词中的一个。

附图说明

结合附图,根据以下详细的描述,将更全面地懂得并理解本发明,其
中:

图1是用于根据本发明的优选实施例建造并操作的计算机辅助语言校
正的系统和功能的简化的框图说明;

图2是说明了图1的系统和功能中优选地使用的拼写校正功能的简化
的流程图;

图3是说明了图1的系统和功能中优选地使用的误用词和语法校正功
能的简化的流程图;

图4是在图1的系统和功能中使用的、说明了词汇增强功能的简化的
流程图;

图5是说明了图1的系统和功能中优选地使用的上下文特征序列(CFS)
功能的简化的框图;

图6A是说明了根据本发明的优选实施例的图2的功能的拼写校正功能
形成部分的简化的流程图;

图6B是说明了根据本发明的优选实施例的图3的功能的误用词和语法
校正功能形成部分的简化的流程图;

图6C是说明了根据本发明的优选实施例的图4的功能的词汇增强功能
形成部分的简化的流程图;

图7A是说明了用于生成在图2和3的功能中有用的备选词校正的功能
的简化的流程图;

图7B是说明了用于生成在图4的功能中有用的备选词增强的功能的简
化的流程图;

图8是说明了用于在图2的拼写校正功能中有用的各种备选词增强的
不基于上下文词的基于相似性计分和基于上下文计分(优选地使用互联网
语料库)的功能的简化的流程图;

图9是说明了用于在图3、10和11的误用词和语法校正功能以及在图
4的词汇增强功能中有用的各种备选词校正的不基于上下文词的基于相似
性计分和基于上下文计分(优选地使用互联网语料库)的功能的简化的流
程图;

图10是说明了丢失冠词、介词和标点校正功能的操作的简化的流程图;
以及

图11是冗余冠词、介词和标点校正功能的操作的简化的流程图。

具体实施方式

现在参照图1,其是用于根据本发明的优选实施例建造并操作的计算机
辅助语言校正的系统和功能的简化的框图说明。如图1所示,从一个或多
个源将校正文本提供给语言校正模块100,包括但并不限于:字处理功能
102、机器翻译功能104、语音到文本转换功能106、光学字符识别功能108
和任何其它文本源110,例如即时通信或互联网。

语言校正模块100优选地包括拼写校正功能112、误用词和语法校正功
能114以及词汇增强功能116。

本发明的特定特征是拼写校正功能112、误用词和语法校正功能114以
及词汇增强功能116中的每个都与上下文特征序列(CFS)功能118进行交
互,所述上下文特征序列功能118使用互联网语料库120。

为了本描述的目的,定义了上下文特征序列或CFS,其包括N-gram、
skip-gram、共同出现、“之前由用户特征使用”和其组合,参照图5下文依
次对其进行定义。应当注意,为了描述的简便和清楚,以下的大多数示例
仅使用n-gram。应当理解本发明并不限于此。

互联网语料库的使用很重要,因为它为极大量的上下文特征序列提供
了显著的统计的数据,导致极为健壮的语言校正功能。在实践中,超过两
个字的组合在传统的非互联网语料库中具有很少的统计,但是在互联网语
料库中具有令人满意或良好的统计。

互联网语料库通常通过在互联网上爬行并从网站页面收集文本、从万
维网收集的自然语言文本的大量代表性示例。优选地,还收集动态文本,
例如聊天记录、来自网络论坛的文本和来自博客的文本。收集的文本用于
积累太阳城集团自然语言文本的统计。互联网语料库的大小可以是,例如一万亿
(1,000,000,000,000)字或几万亿字,与其形成对照的是,更典型的语料库
大小为20亿字。网络的小的示例(例如,网络语料库)包括100亿字,其
显著地小于由搜索引擎(例如,)建立索引的网络文本的百分之
一。本发明可以与网络的示例(例如,网络语料库)一起工作,但是优选
地它对文本校正的任务使用网络的显著地大的样本。

在以下两种方法中的一种中优选地使用互联网语料库:

使用CFS作为搜索查询来使用一个或多个互联网搜索引擎。每个这种
查询的结果的数量提供了该CFS的出现的频率。

随着太阳城集团的过去,通过爬行并索引互联网来建立本地索引。每个CFS
的出现的次数提供了CFS频率。本地索引以及搜索查询可以基于互联网的
可选择的部分并且可以用这些选择的部分来识别。类似的,可以排除或适
当地权衡互联网的部分,以校正在互联网使用与通用语言使用之间的异常。
用这种方法,可以对从语言使用方面来说可靠的网站(例如,新闻和政府
网站)给出比其它网站(例如,聊天或用户论坛)更高的权重。

优选地,在开始的时候,将输入文本提供给拼写校正功能112,之后提
供给误用词和语法校正功能114。输入文本可以是任何合适的文本并且在字
处理的情况下优选地是文档的部分,例如句子。词汇增强功能116优选地
在用户对文本的选择的情况下工作,其中所述本文已经被提供给拼写校正
功能112并且提供给误用词和语法校正功能114。

优选地,语言校正模块100提供了输出,所述输出包括带有每个校正
的词或词的组的一个或多个建议的备选词的校正的文本。

现在,参照图2,其是说明了图1的系统和功能中优选地使用的拼写校
正功能的简化的流程图。如图2所示,拼写校正功能优选地包括以下步骤:

识别输入文本中的拼写错误,优选地使用扩充了通常在互联网使用的
专有名称和专有词的传统字典。

将拼写错误分成簇(所述簇可以包括连续的或几乎连续的、具有拼写
错误的单个或多个词)并且选择用于校正的簇。该选择尝试发现包含最大
数量的校正基于上下文的数据的簇。优选地,选择具有在其附近正确拼写
的词的最长序列或多个序列的簇。参照图6A,下文更详细地描述上述步骤。

优选地基于参照图7A下文描述的算法,来生成用于每个簇的一个备选
校正或优选地生成用于每个簇的多个备选校正;

至少部分地不基于上下文的词基于相似性的计分和基于上下文的计
分,优选地基于参照图8下文描述的拼写校正备选词计分算法,来优选地
使用各种备选校正的互联网语料库;

对于每个簇,基于上述得分来选择单个拼写校正并示出大多数优选备
选的拼写校正;以及

为每个误拼写的簇提供包括单个拼写校正的校正文本输出,所述校正
文本输出代替了误拼写簇。

根据以下示例的考虑,可以更好地理解图2的功能的操作:

接收以下输入文本:

Physicalecudationcanassitsinstrenghingmuscles.Somestudentsshould
eksersivdailytoinprovetheirstrenthandhelthbecalsthayeasofate.

以下词被识别为拼写错误:

ecudation,assits;strenghing;eksersiv;inprove;strenth;helth;becals;thay,ea

应当注意,“fate”没有被识别为拼写错误,因为它出现在字典中。

如表1所示,选择以下的簇:

表1

簇#

1
eksersiv
2
inprove their strenth
3
ecudation
4
assits in strenghing
5
helth becals thay ea

太阳城集团簇2,应当注意,“their”是正确拼写,但是仍然包括在簇中,因
为它被误拼写词包围。

选择簇1“eksersiv”来校正,因为它具有在其附近正确拼写词的最长
序列或多个序列。

为误拼写词“eksersiv”生成以下备选校正:

excessive,expressive,obsessive,assertive,exercise,extensive,exclusive,
exertion,excised,exorcism.

基于对误拼写词的发音和字符串的相似性,给出每个备选校正的不基
于上下文词相似性得分,例如,如表2所示:

表2

备选词
非上下文词相似性得分
excessive
0.90
expressive
0.83
exercise
0.80
exorcism
0.56

可以用各种方法来得出不基于上下文得分。一个示例是通过使用
Levelnshtein距离算法,其可以在http://en.wikipedia.org/wiki/Levenshtein
distance上找到。该算法可以意指字符串、词语音表达或其组合。

如表3所示,基于在输入句子的上下文中其适合度,还给出每个备选
词的上下文得分。在该示例中,其使用的上下文是“Somestudentsshould
<eksersiv>daily”。

表3


上下文得分是参照图8按照下文描述来优选地得出的并且是基于互联
网语料库中的上下文特征序列(CFS)频率。

参照图8,按照下文描述的,基于上下文得分和不基于上下文相似性得
分的组合,选择词“exercise”作为最佳备选词。

以相似的方式来校正所有簇。拼写校正输入文本,根据本发明的优选
实施例的以下的拼写校正是:

Physicaleducationcanassistinstrengtheningmuscles.Somestudents
shouldexercisedailytoimprovetheirstrengthandhealthbecausetheyareso
fate.

应当注意,在拼写校正输入文本中仍然有误用词。词“fate”需要通过
参照图3下文描述的误用和语法校正算法来校正。

现在参照图3,其是说明了图1的系统和功能中优选地使用的误用词和
语法校正功能的简化的流程图。误用词和语法校正功能提供了拼写正确但
在输入文本的上下文中是误用的词的校正,以及包括语法上不正确的词代
替了语法上正确的词的使用、冗余词和丢词和标点的使用的语法错误的校
正。

如图3所示,误用词和语法校正功能优选地包括以下步骤:

通过优选地评价输入句子的上下文内的词的至少大部分的适合度,来
识别怀疑的误用词和具有从图2的拼写校正功能输出的拼写校正输入文本
中的语法错误的词;

将怀疑的误用词和具有语法错误的词分成簇,所述簇优选地是不重叠
的;以及

选择用于校正的簇。识别、分组和选择步骤优选地基于参照图6B下文
描述的算法。

优选地基于参照图7A下文描述的备选校正生成算法,来为每个簇生成
一个或优选地生成多个备选校正;

基于参照图10下文描述的丢失的冠词、介词和标点校正算法,来为每
个簇生成一个或优选地生成多个备选校正;

基于参照图11下文描述的冗余的冠词、介词和标点校正算法,来为每
个簇生成一个或优选地生成多个备选校正;

优选地基于参照图9下文描述的误用词和语法校正备选词计分算法,
至少部分地基于上下文和词的基于相似性来对各种备选校正计分;

对于每个簇,也参照图9按照下文描述的上述计分,来选择单个误用
词和语法校正并示出最优选的备选误用词和语法校正;以及

为每个簇提供包括单个误用词和语法校正的拼写、误用词和语法校正
文本输出,所述簇代替不正确的簇。

优选地,计分包括:为此应用与多个备选词中的一个相比有利于怀疑
的词的偏置,所述偏置是指示了提供输入的人的不确定度的输入不确定度
的度量的函数。

根据以下示例的考虑,可以更好地理解图3的功能的操作:

接收以下输入文本:

Ihavemoneybook

将以下词识别为怀疑的误用词:

money,book

生成以下簇:

moneybook

以下是备选校正的示例,其为簇而生成(部分的列出):

moneybooks;moneyback;moneybox;moneybulk;moneyBuick;money
ebook;moneybank;minibook;mummybook;Monetbook;honeybook;mannerly
book;monobook;Mondaybook;manybooks;minibike;mummyback;monkey
bunk;Mondaybooked;Monarchyback;Mournedbrook

在表4中示出了使用互联网语料库基于上下文和不基于上下文词的基
于相似性的得分的至少部分的上下文计分的结果:

表4



可以理解,存在得到总分的各种方法。优选的总分是基于参照图9下
文描述的算法。

基于上述计分,选择备选词“manybook”。因此,校正文本是:

Ihavemanybook

现在参照图4,其是说明了图1的系统和功能中使用的词汇增强功能的
简化的流程图。如图4所示,词汇增强功能优选地包括以下步骤:

识别词汇挑战,其中所述词在从图3的误用词和语法校正功能输出的,
在拼写、误用词和语法校正输入文本中,具有怀疑的不是最理想的词汇的
使用;

将词汇挑战分成簇,其优选的是不重叠的;

选择用于校正的簇。识别、分组和选择步骤是优选地基于参照图6C下
文描述的算法。

优选地基于参照图7B下文描述的词汇增强生成算法,来为每个簇生成
一个或优选地生成多个备选词汇增强;

不基于上下文词的基于相似性的计分和上下文计分,优选地基于参照
图9下文描述的词汇增强备选词计分算法,来优选地使用各种备选词汇增
强的互联网语料库;

对于每个簇,基于参照图9下文还描述的上述计分,来选择单个词汇
增强并示出最优选的备选词汇增强;以及

为每个不是最理想的词汇簇提供词汇增强建议。

根据以下示例的考虑,可以更好地理解图4的功能的操作:

提供以下的拼写、误用词和语法校正输入文本:

Wearingcolorfulclotheswillseparateusfromtherestofthechildreninthe
school.

使用参照图6C下文描述的功能,为词汇增强选择以下簇:

separate

使用参照图7B下文描述的功能,基于图7B中描述的预处理词汇数据
库(部分的列表),来生成如表5所示的以下备选簇校正:

表5


至少部分地基于输入文本的上下文内的词的合适度并且还基于备选词
的词意与词汇挑战“separate”的相似度,使用互联网语料库来对各种备选
词汇增强计分。

使用参照图5下文描述的功能,生成以下的CFS(部分地列出):

'willseparate','separateus','clotheswillseparate','willseparateus',
'separateusfrom'

使用参照图9的阶段ⅡA下文描述的功能,为CFS的上述列表中的备
选簇校正的部分列表生成在表6所示的互联网语料库中的出现频率的矩阵:

表6



消除所有备选校正的出现的频率为零的所有CFS。在该示例中,消除
以下feature-gram:

'clotheswillseparate'

所以,消除全部包括在至少具有出现的最低阈值频率的其它CFS中的
所有CFS。例如,消除以下feature-gram:

'willseparate','separateus'

在该示例中,剩余的CFS是feature-gram:

'willseparateus','separateusfrom'

使用参照图9在阶段ⅡD和ⅡE中下文描述的最终优先选择得分,选择
备选“differentiate”,增强的句子是:

Wearingcolorfulclotheswilldifferentiateusfromtherestofthechildrenin
theschool.

现在参照图5,其是说明了在用于本发明的优选实施例的计算机辅助语
言校正的系统和功能中有用的上下文特征序列(CFS)功能118(图1)的
简化的框图。

CFS功能118优选地包括特征提取功能,其包括N-gram提取功能以及
可选的至少一个skip-gram提取功能;switch-gram提取功能;共同出现提取
功能;之前由用户使用的特征提取功能。

术语N-gram是技术的已知术语,指代输入文本中的N个连续词的序列。
N-gram提取功能可以使用传统的词性标注(part-of-speechtagging)和句子
分析功能以避免生成基于语法考虑不期望在语料库(优选的是互联网语料
库)中高频率出现的某种n-gram。

为了本描述的目的,术语“skip-gram提取功能”意味着功能上用于提
取“skip-gram”,所述“skip-gram”是修改的n-gram,所述n-gram省略了
一些不重要的词或短语,例如形容词、副词、形容词短语和副词短语,或
者所述n-gram仅包含具有预定的语法关系的词,例如主语-动词、动词-宾
语、副词-动词或动词-太阳城集团短语。skip-gram提取功能可以使用传统的词性
标注和句子分析功能来帮助确定在给定的上下文中可以跳过哪些词。

对于本描述的目的,术语“switch-gram提取功能”意味着识别“switch
gram”的功能,所述“switch-gram”是修改的n-gram,其中,转换一些词
的出现顺序。switch-gram提取功能可以使用传统的词性标注和句子分析功
能来帮助确定在给定的上下文中可以转换哪些词的出现顺序。

为了本描述的目的,术语“共同出现提取功能”意味着识别在输入句
子或包含多个输入句子的输入文档中的词的组合,所述功能具有用于在输
入文本而不是在N-gram、switch-gram或skip-gram中包括的那些的输入文
本词共同出现,以及指示到输入词和方向的距离,在此之后过滤除经常出
现的词,例如介词、冠词、连词和其功能主要是起语法作用的其它词。

为了本描述的目的,术语“之前由用户使用的特征提取功能”意味着
识别用户在其它文档中使用的词,在此之后滤除经常出现的词,例如介词、
冠词、连词和其功能主要是起语法作用的其它词。

为了本描述的目的,N-gram、skip-gram、switch-gram和其组合被称为
feature-gram。

为了本描述的目的,N-gram、skip-gram、switch-gram、共同出现、“之
前由用户使用的特征”和其组合被称为上下文特征序列或CFS。

图5的功能优选地对输入文本中的单独的词或词的簇进行操作。

根据以下示例的考虑,可以更好地理解图5的功能的操作:

提供以下的输入文本:

CherlockHomestheleadcharacterandchiefinspecterhasbeencoldinby
thefamilydoctorDrMortimer,toinvesigatethedeathofsirCharles

对于输入文本中的簇“CherlockHomes”,生成以下的CFS:

N-gram:

2-gram:CherlockHomes;Homesthe

3-gram:CherlockHomesthe;Homesthelead

4-gram:CherlockHomesthelead;Homestheleadcharacter

5-gram:CherlockHomestheleadcharacter

Skip-gram:

CherlockHomesthecharacter;CherlockHomesthechief
inspecter;CherlockHomestheinspecter;CherlockHomeshasbeencold

Switchgram:

TheleadcharacterCherlockHomes

输入文本中的共同出现:

Character;inspector;investigate;death

包含输入文本的文档中的共同出现:

ArthurConanDoyle;story

用户的其它文档中的共同出现:

mystery

对于输入文本中的簇“cold”,生成以下的CFS:

N-gram:

2-gram:beencold;coldin

3-gram:hasbeencold;beencoldin;coldinby

4-gram:inspectorhasbeencold;hasbeencoldin;beencoldinby

5-gram:chiefinspectorhasbeencold;inspectorhasbeencoldin;hasbeen
coldinby;beencoldinbythe;coldinbythefamily

Skip-gram:

coldintoinvestigate;Cherlockhasbeencold;coldbythedoctor;coldbyDr
Mortimer;characterhasbeencold

基于以下中的至少一个,对每个CFS给出“重要性得分”,优选的是以
下中的多于一个,并且最优选的是以下中的所有:

a、传统的词性标注和句子分析功能的操作。给包括多个分析树节点的
CFS相对低的得分。CFS中包括的分析树节点的数量越多,该CFS的得分
越低。

b、CFS的长度。CFS越长,得分越高。

c、在CFS而不是输入词中每个字的出现频率。这种词的出现频率越高,
得分越低。

d、CFS的类型。例如,N-gram比共同出现优选。输入句子中的共同出
现比输入文档中的共同出现优选,并且输入文档中的共同出现比“之前用
户使用的特征”优选。

参照上述示例,如表7所示为典型的得分;

表7


基于互联网语料库中的CFS出现频率,为了各种备选簇校正的基于上
下文的得分,参照图8和9下文描述的功能中使用这些CFS和它们的重要
性得分。

现在参照图6A,其是说明了用于识别输入文本中的误拼写词的功能;
将误拼写词分成簇,其优选的是非重叠的;选择用于校正的簇。

如图6A所示,通过使用扩充了通常在互联网使用的专有名称和专有词
的传统的字典,来优选地执行对误拼写词的识别。

通过将连续的或几乎连续的误拼写词分到带有具有语法关系的误拼写
词的单个簇中,来优选地执行将误拼写词分成簇。

通过尝试找到包含大量不怀疑的基于上下文数据的簇,来优选地执行
选择用于校正的簇。优选地,选择具有在正确拼写词附近的最长序列或多
个序列的簇。

现在参照图6B,其是说明了用于识别在拼写校正输入文本中的怀疑的
误用词和具有语法错误的词;将怀疑的误用词和具有语法错误的词分成簇,
其优选的是不重叠的;选择用于校正的簇。

按照以下来优选地执行识别怀疑的误用词:

在拼写校正输入文本中为每个词生成feature-gram;

注意在语料库(优选的是互联网语料库)中的每个feature-gram的出现
的频率;

注意用于每个词的怀疑的feature-gram的数量。怀疑的feature-gram具
有比它们的期望的频率显著地低的频率或者在最低频率阈值以下的频率。
基于feature-gram的组成元素和其组合来估计feature-gram的期望频率。

如果包含词的怀疑的feature-gram的数量超过预定的阈值,那么词受到
怀疑。

根据本发明的优选实施例,确定语料库(优选的是互联网语料库)中
的拼写校正输入文本中的每个feature-gram的出现频率(FREQF-G)。还确
定在该语料库中拼写校正输入文本中的每个词的出现的频率(FREQW),
并且还确定没有该词的每个feature-gram的出现的频率(FREQFG-W)。

按照以下来计算每个feature-gram的出现的期望频率(EFREQF-G):

EFREQF-G=FREQF-G-W*FREQW/(在
互联网语料库中的所有词的总频率)

如果语料库(优选的是互联网语料库)中拼写校正输入文本中的每个
feature-gram的出现的频率与每个feature-gram的期望的出现频率之比,即
FREQF-G/EFREQF-G比预定的阈值小,或者如果FREQF-G比另一个预定
的阈值低,那么feature-gram将被认为是怀疑的feature-gram。包括在怀疑
的feature-gram的每个词将被认为是怀疑的误用词或者具有怀疑的语法错
误的词。

根据以下示例的考虑,可以更好地理解:用于识别拼写校正输入文本
中的怀疑的误用词和具有语法错误的词的图6B的功能的操作:

提供以下拼写校正输入文本:

Ihavemoneybook

feature-gram包括以下:

I;Ihave;Ihavemoney;Ihavemoneybook

表8指示了上述feature-gram的互联网语料库中的出现的频率:

表8


按照如下为每个2-gram计算期望的出现频率:

EFREQF-G=(FREQF-G-W*FREQW)/(在
互联网语料库中的所有词的总频率)

例如,对于2-gram,

2-gram(x,y)的期望的2-gram频率=(x的1-gram频率*y的1-gram频
率)/在互联网语料库中词的数量。例如,一万亿(1,000,000,000,000)个词。

按照如下来计算在语料库(优选的是互联网语料库)中拼写校正输入
文本中的每个feature-gram的出现频率与每个feature-gram的期望的出现频
率之比:

FREQF-G/EFREQF-G

表9中示出了在语料库(优选的是互联网语料库)中拼写校正输入文
本中的每个上述2-gram的出现频率与每个上述2-gram的期望的出现频率之
比:

表9

2-GRAMS
FREQ F-G
EFREQ F-G
FREQ F-G/EFREQ F-G
I have
154980000
4118625.7
37.60
have money
390300
187390.8
2.08
money book
3100
20487.9
0.15

可以看出,“moneybook”的FREQF-G比其期望的频率显著地低,因
此FREQF-G/EFREQF-G可以被认为比预定阈值(例如,1)低,所以簇
“moneybook”受到怀疑。

可以看出,包括词“moneybook”的3-gram和4-gram都在互联网语料
库中具有零频率。这也可以是认为“moneybook”受到怀疑的根据。

按照如下优选地执行将怀疑的误用词和具有语法错误的词分到簇中:
将连续或几乎连续的怀疑的误用词分到单个簇中;在它们自身之间具有语
法关系的怀疑的误用词被分到相同的簇。

通过尝试找到包含最大数量的不怀疑的上下文数据的簇,来优选地执
行选择用于校正的簇。优选地,选择具有在其附近的不怀疑的词的最长序
列或多个序列的簇。

现在参照图6C,其是说明了用于识别在拼写、误用词和语法校正输入
文本中具有怀疑的不是最理想的词汇的使用的词汇挑战;将词汇挑战分成
簇,其优选的是不重叠的;选择用于校正的簇。

按照如下优选地执行识别词汇挑战:

对词典进行预处理以便为每个词分配语言丰富性得分,所述每个词指
示了在等级中词的级别,其中,书面语言比口语更优选;其中,在互联网
资源中,例如,文章和图书比聊天和论坛优选,并且其中,较少使用的词
比更常使用的词更优选;

还对词典进行预处理以基于之前预处理步骤和语法规则的结果来消除
不太可能用于词汇增强的候选者;

额外的预处理,其用于指示每个剩余的词、具有比输入词的语言丰富
性得分高的词汇增强的候选者;以及

检查拼写、误用词和语法校正输入文本中的每个词是否作为多个预处
理词典中的剩余词出现,并且识别每个这种词,哪个作为剩余的词出现,
哪个作为用于词汇增强的候选者出现。

将词汇挑战分成簇(所述簇优选的是不重叠的)是可选的并且按照如
下优选地执行:

将连续的词汇挑战分到单个簇中;以及

将具有语法关系的挑战的词分到相同的簇中。

通过尝试找到包含最大数量的非词汇挑战的词的簇来优选地执行选择
用于校正的簇。优选地,选择在其附近的非词汇挑战的词的最长序列或多
个序列。

现在参照图7A,其是说明了用于生成在图2和图3的功能中有用的簇
的备选校正的功能。

如果原始输入词是正确拼写的,那么它被认为是备选词。

如图7A所示,对于簇中的每个词,以如下方式来初始地生成多个备选
校正:

来自字典的多个词,类似于簇中的每个词,都基于以字符串相似度来
表示的、词的书写外观并基于发音或语音相似度来检索。该功能是已知的
并且作为免费软件在互联网上是可用的,例如GNUAspell和
检索和优先词提供了第一多个备选校正。例如,给出的输
入词feezix,基于相似的发音,将从字典检索到词“physics”,尽管它仅具
有一个共同字符,即“i”。基于其字符串的相似度来检索词“felix”,尽管
它并不具有相似的发音。

可以通过使用基于已知的备选使用以及积累的用户输入的规则来生成
额外的备选词。例如,u→you,r→are,Im→Iam。

可以基于语法规则(优选地使用预定义列表)来生成其它备选词。以
下是几个示例:

单数/复数规则:如果输入句子是“leaffallofftreesintheautumn”,那
么生成复数备选词“leaves”。

冠词规则:如果输入文本是“aoldlady”,那么生成备选冠词“an”和
“the”。

介词规则:如果输入文本是“Iaminterestedoffootball”,那么生成备选
介词“in”、“at”、“to”、“on”、“through”等。

动词变形规则:如果输入文本是“Heleavetheroom”,那么生成备选动
词变形“left”、“leaves”、“hadleft”等。

合并词和拆分词规则:如果输入文本是“getalotfitter”,那么生成备选
词“alot”。

如果输入文本是“wehavetowatchout”,那么生成备选词“watch”。

如果输入文本是“domanysittups”,那么生成备选词“situps”。

本发明的优选实施例的特定特征是:使用上下文太阳城集团(例如,CFS以
及更具体地说是feature-gram)来生成备选校正,并且不仅用于存储这种“上
下文的检索”的备选校正。可以从现有的语料库(例如,互联网语料库)
检索经常出现词的组合(例如,CFS以及更具体地说是feature-gram)。

以下示例说明了本发明的该方面:

如果输入句子是:“Thecathaskts”,词“kts”可能与词“kittens”在发
音或书写上不十分相似,由于缺少本发明的该方面,“kittens”可能不是备
选词中的一个。

根据本发明的该方面,通过在通常出现在n-gram“cathas”之后(即,
在查询“cathas*”中发现作为*的所有词)的词的互联网语料库中查找,
来检索以下的备选词:

ninelives;left;fleas;dandruff;kittens;tapeworms;adopted;retractile-claws;
been;urinated;diarrhea;eaten;swallowed;hairballs;gone;alwaysbeen

根据本发明的优选实施例,然后过滤“基于上下文检索的”备选词,
以使得具有与原始词有某种发音或书写相似的基于上下文检索的备选词,
在本发明的示例为“kts”,仅该词保留。在该示例中,检索到具有最相似的
发音和书写的备选词“kittens”。

其中通过外部系统(例如,光学字符识别、语音到文本或机器翻译系
统)自动地生成输入文本,可以直接地从这种系统直接地接收额外的备选
词。通常,在这种系统的操作的过程中生成这种额外备选词。例如,在机
器翻译系统中,可以将外语词汇的备选翻译提供给本系统以作为备选词来
使用。

一旦生成了在簇中的每个词的所有备选词,通过确定各种备选词的所
有可能组合并且随后基于在语料库(优选的是互联网语料库)中的备选词
的出现频率来过滤组合,生成用于整个簇的簇备选词。

以下示例是说明性的:

如果输入簇是“moneybook”,并且用于词“money”的备选词是:

Monday;many;monkey

并且用于词“book”的备选词是:

books;box;back

生成以下的簇备选词:

moneybooks;moneybox;moneyback;Mondaybooks;Mondaybox;
Mondayback;manybooks;manybox;manyback;monkeybooks;
monkeybox;monkeyback;manybook;monkeybook;Mondaybook

现在参照图7B,其是说明了用于生成簇的备选词增强的功能的简化的
流程图,所述功能在图4的功能中有用。

如在图7B中所示,以如下方式来初始地生成多个备选词增强:

如果原始输入词拼写正确,它被认为是备选词。

检索来自词典或其它词汇数据库(例如,在互联网上免费可用的
PrincetonWordNet,其与在簇中的每个词在语言上有关,作为同义词、超集
或子集)的多个词。检索和优先词提供了第一多个备选词增强。

通过使用基于已知的备选词使用以及积累的用户输入的规则来生成额
外的备选词。

本发明的优选实施例的特定特征是:使用上下文太阳城集团(例如,CFS以
及更具体地说是feature-gram)来生成备选词增强,并且不仅用于存储这种
“基于上下文的检索”的备选词增强。可以从现有的语料库(例如,互联
网语料库)检索经常出现词的组合(例如,CFS以及更具体地说是
feature-gram)。

一旦生成了簇中的每个词的所有备选词,通过确定各种词的备选词的
所有可能组合并且基于现有语料库(例如,互联网)中的得到的多个词的
组合的出现频率来过滤组合,生成用于整个簇的备选词。

以下示例是图7B的说明性的功能:

提供了以下输入文本:

itwasnicetomeetyou

由语言数据库(例如,PrincetonWordNet)来生成用于词“nice”的以
下备选词(部分地列出):

pleasant,good,kind,polite,fine,decent,gracious,courteous,
considerate,enjoyable,agreeable,satisfying,delightful,entertaining,amiable,
friendly,elegant,precise,careful,meticulous

通过应用预定的规则来生成用于词“nice”的以下备选词:

cool

例如响应于查询(例如,“itwas*tomeet”),生成用于词“nice”的以
下基于上下文检索的备选词:

great;apleasure;wonderful;lovely;good;impossible;fun;awesome;refreshing;
exciting;agreed;fantastic;decided;inspiring

现在参照图8,其是说明了用于在图2的拼写校正功能中有用的各种备
选词增强的基于上下文和基于词相似性计分的功能的简化的流程图。

如在图8中所示,各种备选词校正的基于上下文和基于词相似性的计
分按照以下大体的阶段进行:

Ⅰ、不基于上下文计分–按照词的书写外观和发音相似性,基于与输
入文本中的簇的相似性来对各种簇备选词计分。

Ⅱ、使用互联网语料库的基于上下文计分–基于提取的上下文特征序
列(CFS)(所述CFS是按照参照图5上文描述来提供的),还对每个各种
簇备选词计分。该计分包括以下子阶段:

ⅡA、在参照图5按照上文描述提取的CFS的情况下,在由图7A的功
能产生的各种备选词簇校正上,优选地使用互联网语料库,来执行出现频
率的分析。

ⅡB、具体地说是基于子阶段ⅡA的出现频率的分析结果来执行各种
CFS选择并且权衡各种CFS。权衡还基于各种CFS的相对固有的重要性。
可以理解,可以对一些CFS给出零权重,因此不选择它们。优选地,对选
择的CFS给出相对的权重。

ⅡC、将出现频率的度量分配到用于在子阶段ⅡB中的每个选择的CFS
的每个备选校正。

ⅡD、具体地说基于子阶段ⅡA的出现频率的分析结果、子阶段ⅡC的
出现频率的度量、子阶段ⅡB的CFS选择和权重来生成备选簇校正的减少
的组。

ⅡE、为了用作参考簇校正,从子阶段ⅡD中的减少的组中选择在阶段
Ⅰ中具有最相似的不基于上下文的相似性得分的簇。

ⅡF、将出现频率的度量分配到用于在阶段ⅡB中的每个选择的CFS的
子阶段ⅡE的参考簇校正。

ⅡG、将比率度量分配到在子阶段ⅡB中的每个选择的CFS,所述比率
度量代表:对于该特征,每个备选校正的出现频率的度量与分配给子阶段
ⅡE的参考簇的出现频率的度量之比。

Ⅲ、基于阶段Ⅰ的结果和阶段Ⅱ的结果来选择最优选的备选簇校正。

Ⅳ、将可信度等级得分分配到最优选的备选簇校正。

下文示出了在阶段Ⅱ-Ⅳ中上文描述的功能的更为详细的描述:

参照子阶段ⅡA,按照图5中上文描述来生成包括要被校正的簇的所有
CFS。消除包含怀疑的错误而不是在输入簇中的错误的CFS。

生成矩阵,其指示了在语料库(优选的是互联网语料库)中,用于每
个CFS的簇的每个备选词校正的出现频率。消除用于出现频率为零的所有
备选校正的所有CFS。消除全部包括在至少具有出现的最低阈值频率的其
它CFS的所有CFS。

以下示例说明了出现频率矩阵的产生:

提供以下输入文本:

Iliktwplayoutsidealot

使用参照图6A上文描述的功能,为了校正选择以下簇:

liktw

使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):

liketo;liketwo;licktwo;lacktwo;lacktrue;liketrue

使用参照图5上文描述的功能,生成以下CFS(部分地列出):

'liktw';'Iliktw';'liktwplay';'Iliktwplay';'liktwplayoutside';'Iliktw
playoutside';'liktwplayoutsidea'

使用参照阶段ⅡA上文描述的功能,为了在CFS的上述列表中的备选
词簇校正的上述列表,生成在表10中所示的互联网语料库中的出现频率矩
阵:

表10


消除用于出现频率为0的所有备选校正的所有CFS。在该示例中,消
除以下feature-gram:

'liktwplayoutsidea'

所以,消除全部包括在至少具有出现的最低阈值频率的其它CFS的所
有CFS:

'liktw';'Iliktw';'liktwplay';'Iliktwplay';'liktwplayoutside'

在该示例中,仅剩余的CFS是feature-gram:

'Iliktwplayoutside'

得到的矩阵按照表11所示出现:

表11


上述示例说明了根据本发明的优选实施例的矩阵的生成。在该示例中,
很明显,“liketo”是优选的备选校正。可以理解,在现实中,选择通常不
是如此简单。因此,在下文示出的其它示例中,提供了用于在备选校正中
做更为困难的选择的功能。

返回考虑子阶段ⅡB,可选地,参照图5按照上文描述的,为每个剩余
的CFS计分。此外,包含在多个词输入的较早的校正迭代中引入的词并且
具有在预定的可信度阈值以下的可信度的CFS是消极有偏置的。

在通常的情况下,类似于在子阶段ⅡC中上文描述的那样,生成标准
化频率矩阵,其指示在互联网语料库中的每个CFS的标准化出现频率。通
过将每个CFS频率除以有关簇备选词的出现频率的函数,通常根据频率矩
阵生成标准化频率矩阵。

标准化用于抵消在各种备选校正的总体普及度中的实质差别的影响。
适合的标准化因子是在不考虑特定CFS的情况下,基于在作为整体的语料
库中各种备选校正的总体出现频率。

以下示例说明了标准化出现频率矩阵的生成:

提供以下输入文本:

footprintsofamysterioushaundsaidtobesixfeettall

使用参照图6A上文描述的功能,为了校正选择以下簇:

haund

使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):

hound;hand;sound

使用参照图5上文描述的功能,生成以下CFS(部分地列出):

'amysterioushaund';'haundsaid'

使用参照本文的阶段ⅡC上文描述的功能,为了在CFS的上述列表中
的备选簇校正的上述列表,生成在表12所示的互联网语料库中的出现频率
和标准化出现频率的矩阵:

表12



可以从上述示例中理解,由于在各种备选校正的总体普及度中的实质
差异,具有最高出现频率的词并非必然具有最高的标准化出现频率。在上
述示例中,“hound”具有最高的标准化出现频率,并且从输入文本的上下
文显然可以看出,“hound”是正确词,而不是在互联网语料库中具有较高
出现频率的“hand”。

本发明的特定特征是,标准化出现频率(其抵消在各种备选校正的总
体普及度中的实质差异)优选地用于在备选校正中的选择。可以理解,出
现频率的其它度量而不是标准化出现频率可以可选地或额外地用作度量。
在出现频率相对低或特别地高的情况下,额外的或可选的度量是有益的。

根据以下的讨论将可以理解,额外的功能通常在各种备选词校正中选
择是有用的。下文描述了这些功能。

在子阶段ⅡD,消除根据以下两种度量的、不优选于另一个备选簇校正
的每个备选簇校正:

ⅰ、具有比其它备选簇校正低的词相似性得分;以及

ⅱ、对于所有CFS,比其它备选簇校正具有较低的出现频率并且还优
选地具有较低的标准化的出现频率。

以下示例说明了按照上文描述的备选校正的消除:

提供了以下输入文本;

Ileavunabighouse

使用参照图6A上文描述的功能,为校正选择以下簇:

leavun

使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):

leavein;livein;lovein

使用参照图5上文描述的功能,生成以下CFS(部分地列出):

'Ileavuna';'leavunabig'

使用参照本文的阶段ⅡC上文描述的功能,为了在CFS的上述列表中
的备选簇校正的上述列表,生成表13所示的互联网语料库中的出现频率和
标准化的出现频率的矩阵:

表13


在该示例中,如在表14中指示了备选簇校正的不基于上下文相似性得
分:

表14


因为“lovein”比“livein”具有较低的相似性得分以及较低的出现频
率和较低的标准化出现频率,所以消除备选簇校正“lovein”。因为“leavein”
的相似性得分比“livein”的得分高,因此在该阶段不消除备选簇校正“leave
in”。

从上述可以理解,阶段ⅡD的功能的操作的结果是减少的频率矩阵并
且优选地也是减少的标准化频率矩阵,所述矩阵指示了出现频率并且优选
地还指示了减少的多个备选校正中的每个的标准化出现频率,每个矩阵具
有用于减少的多个CFS的每个的相似性得分。从以下示例可以看出,对于
所有其它备选簇选择功能,优选地使用备选簇校正的减少的组。

对于在减少的频率矩阵和优选的在减少的标准化频率矩阵中的每个备
选校正,生成最终优先选择度量。可以使用以下备选度量中的一个或多个
来生成用于每个备选校正的最终优先选择得分:

下文使用的术语“频率函数”指代:频率、标准化频率或频率和标准
化频率两者的函数。

A、一种可能的优先选择度量是在减少的矩阵或多个矩阵中的任何CFS
的减少的矩阵或多个矩阵中的每个备选簇校正的最高的出现频率函数。例
如,将按照如下来对各种备选簇校正计分:

提供以下输入文本:

Abigagleinthesky

使用参照图6A上文描述的功能,为了校正选择以下簇:

agle

使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):

ogle;eagle;angel

使用参照图5上文描述的功能,生成以下CFS(部分地列出):

'bigagle';'agleinthesky'

使用参照本文的阶段ⅡC上文描述的功能,为了在CFS的上述列表中
的备选簇校正的上述列表,生成表15所示的互联网语料库中的出现频率和
标准化的出现频率的矩阵:

表15


在该示例中,如在表16中指示了备选簇校正的不基于上下文相似性得
分:

表16



因为'eagle'具有最大出现频率的CFS,所以选择备选词'eagle'。

B、另一个可能的优先选择度量是用于每个备选校正的所有CFS的平
均出现频率函数。例如,将按照如下对各种备选校正计分:

提供以下输入文本:

Awhileagosthelived3dwarfs

使用参照图6A上文描述的功能,为了校正选择以下簇:

sthe

使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):

the;they;she;there

使用参照图5上文描述的功能,生成以下CFS(部分地列出):

'agosthelived';'sthelived3'

使用参照本文的阶段ⅡC上文描述的功能,为了在CFS的上述列表中
的备选簇校正的上述列表,生成表17和18所示的互联网语料库中的出现
频率、标准化出现频率和平均出现频率的矩阵:

表17


表18



应当注意,基于平均出现频率来选择“there”。

在该示例中,如在表19中指示了备选簇校正的不基于上下文相似性得
分:

表19


应当注意,不选择具有最高相似性得分的备选簇校正。

C、其它可能优先选择度量是对于每个CFS的出现频率函数的每个备
选校正的所有CFS的加权和,其中所述每个CFS的出现频率函数是在参照
图5上文描述的功能来计算时,通过乘以该CFS的得分得到的。

D、参照子阶段ⅱE-ⅱG按照上文描述的,通过任意一个或多个,并且
更优选的以及最优选的是,太阳城集团在减少的矩阵或多个矩阵中的备选校正的
所有以下操作,生成特定备选校正/CFS优先选择度量:

ⅰ、选择具有不基于上下文相似性最高的得分的备选簇校正作为参考
簇。

ⅱ、产生修改的矩阵,其中,在每个优先选择矩阵中,在每个feature-gram
中的每个备选校正的出现频率函数由每个备选校正的出现频率函数与参考
簇的出现频率函数之比来代替。

ⅲ、进一步修改在ⅱ中上文描述的类型的修改的矩阵,从而通过用于
减少在比率中的很大差异的计算重要性的比率的函数来代替每个优先选择
度量中的比率。合适的这种函数是对数函数。该操作的目的是不强调在最
优选的备选校正的最终优先选择得分中的出现频率中的很大差异的重要
性,而是维持在最终优先选择计分中的出现频率中的很大差异,因此消除
最不优选的备选校正。

ⅳ、通过将合适的比率或在每个优先选择度量中的比率的函数乘以合
适的CFS得分,来额外地修改在ⅱ或ⅲ中上文描述的类型的修改的矩阵。
这提供了基于正确语法使用和在CFS得分中反映的其它因素的强调。

ⅴ、通过生成合适的比率的函数、比率的函数、出现频率和标准化的
出现频率,来额外地修改在ⅱ、ⅲ或ⅳ中上文描述的类型的修改的矩阵。
通过将合适的比率或在每个优先选择度量中的比率的函数乘以该CFS的出
现频率,来生成优选的函数。

E、通过将备选校正的相似性得分乘以用于该备选校正的所有CFS的特
定备选校正/CFS优先选择度量的和,基于在D中上文描述的特定备选校正
/CFS优先选择度量,计算用于每个备选校正的最终优先选择度量。

说明了这种修改的矩阵的使用的示例如下:

提供以下输入文本:

Iwillbeabletotachbasewithyounextweek

使用参照图6A上文描述的功能,为了校正选择以下簇:

tach

使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):

teach;touch

使用参照图5上文描述的功能,生成以下CFS(部分地列出):

'agototach';'totachbase'

使用参照上述子阶段ⅡA和ⅡC上文描述的功能,为了在CFS的上述
列表中的备选簇校正的上述列表,生成表20所示的互联网语料库中的出现
频率和标准化的出现频率的矩阵:

表20



应当注意,对于一个特征,“teach”的出现频率和标准化出现频率两者
都比“touch”的出现频率和标准化出现频率高,但是对于另一个特征,
“touch”的出现频率和标准化出现频率两者都比“teach”的出现频率和标
准化出现频率高。为了做出备选校正的正确选择,按照下文描述,优选地
使用参照子阶段ⅡG上文描述的比率度量。

在该示例中,如在表21中指示了备选簇校正的不基于上下文相似性得
分:

表21


可以看出,因为“teach”具有最高相似性得分,所以参考簇是“teach”。
尽管如此,基于上文描述的最终优先选择得分,还是选择“touch”。这不是
直觉,因为可以根据上述矩阵的考虑来理解,其中,所述矩阵指示了“teach”
具有最高的出现频率和最高的标准化出现频率。在该示例中,因为用于其
中有利于“touch”的特征的出现频率的比率远高于用于其中有利于“teach”
的特征的出现频率的比率。

F、可选地,使用以下决定规则中的一个或多个,基于用于该备选校正
和用于参考簇的频率函数值和优先选择度量的比较,可以滤除备选校正:

1、滤除具有低于预定阈值的相似性得分并且具有CFS频率函数(所述
CFS频率函数比用于指示一个特征的参考簇的CFS频率函数低,其中,所
述至少一个特征具有比预定阈值高的CFS得分)的备选校正。

2、滤除具有低于预定阈值的相似性得分并且具有优先选择度量(所述
优先选择度量比用于至少一个特征的预定阈值低,其中,所述特征具有比
另一个预定阈值高的CFS得分)的备选校正。

3、a、确定每个CFS的CFS得分;

b、对于每个CFS,确定用于参考簇和用于备选校正的CFS频率函
数,由此确定参考簇或备选校正是否具有用于该CFS的较高频率函数;

c、对备选校正具有比参考簇较高的频率的CFS的CFS得分进行求
和;

d、对参考簇具有比备选校正较高的频率的CFS的CFS得分进行求
和;以及

e、如果c中的和比d中的和低,那么滤除备选校正。

以下示例说明了过滤上面描述的过滤功能。

提供了以下输入文本:

Iamfaellingenlove

使用参照图6A上文描述的功能,为了校正选择以下簇:

faellingen

使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):

fallingon;fallingin;feelingon;feelingin

使用参照图5上文描述的功能,生成以下CFS(部分地列出):

'amfaellingen';'faellingenlove';'amfaellingenlove';'Iamfaellingen'

使用参照本文子阶段ⅡA上文描述的功能,为了在CFS的上述列表中
的备选簇校正的上述列表,生成表22所示的互联网语料库中的出现频率的
矩阵:

表22


消除全部包括在至少具有出现的最低阈值频率的其它CFS的所有
CFS。例如,消除以下feature-gram:

'amfaellingen';'faellingenlove'

在该示例中,剩余的CFS是feature-gram:

'amfaellingenlove';'Iamfaellingen'

在该示例中,如在表23中指示了备选簇校正的不基于上下文相似性得
分:

表23


滤除备选校正“fallingon”、“feelingon”和“feelingin”,因为对于CFS
中的一个,它们的出现频率为0。

G、参照阶段Ⅲ按照上文所讨论的,基于在A-E上文描述开发的最终优
先选择度量,对在F中过滤后留下的备选校正建立排序。

H、如参照阶段Ⅳ上文讨论的,将可信度分配给选择的备选校正。基于
以下参数中的一个或多个来计算该可信度:

a、按照在上述子阶段ⅡB中提供的选择的CFS的数量、类型和得分;

b、在CFS的情况下,各种备选簇连接的出现频率的统计显著性;

c、基于每个CFS的优先选择度量和各种备选校正的词相似性得分,同
意备选校正的选择的程度;

d、在预定最低阈值以上的选择的备选簇连接的不基于上下文的相似性
得分(阶段Ⅰ)。

e、上下文数据可用的程度,由在减少的矩阵中的CFS的数量来指示,
其中,所述矩阵具有在预定最小阈值以上的CFS得分并且比另一个预定阈
值具有优先选择的得分。

如果可信度在预定的阈值以上,那么在没有用户交互的情况下实现选
择的备选校正。如果可信度在预定的阈值以下但是在较低预定的阈值以上,
那么实现选择的备选校正,但是引发了用户交互。如果可信度在较低的预
定阈值以下,那么引发基于备选校正的优选的列表的用户选择。

以下示例是可信度得分的说明性使用:

提供以下输入文本:

Hewasnotfeelingwehlwhenhereturned

使用参照图6A上文描述的功能,为了校正选择以下簇:

wehl

使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):

wale;well

使用参照图5上文描述的功能,生成以下CFS(部分地列出):

'wasnotfeelingwehl';'notfeelingwehlwhen';'feelingwehlwhenhe';
'wehlwhenhereturned'

使用参照本文子阶段ⅡA上文描述的功能,为了在CFS的上述列表中
的备选簇校正的上述列表,生成表24所示的互联网语料库中的出现频率的
矩阵:

表24


上述示例说明:根据在上述H中阐述的所有标准,选择'well'而不是
'wale',因为'well'具有高的可信度。

在以下示例中,可信度有些低,这是由于以下事实:备选校正'back'具
有比在CFS'bechinthesummer'中的'beach'较高的出现频率,但是'beach'具有
比在CFS'onthebeechin'和'thebechinthe'较高的出现频率。基于标准H(c),
选择带有中间可信度的备选校正'beach'。

提供以下输入文本:

Iliketoworkonthebechinthesummer

使用参照图6A上文描述的功能,为了校正选择以下簇:

bech

使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):

beach;beech;back

使用参照图5上文描述的功能,生成以下CFS(部分地列出):

'onthebechin';'thebechinthe';'bechinthesummer'

使用参照子阶段ⅡA上文描述的功能,为了在CFS的上述列表中的备
选簇校正的上述列表,生成表25所示的互联网语料库中的出现频率的矩阵:

表25


基于标准H(c),选择带有中间可信度的备选校正'beach'。

在以下示例中,基于标准H(a),可信度更低:

接收以下输入文本:

ExartsarerestoringtheBritishMuseum'sroundreadingroom

使用参照图6A上文描述的功能,为了校正选择以下簇:

Exarts

使用参照图7A上文描述的功能,生成以下备选词簇校正(部分地列
出):

Experts;Exerts;Exits

使用参照图5上文描述的功能,生成以下CFS(部分地列出):

'Exartsare';'Exartsarerestoring';'Exartsarerestoringthe;'Exartsare
restoringtheBritish'

使用参照子阶段ⅡA上文描述的功能,为了在CFS的上述列表中的备
选簇校正的上述列表,生成表26所示的互联网语料库中的出现频率的矩阵:

表26



消除出现频率为零的所有备选校正的所有CFS。在该示例中,消除以
下feature-gram:

'Exartsarerestoring';'Exartsarerestoringthe';'Exartsarerestoringthe
British'

在该示例中,仅剩余的CFS是feature-gram:

'Exartsare'

从上述示例看出,在过滤过程中存留的CFS是“exartare”。因此,可
信度相当低,因为选择仅基于单个CFS,其相对地短并且除了怀疑的词之
外仅包括一个词,所述词是经常出现的词。

现在参照图9,其是说明了在图3、10和11的误用词和预防校正功能
中有用的并且也在图4的词汇增强功能中有用的各种备选词校正的基于上
下文和词的基于相似性得分的功能的简化的流程图。

如图9所示,各种备选词校正的基于上下文和词的基于相似性得分在
以下大体的阶段中进行:

Ⅰ、不基于上下文计分–按照词的书写外观和发音相似性,基于与输
入文本中的簇的相似性来对各种簇备选词计分。

Ⅱ、使用互联网语料库的基于上下文计分–基于提取的上下文特征序
列(CFS)(所述CFS是按照参照图5上文描述来提供的),还对每个各种
簇备选词计分。该计分包括以下子阶段:

ⅡA、在参照图5按照上文描述提取的CFS的情况下,在由图7A或
7B的功能产生的各种备选词簇校正上,优选地使用互联网语料库,来执行
出现频率的分析。

ⅡB、具体地说是基于子阶段ⅡA的出现频率的分析结果来执行各种
CFS选择并且权衡各种CFS。权衡还基于各种CFS的相对固有的重要性。
可以理解,可以对一些CFS给出零权重,因此不选择它们。优选地,对选
择的CFS给出相对的权重。

ⅡC、将出现频率的度量分配到用于在子阶段ⅡB中的每个选择的CFS
的每个备选校正。

ⅡD、具体地说基于子阶段ⅡA的出现频率的分析结果、子阶段ⅡC的
出现频率的度量、子阶段ⅡB的CFS选择和权重来生成备选簇校正的减少
的组。

ⅡE、选择输入簇作为参考簇校正来使用。

ⅡF、将出现频率的度量分配到用于在阶段ⅡB中的每个选择的CFS的
子阶段ⅡE的参考簇校正。

ⅡG、将比率度量分配到在子阶段ⅡB中的每个选择的CFS,所述比率
度量代表:对于该特征,每个备选校正的出现频率的度量与分配给子阶段
ⅡB的参考簇的出现频率的度量之比。

Ⅲ、基于阶段Ⅰ的结果和阶段Ⅱ的结果来选择最优选的备选簇校正。
Ⅳ、将可信度等级得分分配到最优选的备选簇校正。

Ⅳ、将可信度等级得分分配到最优选的备选簇校正。

下文示出了在阶段Ⅱ-Ⅳ中上文描述的功能的更为详细的描述:

参照子阶段ⅡA,按照图5中上文描述来生成包括要被校正的簇的所有
CFS。消除包含怀疑的错误而不是在输入簇中的错误的CFS。

生成矩阵,其指示了在语料库(优选的是互联网语料库)中,用于每
个CFS的簇的每个备选词校正的出现频率。消除用于出现频率为零的所有
备选校正的所有CFS。消除全部包括在至少具有出现的最低阈值频率的其
它CFS的所有CFS。

以下示例说明了出现频率矩阵的产生:

提供以下输入文本:

Ilicktwoplayoutsidealot

使用参照图6B上文描述的功能,为了校正选择以下簇:

licktwo

使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):

liketo;liketwo;licktwo;lacktwo;lacktrue;liketrue

使用参照图5上文描述的功能,生成以下CFS(部分地列出):

‘licktwo’;‘Ilicktwo’;‘licktwoplay’;‘Ilicktwoplay’;‘licktwoplay
outside’;‘Ilicktwoplayoutside’;‘licktwoplayoutsidea’

使用参照阶段ⅡA上文描述的功能,为了在CFS的上述列表中的备选
词簇校正的上述列表,生成在表27中所示的互联网语料库中的出现频率矩
阵:

表27


消除用于出现频率为0的所有备选校正的所有CFS。在该示例中,消
除以下feature-gram:

‘licktwoplayoutsidea'

所以,消除全部包括在至少具有出现的最低阈值频率的其它CFS的所
有CFS:

‘licktwo';‘Ilicktwo';‘licktwoplay';‘Ilicktwoplay';‘licktwoplayoutside'

在该示例中,仅剩余的CFS是feature-gram:

‘Ilicktwoplayoutside'

得到的矩阵按照表28所示出现:

表28



上述示例说明了根据本发明的优选实施例的矩阵的生成。在该示例中,
很明显,“liketo”是优选的备选校正。可以理解,在现实中,选择通常不
是如此简单。因此,在下文示出的其它示例中,提供了用于在备选校正中
做更为困难的选择的功能。

返回考虑子阶段ⅡB,可选地,参照图5按照上文描述的,为每个剩余
的CFS计分。此外,包含在多个词输入的较早的校正迭代中引入的词并且
具有在预定的可信度阈值以下的可信度的CFS是消极有偏置的。

在通常的情况下,类似于在子阶段ⅡC中上文描述的那样,生成标准
化频率矩阵,其指示在互联网语料库中的每个CFS的标准化出现频率。通
过将每个CFS频率除以有关簇备选词的出现频率的函数,通常根据频率矩
阵生成标准化频率矩阵。

标准化用于抵消在各种备选校正的总体普及度中的实质差别的影响。
适合的标准化因子是在不考虑特定CFS的情况下,基于在作为整体的语料
库中各种备选校正的总体出现频率。

以下示例说明了标准化出现频率矩阵的生成:

提供以下输入文本:

footprintsofamysterious[hound/hand]saidtobesixfeettall

使用参照图6B上文描述的功能,为了校正选择以下簇:

hound

使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):

hound;hand;sound

使用参照图5上文描述的功能,生成以下CFS(部分地列出):

'amysterioushound';'houndsaid'

使用参照本文的阶段ⅡC上文描述的功能,为了在CFS的上述列表中
的备选簇校正的上述列表,生成在表29所示的互联网语料库中的出现频率
和标准化出现频率的矩阵:

表29



可以从上述示例中理解,由于在各种备选校正的总体普及度中的实质
差异,具有最高出现频率的词并非必然具有最高的标准化出现频率。在上
述示例中,“hound”具有最高的标准化出现频率,并且从输入文本的上下
文显然可以看出,“hound”是正确词,而不是在互联网语料库中具有较高
出现频率的“hand”。

本发明的特定特征是,标准化频率(其抵消在各种备选校正的总体普
及度中的实质差异)优选地用于在备选校正中的选择。可以理解,出现频
率的其它度量而不是标准化出现频率可以可选地或额外地用作度量。在出
现频率相对低或特别地高的情况下,额外的或可选的度量是有益的。

根据以下的讨论将可以理解,额外的功能通常在各种备选词校正中选
择是有用的。下文描述了这些功能。

在子阶段ⅡD,消除根据以下两种度量的、不优选于另一个备选簇校正
的每个备选簇校正:

ⅰ、具有比其它备选簇校正低的词相似性得分;以及

ⅱ、对于所有CFS,比其它备选簇校正具有较低的出现频率并且还优
选地具有较低的标准化的出现频率。

以下示例说明了按照上文描述的备选校正的消除:

提供了以下输入文本;

Ileaveonabighouse

使用参照图6B上文描述的功能,为校正选择以下簇:

leaveon

使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):

leavein;livein;lovein;leaveon

使用参照图5上文描述的功能,生成以下CFS(部分地列出):

'Ileaveona';'leaveonabig'

使用参照本文的阶段ⅡE上文描述的功能,为了在CFS的上述列表中
的备选簇校正的上述列表,生成表30所示的互联网语料库中的出现频率和
标准化的出现频率的矩阵:

表30


在该示例中,如在表31中指示了备选簇校正的不基于上下文相似性得
分:

表31


因为“lovein”比“livein”具有较低的相似性得分以及较低的出现频
率和较低的标准化出现频率,所以消除备选簇校正“lovein”。因为“leavein”
的相似性得分比“livein”的得分高,因此在该阶段不消除备选簇校正“leave
in”。

从上述可以理解,阶段ⅡD的功能的操作的结果是减少的频率矩阵并
且优选地也是减少的标准化频率矩阵,所述矩阵指示了出现频率并且优选
地还指示了减少的多个备选校正中的每个的标准化出现频率,每个矩阵具
有用于减少的多个CFS的每个的相似性得分。从以下示例可以看出,对于
所有其它备选簇选择功能,优选地使用备选簇校正的减少的组。

对于在减少的频率矩阵和优选的在减少的标准化频率矩阵中的每个备
选校正,生成最终优先选择度量。可以使用以下备选度量中的一个或多个
来生成用于每个备选校正的最终优先选择得分:

下文使用的术语“频率函数”指代:频率、标准化频率或频率和标准
化频率两者的函数。

A、一种可能的优先选择度量是在减少的矩阵或多个矩阵中的任何CFS
的减少的矩阵或多个矩阵中的每个备选簇校正的最高的出现频率函数。例
如,将按照如下来对各种备选簇校正计分:

提供以下输入文本:

Iamvarysatisfiedwithyourwork

使用参照图6B上文描述的功能,为了校正选择以下簇:

vary

使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):

vary;very

使用参照图5上文描述的功能,生成以下CFS(部分地列出):

'amvary';'varysatisfied';'Iamvarysatisfiedwith'

使用参照本文的阶段ⅡC上文描述的功能,为了在CFS的上述列表中
的备选簇校正的上述列表,生成表32和33所示的互联网语料库中的出现
频率和标准化的出现频率的矩阵:

表32


表33



可以看出,在该示例中,根据出现频率和标准化出现频率两者,“very”
具有最高出现频率函数。

B、另一个可能的优先选择度量是用于每个备选校正的所有CFS的平
均出现频率函数。例如,将按照如下对各种备选校正计分:

提供以下输入文本:

Awhileagothelived3dwarfs

使用参照图6B上文描述的功能,为了校正选择以下簇:

the

使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):

the;they;she;there

使用参照图5上文描述的功能,生成以下CFS(部分地列出):

'agosthelived';'sthelived3'

使用参照本文的阶段ⅡC上文描述的功能,为了在CFS的上述列表中
的备选簇校正的上述列表,生成表34和35所示的互联网语料库中的出现
频率、标准化出现频率和平均出现频率的矩阵:

表34


表35



应当注意,尽管“there”具有其在矩阵中最大的出现频率的CFS,但
是基于平均出现频率来选择“they”。

在该示例中,如在表36中指示了备选簇校正的不基于上下文相似性得
分:

表36


应当注意,不选择具有最高相似性得分的备选簇校正。

C、其它可能优先选择度量是对于每个CFS的出现频率函数的每个备
选校正的所有CFS的加权和,其中所述每个CFS的出现频率函数是在参照
图5上文描述的功能来计算时,通过乘以该CFS的得分得到的。

D、参照子阶段ⅡE-ⅡG按照上文描述的,通过任意一个或多个,并且
更优选的以及最优选的是,太阳城集团在减少的矩阵或多个矩阵中的备选校正的
所有以下操作,生成特定备选校正/CFS优先选择度量:

ⅰ、选择来自被旋转用于校正的原始输入文本的簇作为参考簇。

ⅱ、产生修改的矩阵,其中,在每个优先选择矩阵中,在每个feature-gram
中的每个备选校正的出现频率函数由每个备选校正的出现频率函数与参考
簇的出现频率函数之比来代替。

ⅲ、进一步修改在ⅱ中上文描述的类型的修改的矩阵,从而通过用于
减少在比率中的很大差异的计算重要性的比率的函数来代替每个优先选择
度量中的比率。合适的这种函数是对数函数。该操作的目的是不强调在最
优选的备选校正的最终优先选择得分中的出现频率中的很大差异的重要
性,而是维持在最终优先选择计分中的出现频率中的很大差异,因此消除
最不优选的备选校正。

ⅳ、通过将合适的比率或在每个优先选择度量中的比率的函数乘以合
适的CFS得分,来额外地修改在ⅱ或ⅲ中上文描述的类型的修改的矩阵。
这提供了基于正确语法使用和在CFS得分中反映的其它因素的强调。

ⅴ、通过将每个优先选择矩阵中的合适的比率或比率的函数乘以用户
不确定度量的函数,来额外地修改在ⅱ、ⅲ或ⅳ中上文描述的类型的修改
的矩阵。用户输入不确定度量的一些示例包括:与在词处理器中执行的输
入词或簇有关的编辑操作的数量,与文档的其它词有关的编辑操作;在词
处理器中执行的输入词或簇的写入的时序,与文档的其它词的写入的有关
太阳城集团以及在语音识别输入功能中执行的输入词或簇的说的时序,与该用户
说的其它词有关的太阳城集团。用户输入不确定度度量提供了某用户如何选择该
词的指示。该步骤得到参考簇的计算偏值并且由太阳城集团该簇的用户的确定度
或不确定度的函数来修改。

ⅵ、通过生成合适的比率的函数、比率的函数、出现频率和标准化的
出现频率,来额外地修改在ⅱ、ⅲ或ⅳ中上文描述的类型的修改的矩阵。
通过将合适的比率或在每个优先选择度量中的比率的函数乘以该CFS的出
现频率,来生成优选的函数。

E、通过将备选校正的相似性得分乘以用于该备选校正的所有CFS的特
定备选校正/CFS优先选择度量的和,基于在D中上文描述的特定备选校正
/CFS优先选择度量,计算用于每个备选校正的最终优先选择度量。

说明了这种修改的矩阵的使用的示例如下:

提供以下输入文本:

Iwillbeabletoteachbasewithyounextweek

使用参照图6B上文描述的功能,为了校正选择以下簇:

teach

使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):

teach;touch

使用参照图5上文描述的功能,生成以下CFS(部分地列出):

'agototach';'totachbase'

使用参照上述子阶段ⅡA和ⅡC上文描述的功能,为了在CFS的上述
列表中的备选簇校正的上述列表,生成表37所示的互联网语料库中的出现
频率和标准化的出现频率的矩阵:

表37


应当注意,对于一个特征,“teach”的出现频率和标准化出现频率两者
都比“touch”的出现频率和标准化出现频率高,但是对于另一个特征,
“touch”的出现频率和标准化出现频率两者都比“teach”的出现频率和标
准化出现频率高。为了做出备选校正的正确选择,按照下文描述,优选地
使用参照子阶段ⅡG上文描述的比率度量。

在该示例中,如在表38中指示了备选簇校正的不基于上下文相似性得
分:

表38


可以看出,因为“teach”具有最高相似性得分,所以参考簇是“teach”。
尽管如此,基于上文描述的最终优先选择得分,还是选择“touch”。这不是
直觉,因为可以根据上述矩阵的考虑来理解,其中,所述矩阵指示了“teach”
具有最高的出现频率和最高的标准化出现频率。在该示例中,因为用于其
中有利于“touch”的特征的出现频率的比率远高于用于其中有利于“teach”
的特征的出现频率的比率。

F、可选地,使用以下决定规则中的一个或多个,基于用于该备选校正
和用于参考簇的频率函数值和优先选择度量的比较,可以滤除备选校正:

1、滤除具有低于预定阈值的相似性得分并且具有CFS频率函数(所述
CFS频率函数比用于指示一个特征的参考簇的CFS频率函数低,其中,所
述至少一个特征具有比预定阈值高的CFS得分)的备选校正。

2、滤除具有低于预定阈值的相似性得分并且具有优先选择度量(所述
优先选择度量比用于至少一个特征的预定阈值低,其中,所述特征具有比
另一个预定阈值高的CFS得分)的备选校正。

3、a、确定每个CFS的CFS得分;

b、对于每个CFS,确定用于参考簇和用于备选校正的CFS频率函
数,由此确定参考簇或备选校正是否具有用于该CFS的较高频率函数;

c、对备选校正具有比参考簇较高的频率的CFS的CFS得分进行求
和;

d、对参考簇具有比备选校正较高的频率的CFS的CFS得分进行求
和;以及

e、如果c中的和比d中的和低,那么滤除备选校正。

以下示例说明了过滤上面描述的过滤功能。

提供了以下输入文本,通常是由语音识别功能输入:

Iwant[two/to/too]item,please

使用参照图6B上文描述的功能,为了校正选择以下簇:

[two/to/too]

使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):

too;to;two

使用参照图5上文描述的功能,生成以下CFS(部分地列出):

'Iwanttwo';'wanttwoitems'

使用参照本文子阶段ⅡA上文描述的功能,为了在CFS的上述列表中
的备选簇校正的上述列表,生成表39所示的互联网语料库中的出现频率的
矩阵:

表39


尽管“to”具有一个CFS的最高出现频率,但是因为它对另一个CFS
来说出现频率为零,所以滤除备选词校正“too”和“to”。

G、参照阶段Ⅲ按照上文所讨论的,基于在A-E上文描述开发的最终优
先选择度量,对在F中过滤后留下的备选校正建立排序。

H、如参照阶段Ⅳ上文讨论的,将可信度分配给选择的备选校正。基于
以下参数中的一个或多个来计算该可信度:

a、按照在上述子阶段ⅡB中提供的选择的CFS的数量、类型和得分;

b、在CFS的情况下,各种备选簇连接的出现频率的统计显著性;

c、基于每个CFS的优先选择度量和各种备选校正的词相似性得分,同
意备选校正的选择的程度;

d、在预定最低阈值以上的选择的备选簇连接的不基于上下文的相似性
得分(阶段Ⅰ)。

e、上下文数据可用的程度,由在减少的矩阵中的CFS的数量来指示,
其中,所述矩阵具有在预定最小阈值以上的CFS得分并且比另一个预定阈
值具有优先选择的得分。

如果可信度在预定的阈值以上,那么在没有用户交互的情况下实现选
择的备选校正。如果可信度在预定的阈值以下但是在较低预定的阈值以上,
那么实现选择的备选校正,但是引发了用户交互。如果可信度在较低的预
定阈值以下,那么引发基于备选校正的优选的列表的用户选择。

以下示例是可信度得分的说明性使用:

提供以下输入文本:

Hewasnotfeelingwalewhenhereturned

使用参照图6B上文描述的功能,为了校正选择以下簇:

wale

使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):

wale;well

使用参照图5上文描述的功能,生成以下CFS(部分地列出):

'wasnotfeelingwale';'notfeelingwalewhen';'feelingwalewhenhe';'wale
whenhereturned'

使用参照本文子阶段ⅡA上文描述的功能,为了在CFS的上述列表中
的备选簇校正的上述列表,生成表40所示的互联网语料库中的出现频率的
矩阵:

表40


上述示例说明:根据在上述H中阐述的所有标准,选择'well'而不是
'wale',因为'well'具有高的可信度。

在以下示例中,可信度有些低,这是由于以下事实:备选校正'back'具
有比在CFS'bechinthesummer'中的'beach'较高的出现频率,但是'beach'具有
比在CFS'onthebeechin'和'thebechinthe'较高的出现频率。基于标准H(c),
选择带有中间可信度的备选校正'beach'。

提供以下输入文本:

Iliketoworkonthebeechinthesummer

使用参照图6B上文描述的功能,为了校正选择以下簇:

beech

使用参照图7A上文描述的功能,生成以下备选簇校正(部分地列出):

beach;beech;back

使用参照图5上文描述的功能,生成以下CFS(部分地列出):

'onthebeechin';'thebeechinthe';'beechinthesummer'

使用参照子阶段ⅡA上文描述的功能,为了在CFS的上述列表中的备
选簇校正的上述列表,生成表41所示的互联网语料库中的出现频率的矩阵:

表41


基于标准H(c),选择带有中间可信度的备选校正'beach'。

在以下示例中,基于标准H(a),可信度更低:

接收以下输入文本:

ExartsarerestoringtheBritishMuseum'sroundreadingroom

使用参照图6B上文描述的功能,为了校正选择以下簇:

Exarts

使用参照图7A上文描述的功能,生成以下备选词簇校正(部分地列
出):

Experts;Exerts;Exits

使用参照图5上文描述的功能,生成以下CFS(部分地列出):

'Exartsare';'Exartsarerestoring';'Exartsarerestoringthe;'Exartsare
restoringtheBritish'

使用参照子阶段ⅡA上文描述的功能,为了在CFS的上述列表中的备
选簇校正的上述列表,生成表42所示的互联网语料库中的出现频率的矩阵:

表42


消除出现频率为零的所有备选校正的所有CFS。在该示例中,消除以
下feature-gram:

'Exartsarerestoring';'Exartsarerestoringthe';'Exartsarerestoringthe
British'

在该示例中,仅剩余的CFS是feature-gram:

'Exartsare'

从上述示例看出,在过滤过程中存留的CFS是“Exartare”。因此,可
信度相当低,因为选择仅基于单个CFS,其相对地短并且除了怀疑的词之
外仅包括一个词,所述词是经常出现的词。

以下示例说明了在上述阶段D和E中描述的最终优先选择得分度量的
使用。

提供了一些输入文本:

Somekidsdon'tdoanysportandsitarounddoingnothingandgettingfast
soyouwillburnsomecaloriesandgetalotfitterifyouexercise.

使用参照图6B上文描述的功能,为了校正选择以下簇:

fast

使用参照图7A上文描述的功能,生成以下备选词簇校正(部分地列
出):

fat;fast

使用参照图5上文描述的功能,生成以下CFS(部分地列出):

'andgettingfast';'gettingfastso';'fastsoyou';'fastsoyouwill'

使用参照本文的子阶段ⅡA上文描述的功能,为了在CFS的上述列表
中的备选簇校正的上述列表,生成表43所示的互联网语料库中的出现频率
的矩阵:

表43



在该示例中,在表44中指示了备选簇校正的不基于上下文得分:

表44


使用在上述阶段D和E中描述的最终优先选择得分度量,选择带有低
可信度的备选词校正“fat”。

现在参照图10,其是说明了丢失项目校正功能的操作的详细的流程图。
丢失项目校正功能用于校正丢失的冠词、介词、标点和在输入文本中主要
是语法功能的其它项目。该功能优选地对从图1的拼写校正功能输出的拼
写校正输入文本进行操作。

以如下方式优选地执行怀疑的丢失项目的识别:

初始,生成用于拼写校正输入文本的feature-gram。确定在语料库(优
选地是互联网语料库)中拼写校正输入中的每个feature-gram的出现频率
(FREQF-G)。

按照如下来计算每个feature-gram的期望的出现频率(EFREQF-G):

假定feature-gram包含n个词,被识别为W1-Wn。

Wi代表feature-gram中的第i个词。

给定的feature-gram的期望的出现频率被认为是基于feature-gram中的
词分配到随后的词W1…W(n-1)的每个的两个连续的部分的该feature-gram的
最高期望的频率。

按照如下可以表示基于feature-gram中的词分配到随后的词Wi的两个
连续的部分的feature-gram的期望的频率:

太阳城集团Wi的EFREQF-G=(FREQ(W1-Wi)*FREQ(Wi+1-Wn))/(互
联网语料库中的所有词的总频率)

计算基于feature-gram中的词分配到两个连续的部分的所有可能的每
个feature-gram的期望的频率。

如果太阳城集团Wi的FREQF-G/EFREQF-G比预定的阈值低,那么从以下方
面来说:在该feature-gram中,在Wi与Wi+1之间有丢失的冠词、介词或标
点,认为太阳城集团Wi的feature-gram是怀疑的。

优选地通过尝试找到由最大量的不怀疑的上下文数据所包围的词的联
结点,为了校正选择在拼写校正输入文本中的两个连续词之间的怀疑词联
结点。优选地,选择在其附近具有不怀疑的词的联结点的最长序列或多个
序列。

优选地基于可能丢失的标点、冠词、介词、连词或其它项目(其通常
不包括名词、动词或形容词)的预定义的组,为每个词联结点生成一个或
优选地多个备选词插入。

优选地基于参照图9和下文、上文描述的校正备选词计分算法,来提
供各种备选词插入的至少部分地基于上下文和词的基于相似性得分。

以下示例是说明性的:

提供以下输入文本:

Ican'treadpleasehelpme

使用参照图5上文描述的功能,生成以下CFS(部分地列出):

Ican'tread;can'treadplease;readpleasehelp;pleasehelpme

使用参照上文描述的功能,为了通常像表45那样出现的feature-gram
的上述列表,生成在互联网语料库中的出现频率的矩阵:

表45

FEATURE-GRAM
出现的频率
I can’t read
5600
can’t read please
0
read please help
55
please help me
441185

根据以下表示,为了太阳城集团feature-gram中的每个词Wi的每个
feature-gram,计算期望的出现频率:

太阳城集团Wi的EFREQF-G=(FREQ(W1-Wi)*FREQ(Wi+1-Wn))/(互
联网语料库中的所有词的总频率)

在表46和47中可以看出一些这些计算的示例性的结果:

表46


表47

FEATURE-GRAM
出现的频率
read
157996585
please help
1391300

从上述结果可以看出,每个feature-gram的实际出现频率比其期望的出
现频率低。这指示了怀疑缺少了项目,例如标点。

生成在词“read”之后的备选插入的列表。该列表优选地包括标点、冠
词、连词和介词的预定的列表。具体地说,它将包括句号“.”。

备选的部分列表是:

'readplease';'read.Please';'readofplease';'readaplease'

使用参照图5上文描述的功能,生成以下CFS:

'Ican'tread[?]';'read[?]pleasehelp';,[?]pleasehelpme'

使用在图9的阶段ⅡA中描述的功能,为了CFS的上述列表中备选词
簇校正的上述列表,生成表48中所示的互联网语料库中的出现频率的矩阵:

当“.”包括在簇中时,对于在'.'之前和之后的文本分别地检索包括带有
'.'的簇。即,feature-gram“can’tread.Please”将不生成,因为它包括两个分
离的语法分析短语。

表48


*当计算在语料库中词的出现频率时,从feature-gram的开始忽略了'.'。
例如,“.Pleasehelpme”的频率等于“Pleasehelpme”的频率。

使用在图9的阶段D和E中描述的功能,最终优先选择度量选择备选
校正“read.Please”并且校正的输入文本是:

Ican'tread.Pleasehelpme

以下示例说明了增加丢失的介词的功能。

提供以下输入文本:

Isitthesofa

使用下文描述的功能,为了校正选择以下簇:

'sitthe'

使用上文描述的功能,生成以下备选簇校正(部分地列出):

sitonthe;sitofthe;sitthe

使用参考图5上文描述的功能,生成以下CFS:

'Isitthe';'sitthesofa'

使用参照图9在子阶段ⅡA中描述的功能,为了在CFS的上述列表中
的备选簇校正的上述列表,生成表49所示的互联网语料库中的出现频率的
矩阵:

表49


使用在图9的阶段ⅡD和ⅡE中描述的功能,最终优先选择度量选择备
选校正“sitonthe”并且校正输入文本是:

Isitonthesofa.

现在参照图11,其是说明了冗余项目校正功能的操作的详细的流程图。
冗余项目校正功能用于校正冗余的冠词、介词、标点和在输入文本中主要
具有语法功能的其它项目。该功能优选地对从图1的拼写校正功能输出的
拼写校正输入文本进行操作。

可以理解,图11的功能可以与图10的功能组合或者可选地与图10的
功能并行地执行、在其操作之前或之后执行。

以如下方式优选地执行怀疑的冗余项目的识别:

执行太阳城集团拼写校正输入文本的搜索以识别属于可能的冗余标点、冠词、
介词、连词的预定义的组的项目和其它项目(所述其它项目通常不包括名
词、动词或形容词)。

对于每个这种项目,为了误用词和语法校正、包含这种项目的拼写校
正输入文本的所有部分,生成feature-gram。计算每个这种feature-gram和
其中项目被忽略的对应的feature-gram的出现频率。

如果其中项目被忽略的feature-gram的出现频率超过其中项目出现的
对应的feature-gram的出现频率,那么项目被认为是怀疑的。

优选地通过尝试找到由最长的不怀疑的上下文数据包围的项目,来选
择用于校正的在误用词和语法校正、拼写校正输入文本中的怀疑的项。优
选地,选择具有在其附近具有最长的不怀疑的词的序列或多个序列的项目。

为每个怀疑的项目生成可能的项目删除。优选地基于参照图9和下文、
上文描述的校正备选得分算法,来提供各种备选词的至少部分的基于上下
文和词的基于相似性得分,即,项目的删除或项目的不删除。

以下示例是说明性的。

提供以下输入文本:

Itisanice,thingtowear.

搜索输入文本来识别属于普通的冗余项目(例如,标点、介词、连词
和冠词)的预定的列表的任意项目。

在该示例中,逗号“,”被识别为属于这种列表。

使用参照图5上文描述的功能,生成包括逗号“,”的、在表50所示的
feature-gram并且还生成没有逗号的相同的feature-gram(部分地列出):

表50

带有逗号的FEATURE-GRAM
没有逗号的FEATURE-GRAM
is a nice,thing
is a nice thing
a nice,thing to
a nice thing to
nice,thing to wear
nice thing to wear

使用上文描述的功能,为了通常如表51所示出现的feature-gram的上
述列表,生成互联网语料库中的出现频率的矩阵:

表51


如上述矩阵中所示,忽略“,”的feature-gram的出现频率超过出现“,”
的对应的feature-gram的出现频率。因此,“,”被怀疑是冗余的。

基于保留逗号和忽略逗号的以下备选词的基于上下文的得分,考虑逗
号的可能的删除:

'nice,';'nice'

使用参照图5上文描述的功能,生成以下CFS(部分地列出):

'anice,';'nice,thing';'isanice,';'anice,thing';'nice,thingto'

使用参照图9上文描述的功能,为了在CFS的上述列表中的备选簇校
正的上述列表,生成表52所示的互联网语料库中的出现频率的矩阵:

表52


消除全部包括在至少具有出现的最低阈值频率的其它CFS的所有
CFS。例如,消除以下feature-gram:

'anice,';'nice,thing'

在该示例中,剩余的CFS是feature-gram:

'isanice,';'anice,thing';'nice,thingto'

使用在上述图9的阶段D和E中描述的最终优先选择得分,来选择没
有逗号的备选校正“nice”。在逗号删除后的输入文本是:

Itisanicethingtowear

以下示例说明了删除冗余冠词的功能。

提供以下输入文本:

Weshouldprovidethemafoodandwater

使用参照图11上文描述的功能,为了校正选择以下簇:

afood

使用参照图11上文描述的功能,生成以下备选簇校正(部分地列出):

afood;food

使用参照图5上文描述的功能,生成以下CFS(部分地列出):

'providethemafood';'themafoodand';'afoodandwater'

使用参照本文子阶段ⅡA上文描述的功能,为了在CFS的上述列表中
的备选簇校正的上述列表,生成表53所示的互联网语料库中的出现频率的
矩阵:

表53


使用在图9中描述的计分功能,最终优先选择度量选择备选校正“food”
并且校正输入文本是:

Weshouldprovidethemfoodandwater.

本领域的技术人员应当理解,本发明并不限于特定地示出并且在上文
描述的内容。而是,本发明的范围包括本领域的技术人员在阅读上述内容
时想到的并且不在现有技术范围内的、上文描述和示出的各种特征的组合
和子组合以及其修改。

关 键 词:
使用 互联网 语料库 自动 上下文 相关 语言 校正 增强
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
太阳城集团本文
本文标题:使用互联网语料库的自动的上下文相关的语言校正和增强.pdf
链接地址:http://zh228.com/p-6401543.html
太阳城集团我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
葡京赌场|welcome document.write ('');