太阳城集团

  • / 12
  • 下载费用:30 金币  

查询特征和问题.pdf

摘要
申请专利号:

CN201380076223.X

申请日:

2013.03.29

公开号:

太阳城集团CN105164676A

公开日:

2015.12.16

当前法律状态:

撤回

有效性:

无权

法律详情: 发明专利申请公布后的视为撤回 IPC(主分类):G06F 17/30申请公布日:20151216|||专利申请权的转移IPC(主分类):G06F 17/30登记生效日:20180612变更事项:申请人变更前权利人:惠普发展公司,有限责任合伙企业变更后权利人:安提特软件有限责任公司变更事项:地址变更前权利人:美国德克萨斯州变更后权利人:美国加利福尼亚州|||实质审查的生效IPC(主分类):G06F 17/30申请日:20130329|||公开
IPC分类号: G06F17/30 主分类号: G06F17/30
申请人: 惠普发展公司,有限责任合伙企业
发明人: 王磊; 潘晔; 陈世民; 方慧; 冯世聪
地址: 美国德克萨斯州
优先权:
专利代理机构: 北京德琦知识产权代理有限公司11018 代理人: 严芬; 康泉
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

太阳城集团CN201380076223.X

授权太阳城集团号:

|||||||||

法律状态太阳城集团日:

太阳城集团2019.01.11|||2018.06.29|||2016.01.13|||2015.12.16

法律状态类型:

发明专利申请公布后的视为撤回|||专利申请权、专利权的转移|||实质审查的生效|||公开

摘要

太阳城集团本文公开了用于检测查询中的问题的技术。确定查询是否包括实质性具体问题。在一个示例中,与当前查询相关的过去查询用于验证查询是否包括实质性具体问题。在另一个示例中,查询建议用于验证查询是否包括实质性具体问题。

权利要求书

权利要求书
1.  一种系统,包括:
第一分类器,所述第一分类器如果被执行,则指令至少一个处理器:至少部分基于当前查询是否包括预定义特征,来确定所述当前查询是否包括实质性具体问题;
第二分类器,所述第二分类器如果被执行,则指令至少一个处理器:至少部分基于与所述当前查询相关的过去查询的分析,来验证所述当前查询是否包括所述实质性具体问题的确定;以及
第三分类器,所述第三分类器如果被执行,则指令至少一个处理器:至少部分基于所述当前查询的由搜索引擎生成的查询建议的分析,来验证所述当前查询是否包括所述实质性具体问题的所述确定。

2.  根据权利要求1所述的系统,其中所述预定义特征包括:句法特征、语义特征、或言语模式特征。

3.  根据权利要求1所述的系统,其中所述相关的过去查询具有与所述当前查询共同的至少一个词。

4.  根据权利要求3所述的系统,其中如果所述确定指示所述当前查询不包括所述实质性具体问题,则所述第二分类器如果被执行,就指令至少一个处理器:
聚集相关的过去查询的簇,使得所述簇中的每个查询的目的与所述当前查询的目的实质上相似;
分析所述簇中的查询的特征;以及
如果所述特征指示所述簇中的预定数量的查询不包括之前的实质性具体问题,则承认所述当前查询不包括所述实质性具体问题。

5.  根据权利要求1所述的系统,其中如果所述确定指示所述当前查询包括所述实质性具体问题,则所述第三分类器如果被执行,就指令至少一个处理器:
忽视与所述当前查询实质上不同的查询建议,以生成其余查询建议;以及
如果其余查询建议的数量在预定阈值内,则承认所述当前查询包括所述实质性具体问题。

6.  一种非暂时性计算机可读介质,在所述介质中具有指令,所述指令如果被执行,则促使处理器来:
分析当前查询的特征,以确定所述当前查询是否包括实质性具体问题;
确定与所述当前查询相关的过去查询是否包括之前的实质性具体问题,以验证所述当前查询不包括所述实质性具体问题的发现;以及
分析所述当前查询的由搜索引擎生成的查询建议,以验证所述当前查询包括所述实质性具体问题的发现。

7.  根据权利要求6所述的非暂时性计算机可读介质,其中所述介质中的所述指令如果被执行,则进一步指令至少一个处理器来:将所述当前查询的特征与包括句法特征、语义特征以及言语模式特征的预定义特征相比较。

8.  根据权利要求6所述的非暂时性计算机可读介质,其中所述相关的过去查询具有与所述当前查询共同的至少一个词。

9.  根据权利要求8所述的非暂时性计算机可读介质,其中所述介质中的所述指令如果被执行,则进一步指令至少一个处理器来:
聚集相关的过去查询的簇,使得所述簇中的每个查询的目的与所述当前查询的目的实质上相似;
分析所述簇中的查询的特征;以及
如果所述簇中的特征指示所述簇中的预定数量的查询不包括所述之前的实质性具体问题,则确认所述当前查询不包括所述实质性具体问题的所述发现。

10.  根据权利要求6所述的非暂时性计算机可读介质,其中所述介质中的所述指令如果被执行,则进一步指令至少一个处理器来:
忽视与所述当前查询实质上不同的查询建议,以生成其余查询建议;以及
如果其余查询建议的数量在预定阈值内,则确认所述当前查询包括所述实质性具体问题的所述发现。

11.  一种方法,包括:
使用至少一个处理器,来确定当前查询是否具有指示所述当前查询包括实质性具体问题的特征;
如果确定指示所述当前查询不包括所述实质性具体问题,则使用至少一个处理器至少部分基于与所述当前查询相关的之前查询的特征来验证所述确定;以及
如果所述确定指示所述当前查询包括所述实质性具体问题,则使用至少一个处理器至少部分基于所述当前查询的由搜索引擎生成的查询建议的分析来验证所述确定。

12.  根据权利要求11所述的方法,其中指示所述当前查询包括所述实质性具体问题的所述特征包括句法特征、语义特征、或言语模式特征。

13.  根据权利要求11所述的方法,其中所述相关的之前查询具有与所述当前查询共同的至少一个词。

14.  根据权利要求13所述的方法,进一步包括:
使用至少一个处理器,来聚集相关的过去查询的簇,使得所述簇中的每个查询的 目的与所述当前查询的目的实质上相似;
使用至少一个处理器来分析所述簇中的查询的特征;以及
如果所述查询中的特征指示所述簇中的预定数量的查询不包括之前的实质性具体问题,则使用至少一个处理器来确认所述当前查询不包括所述实质性具体问题。

15.  根据权利要求11所述的方法,进一步包括:
使用至少一个处理器来忽视与所述当前查询实质上不同的查询建议,以生成其余查询建议;以及
如果其余查询建议的数量在预定阈值内,则使用至少一个处理器确认所述当前查询包括所述实质性具体问题。

说明书

说明书查询特征和问题
背景技术
用户针对各种类型的太阳城集团查询搜索引擎。搜索引擎可基于最匹配那些查询的词语,提供排序的站点列表。搜索引擎的有效性取决于返回页面的相关性。虽然可能存在包括特定的词或短语的数以百万计的页面,某些可能比其他的更相关、更受欢迎或更可信。
附图说明
图1是根据本公开各方面的示例系统的框图。
图2是根据本公开各方面的示例方法的流程图。
图3是根据本公开各方面的示例特征的列表。
图4是图示根据本公开各方面的支持向量机的使用的示例二维图。
图5是根据本公开各方面的示例方法的另一流程图。
具体实施方式
如上所述,用户针对各种类型的太阳城集团查询搜索引擎。一些查询可能寻找太阳城集团主题的一般太阳城集团,而其他可能是具体问题。处理具体问题的一个方法是使用垂直搜索服务,例如问答搜索、产品搜索、或工作搜索。这些服务可提供太阳城集团特定主题的实质性具体问题的答案。例如,基于社区的问答系统(“CQA”)站点允许用户在其中提交问题,且允许其他订阅者提供那些问题的答案。久而久之,CQA站点可能积累了可由用户搜索的大量问答集合。因此,为了获得他们的具体问题的答案,用户可能需要找出这些垂直搜索站点,并且在其中提交或找出他们的问题。虽然传统的搜索引擎可以尝试将问题中的词语与某些网页(例如,其索引的数据库中包含的网页)中的那些词语相匹配,这些页面可能不包括相关的垂直搜索页面。此外,即便搜索引擎知道相关的垂直搜索页面,搜索引擎可能将其排序在结果列表中较低的位置。
有鉴于前述的,本文公开了一种系统、非暂时性计算机可读介质、以及方法,用于确定查询是否包括实质性具体问题。在一个示例中,此确定可至少部分基于 查询的特征。在另一个示例中,与当前查询相关的过去查询可用于验证该查询不包括实质性具体问题的发现。在又另一个示例中,查询建议可用于验证该查询包括实质性具体问题的发现。在另一方面,实质性具体问题可定义为满足以下两个条件的短语:第一,可通过在短语的开始加入疑问词(例如,“who(谁)”、“what(什么)”、“where(哪里)”、“how(如何)”、“(when)何时”、或“why(为什么)”),该短语可转化为相关问题;第二,该短语充分突出重点,使得答案没有明显不同(例如,“Historyoftheworld(世界历史)”将具有不同的结果)。
本文公开的技术可准确预测当前查询是否包括实质性具体问题。因此,可使搜索引擎以相关的垂直搜索页面为目标,并在返回给用户的结果中将这些页面排序更高,而不是基于词语的相似性排序页面。当参照示例的下列描述和附图进行考虑时,本公开的各方面、特征和优点将被理解。下列描述不限制应用,相反地,本公开的范围由所附权利要求及其等同物限定。
图1提供了用于执行本文公开的技术的例示性计算机装置100的示意图。计算机装置100可包括常与计算机结合使用的所有组件。例如,其可具有键盘和鼠标和/或各种其他类型的输入设备以及显示器,输入设备例如:笔输入、操纵杆、按钮、触摸屏等等,显示器可包括例如:CRT、LCD、等离子体屏幕监视器、TV、投影仪等等。计算机装置100还可包括网络接口(未示出),用于通过网络与其他设备通信。计算机装置100还可包含处理器110,处理器110可为任意数量的已知处理器,例如,公司的处理器。在另一个示例中,处理器110可为专用集成电路(“ASIC”)。非暂时性计算机可读介质(“CRM”)112可存储可由处理器110获取并执行的指令。在一个示例中,指令可包括第一分类器114、第二分类器116、以及第三分类器118。非暂时性CRM112可由任何指令执行系统使用,或与任何指令执行系统相连,该指令执行系统能够从非暂时性CRM112获取或获得逻辑,并执行在非暂时性CRM112中包含的指令。
非暂时性计算机可读介质可包括许多物理介质中的任一种,例如电子、磁性、光学、电磁、或半导体介质。合适的非暂时性计算机可读介质的更多具体示例包括但不限于:便携式磁性计算机磁盘,例如软盘或硬盘、只读存储器(“ROM”)、可擦除可编程只读存储器、便携式光盘、或可直接或间接联接至计算机装置100的其他存储设备。可替代地,非暂时性CRM112可为随机存取存储器(“RAM”)设备、或者可分成被组织为双列直插式存储模块(DIMM)的多个存储段。非暂时性CRM112还可包括前述的一个或多个的任意组合和/或其他设备。虽然图1中仅 示出一个处理器和一个非暂时性CRM,计算机装置100实际上可包括可存储或可不存储在同一物理外壳或位置中的其他处理器和存储器。
驻留在非暂时性CRM112中的指令可包括将由处理器110直接执行的任意指令集(例如,机器代码)或将由处理器间接执行的指令集(例如,脚本)。在这点上,术语“指令”、“脚本”、以及“应用程序”在本文中可互换使用。计算机可执行指令可以以任何计算机语言或格式,例如对象代码或源代码的模块,来存储。此外,理解到,指令可以以硬件、软件、或硬件和软件的组合的形式来实现,且本文的示例仅为例示性的。
如在下面将更详细讨论的,第一分类器114可指示处理器110至少部分基于当前查询是否包括预定的特征,来确定当前查询是否包括实质性具体问题。第二分类器116可指示处理器110至少部分基于对与当前查询相关的过去查询的分析,来验证太阳城集团当前查询是否包括实质性具体问题的确定。在另一个示例中,第三分类器118可指示处理器110至少部分基于对当前查询的搜索引擎所生成的查询建议的分析,来验证太阳城集团当前查询是否包括实质性具体问题的确定。
图2至图5中示出系统、方法以及非暂时性计算机可读介质的工作示例。具体地,图2图示出用于确定查询是否包括实质性具体问题的示例方法200的流程图。图3是可用于确定查询是否包括实质性具体问题的预定特征的示例。图4是根据本公开各方面的使用支持向量机的查询分析的工作示例。下面将结合图2的流程图讨论图3至图4中示出的动作。图5是用于验证查询是否包括实质性具体问题的示例方法500的另一流程图。
如图2的框202中示出的,第一分类器114可确定当前查询是否包括实质性具体问题。这样的确定可基于查询是否包括指示实质性具体问题的预定义特征。如将在下面进一步解释的,第一分类器114可包括二元分类器。这样的分类器可使用训练查询的预定义特征,来确定新查询是包括还是不包括实质性具体问题。该特征可在第一分类器114的执行之前被检测,且可以是被提供作为其输入的训练查询的部分。
现在将讨论特征生成的概况。在一个示例中,查询特征可从文本检索会议(“TREC”)和美国在线(“AOL”)所生成的查询日志中提取。即使不是数百万个查询在某一太阳城集团段被编辑,这些日志也可包含数千个查询。在一个实现方式中,一组研究人员可在视觉上确定来自日志的查询样本是否包含实质性具体问题。在视觉确定完成之后,研究人员可提取在视觉上被确定为包括实质性具体问题的查询的特征。如将在下面结合图3更详细解释的,这些特征可在自动化工具的帮 助下提取。除了下面讨论的特征提取示例外,其他示例可使用降维算法,例如,核主成分分析、多线性主成分分析等等。
在一个示例中,交叉验证可用于确定哪个提取的特征最表示实质性具体问题。交叉验证是一种用于估计预测模型的准确性的统计技术。如上所述,研究人员可视觉上确定哪些查询包括实质性具体问题,且可使用自动化工具提取这些查询的特征。交叉验证过滤掉在有限数据集的情况中似乎重要,但通常无关紧要的特征。因此,交叉验证防止研究人员通常基于有限的数据集接受特征是高度指示的。一轮交叉验证可能涉及将数据样本分成互补子集。一个子集可用作训练集,且另一个子集可用于验证训练集的分析。可使用不同的分区实施多轮交叉验证,且可平均多轮的验证结果。在一个示例中,日志中1500个查询中的800个可留出作为训练集,而700个查询可留出作为验证集。
图3图示出基于对TREC2009百万查询轨迹以及AOL搜索查询日志(此后称“日志”)的分析被认为表示实质性具体问题的十二个示例查询特征。如上所述,这些特征可用作确定未来查询是否包括实质性具体问题的基础。但是,理解到,不同的查询日志可产生不同的结果,且图3中示出的特征仅为例示性的。相关的查询特征可随着查询趋势变化而随太阳城集团改变。
如图3中示出的,句法特征302可与查询中的多个词关联。在一个示例中,在视觉上从日志检测到包括实质性具体问题的样本查询之后,一组研究人员可使用特设的(ad-hoc)自动化工具(例如,Perl脚本、Java应用,等)获得这些查询的词长度。在一个示例中,这些查询的交叉验证指示在实质性具体问题与查询中的多个词之间的强相关性。具体地,分析显示具有大概6或7个词的查询可被视为包括实质性具体问题。
句法特征304与查询中的具体词相关联。例如,句法特征304的一方面是查询的第一个词是否以疑问词(例如,“where(哪里)”、“what(什么)”、“which(哪个/些)”、“when(何时)”、“who(谁)”、或“how(如何)”)开始。句法特征304的另一方面可与查询中的助动词关联(例如,“do”、“shall(应该)”、“should(应该)”等)。句法特征304可基于疑问词和助动词是重要特征的假设。在一个示例中,交叉验证确认这些特征高度指示实质性具体问题。
语义特征306可与查询中的暗示词相关联。对日志的分析指示某些词和实质性具体问题之间的相关性。具体地,像“照片”、“优惠券”、“网站”、以及“原因”这样的词暗示包含这些词中的一个的查询可被认为包括实质性具体问题。在一个示例中,一组研究人员可跟踪他们在视觉上认为包括实质性具体问题的样 本查询中发现的特定词的频率。这些词可在ad-hoc自动化工具的帮助下被跟踪。语义特征306可基于包含这些频繁出现的词的交叉验证查询。
言语模式(“POS”)特征308、310、312、314、316、318、320、322和324为基于对记录的分析指示实质性具体问题的言语模式。POS特征可使用自动化词性标注工具(例如,斯坦福大学自然语言处理组制作的那些)从日志中提取。这样的工具可将查询中的词与表示特定词性的标记关联起来。分配给词的标记可基于其定义及其语境(即,其与查询中的相邻的以及相关的词的关系)。在一个示例中,包括POS特征的查询可从日志中提取,且可被交叉验证。在又一个示例中,这些查询的交叉验证暗示图3中示出的POS特征指示实质性具体问题。在图3的示例言语模式中,“V”表示动词;“A”表示形容词;“D”表示“一”或“该”;“P”表示介词;且“+”是不适合任意分类的其他词的填充符。在此示例中,如果在查询中检测到这些POS特征中的一个,查询可被视为包括实质性具体问题。
如上所述,当前查询中实质性具体问题的检测可被建模为二元分类问题。在一个示例中,第一分类器114可包括支持向量机(“SVM”)算法。SVM算法是可用于基于训练示例集将新数据分类成两类中的一类(例如,包括实质性具体问题或不包括实质性具体问题)的二元分类器。但是,理解到,可使用其他算法,例如但不限于:朴素贝叶斯或神经网络。在一个示例中,SVM算法可具有训练查询集,且其中的每个查询可被手动标注为包括或不包括实质性具体问题。此外,提交到SVM过程的每个训练查询可伴随着关联的向量,且向量中的每个值可对应于所检测的特征中的一个。SVM算法可将这些特征绘制到n维空间中,使得n等于所检测的特征的数量。由于已将向量标注为包括或不包括实质性具体问题,SVM算法可将不同模式的向量值与两个分类中的一个关联。通过示例的方式,在查询分析期间仅检测到两个特征:查询中词的数量、以及查询是否以疑问词开始。因此,“restaurantsinshanghai(上海的饭店)”的训练查询可用向量<3,0>表示,其中3是查询中词的数量,且0表示该查询不是以疑问词开始。SVM算法可将此向量绘制到二维空间中。在又一个示例中,如果检测到图3中示出的十二个特征,SVM算法可将对应于那些特征的训练查询绘制到12维空间中。
为了易于图示,图4图示出根据两个特征的由SVM算法生成的示例二维图。簇410中的点可表示包括实质性具体问题的查询,且簇408中的点可表示不包括实质性具体问题的查询。SVM算法可识别将这两类查询分开的边界。此边界可称作决策边界。因此,SVM算法的一个目标是确定在所有可能的线中最表示这两类或两簇查询之间的边界的线。在三维或更多维空间中,此边界是超平面。在这样 的示例中,点412和点414表示支持向量。这些支持向量是其对应簇中被放置为靠近相对簇的最边缘的点。每个簇的边缘边界由线404和406表示。SVM算法可计算这两条边缘线之间的中点,以描绘这两类之间的边界。在这样的示例中,线402是这两簇之间的边界。
在SVM算法被训练之后,其可用于分类新查询。接收新查询时,SVM算法可基于新查询的特征以及从训练查询学习的特征,确定在边界(例如,线402)的哪边绘制新查询。随着分布因太阳城集团而变化,SVM算法可确定应定义新边界。如上所述,SVM算法的一个目标是确定最表示这两类或两簇查询之间的边界的线。SVM算法可计算与向量机正切的两条边缘线之间的中点。当接收并绘制新查询时,可能出现新支持向量。新支持向量的出现可使SVM算法检测并描绘新的决策边界。
返回参照图2,如果确定当前查询不包括实质性具体问题,第二分类器116可使用相关的查询验证此确定,如框204中示出的。在一个示例中,如果第一分类器114确定查询不包括该问题,该确定可利用与用户输入的过去查询相关的日志来验证。随着用户尝试改写查询,这些过去的查询可包含当前查询的略微改变。在另一个示例中,相关的查询可被定义为具有与当前查询共同的至少一个词的查询。现在参照图5,示出示例方法的流程图,以对查询不包括实质性具体问题的发现进行验证。如框502中示出的,可集合相关查询的簇。簇中的相关查询可具有与当前查询或新接收的查询类似的目的。可忽略具有与当前查询不同目的的相关查询。可使用分层聚类执行具有类似目的的相关查询的聚类,该分层聚类测量一对查询之间的相似度。测量一对查询之间的相似度的指标可例如为余弦相似度函数、欧氏距离函数,等。
如框504中示出的,可分析簇中的查询的特征。在一个示例中,分析可为簇中的每个查询的SVM分析。在框506,可确定簇中预定数量的查询是否不包括实质性具体问题。如果不包括,可确认SVM算法对当前查询不包括该问题的发现,如框508中示出的。否则,可撤销该发现。在一个示例中,值1可分配给包括实质性具体问题的簇中的每个相关的查询,并且值-1可分配给不包括实质性具体问题的簇中的每个查询。此外,新进入的查询或当前查询还可分配同样的值(例如,1用于包括,且-1用于不包括)。可增加这些值,使得如果所分配的值之和小于或等于阈值,例如零,则可承认或确认SVM算法对当前查询不包括实质性具体问题的发现。通过示例的方式,如果当前查询c被视为不包括实质性具体问题,则查询c被分配值-1。簇可包括具有匹配目的q1、q2和q3的三个相关的查询。为了确认查询c不包括实质性具体问题,簇中的至少一个查询应不包括实质性具体问题 (即,c+q1+q2+q3=-1+1+1+-1=0)。如果值之和大于零,则可撤销SVM算法的发现,且当前查询可被视为包括实质性具体问题。
返回参照图2,如果确定当前查询包括实质性具体问题,则第三分类器118可使用查询建议来验证此确定,如框206中示出的。当前查询可提交至领先的商业搜索引擎,以从其获得查询建议。由于搜索引擎通常维护由用户提交的查询的准确日志,因此这基于搜索引擎能够提供非常准确的建议的假设。但是,一些查询建议仍可实质上与当前查询不同。可忽略这些实质上不同的查询建议。在一个示例中,满足下列公式的查询建议可被视为实质上不同:
sim(s,q)/min{size(s),size(q)}<0.3
在上面的公式中,s是当前查询或所接收的查询,且q是查询建议。函数sim可为计算s和q之间的相似词的数量的函数。函数size(大小)可为返回查询中的词的数量的函数。可过滤掉满足上述公式的查询建议。
可统计其余查询,以确定其余查询建议的数量是否在阈值内。在一个示例中,阈值大致为3。因此,如果存在小于3个其余查询,可确认当前查询包括实质性具体问题的确定。否则,可撤销该确定。这基于具有太多查询建议的查询不可能包括实质性具体问题的假设。
有利地,前述系统、方法和非暂时性计算机可读介质预测查询是否包括实质性具体问题并验证此预测。在这方面,搜索引擎可直接以相关的垂直搜索页面为目标,并将它们排序更高,而不是将问题中的词与可能不相关的网页中的词作比较。反过来,用户更可能接收其问题的直接答案,而不用搜索互联网具体的垂直搜索站点。
太阳城集团尽管已参照具体示例描述了本文中的公开,但应理解,这些示例仅为公开的原理的例示。因此应理解,可对示例作出许多修改,且可设计其他的设置,而不脱离所附权利要求限定的本公开的精神和范围。此外,虽然在附图中以特定顺序示出具体过程,但这样的过程不受限于具体的顺序,除非在本文中清楚陈述了这样的顺序;当然,可以不同的顺序或同时实施各过程,且可增加或省略步骤。

关 键 词:
查询 特征 问题
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
太阳城集团本文
本文标题:查询特征和问题.pdf
链接地址:http://zh228.com/p-6409746.html
太阳城集团我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
葡京赌场|welcome document.write ('');