太阳城集团

  • / 20
  • 下载费用:30 金币  

一种文档主题生成方法和装置.pdf

摘要
申请专利号:

太阳城集团CN201611089622.1

申请日:

2016.11.30

公开号:

CN106776547A

公开日:

2017.05.31

当前法律状态:

实审

有效性:

审中

法律详情: 实质审查的生效IPC(主分类):G06F 17/27申请日:20161130|||公开
IPC分类号: G06F17/27 主分类号: G06F17/27
申请人: 北京先进数通太阳城集团技术股份公司
发明人: 董从娇; 龚珊珊; 滕一勤
地址: 100089 北京市海淀区车道沟1号滨河大厦D座六层
优先权:
专利代理机构: 北京润泽恒知识产权代理有限公司 11319 代理人: 苏培华
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

CN201611089622.1

授权太阳城集团号:

|||

法律状态太阳城集团日:

2017.06.23|||2017.05.31

法律状态类型:

实质审查的生效|||公开

摘要

太阳城集团本发明实施例提供了一种文档主题生成方法和装置。所述方法包括:对文档集合的文档进行分词并提取出词语,统计表征所有提取的词语中两两之间的语义相关性的词间关系数据,统计表征每个词语在每个文档中的重要性的词语文档关系数据,迭代更新所述文档主题关系数据、词语主题关系数据和调整因子达到设定结束条件,以迭代更新得到的词语主题关系数据生成文档集合的文档主题。由此本发明使得最后生成的词语主题关系数据由词语文档关系数据和词间关系数据共同约束,实现了文档主题生成过程兼顾词语之间的语义关系,提高了文档主题生成的准确性。

权利要求书

1.一种文档主题生成方法,其特征在于,包括:
对文档集合的文档进行分词并提取出词语;
统计表征所有提取的词语中两两之间的语义相关性的词间关系数据;
统计表征每个词语在每个文档中的重要性的词语文档关系数据;
随机生成表征各个文档对于各预设主题的相关性的文档主题关系数据,以及表征各个
词语对于各所述主题的相关性的词语主题关系数据;
根据所述词语主题关系数据和词间关系数据生成调整因子;
依据所述文档主题关系数据、词语主题关系数据和词语文档关系数据的关系,以及词
语主题关系数据、调整因子和词间关系数据的关系,迭代更新所述文档主题关系数据、词语
主题关系数据和调整因子达到设定结束条件,以使在确定词语文档关系数据和词间关系数
据的情况下同时生成文档主题关系数据、词语主题关系数据和调整因子的目标概率达到设
定要求;
以迭代更新得到的词语主题关系数据生成文档集合的文档主题。
2.根据权利要求1所述的方法,其特征在于,所述迭代更新所述文档主题关系数据、词
语主题关系数据和调整因子达到设定结束条件,以使在确定词语文档关系数据和词间关系
数据的情况下同时生成文档主题关系数据、词语主题关系数据和调整因子的目标概率达到
设定要求包括:
在第N+1次迭代中,根据最新的文档主题关系数据、词语主题关系数据和调整因子,生
成所述词语主题关系数据在本次迭代中的第一调整值,并以所述第一调整值和设定的学习
速率常数更新所述词语主题关系数据;
在第N+1次迭代中,根据最新的文档主题关系数据和词语主题关系数据,生成所述文档
主题关系数据在本次迭代中的第二调整值,并以所述第二调整值和设定的学习速率常数更
新所述文档主题关系数据;
在第N+1次迭代中,根据最新的词语主题关系数据和调整因子,生成所述调整因子在本
次迭代中的第三调整值,并以所述第三调整值和设定的学习速率常数更新所述调整因子;
直至达到所述设定结束条件结束迭代更新,使得所述目标概率达到设定要求。
3.根据权利要求1所述的方法,其特征在于,所述对文档集合的文档进行分词并提取出
词语包括:
对所述文档集合的文档进行分词;
提取出排除了设定的不需要的词语的剩余词语。
4.根据权利要求3所述的方法,其特征在于,所述设定的不需要的词语包括设定的停用
词、识别的没有实际意义的词语。
5.根据权利要求1所述的方法,其特征在于,所述统计表征所有提取的词语中两两之间
的语义相关性的词间关系数据包括:
根据语义相关性将所有提取的词语转换为词向量;
对所有提取的词语对应的词向量两两之间进行相似度计算,得到所述词间关系数据。
6.根据权利要求1所述的方法,其特征在于,所述统计表征每个词语在每个文档中的重
要性的词语文档关系数据包括:
计算每个词语在每个文档中的出现频率,以及总文件数目除以包含该词语的文件的数
目的商的对数;
对于每个词语将所述出现频率和对应的对数相乘得到表征每个词语在每个文档中的
重要性的词语文档关系数据。
7.根据权利要求1所述的方法,其特征在于,在所述随机生成表征每个文档对于各设定
主题的相关性的文档主题关系数据,以及表征各个词语对于所述主题的相关性的词语主题
关系数据之前,所述方法还包括:
对所述词语文档关系数据进行归一化处理,得到归一化处理后的所述词语文档关系数
据。
8.一种文档主题生成装置,其特征在于,包括:
文档分词模块,用于对文档集合的文档进行分词并提取出词语;
词间关系数据统计模块,用于统计表征所有提取的词语中两两之间的语义相关性的词
间关系数据;
词语文档关系数据统计模块,用于统计表征每个词语在每个文档中的重要性的词语文
档关系数据;
数据随机生成模块,用于随机生成表征各个文档对于各预设主题的相关性的文档主题
关系数据,以及表征各个词语对于各所述主题的相关性的词语主题关系数据;
调整因子生成模块,用于根据所述词语主题关系数据和词间关系数据生成调整因子;
迭代更新模块,用于依据所述文档主题关系数据、词语主题关系数据和词语文档关系
数据的关系,以及词语主题关系数据、调整因子和词间关系数据的关系,迭代更新所述文档
主题关系数据、词语主题关系数据和调整因子达到设定结束条件,以使在确定词语文档关
系数据和词间关系数据的情况下同时生成文档主题关系数据、词语主题关系数据和调整因
子的目标概率达到设定要求;
文档主题生成模块,用于以迭代更新得到的词语主题关系数据生成文档集合的文档主
题。
9.根据权利要求8所述的装置,其特征在于,所述迭代更新模块包括:
词语主题关系数据更新子模块,用于在第N+1次迭代中,根据最新的文档主题关系数
据、词语主题关系数据和调整因子,生成所述词语主题关系数据在本次迭代中的第一调整
值,并以所述第一调整值和设定的学习速率常数更新所述词语主题关系数据;
文档主题关系数据更新子模块,用于在第N+1次迭代中,根据最新的文档主题关系数据
和词语主题关系数据,生成所述文档主题关系数据在本次迭代中的第二调整值,并以所述
第二调整值和设定的学习速率常数更新所述文档主题关系数据;
调整更新子模块,用于在第N+1次迭代中,根据最新的词语主题关系数据和调整因子,
生成所述调整因子在本次迭代中的第三调整值,并以所述第三调整值和设定的学习速率常
数更新所述调整因子;
迭代结束子模块,直至达到所述设定结束条件结束迭代更新,使得所述目标概率达到
设定要求。
10.根据权利要求8所述的装置,其特征在于,所述文档分词模块包括:
文档分词子模块,用于对所述文档集合的文档进行分词;
词语提取子模块,用于提取出排除了设定的不需要的词语的剩余词语。
11.根据权利要求10所述的装置,其特征在于,所述设定的不需要的词语包括设定的停
用词、识别的没有实际意义的词语。
12.根据权利要求8所述的装置,其特征在于,所述词间关系数据统计模块包括:
词向量转换子模块,用于根据语义相关性将所有提取的词语转换为词向量;
相似度计算子模块,用于对所有提取的词语对应的词向量两两之间进行相似度计算,
得到所述词间关系数据。
13.根据权利要求8所述的装置,其特征在于,所述词语文档关系数据统计模块包括:
对数计算子模块,用于计算每个词语在每个文档中的出现频率,以及总文件数目除以
包含该词语的文件的数目的商的对数;
词语文档关系数据计算子模块,用于对于每个词语将所述出现频率和对应的对数相乘
得到表征每个词语在每个文档中的重要性的词语文档关系数据。
14.根据权利要求8所述的装置,其特征在于,所述装置还包括:
词语文档关系数据归一化模块,用于在所述随机生成表征每个文档对于各设定主题的
相关性的文档主题关系数据,以及表征各个词语对于所述主题的相关性的词语主题关系数
据之前,对所述词语文档关系数据进行归一化处理,得到归一化处理后的所述词语文档关
系数据。

说明书

一种文档主题生成方法和装置

技术领域

本发明涉及文本分析领域,特别是涉及一种文档主题生成方法和装置。

背景技术

在文本分析领域,想快速知道文档所描述的重点内容,这就需要利用到主题模型
技术。给定一系列文档,通过对文档进行分词,计算各个文档中每个单词的词频就可以得到
各个文档中各个词语出现的概率。主题模型就是通过对各个文档中各个词语出现的概率的
数据进行训练,学习出各个主题中各个词语出现的概率的数据和各个文档中各个主题出现
的概率的数据。

传统主题模型构建过程中因忽略词语与词语之间的语义相关性而导致生成大量
无意义的主题。原因是在多篇文档中,拥有相同的词语,但不同的词语组合将表达不同的意
思。

发明内容

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上
述问题的一种文档主题生成方法和装置。

依据本发明的一个方面,提供了一种文档主题生成方法,包括:

对文档集合的文档进行分词并提取出词语;

统计表征所有提取的词语中两两之间的语义相关性的词间关系数据;

统计表征每个词语在每个文档中的重要性的词语文档关系数据;

随机生成表征各个文档对于各预设主题的相关性的文档主题关系数据,以及表征
各个词语对于各所述主题的相关性的词语主题关系数据;

根据所述词语主题关系数据和词间关系数据生成调整因子;

依据所述文档主题关系数据、词语主题关系数据和词语文档关系数据的关系,以
及词语主题关系数据、调整因子和词间关系数据的关系,迭代更新所述文档主题关系数据、
词语主题关系数据和调整因子达到设定结束条件,以使在确定词语文档关系数据和词间关
系数据的情况下同时生成文档主题关系数据、词语主题关系数据和调整因子的目标概率达
到设定要求;

以迭代更新得到的词语主题关系数据生成文档集合的文档主题。

优选地,所述迭代更新所述文档主题关系数据、词语主题关系数据和调整因子达
到设定结束条件,以使在确定词语文档关系数据和词间关系数据的情况下同时生成文档主
题关系数据、词语主题关系数据和调整因子的目标概率达到设定要求包括:

在第N+1次迭代中,根据最新的文档主题关系数据、词语主题关系数据和调整因
子,生成所述词语主题关系数据在本次迭代中的第一调整值,并以所述第一调整值和设定
的学习速率常数更新所述词语主题关系数据;

在第N+1次迭代中,根据最新的文档主题关系数据和词语主题关系数据,生成所述
文档主题关系数据在本次迭代中的第二调整值,并以所述第二调整值和设定的学习速率常
数更新所述文档主题关系数据;

在第N+1次迭代中,根据最新的词语主题关系数据和调整因子,生成所述调整因子
在本次迭代中的第三调整值,并以所述第三调整值和设定的学习速率常数更新所述调整因
子;

直至达到所述设定结束条件结束迭代更新,使得所述目标概率达到设定要求。

优选地,所述对文档集合的文档进行分词并提取出词语包括:

对所述文档集合的文档进行分词;

提取出排除了设定的不需要的词语的剩余词语。

优选地,所述设定的不需要的词语包括设定的停用词、识别的没有实际意义的词
语。

优选地,所述统计表征所有提取的词语中两两之间的语义相关性的词间关系数据
包括:

根据语义相关性将所有提取的词语转换为词向量;

对所有提取的词语对应的词向量两两之间进行相似度计算,得到所述词间关系数
据。

优选地,所述统计表征每个词语在每个文档中的重要性的词语文档关系数据包
括:

计算每个词语在每个文档中的出现频率,以及总文件数目除以包含该词语的文件
的数目的商的对数;

对于每个词语将所述出现频率和对应的对数相乘得到表征每个词语在每个文档
中的重要性的词语文档关系数据。

优选地,在所述随机生成表征每个文档对于各设定主题的相关性的文档主题关系
数据,以及表征各个词语对于所述主题的相关性的词语主题关系数据之前,所述方法还包
括:

对所述词语文档关系数据进行归一化处理,得到归一化处理后的所述词语文档关
系数据。

根据本发明的另一方面,提供了一种文档主题生成装置,包括:

文档分词模块,用于对文档集合的文档进行分词并提取出词语;

词间关系数据统计模块,用于统计表征所有提取的词语中两两之间的语义相关性
的词间关系数据;

词语文档关系数据统计模块,用于统计表征每个词语在每个文档中的重要性的词
语文档关系数据;

数据随机生成模块,用于随机生成表征各个文档对于各预设主题的相关性的文档
主题关系数据,以及表征各个词语对于各所述主题的相关性的词语主题关系数据;

调整因子生成模块,用于根据所述词语主题关系数据和词间关系数据生成调整因
子;

迭代更新模块,用于依据所述文档主题关系数据、词语主题关系数据和词语文档
关系数据的关系,以及词语主题关系数据、调整因子和词间关系数据的关系,迭代更新所述
文档主题关系数据、词语主题关系数据和调整因子达到设定结束条件,以使在确定词语文
档关系数据和词间关系数据的情况下同时生成文档主题关系数据、词语主题关系数据和调
整因子的目标概率达到设定要求;

文档主题生成模块,用于以迭代更新得到的词语主题关系数据生成文档集合的文
档主题。

优选地,所述迭代更新模块包括:

词语主题关系数据更新子模块,用于在第N+1次迭代中,根据最新的文档主题关系
数据、词语主题关系数据和调整因子,生成所述词语主题关系数据在本次迭代中的第一调
整值,并以所述第一调整值和设定的学习速率常数更新所述词语主题关系数据;

文档主题关系数据更新子模块,用于在第N+1次迭代中,根据最新的文档主题关系
数据和词语主题关系数据,生成所述文档主题关系数据在本次迭代中的第二调整值,并以
所述第二调整值和设定的学习速率常数更新所述文档主题关系数据;

调整更新子模块,用于在第N+1次迭代中,根据最新的词语主题关系数据和调整因
子,生成所述调整因子在本次迭代中的第三调整值,并以所述第三调整值和设定的学习速
率常数更新所述调整因子;

迭代结束子模块,直至达到所述设定结束条件结束迭代更新,使得所述目标概率
达到设定要求。

优选地,所述文档分词模块包括:

文档分词子模块,用于对所述文档集合的文档进行分词;

词语提取子模块,用于提取出排除了设定的不需要的词语的剩余词语。

优选地,所述设定的不需要的词语包括设定的停用词、识别的没有实际意义的词
语。

优选地,所述词间关系数据统计模块包括:

词向量转换子模块,用于根据语义相关性将所有提取的词语转换为词向量;

相似度计算子模块,用于对所有提取的词语对应的词向量两两之间进行相似度计
算,得到所述词间关系数据。

优选地,所述词语文档关系数据统计模块包括:

对数计算子模块,用于计算每个词语在每个文档中的出现频率,以及总文件数目
除以包含该词语的文件的数目的商的对数;

词语文档关系数据计算子模块,用于对于每个词语将所述出现频率和对应的对数
相乘得到表征每个词语在每个文档中的重要性的词语文档关系数据。

优选地,所述装置还包括:

词语文档关系数据归一化模块,用于在所述随机生成表征每个文档对于各设定主
题的相关性的文档主题关系数据,以及表征各个词语对于所述主题的相关性的词语主题关
系数据之前,对所述词语文档关系数据进行归一化处理,得到归一化处理后的所述词语文
档关系数据。

综上所述,依据本发明实施例,根据所述文档主题关系数据、词语主题关系数据和
词语文档关系数据的关系,以及词语主题关系数据、调整因子和词间关系数据的关系,迭代
更新文档主题关系数据、词语主题关系数据和调整因子达到设定结束条件,使得目标概率
达到设定要求,以迭代更新得到的词语主题关系数据生成文档集合的文档主题。由于在生
成词语主题关系数据的过程中,不仅受到词语文档关系数据的影响,同时还受到词间关系
数据的影响,使得最后生成的词语主题关系数据由词语文档关系数据和词间关系数据共同
约束,实现了文档主题生成过程兼顾词语之间的语义关系,提高了文档主题生成的准确性。

附图说明

图1是本发明文档主题生成方法的一种实施例的步骤流程图;

图2是本发明文档主题生成方法的另一种实施例的步骤流程图;

图3是本发明文档主题生成装置的一种实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实
施方式对本发明作进一步详细的说明。

参照图1,示出了本发明文档主题生成方法的一种实施例的步骤流程图,具体可以
包括如下步骤:

步骤101,对文档集合的文档进行分词并提取出词语。

在本发明实施例中,文档集合是指由多个文档组成的集合,对每个文档进行分词,
得到每个文档对应的词语列表。分词处理方式有很多种,本实施例对选取的分词方式不做
限定。分词的结果是一个一个的词语,全部或部分地从分词的结果中提取出词语。具体可以
根据实际需要提取词语,本实施例对此不做限定。

步骤102,统计表征所有提取的词语中两两之间的语义相关性的词间关系数据。

在本发发明实施例中,语义相关性是指词语和词语在语义上的相似程度。词间关
系数据是指表征词语之间语义相关性的数据,具体可以将所有词间关系数据当作一个数据
矩阵。计算表征词语和词语之间的语义相关性的关系数据方式有很多种,本实施例对具体
采用的计算方式不作限定。

步骤103,统计表征每个词语在每个文档中的重要性的词语文档关系数据。

在本发明实施例中,每个文档可以认为是多个词语的集合,对于每个词语,在文档
中的重要性可以用词语在文档中出现的词频(term frequency,TF)或词频-逆向文件频率
(term frequency–inverse document frequency,TF-IDF)来表征。词语文档关系数据是指
表征每个词语在每个文档中的重要性的数据,统计表征每个词语在每个文档中的重要性的
数据可以得到所有词语文档关系数据,具体可以将所有词语文档关系数据当作一个数据矩
阵。

步骤104,随机生成表征各个文档对于各预设主题的相关性的文档主题关系数据,
以及表征各个词语对于各所述主题的相关性的词语主题关系数据。

在本发明实施例中,每个文档都有多个隐含的主题,主题是指一个概念或一个方
面,具体可以表现为一系列相关的词语。一个文档涉及到一个主题,那么有关这个主题的词
语就会以较高的频率出现。在具体实现中,需要设定主题的个数。假设各个文档有设定个数
的预设主题。

如果用数学来描述的话,主题就是在所有词语中词语的条件概率分布。与主题关
系越密切的词语,它的条件概率越大,反之越小。对于一个文档,每个词都是通过“以一定概
率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到的。那么
生成一篇文档,其中每个词语出现的概率为:


其中,p(词语|文档)表示各个文档中各个词语出现的概率,p(词语|主题)表示各
个主题中各个词语出现的概率,p(主题|文档)表示各个文档中各个主题出现的概率。

各个文档对于各预设主题的相关性是指各个文档与各预设主题之间的相关程度,
可以用各个文档中各个主题出现的概率来表征。文档主题关系数据可以是指每个文档中各
个主题出现的概率,具体可以将所有的文档主题关系数据当作一个数据矩阵。各个词语对
于各预设主题的相关性是指各个词语对于各个主题之间的相关程度,可以用各个主题中各
个词语出现的概率来表征。词语主题关系数据可以是指每个主题中各个词语出现的概率,
具体可以将所有的词语主题关系数据当作一个数据矩阵。

随机生成文档主题关系数据和词语主题关系数据就是随机生成各个文档中各个
主题出现的概率的数据和各个主题中各个词语出现的概率的数据。具体随机生成的方式本
实施例不做限定。

步骤105,根据所述词语主题关系数据和词间关系数据生成调整因子。

在本发明实施例中,调整因子是指由所有词语主题关系数据和词间关系数据确定
的参数数据。如果将所有词间关系数据当作一个矩阵,将所有词语主题关系数据当作另一
个矩阵,将所有调整因子也当作一个矩阵,那么将词间关系数据的矩阵分解可以得到词语
主题关系数据的矩阵和调整因子的矩阵。依据此种关系,在得到所有的词间关系数据和词
语主题关系数据时可以计算出所有的调整因子。

步骤106,依据所述文档主题关系数据、词语主题关系数据和词语文档关系数据的
关系,以及词语主题关系数据、调整因子和词间关系数据的关系,迭代更新所述文档主题关
系数据、词语主题关系数据和调整因子达到设定结束条件,以使在确定词语文档关系数据
和词间关系数据的情况下同时生成文档主题关系数据、词语主题关系数据和调整因子的目
标概率达到设定要求。

在本发明实施例中,如果将所有的文档主题关系数据、词语主题关系数据和词语
文档关系数据分别都当作矩阵的话,那么所有的词语文档关系数据对应的矩阵可以分解为
所有的文档主题关系数据对应的矩阵和所有的词语主题关系数据对应的矩阵。如果将所有
的词语主题关系数据、调整因子和词间关系数据分别都当作矩阵的话,所有的词间关系数
据对应的矩阵可以分解为所有的词语主题关系数据对应的矩阵和所有的调整因子对应的
矩阵。上述就是文档主题关系数据、词语主题关系数据和词语文档关系数据的关系,以及词
语主题关系数据、调整因子和词间关系数据的关系。

迭代更新的方式是在第N+1次迭代中,根据所述词语文档关系数据、所述词间关系
数据和最新的所述文档主题关系数据、所述词语主题关系数据和所述调整因子,确定本次
迭代生成的新的文档主题关系数据、词语主题关系数据和调整因子。

具体而言,假设所有的词语文档关系数据对应的矩阵R,其大小为m行n列,分别表
示有m个词语,n个文档;所有的词间关系数据对应的矩阵C,其大小为m行m列,表示词语之间
的两两语义相关性;所有的文档主题关系数据对应的矩阵D,其大小为n列r行,分别表示有n
个词语,设定r个主题;所有词语主题关系数据对应的矩阵W,其大小为m列r行,分别表示有m
个文档,设定r个主题;所有的调整因子对应的矩阵Z,其大小为m列设定行。

假设所有的词语文档关系数据对应的矩阵R的每一列对应的向量服从正态分布,
则:


其中,表示设定所有的词语主题关系数据对应的矩阵W和所有的文
档主题关系数据对应的矩阵D,方差为条件下出现所有的词语文档关系数据对应的矩阵R
的概率;Wi为矩阵W的列向量,Dj为矩阵D的列向量;表示均值方差为
的正态分布,为指标函数,如果词语i在文档中的词语文档关系数据不为零,则为
1,否则为零。

假设所有的词语主题关系数据对应的矩阵W的每一列对应的向量和所有的文档主
题关系数据对应的矩阵D的每一列对应的向量服从零均值的正态分布,则:



其中,表示设定方差为的情况下生成所有的词语主题关系数据对应的
矩阵W的概率;表示设定方差为的情况下生成所有的文档主题关系数据对应的
矩阵D的概率;表示均值为0,方差的正态分布,表示均值为0,
方差为的正态分布,I表示单位矩阵,Wi为矩阵W的列向量,Dj为矩阵D的列向量。

假设所有的词间关系数据对应的矩阵C服从正态分布,则:


其中,表示在设定所有的词语主题关系数据对应的矩阵W、所有的
调整因子对应的矩阵Z,方差为条件下出现所有的词间关系数据对应的矩阵C的概率,Wi
为矩阵W的列向量,Zk为矩阵Z的列向量;表示均值为方差为的正
态分布,为指标函数,如果词语和词语的词间关系数据不为零,则为1,否则为零。

由所有的词间关系数据对应的矩阵C服从正态分布和所有的词语主题关系数据对
应的矩阵W的每一列对应的向量服从零均值的正态分布,则:


其中,表示设定方差为的情况下生成所有的调整因子对应的矩阵Z的
概率;表示均值为0,方差的正态分布,I表示单位矩阵。

目标概率是指在确定所有的词语文档关系数据和词间关系数据的情况下同时生
成文档主题关系数据、词语主题关系数据和调整因子的概率,根据贝叶斯公式可以表示为:


其中,表示在确定所有的词语文档关系数据对
应的矩阵R和所有的词间关系数据对应的矩阵C的情况下,生成所有的文档主题关系数据对
应的矩阵D,所有的词语主题关系数据对应的矩阵W和所有的调整因子对应的矩阵Z的概率;
表示在确定所有的文档主题关系数据对应的矩阵D,所
有的词语主题关系数据对应的矩阵W和所有的调整因子对应的矩阵Z的情况下,生成所有的
词语文档关系数据对应的矩阵R和所有的词间关系数据对应的矩阵C的概率;P(W,D,Z)表示
生成所有的文档主题关系数据对应的矩阵D,所有的词语主题关系数据对应的矩阵W和所有
的调整因子对应的矩阵Z的概率;表示生成所有的词语文档关系
数据对应的矩阵R和所有的词间关系数据对应的矩阵C的概率。

对上面的公式求自然对数,得到目标概率的自然对数公式:



要使目标概率达到最大值,相当于求得上述公
式的极大值点。在迭代更新的过程中,不断得使目标概率接近最大值。

那么迭代达到设定结束条件后,目标概率就可以达到设定要求,具体的设定结束
条件可以是设定的迭代次数,或目标概率超过设定结束阈值。设定的迭代次数和设定结束
阈值可以根据实际需要的设定要求来调试得到,本实施例对此不作限定。

步骤107,以迭代更新得到的词语主题关系数据生成文档集合的文档主题。

在本发明实施例中,迭代更新得到的词语主题关系数据表征各个主题与各个词语
的相关性。主题是指一个概念或一个方面,具体可以表现为一系列相关的词语。用词语主题
关系数据生成文档集合的文档主题,具体的说,就是文档主题是由各个词语在该主题中出
现的概率组成。

综上所述,依据本发明实施例,根据所述文档主题关系数据、词语主题关系数据和
词语文档关系数据的关系,以及词语主题关系数据、调整因子和词间关系数据的关系,迭代
更新文档主题关系数据、词语主题关系数据和调整因子达到设定结束条件,使得目标概率
达到设定要求,以迭代更新得到的词语主题关系数据生成文档集合的文档主题。由于在生
成词语主题关系数据的过程中,不仅受到词语文档关系数据的影响,同时还受到词间关系
数据的影响,使得最后生成的词语主题关系数据由词语文档关系数据和词间关系数据共同
约束,实现了文档主题生成过程兼顾词语之间的语义关系,提高了文档主题生成的准确性。

在本发明实施例中,优选地,所述对文档集合的文档进行分词并提取出词语的一
种实现方式是:对所述文档集合的文档进行分词;提取出排除了设定的不需要的词语的剩
余词语。

具体而言,对所述文档集合中所有文档进行分词得到所有的词语,然后去掉设定
的不需要的词语,提取剩余的词语。

在本发明实施例中,优选地,所述设定的不需要的词语包括设定的停用词、识别的
没有实际意义的词语。

设定的停用词是指人工输入,非自动化生成的词语。识别的没有实际意义的词语
是指根据词性自动识别的代词、助词等没有实际意义的词语。

在本发明实施例中,优选地,所述统计表征所有提取的词语中两两之间的语义相
关性的词间关系数据的一种实现方式是根据语义相关性将所有提取的词语转换为词向量;
对所有提取的词语对应的词向量两两之间进行相似度计算,得到所述词间关系数据。

具体而言,利用词向量的训练模型根据语义上的相似度将所有词语转换成向量形
式,然后再计算所有向量之间的相似度得到词间关系数据。例如利用谷歌公司的开源工具
Word2vec(英文全称:word to vector,中文名:词语转向量)将提取的词语转换为向量形
式,然后再用余弦相似度计算方法或者皮尔森相似度计算方法计算出向量之间的相似度,
所有向量之间的相似度作为词间关系数据。例如词语a和词语b的向量形式分别为Va和Vb,则
词语a和词语b之间的余弦相似度为计算公式如下:


在本发明实施例中,优选地,所述统计表征每个词语在每个文档中的重要性的词
语文档关系数据的一种实现方式是计算每个词语在每个文档中的出现频率,以及总文件数
目除以包含该词语的文件的数目的商的对数;对于每个词语将所述出现频率和对应的对数
相乘得到表征每个词语在每个文档中的重要性的词语文档关系数据。

具体而言,出现频率是在当前文章中词语出现的次数除以当前文章总的词数。先
计算每个词语在每个文档中的出现频率,和总文件数目除以包含该词语的文件的数目的商
的对数,对于每个词语将所述出现频率和对应的对数相乘,得到的数据就可以表征每个词
语在每个文档中的重要性。计算得到每个词语对于每个文档相应的数据组成词语文档关系
数据。

参照图2,示出了本发明文档主题生成方法的另一种实施例的步骤流程图,具体可
以包括如下步骤:

步骤201,对文档集合的文档进行分词并提取出词语。

步骤202,统计表征所有提取的词语中两两之间的语义相关性的词间关系数据。

步骤203,统计表征每个词语在每个文档中的重要性的词语文档关系数据。

步骤204,对所述词语文档关系数据进行归一化处理,得到归一化处理后的所述词
语文档关系数据。

在本发明实施例中,对数据归一化的方法有很多种,本实施例对此不作限定。一种
归一化处理的方式是将词语文档关系数据中的每个数值减去词语文档关系数据中的最小
值,然后再除以词语文档关系数据中最大值和最小值的差值,得到新的词语文档关系数据。

步骤205,随机生成表征各个文档对于各设定主题的相关性的文档主题关系数据,
以及表征各个词语对于各所述主题的相关性的词语主题关系数据。

步骤206,根据所述词语主题关系数据和词间关系数据生成调整因子。

步骤207,在第N+1次迭代中,根据最新的文档主题关系数据、词语主题关系数据和
调整因子,生成所述词语主题关系数据在本次迭代中的第一调整值,并以所述第一调整值
和设定的学习速率常数更新所述词语主题关系数据。

在本发明实施例中,第一调整值用于迭代搜索到所述目标概率达到最大。将目标
概率的自然对数公式去掉负号,同时去掉常数,则得到了下面的公式:


其中,L(R,C,W,D,Z)为将目标概率的自然对数的函数取负数,删除常数项得到的
新函数,设置λD=λW=λZ=λ。

求目标概率的最大值等价于求上述公式L(R,C,W,D,Z)的极小值点,利用梯度下降
法对上述公式求偏导数来得到词语主题关系数据在本次迭代中的第一调整值


由公式可知,由于词语文档关系数据和词间关系数据是确定的,所以第一调整值
可以根据最新的文档主题关系数据、词语主题关系数据和调整因子确定。

以第一调整值和设定的学习速率常数更新词语主题关系数据。设定的学习速率常
数是预先设定的用于控制每次迭代数据更新的变化量的常数。

用第N次迭代中生成的词语主题关系数据减去设定的学习速率常数和第一调整值
的乘积,得到第N+1次迭代生成的新的词语主题关系数据。设定的学习速率常数是预先设定
的用于控制每次迭代数据更新的变化量的常数。

步骤208,在第N+1次迭代中,根据最新的文档主题关系数据和词语主题关系数据,
生成所述文档主题关系数据在本次迭代中的第二调整值,并以第二调整值和设定的学习速
率常数更新所述文档主题关系数据。

在本发明实施例中,求目标概率的最大值等价于求上述公式L(R,C,W,D,Z)的极小
值点,利用梯度下降法对上述公式求偏导数来得到文档主题关系数据在本次迭代中的第
二调整值


由公式可知,由于词语文档关系数据和词间关系数据是确定的,所以第二调整值
可以根据最新的文档主题关系数据和词语主题关系数据确定。

用第N次迭代中生成的文档主题关系数据减去设定的学习速率常数和第二调整值
的乘积,得到第N+1次迭代生成的新的文档主题关系数据。设定的学习速率常数是预先设定
的用于控制每次迭代数据更新的变化量的常数。

步骤209,在第N+1次迭代中,根据最新的词语主题关系数据和调整因子,生成所述
调整因子在本次迭代中的第三调整值,并以所述第三调整值和设定的学习速率常数更新所
述调整因子。

在本发明实施例中,求目标概率的最大值等价于求上述公式L(R,C,W,D,Z)的极小
值点,利用梯度下降法对上述公式求偏导数来得到调整因子在本次迭代中的第三调整值


由公式可知,由于词语文档关系数据和词间关系数据是确定的,所以第三调整值
可以根据最新的词语主题关系数据和调整因子确定。

用第N次迭代中生成的调整因子减去设定的学习速率常数和第一调整值的乘积,
得到第N+1次迭代生成的新的调整因子。设定的学习速率常数是预先设定的用于控制每次
迭代数据更新的变化量的常数。

步骤210,直至达到所述设定结束条件结束迭代更新,使得所述目标概率达到设定
要求。

在本发明实施例中,迭代达到设定结束条件后,目标概率就可以达到设定要求,具
体的设定结束条件可以是设定的迭代次数,或目标概率超过设定结束阈值。设定的迭代次
数和设定结束阈值可以根据实际需要的设定要求来调试得到,本实施例对此不作限定。

具体而言,目标概率超过设定结束阈值等价于公式L(R,C,W,D,Z)的值小于设定的
阈值。例如:设定的迭代次数是1000次循环,但在1000次以内的某一次迭代中L(R,C,W,D,Z)
函数的值小于设定的阈值0.00001,这时就认为目标概率达到设定要求。

判断是否达到设定结束条件,如果达到设定结束条件,就结束迭代。如果未达到设
定结束条件,就继续迭代执行步骤207、步骤208、步骤209。并且步骤207、步骤208、步骤209
的执行顺序本发明实施例不作限定。

步骤211,以迭代更新得到的词语主题关系数据生成文档集合的文档主题。

综上所述,依据本发明实施例,根据所述文档主题关系数据、词语主题关系数据和
词语文档关系数据的关系,以及词语主题关系数据、调整因子和词间关系数据的关系,生成
迭代更新文档主题关系数据、词语主题关系数据和调整因子时的改变量,迭代达到设定结
束条件后,使得目标概率达到设定要求,以迭代更新得到的词语主题关系数据生成文档集
合的文档主题。由于在生成词语主题关系数据的过程中,不仅受到词语文档关系数据的影
响,同时还受到词间关系数据的影响,使得最后生成的词语主题关系数据由词语文档关系
数据和词间关系数据共同约束,实现了文档主题生成过程兼顾词语之间的语义关系,提高
了文档主题生成的准确性。

需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组
合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依
据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该
知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施
例所必须的。

参照图3,示出了本发明文档主题生成装置的一种实施例的结构框图,具体可以包
括如下模块:

文档分词模块301,用于对文档集合的文档进行分词并提取出词语;

词间关系数据统计模块302,用于统计表征所有提取的词语中两两之间的语义相
关性的词间关系数据;

词语文档关系数据统计模块303,用于统计表征每个词语在每个文档中的重要性
的词语文档关系数据;

数据随机生成模块304,用于随机生成表征各个文档对于各预设主题的相关性的
文档主题关系数据,以及表征各个词语对于各所述主题的相关性的词语主题关系数据;

调整因子生成模块305,用于根据所述词语主题关系数据和词间关系数据生成调
整因子;

迭代更新模块306,用于依据所述文档主题关系数据、词语主题关系数据和词语文
档关系数据的关系,以及词语主题关系数据、调整因子和词间关系数据的关系,迭代更新所
述文档主题关系数据、词语主题关系数据和调整因子达到设定结束条件,以使在确定词语
文档关系数据和词间关系数据的情况下同时生成文档主题关系数据、词语主题关系数据和
调整因子的目标概率达到设定要求;

文档主题生成模块307,用于以迭代更新得到的词语主题关系数据生成文档集合
的文档主题。

在本发明实施例中,优选地,所述迭代更新模块包括:

词语主题关系数据更新子模块,用于在第N+1次迭代中,根据最新的文档主题关系
数据、词语主题关系数据和调整因子,生成所述词语主题关系数据在本次迭代中的第一调
整值,并以所述第一调整值和设定的学习速率常数更新所述词语主题关系数据;

文档主题关系数据更新子模块,用于在第N+1次迭代中,根据最新的文档主题关系
数据和词语主题关系数据,生成所述文档主题关系数据在本次迭代中的第二调整值,并以
所述第二调整值和设定的学习速率常数更新所述文档主题关系数据;

调整更新子模块,用于在第N+1次迭代中,根据最新的词语主题关系数据和调整因
子,生成所述调整因子在本次迭代中的第三调整值,并以所述第三调整值和设定的学习速
率常数更新所述调整因子;

迭代结束子模块,直至达到所述设定结束条件结束迭代更新,使得所述目标概率
达到设定要求。

在本发明实施例中,优选地,所述文档分词模块包括:

文档分词子模块,用于对所述文档集合的文档进行分词;

词语提取子模块,用于提取出排除了设定的不需要的词语的剩余词语。

在本发明实施例中,优选地,所述设定的不需要的词语包括设定的停用词、识别的
没有实际意义的词语。

在本发明实施例中,优选地,所述词间关系数据统计模块包括:

词向量转换子模块,用于根据语义相关性将所有提取的词语转换为词向量;

相似度计算子模块,用于对所有提取的词语对应的词向量两两之间进行相似度计
算,得到所述词间关系数据。

在本发明实施例中,优选地,所述词语文档关系数据统计模块包括:

对数计算子模块,用于计算每个词语在每个文档中的出现频率,以及总文件数目
除以包含该词语的文件的数目的商的对数;

词语文档关系数据计算子模块,用于对于每个词语将所述出现频率和对应的对数
相乘得到表征每个词语在每个文档中的重要性的词语文档关系数据。

在本发明实施例中,优选地,所述装置还包括:

词语文档关系数据归一化模块,用于在所述随机生成表征每个文档对于各设定主
题的相关性的文档主题关系数据,以及表征各个词语对于所述主题的相关性的词语主题关
系数据之前,对所述词语文档关系数据进行归一化处理,得到归一化处理后的所述词语文
档关系数据。

综上所述,依据本发明实施例,根据所述文档主题关系数据、词语主题关系数据和
词语文档关系数据的关系,以及词语主题关系数据、调整因子和词间关系数据的关系,迭代
更新文档主题关系数据、词语主题关系数据和调整因子达到设定结束条件,使得目标概率
达到设定要求,以迭代更新得到的词语主题关系数据生成文档集合的文档主题。由于在生
成词语主题关系数据的过程中,不仅受到词语文档关系数据的影响,同时还受到词间关系
数据的影响,使得最后生成的词语主题关系数据由词语文档关系数据和词间关系数据共同
约束,实现了文档主题生成过程兼顾词语之间的语义关系,提高了文档主题生成的准确性。

对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关
之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与
其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算
机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和
硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可
用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上
实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序
产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图
中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些
计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设
备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执
行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中
指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备
以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包
括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方
框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得
在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在
计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程
和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基
本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为
包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将
一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作
之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意
在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包
括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品
或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要
素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种文档主题生成方法和装置,进行了详细介绍,本文中
应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助
理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,
在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本
发明的限制。

关 键 词:
一种 文档 主题 生成 方法 装置
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
太阳城集团本文
本文标题:一种文档主题生成方法和装置.pdf
链接地址:http://zh228.com/p-6019795.html
太阳城集团我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
葡京赌场|welcome document.write ('');