太阳城集团

  • / 18
  • 下载费用:30 金币  

新词发现方法、装置、终端及服务器.pdf

摘要
申请专利号:

太阳城集团CN201611040851.4

申请日:

2016.11.23

公开号:

CN106776543A

公开日:

2017.05.31

当前法律状态:

实审

有效性:

审中

法律详情: 实质审查的生效IPC(主分类):G06F 17/27申请日:20161123|||公开
IPC分类号: G06F17/27 主分类号: G06F17/27
申请人: 上海智臻智能网络科技股份有限公司
发明人: 谢瑜; 张昊; 朱频频
地址: 201803 上海市嘉定区金沙江西路1555弄398号7层
优先权:
专利代理机构: 北京集佳知识产权代理有限公司 11227 代理人: 张振军;吴敏
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

CN201611040851.4

授权太阳城集团号:

|||

法律状态太阳城集团日:

2017.06.23|||2017.05.31

法律状态类型:

实质审查的生效|||公开

摘要

一种新词发现方法、装置、终端及服务器,新词发现方法包括:对原始语料进行新词发现操作,以得到新词候选词;对所述原始语料进行分词,以得到第一分词结果;基于所述第一分词结果拆分所述新词候选词得到所述新词候选词的子部分,其中所述新词候选词的子部分包含在所述第一分词结果中,所述新词候选词包括至少两个所述第一分词结果中的词;计算所述新词候选词与其子部分的语义相似度;如果所述语义相似度小于设定阈值,则将所述新词候选词确定为新词。本发明技术方案提高了新词提取的效率和精准度。

权利要求书

1.一种新词发现方法,其特征在于,包括:
对原始语料进行新词发现操作,以得到新词候选词;
对所述原始语料进行分词,以得到第一分词结果;
基于所述第一分词结果拆分所述新词候选词得到所述新词候选词的子部分,其中所述
新词候选词的子部分包含在所述第一分词结果中,所述新词候选词包括至少两个所述第一
分词结果中的词;
计算所述新词候选词与其子部分的语义相似度;
如果所述语义相似度小于设定阈值,则将所述新词候选词确定为新词。
2.根据权利要求1所述的新词发现方法,其特征在于,还包括:
如果所述语义相似度大于或等于设定阈值,则将所述新词候选词确定为垃圾词串。
3.根据权利要求1所述的新词发现方法,其特征在于,所述计算所述新词候选词与其子
部分的语义相似度包括:
计算所述新词候选词的词向量以及所述新词候选词的子部分的词向量;
根据所述新词候选词的词向量以及所述新词候选词的子部分的词向量计算所述新词
候选词与其子部分的语义相似度。
4.根据权利要求3所述的新词发现方法,其特征在于,对所述原始语料进行分词是基于
分词词典完成的,所述对原始语料进行新词发现操作,以得到新词候选词之后还包括:
将所述新词候选词添加至分词词典。
5.根据权利要求4所述的新词发现方法,其特征在于,还包括:
利用加入所述新词候选词的分词词典对所述原始语料进行分词,得到第二分词结果,
所述第二分词结果至少包括所述新词候选词。
6.根据权利要求5所述的新词发现方法,其特征在于,所述计算所述新词候选词的词向
量以及所述新词候选词的子部分的词向量包括:
基于所述第一分词结果和所述第二分词结果,计算得到所述第一分词结果和所述第二
分词结果中所有词的词向量;
计算每一新词候选词的子部分对应的各个词的词向量之和,以作为所述每一新词候选
词的子部分的词向量。
7.根据权利要求5所述的新词发现方法,其特征在于,所述计算所述新词候选词的词向
量以及所述新词候选词的子部分的词向量包括:
对所述原始语料进行分字处理,以得到字列表;
基于所述第一分词结果、所述第二分词结果和所述字列表,计算得到所述第一分词结
果和所述第二分词结果中所有词的词向量;
计算每一新词候选词的子部分对应的各个词的词向量之和,以作为所述每一新词候选
词的子部分的词向量。
8.根据权利要求7所述的新词发现方法,其特征在于,通过将所述第一分词结果、所述
第二分词结果和所述字列表输入词向量转换模型,得到所述第一分词结果和所述第二分词
结果中所有词的词向量。
9.根据权利要求1所述的新词发现方法,其特征在于,还包括:
对确定的所述新词的准确率进行评估,得到评估结果;
根据所述评估结果调整所述设定阈值;
利用调整后的所述设定阈值再次确定所述新词,直至确定的所述新词的准确率符合预
设要求。
10.根据权利要求1至9任一项所述的新词发现方法,其特征在于,所述计算所述新词候
选词与其子部分的语义相似度包括:
计算每一新词候选词的词向量和所述每一新词候选词的子部分的词向量的语义距离,
以衡量所述语义相似度。
11.根据权利要求1至9任一项所述的新词发现方法,其特征在于,所述对所述原始语料
进行分词之前还包括:
对所述原始语料进行预处理,以得到格式统一的所述原始语料。
12.根据权利要求1至9任一项所述的新词发现方法,其特征在于,采用统计或规则算法
进行所述新词发现操作。
13.一种新词发现装置,其特征在于,包括:
新词发现单元,用于对原始语料进行新词发现操作,以得到新词候选词;
第一分词单元,用于对所述原始语料进行分词,以得到第一分词结果;
子部分确定单元,用于基于所述第一分词结果拆分所述新词候选词得到所述新词候选
词的子部分,其中所述新词候选词的子部分包含在所述第一分词结果中,所述新词候选词
包括至少两个所述第一分词结果中的词;
相似度计算单元,用于计算所述新词候选词与其子部分的语义相似度;
新词确定单元,用于若所述语义相似度小于设定阈值,则所述新词候选词确定为新词。
14.根据权利要求13所述的新词发现装置,其特征在于,所述新词确定单元在所述语义
相似度大于或等于设定阈值时,将所述新词候选词确定为垃圾词串。
15.根据权利要求13所述的新词发现装置,其特征在于,所述相似度计算单元包括:
词向量计算子单元,用于计算所述新词候选词的词向量以及所述新词候选词的子部分
的词向量;
语义计算子单元,用于根据所述新词候选词的词向量以及所述新词候选词的子部分的
词向量计算所述新词候选词与其子部分的语义相似度。
16.根据权利要求15所述的新词发现装置,其特征在于,所述第一分词单元基于分词词
典对所述原始语料进行分词,以得到第一分词结果;
所述新词发现装置还包括:
新词添加单元,用于将所述新词候选词添加至分词词典。
17.根据权利要求16所述的新词发现装置,其特征在于,还包括:
第二分词单元,用于利用加入所述新词候选词的分词词典对所述原始语料进行分词,
得到第二分词结果,所述第二分词结果包括所述新词候选词。
18.根据权利要求17所述的新词发现装置,其特征在于,所述词向量计算子单元包括:
第一分词结果计算子单元,用于基于所述第一分词结果和所述第二分词结果,计算得
到所述第一分词结果和所述第二分词结果中所有词的词向量;
第一子部分加和子单元,用于计算每一新词候选词的子部分对应的各个词的词向量之
和,以作为所述每一新词候选词的子部分的词向量。
19.根据权利要求17所述的新词发现装置,其特征在于,所述词向量计算子单元包括:
分字单元,用于对所述原始语料进行分字处理,以得到字列表;
第二分词结果计算子单元,用于基于所述第一分词结果、所述第二分词结果和所述字
列表,计算得到所述第一分词结果和所述第二分词结果中所有词的词向量;
第二子部分加和子单元,用于计算每一新词候选词的子部分对应的各个词的词向量之
和,以作为所述每一新词候选词的子部分的词向量。
20.根据权利要求19所述的新词发现装置,其特征在于,所述第二分词结果计算子单
元,具体用于:通过将所述第一分词结果、所述第二分词结果和所述字列表输入词向量转换
模型,得到所述第一分词结果和所述第二分词结果中所有词的词向量。
21.根据权利要求13所述的新词发现装置,其特征在于,还包括:
评估单元,用于对确定的所述新词的准确率进行评估,得到评估结果;
调整单元,用于根据所述评估结果调整所述设定阈值;
验证单元,用于利用调整后的所述设定阈值再次确定所述新词,直至确定的所述新词
的准确率符合预设要求。
22.根据权利要求13至21任一项所述的新词发现装置,其特征在于,所述相似度计算单
元计算每一新词候选词的词向量和所述每一新词候选词的子部分的词向量的语义距离,以
衡量所述语义相似度。
23.根据权利要求13至21任一项所述的新词发现装置,其特征在于,还包括:
预处理单元,用于对所述原始语料进行预处理,以得到格式统一的所述原始语料。
24.根据权利要求13至21任一项所述的新词发现装置,其特征在于,采用统计或规则算
法进行所述新词发现操作。
25.一种终端,其特征在于,包括如权利要求13至24任一项所述的新词发现装置。
26.一种服务器,其特征在于,包括如权利要求13至24任一项所述的新词发现装置。

关 键 词:
新词 发现 方法 装置 终端 服务器
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
太阳城集团本文
本文标题:新词发现方法、装置、终端及服务器.pdf
链接地址:http://zh228.com/p-6019706.html
太阳城集团我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
葡京赌场|welcome document.write ('');