太阳城集团

  • / 7
  • 下载费用:30 金币  

一种基于深度学习的公司名成分抽取系统和方法.pdf

摘要
申请专利号:

太阳城集团CN201710024098.8

申请日:

2017.01.13

公开号:

太阳城集团CN106777336A

公开日:

2017.05.31

当前法律状态:

实审

有效性:

审中

法律详情: 实质审查的生效IPC(主分类):G06F 17/30申请日:20170113|||公开
IPC分类号: G06F17/30; G06K9/62 主分类号: G06F17/30
申请人: 深圳爱拼太阳城集团科技有限公司
发明人: 张自强; 潘嵘; 赵泛舟; 李训耕; 李锐章; 周赖靖竞
地址: 518057 广东省深圳市南山区南山街道科技园中区科苑路15号科兴科学园B栋3单元1801号单元
优先权:
专利代理机构: 代理人:
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

太阳城集团CN201710024098.8

授权太阳城集团号:

|||

法律状态太阳城集团日:

太阳城集团2017.06.23|||2017.05.31

法律状态类型:

实质审查的生效|||公开

摘要

本发明涉及一种基于深度学习的公司名成分抽取方法及系统,其方法包括:采集公司名并人工标注其各个成分;将所述公司名的文本太阳城集团以及标注太阳城集团转化为向量的形式作为长短期记忆(LSTM)模型的输入;根据所述标注的向量训练所述LSTM模型,将公司名向量输入训练后的LSTM模型,输出标注结果;将所述LSTM模型输出的所述标注结果转化为公司名的各个成分并输出。本发明的实施不需要人工构建规则以及依赖外部数据,能大大的提高公司名成分提取的准确率和效率。

权利要求书

1.一种基于深度学习的公司名成分抽取方法,其特征在于,包括如下步骤:
步骤1,采集公司名并人工标注其各个成分;
步骤2,将所述公司名的文本太阳城集团以及标注太阳城集团转化为向量的形式作为长短期记忆
(LSTM)模型的输入;
步骤3,根据所述步骤2中标注的向量训练所述LSTM模型,将公司名向量输入训练后的
LSTM模型,输出标注结果;
步骤4,将所述LSTM模型输出的所述标注结果转化为公司名的各个成分并输出。
2.根据权利要求1所述的一种基于深度学习的公司名成分抽取方法,其特征在于,所述
步骤1具体包括:
采集公司名,将采集到的公司名分词,然后按公司名的成分对分词后的结果进行各个
部分的人工标注。
3.根据权利要求1所述的一种基于深度学习的公司名成分抽取方法,其特征在于,所述
步骤2具体包括:将所述公司名的文本太阳城集团以及标注太阳城集团按词典映射转化成LSTM可以处理
的向量数据,并作为LSTM模型的输入。
4.根据权利要求1所述的一种基于LSTM的多标签行业分类方法,其特征在于,所述步骤
3具体包括:根据标注的向量训练LSTM模型,以公司名向量作为训练后的LSTM模型的输入,
通过所述训练后的LSTM模型判断出公司名向量中的各个字、词或标点的分类,提取出公司
名的各个成分,并进行各成分的标注,输出标注结果。
5.一种基于深度学习的公司名成分抽取系统,其特征在于,该系统包括:
数据采集和标注模块,采集公司名并人工标注其各个成分;
数据预处理模块,将所述公司名的文本太阳城集团以及标注太阳城集团转化为向量的形式作为LSTM
模型的输入;
模型训练模块,根据标注的向量训练LSTM模型,将公司名向量输入训练后的LSTM模型,
输出标注结果;
标注结果处理模块,将所述LSTM模型输出的所述标注结果转化为公司名的各个成分并
输出。
6.根据权利要求5所述的一种基于深度学习的公司名成分抽取系统,其特征在于,所述
数据采集和标注模块具体用于:
采集公司名,将采集到的公司名分词,然后按公司名的成分对分词后的结果进行各个
部分的人工标注。
7.根据权利要求5所述的一种基于深度学习的公司名成分抽取系统,其特征在于,所述
数据预处理模块具体用于:将所述公司名的文本太阳城集团以及标注太阳城集团按词典映射转化成LSTM
可以处理的向量数据,并作为LSTM模型的输入。
8.根据权利要求5所述的一种基于LSTM的多标签行业分类系统,其特征在于,所述模型
训练模块具体用于:根据标注的向量训练LSTM模型,以公司名向量作为训练后的LSTM模型
的输入,通过所述训练后的LSTM模型判断出公司名向量中的各个字、词或标点的分类,提取
出公司名的各个成分,并进行各成分的标注,输出标注结果。

说明书

一种基于深度学习的公司名成分抽取系统和方法

技术领域

本发明涉及一种数据处理方法,更具体的,涉及一种基于深度学习的公司名成分
抽取系统和方法。

背景技术

根据《企业名称登记管理规定》第七条第一款和第二款的规定,公司名(企业名称)
主要由以下四个部分构成:商号或者字号、行业、组织形式以及所在地的行政区划名称。现
有的公司名成分抽取系统都是采用的基于规则的形式,利用规则抽取公司名中的各个成
分。这种传统的方法存在下列问题:

1)规则难以正确覆盖全部的公司名形式,个人简历中的公司名书写方式因人而异,从
而同一公司名会有很多不同的形式。

2)规则之间容易发生冲突,比如某些公司名中商号是一种行政区划名称,此时提
取商号的规则可能会与提取行政区划的规则冲突。

3)人工提取规则的成本很高,需要拥有足够的专业知识以及观察大量的不同形式
的公司名。

4)由于基于规则的方法会依赖大量的外部数据(如全国的行政区划、公司组织形
式),规则抽取的速度较慢。

由于个人在书写公司名时并不一定会书写企业的注册名称,所以同一公司名在表
现形式上会存在多种形式。如果根据规则去抽取公司名的组成成分,会花费大量的成本去
构建规则,并且会出现规则覆盖率低和规则冲突的情况,使得抽取成分的准确率不高;基于
规则的抽取还会依靠大量的外部数据,使得抽取过程耗时较长,在大规模的应用场景下其
效率显得不足。

发明内容

本发明为了克服单一依赖规则抽取公司名成分时效率和准确率不足的问题,提出
一种基于深度学习的公司名成分抽取方法。该方法通过训练长短时记忆(LSTM)循环神经网
络模型,直接对输入公司名的各个成分进行标注,无需依赖外部数据,无需对公司名各个成
分进行规则的制定。

为实现上述目的,本发明提供了一种基于深度学习的公司名成分抽取方法,该方
法包括如下步骤:

步骤1,采集公司名并人工标注其各个成分;

步骤2,将所述公司名的文本太阳城集团以及标注太阳城集团转化为向量的形式作为长短期记忆
(LSTM)模型的输入;

步骤3,根据所述步骤2中标注的向量训练所述LSTM模型,将公司名向量输入训练后的
LSTM模型,输出标注结果;

步骤4,将所述LSTM模型输出的所述标注结果转化为公司名的各个成分并输出。

更具体的,所述步骤1具体包括:

采集公司名,将采集到的公司名分词,然后按公司名的成分对分词后的结果进行各个
部分的人工标注。

更具体的,所述步骤2具体包括:将所述公司名的文本太阳城集团以及标注太阳城集团按词典映
射转化成LSTM可以处理的向量数据,并作为LSTM模型的输入。

更具体的,所述步骤3具体包括:根据标注的向量训练LSTM模型,以公司名向量作
为训练后的LSTM模型的输入,通过所述训练后的LSTM模型判断出公司名向量中的各个字、
词或标点的分类,提取出公司名的各个成分,并进行各成分的标注,输出标注结果。

根据本发明的另一方面,还提供了一种基于深度学习的公司名成分抽取系统,该
系统包括:

数据采集和标注模块,采集公司名并人工标注其各个成分;

数据预处理模块,将所述公司名的文本太阳城集团以及标注太阳城集团转化为向量的形式作为LSTM
模型的输入;

模型训练模块,根据标注的向量训练LSTM模型,将公司名向量输入训练后的LSTM模型,
输出标注结果;

标注结果处理模块,将所述LSTM模型输出的所述标注结果转化为公司名的各个成分并
输出。

更具体的,所述数据采集和标注模块具体用于:

采集公司名,将采集到的公司名分词,然后按公司名的成分对分词后的结果进行各个
部分的人工标注。

更具体的,其特征在于,所述数据预处理模块具体用于:将所述公司名的文本太阳城集团
以及标注太阳城集团按词典映射转化成LSTM可以处理的向量数据,并作为LSTM模型的输入。

更具体的,所述模型训练模块具体用于:根据标注的向量训练LSTM模型,以公司名
向量作为训练后的LSTM模型的输入,通过所述训练后的LSTM模型判断出公司名向量中的各
个字、词或标点的分类,提取出公司名的各个成分,并进行各成分的标注,输出标注结果。

本发明基于神经网络模型LSTM,训练深度学习中常用的长短时记忆(LSTM)循环神
经网络模型,以公司名作为输入,输出公司名的各个组成成分。相对于传统的基于规则的方
式,由于不需要人工构建规则以及依赖外部数据,该方法能大大的提高公司名成分提取的
准确率和效率。

本发明的附加方面和优点将在下面的描述部分中给出,部分将从下面的描述中变
得明显,或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得
明显和容易理解,其中:

图1示出了根据本发明一种基于深度学习的公司名成分抽取方法流程图;

图2示出了根据本发明一种基于深度学习的公司名成分抽取系统框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实
施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施
例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可
以采用其他不同于在此描述的方式来实施,因此,本发明的保护范围并不受下面公开的具
体实施例的限制。

为了更好的说明本发明的方案,下面将结合说明书附图进行说明。

图1示出了根据本发明一种基于深度学习的公司名成分抽取方法流程图。

如图1所示,根据本发明的一种基于深度学习的公司名成分抽取方法,该方法包括
如下步骤:

步骤1,采集公司名并人工标注其各个成分。

具体来说,首先,采集公司名,将采集到的公司名进行分词处理,然后按公司名的
成分对分词后的结果人工标注为商号或者字号、行业、组织形式以及所在地的行政区划名
称四个部分,将与这四个部分以外的部分标注为无关部分。

步骤2,将所述公司名的文本太阳城集团以及标注太阳城集团转化为向量的形式作为长短期记
忆(LSTM)模型的输入。

举例来说,将所述公司名的文本太阳城集团以及标注太阳城集团按词典映射转化成长短期记忆
LSTM(Long Short-Term Memory)模型可以处理的向量数据,并作为LSTM模型的输入。

所述词典映射表为一个二维矩阵,其中矩阵中的每一个行向量代表一个字或者
词,而字或者词与行向量的对应关系是在构建词典映射表时所设定的 ,通过词典映射表将
待处理的字、词或者标点符号转化成LSTM可以处理的向量数据。本发明不限于此,也可以利
用其它自然语言处理方法将公司名的文本太阳城集团以及标注太阳城集团转化为向量的形式。

步骤3,根据所述步骤2中标注的向量训练所述LSTM模型,将公司名向量输入训练
后的LSTM模型,输出标注结果。

更具体的,所述步骤3具体包括:根据标注的向量训练LSTM模型,以公司名向量作
为训练后的LSTM模型的输入,通过所述训练后的LSTM模型判断出公司名向量中的各个字、
词或标点的分类,提取出公司名的各个成分,并进行各成分的标注,输出标注结果。

步骤4,将所述LSTM模型输出的所述标注结果转化为公司名的各个成分并输出。

根据本发明的一个实施例,对按照上述方法训练好的LSTM模型进行应用。

首先将需要提取的公司名转化为公司名向量;将公司名向量通过训练好的LSTM模
型,得到标注向量;最后将标注向量转化为公司名的各个成分。

图2示出了根据本发明一种基于深度学习的公司名成分抽取系统框图。

如图2所示,本发明基于深度学习的公司名成分抽取系统,包括:

数据采集和标注模块,采集公司名并人工标注其各个成分。

具体来说,首先,采集公司名,将采集到的公司名进行分词分词处理,然后按公司
名的成分对分词后的结果人工标注为商号或者字号、行业、组织形式以及所在地的行政区
划名称四个部分,将与这四个部分以外的部分标注为无关部分。

数据预处理模块,将所述公司名的文本太阳城集团以及标注太阳城集团转化为向量的形式作为
LSTM模型的输入。

举例来说,该模块将所述公司名的文本太阳城集团以及标注太阳城集团按词典映射转化成LSTM
可以处理的向量数据,并作为LSTM模型的输入。

所述词典映射表为一个二维矩阵,其中矩阵中的每一个行向量代表一个字或者
词,而字或者词与行向量的对应关系是在构建词典映射表时所设定的 ,通过词典映射表将
待处理的字、词或者标点符号转化成LSTM可以处理的向量数据。本发明不限于此,也可以利
用其它自然语言处理方法将公司名的文本太阳城集团以及标注太阳城集团转化为向量的形式。

模型训练模块,根据标注的向量训练LSTM模型,将公司名向量输入训练后的LSTM
模型,输出标注结果。

更具体的,该模型训练模块根据标注的向量训练LSTM模型,以公司名向量作为训
练后的LSTM模型的输入,通过所述训练后的LSTM模型判断出公司名向量中的各个字、词或
标点的分类,提取出公司名的各个成分,并进行各成分的标注,输出标注结果。

标注结果处理模块,将所述LSTM模型输出的所述标注结果转化为公司名的各个成
分并输出。

本发明不再使用现有技术中通用的利用规则提取公司名成分的方式,而利用深度
学习的方法训练提取公司名成分的长短期记忆(LSTM)循环神经网络模型,对输入的公司名
直接得到标注的结果。相对于传统的基于规则的方式,由于不需要人工构建规则以及依赖
外部数据,该方法能大大的提高公司名成分提取的准确率和效率。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技
术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修
改、等同替换、改进等,均应包含在本发明的保护范围之内。

关 键 词:
一种 基于 深度 学习 公司 成分 抽取 系统 方法
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
太阳城集团本文
本文标题:一种基于深度学习的公司名成分抽取系统和方法.pdf
链接地址:http://zh228.com/p-6019850.html
太阳城集团我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
葡京赌场|welcome document.write ('');