太阳城集团

  • / 6
  • 下载费用:30 金币  

一种自反馈式网络社交平台分类方法.pdf

摘要
申请专利号:

CN201611222881.7

申请日:

2016.12.27

公开号:

太阳城集团CN106777234A

公开日:

2017.05.31

当前法律状态:

公开

有效性:

审中

法律详情: 公开
IPC分类号: G06F17/30 主分类号: G06F17/30
申请人: 南京安讯科技有限责任公司
发明人: 饶翔
地址: 210012 江苏省南京市雨花台区软件大道119号5幢201-206室
优先权:
专利代理机构: 北京挺立专利事务所(普通合伙) 11265 代理人: 倪钜芳
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

CN201611222881.7

授权太阳城集团号:

法律状态太阳城集团日:

2017.05.31

法律状态类型:

公开

摘要

本发明涉及一种自反馈式网络社交平台分类方法,包括基础数据的采集与预处理;手动构建网络社交平台所属类别的关键字字典;对于所有网络社交平台,根据其处理过的文字内容,查询关键字字典,进行初次分类;将通过关键字方法划分了类别的网络社交平台提取出来,以它们的所属类别作为类标,形成训练集合,然后利用监督型机器学习算法,针对训练集合的文本向量进行训练,得到一个文本分类器;利用得到的文本分类器,对无法通过关键字方法划分类别的网络社交平台进行再分类,以此类推直至集合中的所有网络社交平台都被分类完毕。本发明能够提供一种无需现成的训练样本、智能化程度高、适用范围广、分类准确率高的自反馈式网络社交平台分类方法。

权利要求书

1.一种自反馈式网络社交平台分类方法,其特征在于,包括如下步骤:
步骤一:基础数据的采集与预处理;
步骤二:手动构建网络社交平台所属类别的关键字字典;
步骤三:对于所有网络社交平台,根据其处理过的文字内容,查询关键字字典,进行初
次分类;
步骤四:将步骤三中通过关键字方法划分了类别的网络社交平台提取出来,以它们的
所属类别作为类标,形成训练集合,然后利用监督型机器学习算法,针对训练集合的文本向
量进行训练,得到一个文本分类器;
步骤五:利用步骤四中得到的文本分类器,对无法通过关键字方法划分类别的网络社
交平台进行再分类,以此类推直至集合中的所有网络社交平台都被分类完毕。
2.根据权利要求1所述的一种自反馈式网络社交平台分类方法,其特征在于:所述步骤
一包括:
(Ⅰ)收集的初始数据:若干待分类的网络社交平台集合,集合中的每个元素s代表一种
网络社交平台,可以是一个网站、一个博客、一个订阅号等等,每个元素用各自的URL,即网
络地址,将其作为标识;
(Ⅱ)针对每一个网络社交平台,根据其URL,用网络爬虫技术获取与它相关的文字内
容,例如网站的头条、博客的最新文章、订阅号的简介等等;
(Ⅲ)对上述步骤中获取的文字内容,进行中文分词并去除停用词。

说明书

一种自反馈式网络社交平台分类方法

技术领域

本发明涉及太阳城集团技术领域,尤其涉及一种自反馈式网络社交平台分类方法。

背景技术

随着网络的快速发展,网络已经渗透到人们日常生活的每个角落,其中为满足人
们对社会交往的需要,各种网络社交平台不断被开发出来,类别繁多,用户群庞大,为满足
商家或软件开发者对使用者情况的了解和分析,以便有针对性的提供服务或改进,就有必
要对网络社交平台进行分类。

现有技术中,机器学习算法已经在很多领域获得了广泛的应用,比如数据挖掘和
太阳城集团分类。根据是否有训练样本,机器学习算法可以分为监督型学习和无监督型学习。

对于监督型机器学习,先通过已有的训练样本,即已知数据及其对应的输出,去训
练得到一个最优模型,这个模型属于某个函数的集合,在某个评价标准下是最佳的,再利用
这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类。当新的
数据到来时,可以根据已有的模型直接分类。而无监督机器学习,输入数据没有被标记,也
没有确定的结果。样本数据类别未知,需要根据样本间的相似性对样本集进行聚类,试图使
类内差距最小化,类间差距最大化。

对网络社交平台进行分类可以看作是一个文本分类问题,即根据网络社交平台相
关的文字内容,如名字、简介、近期文章等等,对其进行分类。多数情况下无法预先知道样本
的标签,没有训练样本,因而只能从原先没有样本标签的样本集开始训练模型。

如果采用监督型学习方法对网络社交平台进行分类,就需要获取和网络社交平台
的相关文本风格相似、内容接近的带标签文本作为训练集合。但是在很多情况下,这个条件
是难以满足的。这就会影响到网络社交平台分类的准确性。

如果无法获得合适的训练集合,就只能采用无监督学习方法对网络社交平台进行
分类。但是,从机器学习的角度来说,无监督学习方法本身就比监督学习方法的效果差,这
同样会影响网络社交平台分类的准确性。

发明内容

本发明目的是为了克服现有技术的不足而提供一种无需现成的训练样本、智能化
程度高、适用范围广、分类准确率高的自反馈式网络社交平台分类方法。

为达到上述目的,本发明采用了如下技术方案。

一种自反馈式网络社交平台分类方法,包括如下步骤:

步骤一:基础数据的采集与预处理;

步骤二:手动构建网络社交平台所属类别的关键字字典;

步骤三:对于所有网络社交平台,根据其处理过的文字内容,查询关键字字典,进行初
次分类;

步骤四:将步骤(三)中通过关键字方法划分了类别的网络社交平台提取出来,以它们
的所属类别作为类标,形成训练集合,然后利用监督型机器学习算法,针对训练集合的文本
向量进行训练,得到一个文本分类器;

步骤五:利用步骤(四)中得到的文本分类器,对无法通过关键字方法划分类别的网络
社交平台进行再分类,以此类推直至集合中的所有网络社交平台都被分类完毕。

所述步骤一的基础数据的采集与预处理,具体包括:

(Ⅰ)收集的初始数据:若干待分类的网络社交平台集合,集合中的每个元素s代表一种
网络社交平台,可以是一个网站、一个博客、一个订阅号等等。每个元素用各自的URL,即网
络地址,将其作为标识;

(Ⅱ)针对每一个网络社交平台,根据其URL,用网络爬虫技术获取与它相关的文字内
容,例如网站的头条、博客的最新文章、订阅号的简介等等;

(Ⅲ)对上述步骤中获取的文字内容,进行中文分词并去除停用词。

由于上述技术方案的运用,本发明具有的有益技术效果:本发明的技术方案提出
了一种基于传播内容的网络社交平台自反馈智能分类方法,适应范围广;本发明的技术方
案可以对大量网络社交平台进行集中分类,给每个网络社交平台赋予不同的类标,而这一
分类结果可以运用在许多数据挖掘领域中,实用性强;本发明的技术方案还兼具了监督型
和无监督型机器学习算法的优势,不需要引入额外的训练文本,获得了监督型机器学习算
法的分类准确率,具有使用便捷且准确率高的有益技术效果。

附图说明

下面结合附图对本发明技术方案作进一步说明。

附图1为本发明的实例流程示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细说明。

如附图1所示,本发明提出了一种自反馈式网络社交平台分类方法,包括用爬虫技
术获取网络社交平台的文字内容,并进行分词和去除停用词;手动确定每种类别的关键字,
构建关键字字典;利用关键字字典进行匹配,获取一部分网络社交平台的所属类别;以已知
类别的网络社交平台为基础,进行监督学习,获取剩下网络社交平台的所属类别。

如有若干待分类的网络社交平台集合S,集合中的每个元素s代表一种网络社交平
台,经过采集、预处理,可以得到每个网络社交平台s的关键文字内容,如社交平台s1的关键
字内容有W11、W12、W13...,社交平台s2的关键字内容有W21、W22、W23...等等。

手动构建网络社交平台所属类别的关键字字典Lex,先人为决定所有网络社交平
台可能属于的类别,如“时政新闻”、“穿衣打扮”、“大学高校”等等,然后为每种类别设定若
干个最能体现这一类别的关键字。例如,“大学高校”对应的关键字可以包括“大学”、“学
院”、“教授”等,最后得到第一类别Cls1包含的关键词为kw11、kw12...,第二类别Cls2包含
的关键词为kw21、kw22...等等。

利用之前预处理后的社交平台的关键字内容,通过查询关键字字典Lex,如果Lex
里某种类别的关键字出现在了社交平台的文字内容中,那么就认为该社交平台属于该类
别,这样社交集合S中的一部分网络社交平台会被分类为一个或多个类别,这样社交平台
s1、s3、s5就成为已分类集合了,剩下通过该关键字字典无法分类的s2、s4,则进入未分类集
合中。

将通过关键字方法划分了类别的网络社交平台s1、s3、s5提取出来,以它们的所属
类别作为类标,形成训练集合,然后利用监督型机器学习算法,针对训练集合的文本向量进
行训练,得到一个文本分类器;再利用文本分类器,对没法通过关键字方法划分类别的网络
社交平台s2、s4进行再分类,也进入已分类集合;最后集合S中的所有网络社交平台都能被
分类,将均已分类的集合进行合并得到最终分类集合。

以上仅是本发明的具体应用范例,对本发明的保护范围不构成任何限制。凡采用
等同变换或者等效替换而形成的技术方案,均落在本发明权利保护范围之内。

关 键 词:
一种 反馈 网络 社交 平台 分类 方法
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
太阳城集团本文
本文标题:一种自反馈式网络社交平台分类方法.pdf
链接地址:http://zh228.com/p-6019800.html
太阳城集团我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
葡京赌场|welcome document.write ('');