太阳城集团

  • / 9
  • 下载费用:30 金币  

一种数字化资源个性化推荐方法.pdf

摘要
申请专利号:

CN201510408131.8

申请日:

2015.07.10

公开号:

CN105045864A

公开日:

2015.11.11

当前法律状态:

实审

有效性:

审中

法律详情: 实质审查的生效IPC(主分类):G06F 17/30申请日:20150710|||公开
IPC分类号: G06F17/30 主分类号: G06F17/30
申请人: 浙江工商大学
发明人: 谢波; 姜波; 刘洋
地址: 310018浙江省杭州市下沙高教园区学正街18号
优先权:
专利代理机构: 杭州求是专利事务所有限公司33200 代理人: 邱启旺
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

太阳城集团CN201510408131.8

授权太阳城集团号:

|||

法律状态太阳城集团日:

太阳城集团2015.12.09|||2015.11.11

法律状态类型:

太阳城集团实质审查的生效|||公开

摘要

太阳城集团本发明公开了一种数字化资源个性化推荐方法,通过脚本获取用户太阳城集团数字化资源历史记录,对其进行分析,结合页面标签,产生推荐结果进行个性化推荐。手工为页面标注标签,形成标签库;对于未标注页面,进行页面相似度匹配,在已标注页面中找出最相似页面,将该页面标签赋予未标注页面;统计用户历史记录计算标签访问频次,对用户进行个性化推荐。本发明采用人工标注的方式为页面标注标签,通过页面相似度匹配自动为未标注页面标注标签,生成的页面标签更能够体现页面内容,更能够体现用户的潜在兴趣;用户访问网站已存在于网络中,资源更加丰富和多样,因此,本发明具有推荐精确和多样的特点,更能体现出用户的个性化。

权利要求书

1.一种数字化资源个性化推荐方法,其特征在于,包括以下步骤:
(1)标注标签,获取指定网站的网站地图,分析地图文件获得页面URL,为每个URL标
注标签,具体包括以下子步骤:
(1.1)在获取网站全部页面URL后,去掉无效页面,比如脚本文件URL,样式表文件URL
以及一些错误页面;
(1.2)采用手工的方式为每个URL标注至多10个最能代表页面内容的标签,保存在数
据库中,生成网页标签表;
(2)数据获取,通过脚本获取用户太阳城集团网站的访问记录,具体包括以下子步骤:
(2.1)用户设置太阳城集团器代理,通过代理服务器访问网站;
(2.2)代理服务器根据预先设置的规则文件,在符合规则的页面中嵌入脚本,脚本在每
次用户太阳城集团页面时,将用户ID,页面URL、页面标题、页面访问太阳城集团、上一跳地址返回给服
务器,保存在数据库中,生成访问记录表;
(3)页面相似度匹配,若用户当前访问页面不在网页标签表中,从网页标签表中获取与
当前用户访问页面最相似的页面,具体包括以下子步骤:
(3.1)网页关键字提取,获取当前访问页面内容,去掉HTML标签,获得页面中纯文本
内容;利用中文分词工具,去掉叹词、副词、形容词、介词等无意义的词,得到n个有效词
(w1,w2,...,wk,...,wn),统计每个有效词wk在该网页中出现的次数用每个有效词出现的
次数除以有效词数n,得到每个有效词在网页中出现的词频数扫描网页标签表
中所有m个页面,分别统计包含有效词wk的网页数用网站网页总数m除以包含该词的
网页数,得到包含有效词wk的网页占网页总数的反比例取用TF与IDF
的乘积相乘得到有效词wk的TF‐IDF,即按照这个过程,得到n个
有效词的TF‐IDF,将这些有效词的TF‐IDF按照降序排列,按顺序取前p个作为本页面的关键
字;
(3.2)从网页标签表中m个网页中取出一个页面,按照步骤(3.1)获取页面的p个关
键字,将两个页面的关键字合并为一个集合(t1,t2,...tk,...tr),其中p≤r≤2p,计算集合中关键
字tk在两个页面中的词频数进一步将每个关键字词频除以所有关键字总的词频数,即
获得每个关键字的相对词频
(3.3)根据步骤(3.2)计算得出的相对词频,得到两个页面的词频分量
计算两个分量的余弦相似度;
(3.4)依次计算当前访问页面和网页标签表中所有页面的余弦相似度,余弦相似度最大,
即为当前访问页面最相似页面;
(4)个性化推荐,结合网页标签表和访问记录表,统计该用户访问过的s个标签
(l1,l2,...lk,...ls)以及每个标签的访问频次将每个标签访问除以所有标签
总的访问频次,即得到每个标签的相对访问频次;根据相对访问频次按照降序排
列,计算包含标签lk的页面的访问次数,按照降序排列,生成基于标签lk的推荐列表,合并s
个标签生成的推荐列表,将最终推荐结果推荐给用户。
2.根据权利要求1所述的一种数字化资源个性化推荐方法,其特征在于,步骤(2)
生成的访问记录表,用户所访问网站是互联网已存在的,通过用户设置代理的方式,代理服
务器会将预先设置的脚本嵌入在符合规则的网页中,脚本获取用户在该网站上的访问记录并
将其返回到服务器,保存在数据库中;步骤(1)中生成的网页标签表,统计网页标签表可以
获得该领域的标签库,在之后访问未标注页面时,选取最相似页面的标签作为该页面的标签,
结合步骤(2)生成的访问记录表和网页标签表,用户访问的页面都已标注标签。

关 键 词:
一种 数字化 资源 个性化 推荐 方法
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
太阳城集团本文
本文标题:一种数字化资源个性化推荐方法.pdf
链接地址:http://zh228.com/p-6401415.html
太阳城集团我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
葡京赌场|welcome document.write ('');