太阳城集团

  • / 21
  • 下载费用:30 金币  

基于中转模式的网页访问方法及系统、抓取路径服务器.pdf

摘要
申请专利号:

CN201210319292.6

申请日:

2012.08.31

公开号:

CN103678311A

公开日:

2014.03.26

当前法律状态:

授权

有效性:

有权

法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20120831|||公开
IPC分类号: G06F17/30; H04L29/08 主分类号: G06F17/30
申请人: 腾讯科技(深圳)有限公司
发明人: 李瑞; 徐羽; 陈德贤; 钭伟雨
地址: 518000 广东省深圳市福田区赛格科技园2栋东403室
优先权:
专利代理机构: 北京三高永信知识产权代理有限责任公司 11138 代理人: 鞠永善
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

CN201210319292.6

授权太阳城集团号:

||||||

法律状态太阳城集团日:

太阳城集团2018.11.13|||2015.06.03|||2014.03.26

法律状态类型:

授权|||实质审查的生效|||公开

摘要

本发明公开了一种基于中转模式的网页访问方法及系统、抓取路径服务器,属于计算机技术领域。所述方法包括:接收客户端发送的网页访问请求,网页访问请求中携带要访问的目标网站的标识;从至少一个抓取服务器中获取访问目标网站的标识对应的目标网站网速最快的目标抓取服务器;向客户端返回目标抓取服务器的标识,以供客户端通过目标抓取服务器的标识对应的目标抓取服务器访问目标网站。本发明实施例的技术方案,通过获取并向客户端提供访问目标网站网速最快的目标抓取服务器,为客户端提供了访问目标网站的最佳路径即网速最快的路径,本发明实施例的技术方案能够有效地提高客户端访问目标网站的访问网速,提高客户端的访问效率,提高用户的体验。

权利要求书

权利要求书
1.  一种基于中转模式的网页访问方法,其特征在于,所述方法包括:
接收客户端发送的网页访问请求,所述网页访问请求中携带要访问的目标网站的标识;
从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器;
向所述客户端返回所述目标抓取服务器的标识,以供所述客户端通过所述目标抓取服务器的标识对应的所述目标抓取服务器访问所述目标网站。

2.  根据权利要求1所述的方法,其特征在于,所述至少一个抓取服务器分别对应不同的网络服务提供商。

3.  根据权利要求1所述的方法,其特征在于,从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器之前,所述方法还包括:
对于所述至少一个抓取服务器中的每一个抓取服务器,接收所述抓取服务器上报的上一次访问所述目标网站的网速;所述抓取服务器上一次访问所述目标网站的网速为所述抓取服务器根据所述抓取服务器在上一次访问所述目标网站的过程中,所述抓取服务器与所述目标网站的连接太阳城集团的倒数获取的;
存储所述抓取服务器上一次访问所述目标网站的网速。

4.  根据权利要求3所述的方法,其特征在于,存储所述抓取服务器上一次访问所述目标网站的网速之后,从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器之前,所述方法还包括:
对于所述至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问所述目标网站的网速,计算所述抓取服务器访问所述目标网站的有效网速;
从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器,包括:
从所述至少一个抓取服务器中获取访问所述目标网站的有效网速最快的抓取服务器作为所述目标抓去服务器。

5.  根据权利要求4所述的方法,其特征在于,对于所述至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问所述目标网站的网速,计算 所述抓取服务器访问所述目标网站的有效网速,包括:对于所述至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问所述目标网站的网速,采用如下公式计算所述抓取服务器访问所述目标网站的有效网速:
S=Σi=1nsi/n]]>
其中S所述抓取服务器访问所述目标网站的有效网速;n表示所述抓取服务器上报的访问所述目标网站的网速的上报次数;si表示所述抓取服务器每次上报访问所述目标网站的网速。

6.  根据权利要求4所述的方法,其特征在于,对于所述至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问所述目标网站的网速,计算所述抓取服务器访问所述目标网站的有效网速,包括:对于所述至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问所述目标网站的网速和一常量参数,采用如下公式计算所述抓取服务器访问所述目标网站的有效网速:
S=s‾+1a1nΣi=1n(si-s‾)2]]>
其中S所述抓取服务器访问所述目标网站的有效网速;n表示所述抓取服务器上报的访问所述目标网站的网速的上报次数;si表示所述抓取服务器每次上报的访问所述目标网站的网速;表示所述抓取服务器所有次访问所述目标网站的平均网速;a为所述常量参数。

7.  根据权利要求1-6任一所述的方法,其特征在于,从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器之前,所述方法还包括:
定期检测所述至少一个抓取服务器访问所述目标网站的网速。

8.  一种抓取路径服务器,其特征在于,包括:
接收模块,用于接收客户端发送的网页访问请求,所述网页访问请求中携带要访问的目标网站的标识;
获取模块,用于从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器;
发送模块,用于向所述客户端返回所述目标抓取服务器的标识,以供所述 客户端通过所述目标抓取服务器的标识对应的所述目标抓取服务器访问所述目标网站。

9.  根据权利要求8所述的抓取路径服务器,其特征在于,所述至少一个抓取服务器分别对应不同的网络服务提供商。

10.  根据权利要求8所述的抓取路径服务器,其特征在于,还包括存储模块;
所述接收模块,还用于在所述获取模块从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器之前,对于所述至少一个抓取服务器中的每一个抓取服务器,接收所述抓取服务器上报的上一次访问所述目标网站的网速;所述抓取服务器上一次访问所述目标网站的网速为所述抓取服务器根据所述抓取服务器在上一次访问所述目标网站的过程中,所述抓取服务器与所述目标网站的连接太阳城集团的倒数获取的;
所述存储模块,用于存储所述接收模块接收的所述抓取服务器上一次访问所述目标网站的网速。

11.  根据权利要求10所述的抓取路径服务器,其特征在于,还包括计算模块;
所述计算模块,用于在所述存储模块存储所述抓取服务器上一次访问所述目标网站的网速之后,所述获取模块从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的所述目标抓取服务器之前,对于所述至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问所述目标网站的网速,计算所述抓取服务器访问所述目标网站的有效网速;
所述获取模块,具体用于从所述至少一个抓取服务器中获取访问所述目标网站的有效网速最快的抓取服务器作为所述目标抓去服务器。

12.  根据权利要求11所述的抓取路径服务器,其特征在于,所述计算模块,具体用于对于所述至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问所述目标网站的网速,采用如下公式计算所述抓取服务器访问所述目标网站的有效网速:
S=Σi=1nsi/n]]>
其中S所述抓取服务器访问所述目标网站的有效网速;n表示所述抓取服务器上报的访问所述目标网站的网速的上报次数;si表示所述抓取服务器每次上报 访问所述目标网站的网速。

13.  根据权利要求11所述的抓取路径服务器,其特征在于,所述计算模块,具体用于对于所述至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问所述目标网站的网速和一常量参数,采用如下公式计算所述抓取服务器访问所述目标网站的有效网速:
S=s‾+1a1nΣi=1n(si-s‾)2]]>
其中S所述抓取服务器访问所述目标网站的有效网速;n表示所述抓取服务器上报的访问所述目标网站的网速的上报次数;si表示所述抓取服务器每次上报的访问所述目标网站的网速;表示所述抓取服务器所有次访问所述目标网站的平均网速;a为所述常量参数。

14.  根据权利要求8-13任一所述的抓取路径服务器,其特征在于,还包括:
检测模块,用于在所述获取模块从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器之前,定期检测所述至少一个抓取服务器访问所述目标网站的网速。

15.  一种基于中转模式的网页访问系统,其特征在于,包括客户端、至少一个抓取服务器和如上权利要求8-14任一所述的抓取路径服务器。

说明书

说明书基于中转模式的网页访问方法及系统、抓取路径服务器
技术领域
本发明涉及计算机技术领域,特别涉及一种基于中转模式的网页访问方法及系统、抓取路径服务器。
背景技术
随着移动互联网的飞速发展以及手机普及率的快速增长,使用手机的太阳城集团器客户端进行搜索、网上冲浪的用户越来越多,需求也越来越大。
目前的手机的太阳城集团器客户端访问网页的方式主要有两种:直连模式和中转模式。所谓直连模式就是手机的太阳城集团器客户端采用超文本传送协议(hypertext transport protocol;http)通过移动网络直接与要访问的目标网站建立传输控制协议(t ransmission control protocol;tcp)连接进行数据的交互。而中转模式则是手机的太阳城集团器客户端采用http协议或者其他协议与中转服务器建立tcp连接,而后中转服务器采用代理的方式将手机的太阳城集团器客户端发送的http请求发送到目标网站服务器,并在收到目标网站服务器返回的响应后再转发给手机的太阳城集团器客户端。中转模式相对于直连模式可以借助多种方式减少网络流量的消耗,同时可以更快地响应用户的请求,给用户更好的体验。且现有市场占大半份额的低端手机内存小、中央处理器(Central Processing Unit;CPU)能力弱,手机太阳城集团器客户端也无法执行JavaScript(简称js)和渲染页面,因此采用中转模式访问网页是最佳的方案。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:现有的网络机制下,一个网站中可能部署有多个网络环境,而现有技术的中转模式下,中转服务器仅采用代理的方式将手机的太阳城集团器客户端发送的http请求发送到目标网站服务器,而中转服务器和目标网站服务器有可能属于不同的网络环境,导致访问网速较慢,访问效率较低。
发明内容
为了解决上述技术问题,本发明实施例提供了一种基于中转模式的网页访问方法及系统、抓取路径服务器。所述技术方案如下:
一方面,提供了一种基于中转模式的网页访问方法,所述方法包括:
接收客户端发送的网页访问请求,所述网页访问请求中携带要访问的目标网站的标识;
从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器;
向所述客户端返回所述目标抓取服务器的标识,以供所述客户端通过所述目标抓取服务器的标识对应的所述目标抓取服务器访问所述目标网站。
可选地,如上所述的方法中,所述至少一个抓取服务器分别对应不同的网络服务提供商。
可选地,如上所述的方法中,从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器之前,还包括:
对于所述至少一个抓取服务器中的每一个抓取服务器,接收所述抓取服务器上报的上一次访问所述目标网站的网速;所述抓取服务器上一次访问所述目标网站的网速为所述抓取服务器根据所述抓取服务器在上一次访问所述目标网站的过程中,所述抓取服务器与所述目标网站的连接太阳城集团的倒数获取的;
存储所述抓取服务器上一次访问所述目标网站的网速。
可选地,如上所述的方法中,存储所述抓取服务器上一次访问所述目标网站的网速之后,从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器之前,还包括:
对于所述至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问所述目标网站的网速,计算所述抓取服务器访问所述目标网站的有效网速;
从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器,包括:
从所述至少一个抓取服务器中获取访问所述目标网站的有效网速最快的抓取服务器作为所述目标抓去服务器。
可选地,如上所述的方法中,对于所述至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问所述目标网站的网速,计算所述抓取服务器访问所述目标网站的有效网速,包括:对于所述至少一个抓取服务器中的每一 个抓取服务器,根据存储的所有次访问所述目标网站的网速,采用如下公式计算所述抓取服务器访问所述目标网站的有效网速:
S=Σi=1nsi/n]]>
其中S所述抓取服务器访问所述目标网站的有效网速;n表示所述抓取服务器上报的访问所述目标网站的网速的上报次数;si表示所述抓取服务器每次上报访问所述目标网站的网速。
可选地,如上所述的方法中,对于所述至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问所述目标网站的网速,计算所述抓取服务器访问所述目标网站的有效网速,包括:对于所述至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问所述目标网站的网速和一常量参数,采用如下公式计算所述抓取服务器访问所述目标网站的有效网速:
S=s‾+1a1nΣi=1n(si-s‾)2]]>
其中S所述抓取服务器访问所述目标网站的有效网速;n表示所述抓取服务器上报的访问所述目标网站的网速的上报次数;si表示所述抓取服务器每次上报的访问所述目标网站的网速;表示所述抓取服务器所有次访问所述目标网站的平均网速;a为所述常量参数。
可选地,如上所述的方法中,从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器之前,还包括:
定期检测所述至少一个抓取服务器访问所述目标网站的网速。
另一方面,提供了一种抓取路径服务器,包括:
接收模块,用于接收客户端发送的网页访问请求,所述网页访问请求中携带要访问的目标网站的标识;
获取模块,用于从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器;
发送模块,用于向所述客户端返回所述目标抓取服务器的标识,以供所述客户端通过所述目标抓取服务器的标识对应的所述目标抓取服务器访问所述目标网站。
可选地,如上所述的抓取路径服务器中,所述至少一个抓取服务器分别对应不同的网络服务提供商。
可选地,如上所述的抓取路径服务器中,还包括存储模块;
所述接收模块,还用于在所述获取模块从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器之前,对于所述至少一个抓取服务器中的每一个抓取服务器,接收所述抓取服务器上报的上一次访问所述目标网站的网速;所述抓取服务器上一次访问所述目标网站的网速为所述抓取服务器根据所述抓取服务器在上一次访问所述目标网站的过程中,所述抓取服务器与所述目标网站的连接太阳城集团的倒数获取的;
所述存储模块,用于存储所述接收模块接收的所述抓取服务器上一次访问所述目标网站的网速。
可选地,如上所述的抓取路径服务器中,还包括计算模块;
所述计算模块,用于在所述存储模块存储所述抓取服务器上一次访问所述目标网站的网速之后,所述获取模块从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的所述目标抓取服务器之前,对于所述至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问所述目标网站的网速,计算所述抓取服务器访问所述目标网站的有效网速;
所述获取模块,具体用于从所述至少一个抓取服务器中获取访问所述目标网站的有效网速最快的抓取服务器作为所述目标抓去服务器。
可选地,如上所述的抓取路径服务器中,
所述计算模块,具体用于对于所述至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问所述目标网站的网速,采用如下公式计算所述抓取服务器访问所述目标网站的有效网速:
S=Σi=1nsi/n]]>
其中S所述抓取服务器访问所述目标网站的有效网速;n表示所述抓取服务器上报的访问所述目标网站的网速的上报次数;si表示所述抓取服务器每次上报访问所述目标网站的网速。
可选地,如上所述的抓取路径服务器中,所述计算模块,具体用于对于所述至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问所述目标网站的网速和一常量参数,采用如下公式计算所述抓取服务器访问所述目标网站的有效网速:
S=s‾+1a1nΣi=1n(si-s‾)2]]>
其中S所述抓取服务器访问所述目标网站的有效网速;n表示所述抓取服务器上报的访问所述目标网站的网速的上报次数;si表示所述抓取服务器每次上报的访问所述目标网站的网速;表示所述抓取服务器所有次访问所述目标网站的平均网速;a为所述常量参数。
可选地,如上所述的抓取路径服务器中,还包括:
检测模块,用于在所述获取模块从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器之前,定期检测所述至少一个抓取服务器访问所述目标网站的网速。
再一方面,提供了一种基于中转模式的网页访问系统,包括客户端、至少一个抓取服务器和如上任一所述的抓取路径服务器。
本发明实施例提供的基于中转模式的网页访问方法及系统、抓取路径服务器,通过接收客户端发送的网页访问请求,所述网页访问请求中携带要访问的目标网站的标识;从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器;向所述客户端返回所述目标抓取服务器的标识,以供所述客户端通过所述目标抓取服务器的标识对应的所述目标抓取服务器访问所述目标网站。本发明实施例的上述技术方案,通过获取并向客户端提供访问目标网站网速最快的目标抓取服务器,从而为客户端提供了访问目标网站的最佳路径,即网速最快的路径,采用本发明实施例的技术方案能够有效地提高客户端访问目标网站的访问网速,提高客户端的访问效率,提高用户的体验。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的基于中转模式的网页访问方法的流程图。
图2为本发明实施例二提供的基于中转模式的网页访问方法的信令图。
图3为本发明实施例三提供的抓取路径服务器的结构示意图。
图4为本发明实施例四提供的抓取路径服务器的结构示意图,
图5为本发明实施例五提供的基于中转模式的网页访问系统的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
图1为本发明实施例一提供的基于中转模式的网页访问方法的流程图。如图1所示,本实施例的基于中转模式的网页访问方法的执行主体为抓取路径服务器(Crawler Route Server)。如图1所示,本实施例的基于中转模式的网页访问方法,具体可以包括如下步骤:
100、接收客户端发送的网页访问请求,该网页访问请求中携带要访问的目标网站的标识;
例如目标网站的标识可以为目标网站的统一资源定位符(Uniform/Universal Resource Locator;URL),即目标网站的网址。
需要说明的是,本实施例中接收客户端发送的网页访问请求具体还可以为接收接入服务器转发的客户端发送的网页访问请求。此时对应的,在网络中还存在接入服务器,该接入服务器用于接收客户端的访问请求,并将该访问请求转发给抓取路径服务器。
101、从至少一个抓取服务器中获取访问目标网站的标识对应的目标网站网速最快的目标抓取服务器;
例如,本发明实施例的技术方案中,根据互联网服务提供商(Internet Service Provider;ISP)的不同,一个网络环境下可以部署多个抓取服务器(Crawler Server),每一个抓取服务器对应一个ISP,从而可以将抓取服务器部署在电信、移动、联通和教育网中,可以分别命名为电信抓取服务器CrawlerTelServer、移动抓取服务器CrawlerMobileServer、联通抓取服务器CrawlerUnicomServer、教育抓取服务器CrawlerEduServer。
在网络访问中,跨网络访问网站会带来很大的网络时延,导致访问网速较慢。比如从电信机房的机器去访问部署在联通机房的某个网站,那么跨网带来 的时延可能由ms级别上升到s级。即使是从电信的机房去访问部署在其他电信机房的网站,如果选择的IP不合适同样有可能造成耗时增高。由此可知,跨网络访问通常会导致访问网速较慢。因此,可选地,在本发明实施例中,访问目标网站的网速最快的目标抓取服务器应该与目标网站属于相同的ISP,使得从该目标抓取服务器访问该目标网站不属于跨网访问,相对于其他的相对于目标网站属于跨网的抓取服务器而言,具有较快的访问网速。
102、向客户端返回目标抓取服务器的标识,以供客户端通过目标抓取服务器的标识对应的目标抓取服务器访问目标网站。
需要说明的是,本实施例中,客户端通过目标抓取服务器访问目标网站的实现过程与现有技术中手机的太阳城集团器客户端通过中转服务器访问目标网站的实现机制相类似。本实施例的抓取服务器类似于中转服务器的功能。具体地,目标抓取服务器可以先根据目标网站的域名解析获取目标网站的IP,然后根据目标网站的IP访问目标网站,详细可以参考相关现有技术,在此不再赘述。
本实施例的基于中转模式的网页访问方法适用于通过手机之类的移动终端访问网页的场景,其中本发明实施例中的客户端具体可以为移动终端上的太阳城集团器客户端。
本实施例的基于中转模式的网页访问方法,通过接收客户端发送的网页访问请求,所述网页访问请求中携带要访问的目标网站的标识;从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器;向所述客户端返回所述目标抓取服务器的标识,以供所述客户端通过所述目标抓取服务器的标识对应的所述目标抓取服务器访问所述目标网站。本实施例的上述技术方案,通过获取并向客户端提供访问目标网站网速最快的目标抓取服务器,从而为客户端提供了访问目标网站的最佳路径,即网速最快的路径,采用本实施例的技术方案能够有效地提高客户端访问目标网站的访问网速,提高客户端的访问效率,提高用户的体验。
可选地,在上述图1所示实施例的技术方案的基础上,在步骤101“从至少一个抓取服务器中获取访问目标网站的标识对应的目标网站网速最快的目标抓取服务器”之前,还可以包括:对于至少一个抓取服务器中的每一个抓取服务器,接收抓取服务器上报的上一次访问目标网站的网速;其中该抓取服务器上一次访问目标网站的网速为抓取服务器根据抓取服务器在上一次访问目标网站 的过程中,抓取服务器与目标网站的连接太阳城集团的倒数获取的;并存储抓取服务器上一次访问目标网站的网速。进一步可选地,该步骤也可以在步骤100之前进行。
由于连接太阳城集团越长表示网络状况越差,访问的网速越慢,连接太阳城集团越短表示网络状况越好,访问网速越快。因此本发明实施例中,该抓取服务器上一次访问目标网站的网速为抓取服务器根据抓取服务器在上一次访问目标网站的过程中,抓取服务器与目标网站的连接太阳城集团的倒数获取的,具体地,访问网速可以等于连接太阳城集团的倒数乘以一个常数,该常数可以根据实际情况确定。
需要说明的是,实际应用中,反应网络状况的数据有很多,比如耗时、丢包率等等。抓取服务器作为HTTP代理服务器,可以精确的获取到HTTP请求处理的各个阶段耗时:连接太阳城集团、发送请求太阳城集团、等待响应太阳城集团、接收数据太阳城集团。其中连接太阳城集团最能准确反应抓取出口到网站WebServer的网络状况,其耗时越短说明网络状况越好。因此本发明实施例中的网速正是来源于连接太阳城集团。可选地,查看A机器到B机器的网络好坏最常用的方法就是Ping,因此需要将连接太阳城集团与Ping的结果进行对比,以此来判断连接太阳城集团作为网速值的可靠度有多大。为此选择了一些访问量大的网站进行测试,例如表1所示,具体的Ping的结果和连接太阳城集团如表1所示。通过表1可以看出,连接太阳城集团与Ping值几乎完全吻合,因此连接太阳城集团是可以准确反应网络状况的。因此本发明实施例中可以利用连接太阳城集团的倒数大小来确定访问网速的大小。连接太阳城集团越长,表示网络状态越不好,访问网速越小;连接太阳城集团越短,表示网络状态越好,访问网速越大。
表1

且上述实施例的技术方案中,由于各抓取服务器均有可能访问该目标网站, 对于每一个抓取服务器,在其访问目标网站之后,需要其向抓取路径服务器上报访问该目标网站的网速。按照类似的实现机制,可以设置任意一个抓取服务器访问任何一个网站之后,都需要向抓取路径服务器上报访问该网站的网速。对应的在抓取路径服务器一侧,在每一个抓取服务器访问网站结束之后,需要接收每一个抓取服务器上报的访问网站的网速。具体地,在抓取路径服务器中,可以采用哪个如下数据结构来保存每一个抓取服务器上报的访问网站的网速数据,具体的数据结构如下:

其中CrawlerNode表示抓取服务器;节点名称sNodeName表示抓取服务器的名称;节点网速nSpeed表示该抓取服务器访问目标网站的网速;最近一次上报太阳城集团点iReportTime为该抓取服务器最后一次上报访问该目标网站的网速的太阳城集团点。

其中CrawlerRouteDbStruct表示抓取路径服务器的数据结构;sDomain表示要访问的目标网站的域名,在该数据结构中,采用域名表示目标网站;抓取节点vCrawlerNodes表示该网络中部署的多个抓取服务器;返回节点sRtnnode表示抓取路径服务器从多个抓取服务器中获取的访问目标网站网速最快的目标 抓取服务器,也是返回给客户端的抓取服务器,因此也可以称之为返回节点。
进一步地,在该数据结构中还定义了人工节点sManualnode,该人工节点为抓取路径服务器强制指定的抓取服务器。例如当抓取路径服务器确定当前目标节点为网络提供商,可以强制指定属于同一网络提供商的抓取服务器作为人工节点。由于同一网络提供商的抓取服务器访问属于同一网络提供商的目标网站的网速,相对于抓取服务器访问不属于同一网络提供商的目标网站的网速会更快一些,从而可以保证网络访问网速较快。
而且进一步地如果抓取路径服务器总强制指定人工节点,或者从至少一个抓取服务器中获取访问目标网站的标识对应的目标网站网速最快的目标抓取服务器总是其中一个抓取服务器,而其他抓取服务器一直没有工作,可能会造成没有及时更新其他的抓取服务器的访问目标网站的网速。因此还可以定期(如周期性的)测试其他访问目标网站的网速较慢的抓取服务器(节点)访问目标网站的网速,其中iUpdateTime即表示最近一次更新其他网速慢的节点的太阳城集团点。进一步可选地,在上述实施例的技术方案的基础上,“存储抓取服务器上一次访问目标网站的网速”之后,步骤101“从至少一个抓取服务器中获取访问目标网站的标识对应的目标网站网速最快的目标抓取服务器”,还可以包括如下步骤:对于至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问目标网站的网速,计算抓取服务器访问目标网站的有效网速。
此时对应的步骤101“从至少一个抓取服务器中获取访问目标网站的标识对应的目标网站网速最快的目标抓取服务器”,具体可以包括:从至少一个抓取服务器中获取访问目标网站的有效网速最快的抓取服务器作为目标抓去服务器。
需要说明的是,“对于至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问目标网站的网速,计算抓取服务器访问目标网站的有效网速”,具体可以包括:对于至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问目标网站的网速,采用如下公式计算抓取服务器访问目标网站的有效网速:
S=Σi=1nsi/n]]>
其中S抓取服务器访问目标网站的有效网速;n表示抓取服务器上报的访问目标网站的网速的上报次数;si表示抓取服务器每次上报访问目标网站的网速。
上述计算方法实现简单,计算量很小,但是存在下面这种问题:比如 CrawlTelServer的网速一直是最快的,其他抓取对象的网速相对较慢。但是在很短太阳城集团里CrawlTelServer出现了一点波动导致网速值突然变很大,那么计算的结果就是会切换到其他抓取对象,这就是一种误判行为。因此这种方法很难抵抗网络波动导致的误判。
为了有效地解决上述方法很难抵抗网络波动导致的误判的缺陷,“对于至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问目标网站的网速,计算抓取服务器访问目标网站的有效网速”,具体还可以包括:对于至少一个抓取服务器中的每一个抓取服务器,根据存储的所有次访问目标网站的网速和一常量参数,采用如下公式计算抓取服务器访问目标网站的有效网速:
S=s‾+1a1nΣi=1n(si-s‾)2]]>
其中S抓取服务器访问目标网站的有效网速;n表示抓取服务器上报的访问目标网站的网速的上报次数;si表示抓取服务器每次上报的访问目标网站的网速;表示抓取服务器所有次访问目标网站的平均网速;a为常量参数。该计算方法中,通过增加了标准差作为计算网速值的一个较小的权重,以此来去除网络波动导致的误判,从而有效地提高了计算抓取服务器访问目标网站的有效网速的计算精度。
进一步可选地,在上述实施例的技术方案的基础上,对于至少一个抓取服务器中的访问过目标网站的抓取服务器,会向抓取路径服务器上报访网速。当抓取路径服务器从至少一个抓取服务器中获取访问目标网站网速最快的目标抓取服务器总是其中一个抓取服务器,而其他抓取服务器一直没有工作,也没有及时更新并上报访问目标网站的网速。由于网络的原因,其他的抓取服务器访问目标网站的网速未必一直小于之前选择的抓取服务访问目标网站的网速,为了避免这种情形发生,步骤101之前,还可以包括:抓取路径服务器还可以定期检测至少一个抓取服务器访问目标网站的网速。尤其是检测其他的近期没有被选择的抓取路径服务器的网速,其检测方式也就是让要检测的抓取服务器访问目标网站,从而得到该检测的抓取服务器访问目标网站的网速。
需要说明的是,“定期检测至少一个抓取服务器访问目标网站的网速”的方法可以和上述至少一个抓取服务器在访问目标网站之后上报访问目标网站网速的方法同时进行。当抓取路径服务器从至少一个抓取服务器中获取访问目标网 站网速最快的目标抓取服务器总是其中一个抓取服务器的时候,此时优选地,抓取路径服务器也可以定期检测至少一个抓取服务器中除了被选择的抓取服务器之外的其他抓取路径服务器访问目标网站的网速。
可选地,在上述实施例的技术方案的基础上,当抓取路径服务器还可以根据网络服务器提供商选择目标抓取服务器,由于同一网络提供商的抓取服务器访问属于同一网络提供商的目标网站的网速,相对于抓取服务器访问不属于同一网络提供商的目标网站的网速会更快一些,可以根据目标网站的网络服务器提供商的类型确定访问该目标网站的抓取服务器,具体地,选择与目标网站属于同一网络服务提供商的抓取服务器,例如目标网站为电信网络的网站,目标抓取服务器选择电信抓取服务器CrawlerTelServer;目标网站为移动网络的网站,目标抓取服务器选择移动抓取服务器CrawlerMobileServer;目标网站为联通网络的网站,目标抓取服务器选择联通抓取服务器CrawlerUnicomServer;目标网站为教育网络的网站,目标抓取服务器选择教育抓取服务器CrawlerEduServer。
上述实施例的基于中转模式的网页访问方法中的所有可选技术方案,可以采用可结合的任意方式组合形成本发明的可选实施例,在此不再一一赘述。
本实施例的抓取路径服务器,以包括上述所有可选技术方案为例介绍本发明的技术方案,实际应用中,上述所有可选技术方案可以采用可结合的任意方式组合形成本发明的可选实施例,在此不再一一赘述。
通过采用上述实施例的技术方案,每次访问请求均能够选择最佳的网络通路,保证用户的访问请求以最快的网速得到响应,给用户提供最佳的网速体验。而且上述实施例的技术方案不借助其他任何工具,就能准确的判断对方网站所处的网络环境好坏情况,确定访问网速最快的抓取服务器,从而为客户端提供了访问目标网站的最佳路径,即网速最快的路径,采用本实施例的技术方案能够有效地提高客户端访问目标网站的访问网速,提高客户端的访问效率,提高用户的体验。
实施例二
图2为本发明实施例二提供的基于中转模式的网页访问方法的信令图。如图2所示,本实施例的基于中转模式的网页访问方法,具体可以包括如下步骤:
200-203、分别为电信抓取服务器(CrawlerTelServer)、移动抓取服务器 (CrawlerMobileServer)、联通抓取服务器(CrawlerUnicomServer)和教育抓取服务器(Crawl erEduServer)在每次抓取返回时,向抓取路径服务器Crawler Route Server异步上报访问网站的网速;
本实施例中以至少一个抓取服务器包括电信抓取服务器(CrawlerTelServer)、移动抓取服务器(CrawlerMobileServer)、联通抓取服务器(CrawlerUnicomServer)、教育抓取服务器(CrawlerEduServer)为例描述本发明的技术方案。本实施例中的每次抓取返回时指的是抓取服务器访问任何一个网站返回时;此时均需要上报访问的网速。本实施例中各抓取服务器上报的访问网站的网速,也可以根据抓取服务器与目标网站的连接太阳城集团的倒数获取的,详细亦可以参考上述实施例的相关技术,在此不再赘述。
204、手机太阳城集团器客户端向抓取路径服务器发送访问请求,该访问请求中携带目标网站的标识;
本实施例中以客户端具体为手机太阳城集团器客户端为例描述本发明的技术方案。本实施例中手机太阳城集团器客户端向抓取路径服务器发送的访问请求具体也可以称之为http请求。
205、抓取路径服务器根据记录的电信抓取服务器(CrawlerTelServer)、移动抓取服务器(CrawlerMobileServer)、联通抓取服务器(CrawlerUnicomServer)和教育抓取服务器(CrawlerEduServer)访问目标网站的网速,分别计算电信抓取服务器(CrawlerTelServer)、移动抓取服务器(CrawlerMobileServer)、联通抓取服务器(CrawlerUnicomServer)和教育抓取服务器(CrawlerEduServer)访问目标网站的有效网速;
本实施例中计算电信抓取服务器(CrawlerTelServer)、移动抓取服务器(CrawlerMobileServer)、联通抓取服务器(CrawlerUnicomServer)和教育抓取服务器(CrawlerEduServer)访问目标网站的有效网速详细可以参考上述相关实施例的记载,在此不再赘述。
206、抓取路径服务器从电信抓取服务器(CrawlerTelServer)、移动抓取服务器(CrawlerMobileServer)、联通抓取服务器(CrawlerUnicomServer)和教育抓取服务器(CrawlerEduServer)中获取有效网速最大的电信抓取服务器(CrawlerTelServer)作为目标抓取服务器;
本实施例中以电信抓取服务器CrawlerTelServer访问目标网站的有效网速 最大为例介绍本发明实施例的技术方案。实际应用中也可以为其他抓取服务器访问目标网站的有效网速最大,在此不再一一举例赘述。
207、抓取路径服务器向客户端返回获取的目标抓取服务器即电信抓取服务器(CrawlerTelServer)的标识;
208、手机太阳城集团器客户端采用电信抓取服务器(CrawlerTelServer)访问目标网站;
即本实施例中手机太阳城集团器客户端调用电信抓取服务器(CrawlerTelServer)访问目标网站。
209、目标网站向电信抓取服务器(CrawlerTelServer)返回访问响应;
210、电信抓取服务器(CrawlerTelServer)向客户端返回访问响应;
211、电信抓取服务器(CrawlerTelServer)向抓取异步路径服务器异步上报此次访问目标网站的网速。
同理,电信抓取服务器(CrawlerTelServer)上报的此次访问目标网站的网速,也可以根据抓取服务器与目标网站的连接太阳城集团的倒数获取的,详细亦可以参考上述实施例的相关技术,在此不再赘述。该步骤上报的此次访问目标网站的网速是为了便于有客户端下次访问该目标网站时,根据电信抓取服务器(CrawlerTelServer)所有次访问该目标网站的网速计算该电信抓取服务器(CrawlerTelServer)访问该目标网站的有效网速,详细可以参考上述步骤205的记载,在此不再赘述。
通过采用本实施例的基于中转模式的网页访问方法,每次访问请求均能够选择最佳的网络通路,保证用户的访问请求以最快的网速得到响应,给用户提供最佳的网速体验。而且上述实施例的技术方案不借助其他任何工具,就能准确的判断对方网站所处的网络环境好坏情况,确定访问网速最快的抓取服务器,从而为客户端提供了访问目标网站的最佳路径,即网速最快的路径,采用本实施例的技术方案能够有效地提高客户端访问目标网站的访问网速,提高客户端的访问效率,提高用户的体验。
实施例三
图3为本发明实施例三提供的抓取路径服务器的结构示意图。如图3所示,本实施例的抓取路径服务器,具体可以包括:接收模块10、获取模块11和发送模块12。
其中接收模块10接收客户端发送的网页访问请求,该页访问请求中携带要访问的目标网站的标识;获取模块11与接收模块10连接,获取模块11用于从至少一个抓取服务器中获取访问接收模块10接收的目标网站的标识对应的目标网站网速最快的目标抓取服务器;发送模块12与获取模块11连接,发送模块12用于向客户端返回获取模块11获取的目标抓取服务器的标识,以供客户端通过目标抓取服务器的标识对应的目标抓取服务器访问目标网站。
本实施例的抓取路径服务器,通过采用上述模块实现基于中转模式的网页访与上述相关方法实施例的实现机制相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
本实施例的抓取路径服务器,通过采用上述模实现接收客户端发送的网页访问请求,所述网页访问请求中携带要访问的目标网站的标识;从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器;向所述客户端返回所述目标抓取服务器的标识,以供所述客户端通过所述目标抓取服务器的标识对应的所述目标抓取服务器访问所述目标网站。本实施例的上述技术方案,通过获取并向客户端提供访问目标网站网速最快的目标抓取服务器,从而为客户端提供了访问目标网站的最佳路径,即网速最快的路径,采用本实施例的技术方案能够有效地提高客户端访问目标网站的访问网速,提高客户端的访问效率,提高用户的体验。
实施例四
图4为本发明实施例四提供的抓取路径服务器的结构示意图,如图4所示,本实施例的抓取路径服务器在上述图3所示实施例的基础上,进一步还可以包括如下技术方案。
本实施例中,至少一个抓取服务器分别对应不同的网络服务提供商ISP。
如图4所示,本实施例的抓取路径服务器中还包括存储模块13。此时对应的接收模块10还用于在获取模块11从至少一个抓取服务器中获取访问目标网站的标识对应的目标网站网速最快的目标抓取服务器之前,对于至少一个抓取服务器中的每一个抓取服务器,接收抓取服务器上报的上一次访问目标网站的网速;该抓取服务器上一次访问目标网站的网速为抓取服务器根据抓取服务器在上一次访问目标网站的过程中,抓取服务器与目标网站的连接太阳城集团的倒数获取的。存储模块13与接收模块10连接,存储模块13用于存储接收模块10接 收的抓取服务器上一次访问目标网站的网速。
可选地,如图4所示,本实施例的抓取路径服务器中还包括计算模块14;该计算模块14与存储模块13连接,计算模块14用于在存储模块13存储抓取服务器上一次访问目标网站的网速之后,获取模块11从至少一个抓取服务器中获取访问目标网站的标识对应的目标网站网速最快的目标抓取服务器之前,对于至少一个抓取服务器中的每一个抓取服务器,根据存储模块13存储的所有次访问目标网站的网速,计算抓取服务器访问目标网站的有效网速;获取模块11还与计算模块14连接,获取模块11具体用于根据计算模块14的计算结果,从至少一个抓取服务器中获取访问目标网站的有效网速最快的抓取服务器作为目标抓去服务器。
进一步可选地,上述实施例中的计算模块14具体用于对于至少一个抓取服务器中的每一个抓取服务器,根据存储模块13存储的所有次访问目标网站的网速,采用如下公式计算抓取服务器访问目标网站的有效网速:
S=Σi=1nsi/n]]>
其中S抓取服务器访问目标网站的有效网速;n表示抓取服务器上报的访问目标网站的网速的上报次数;si表示抓取服务器每次上报访问目标网站的网速。
或者进一步可选地,上述实施例中的计算模块14具体用于对于至少一个抓取服务器中的每一个抓取服务器,根据存储模块13存储的所有次访问目标网站的网速和一常量参数,采用如下公式计算抓取服务器访问目标网站的有效网速:
S=s‾+1a1nΣi=1n(si-s‾)2]]>
其中S抓取服务器访问目标网站的有效网速;n表示抓取服务器上报的访问目标网站的网速的上报次数;si表示抓取服务器每次上报的访问目标网站的网速;表示抓取服务器所有次访问目标网站的平均网速;a为常量参数。
或者可选地,本实施例的抓取服务器还可以包括检测模块(图中未示出)。该检测模块与获取模块11连接,检测模块用于在获取模块11从至少一个抓取服务器中获取访问所述目标网站的标识对应的目标网站网速最快的目标抓取服务器之前,定期检测至少一个抓取服务器访问目标网站的网速。这样获取模块11可以根据检测模块获取的至少一个抓取服务器访问目标网站的网速,从从至少一个抓取服务器中获取访问所述目标网站网速最快的目标抓取服务器。
本实施例的抓取路径服务器,以包括上述所有可选技术方案为例介绍本发明的技术方案,实际应用中,上述所有可选技术方案可以采用可结合的任意方式组合形成本发明的可选实施例,在此不再一一赘述。
本实施例的抓取路径服务器,通过采用上述模块实现基于中转模式的网页访与上述相关方法实施例的实现机制相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
本实施例的抓取路径服务器,通过采用上述模块能够实现客户端的每次访问请求均能够选择最佳的网络通路,保证用户的访问请求以最快的网速得到响应,给用户提供最佳的网速体验。而且上述实施例的技术方案不借助其他任何工具,就能准确的判断对方网站所处的网络环境好坏情况,确定访问网速最快的抓取服务器,从而为客户端提供了访问目标网站的最佳路径,即网速最快的路径,采用本实施例的技术方案能够有效地提高客户端访问目标网站的访问网速,提高客户端的访问效率,提高用户的体验。
实施例五
图5为本发明实施例五提供的基于中转模式的网页访问系统的结构示意图。如图5所示,本实施例的基于中转模式的网页访问系统,具体可以包括客户端20、至少一个抓取服务器30和抓取路径服务器40。
其中客户端20与抓取路径服务器40连接,客户端20用于向抓取路径服务器40发送网页访问请求,该网页访问请求中携带要访问的目标网站的标识;抓取路径服务器40用于从至少一个抓取服务器30中获取访问目标网站的标识对应的目标网站网速最快的目标抓取服务器;抓取路径服务器40用于向客户端20返回目标抓取服务器的标识,以供客户端20通过目标抓取服务器的标识对应的目标抓取服务器访问目标网站。
本实施例的客户端具体可以为移动终端的太阳城集团器客户端如手机太阳城集团器客户端。本实施例中,客户端20还可以与至少一个抓取服务器30中每个抓取服务器30连接,以供客户端20通过抓取服务器访问目标网站。至少一个抓取服务器30还分别与抓取路径服务器40连接,以向抓取路径服务器40上报访问网站的网速。
本实施例中的抓取路径服务器具体可以采用上述图3或者图4所示实施例的抓取路径服务器。且具体可以采用上述图1或者图2所示实施例的方法实现 基于中转模式的网页访问,详细可以参考上述实施例的相关记载在此不再赘述。
本实施例中的抓取路径服务器,通过采用上述至少一个抓取服务器和抓取路径服务器,能够实现抓取路径服务器接收客户端发送的网页访问请求,该网页访问请求中携带要访问的目标网站的标识;抓取路径服务器从至少一个抓取服务器中获取访问目标网站的标识对应的目标网站网速最快的目标抓取服务器;抓取路径服务器向客户端返回目标抓取服务器的标识,以供客户端通过目标抓取服务器的标识对应的目标抓取服务器访问目标网站。本实施例的上述技术方案,通过获取并向客户端提供访问目标网站网速最快的目标抓取服务器,从而为客户端提供了访问目标网站的最佳路径,即网速最快的路径,采用本实施例的技术方案能够有效地提高客户端访问目标网站的访问网速,提高客户端的访问效率,提高用户的体验。
需要说明的是:上述实施例提供的抓取路径服务器在实现基于中转模式的网页访问时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的抓取路径服务器与基于中转模式的网页访问方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
太阳城集团以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

关 键 词:
基于 中转 模式 网页 访问 方法 系统 抓取 路径 服务器
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
太阳城集团本文
本文标题:基于中转模式的网页访问方法及系统、抓取路径服务器.pdf
链接地址:http://zh228.com/p-6180683.html
太阳城集团我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
葡京赌场|welcome document.write ('');