编辑: 丑伊 2018-02-20

2 通过对搜集过程的分析了解中国 W eb 的规模 为了理解本文数据的来源及其可用性, 有必要 对我们采用的网页搜集系统、 搜集过程和产生的数 据类型有一个简略的了解. 本文数据来源的基础是 北京大学天网搜索引擎[1 ] , 它是一套由

50 台计算机 构成的并行信息处理设施[2 ] . 为了得到本文中需要 用到的数据, 我们对其搜集子系统部分进行了少量 改动. 2.

1 天网的网页搜集子系统及其搜集过程 一次网页的搜集主要涉及到天网系统中的搜集 子系统. 宏观上看, 它是运行在工作站机群上的一个 并行处理系统. 为叙述方便, 以搜集器表示按照 H TTP 协议抓取网页的进程, 以主控表示搜集子系 统中每台工作站上运行的管理若干搜集器的控制程 序, 以调度系统表示搜集子系统中协调各个主控的 模块, 以交叉U RL 表示当前被搜索的网页中指向 其它网页的超链接U RL. 搜集子系统由主控和调度 系统构成. 在图

1 中, 主控登记模块 (w ebGather server registry, W SR ) 起调度作用, 存储并行分布式系统 内所有已登记主控的信息, 包括各登记主控的 IP 和 端口号. 当任一个主控的信息有所改变时,W SR 负 责发送新的各主控信息, 便于建立连接和变更连接 . 每个主控模块主控 1, 主控 2, ……, 主控N 负责收 集存储属于自己范围内的网页. 每一个搜集模块搜 集器 1, 搜集器 2, ……, 搜集器N 附属于相应的主 控模块, 负责接收所属主控发送的 U RL , 抓取该 U RL 指向的网页并传送给所属主控. 各主控模块之 间都建立有双向连接, 可以全双工的工作. 当任一主控发现自己的搜集模块发回的网页中 包含不属于自己的U RL 时, 将此U RL 传送给它应 属的主控去处理. 为减少通信量, 各主控之间只传送 U RL. 图1分布搜集结构图 为使系统负载平衡, 天网采用 H ash 函数动态 分配U RL 给每个主控进行搜集. 首先, IP 分段, 通过 H ash 函数将每个U RL 均 匀分配给各主控, 每个主控负责一定范围内W eb 主 机网页的搜集 . 当主控从其负责的W eb 主机上取得 的网页中发现有交叉U RL 不在自己处理范围内时,

9 5

9 8 期 闫宏飞等: 关于中国W eb 的大小、 形状和结构 ? 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved. 它要将该交叉U RL 发送给负责相关W eb 主机的主 控.各主控通过 H ash 函数 H (U RL ) = (DN S (U RL 中主机部分) )M OD n 获得起始U RL 和后续U RL. 其中 n 为所有主控数,DN S (U RL 中主机部分) 表示 U RL 通过地址解析获得对应的 IP 整数部分相加的 和, 或者不解析域名直接变换U RL 字符串所得的整 数.其次, 各主控制之间两两建立连接通信, 形成一个 交叉网状图, 直接传递主控间的交叉U RL. 在保证系统负载平衡的条件下, 可以采用二级 映射的方法保证系统具有动态调度性[3 ] . 首先用 H ash 函数映射U RL 到一张逻辑表上, 然后将这张 表上的相应部分映射到各个主控. 天网搜索引擎可以采用完全重新开始搜集和增 量式搜集两种工作方式. 如果是仅仅为了提供搜索 引擎服务, 每抓到一个网页后会立刻在存储器中进 行分析和信息提取, 将结果存放到一个数据库中, 而 将原始网页丢掉. 为了得到本文所需的数据, 我们对 搜集程序进行了适当改造, 在一次全新的搜集过程 中, 除记录了所访问网页的全部文本信息, 网页所包 含的属性 (如: U RL , 创建时间, 大小, 编码类型, 网 页类型等) , 还特别记录了不包括网页内容的网页链 接情况. 搜集信息类型仅限于 H TM L 文本和普通文 本.为加快搜集过程, 在搜集过程中, 如果遇到U RL 中包括结尾是以下面括号中字母组合为后缀时首先 过滤掉 ( . bin , . oda , . pdf , . ai , . ep s , . p s , . cgi , . rtf , .m if , . csh , . dvi , . hdf , . latex , . nc , . cdf , . sh , . tcl , . texi , . tr , . roff , .m an , .m e , .m s , . src , . zip , . bcp io , . cp io , . gtar , . shar , . sv4crc , . sv4cp io , . tar , . ustar , . au , . snd , . aif , .w av , . gif , . ief , . jpg , . jpe , . tif , . ras , . pnm , . pbm , . pgm , . ppm , . rgb , . xbm , . xpm , . xw d , . rtx , . tsv , . etx , .mpe , .mpg , . qt , .mov , . avi , . java , . arj , . exe , .mp3 , .m id , . ico jpg , . idc , . gz , . z , . lib , . dll , . ram , . doc , . rm , . css , . c , . h , . cpp , . hpp , . cxx , . hxx , . inc , . asm , . jav , . bat , . cm d , . ini , . def , .m ak , . rc , . sed , . em , . p l , . zip , . reg , . ico , . pp t , . jsp , . lon , . ra , .wm a , . asf , . bmp , . rar ). 2.

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题