编辑: 丑伊 | 2018-02-20 |
2 对搜集结果的评价 考虑网页在网上复制的情况, 需要区别 重复搜 集 和 网页复制 . 重复搜集 是指系统进行重复性 工作, 搜集的网页的U RL 和内容都是一样的. 网 页复制 是指内容相同或相近的网页放在不同的站 点上, 其URL 是不同的. 天网搜集系统保证没有 重复搜集 , 但是在对所搜集的网页集合没有进行 后处理之前是存在 网页复制 的. 自2001 年6月, 天网搜索引擎有能力搜尽中国 网页后, 采用 PC 机连接在
100 M bp s 速度线路上, 采用一种类似于宽度优先搜索的策略对全国静态网 页(不包括通过提交查询词动态生成的网页) 进行了
4 次大规模的搜集, 具体情况见表 1. 表1天网搜集记录 时间 规模 机器 台 起始U RL 数 网页 总数 平均大小 KB 站点 总数 平均网页数 2001.
6 12
7 38572695
41714 925.
7 2001.
11 12
1 47707998
46669 1022.
3 2002.
1 12
1 24158849 12.
9 44028 548.
7 2002.
3 18
1 57027324 8.
95 45930 1241.
6 表1中分别列出了每次搜集网页系统使用的机 器数、 起始U RL 数目, 搜集到的网页总数、 平均纯 文本网页大小, 搜集到的W eb 站点数目、 平均每个 站点拥有的网页数. 其中第
1 次和第
2 次搜集过程直到没有进一步 可以搜索的网页为止(由系统中的 unvisited 表为空 来标识;
严格地讲, 并不保证真正没有网页可搜了, 但我们有理由认为达到了充分的覆盖) , 搜集过程中 分析网页, 只存储网页分析结果. 从第
3 次开始, 搜 集分析过程中, 增加了记录网页的全文本信息及超 链接信息. 第3次搜集过程直到硬盘空间耗尽为止. 第4次搜集增加了机器, 根据所访问 U RL 的变化 规律, 搜集到适当的时候停止. 本文基于第
3 次搜集 存储的超链接信息分析中国网页的结构性质. 根据
0 6
9 计算机研究与发展2002 年?1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved. 前两次搜全的结果增长的比例推断第
3 次, 得到
2002 年1月中国应该有大约49146 个网站,
53432598 个网页. 从而说明第
3 次搜集覆盖了中国 89. 6% 的网站, 45. 2% 的网页. 尽管第
3 次搜集没有搜尽中国网页, 但是
2002 年1月的数据已经具有足够的代表性 . 首先天网采用 一种类似于宽度优先搜索的策略进行搜集, 可以保证 先搜集的网页更重要, 更具有代表性[4,
5 ] . 其次根据覆 盖率的推算结果说明 . 此处的覆盖率是指搜索引擎覆 盖重要网页的程度 . 根据中国互联网络网站影响力调 查报告[6 ] 提供的有影响力站点列表, 去除国外站点 (例如www. intel . com , www. m iro soft. com 等) 和 不可访问的站点(例如www. cshop. com ) , 天网系统 在2001 年7月搜集到的结果覆盖了 96. 6% 有影响 力的网站,
2002 年1月覆盖了 93. 2% 有影响力的网 站(尽管搜集过程只是从
1 个U RL 开始).
3 2002 年初中国W eb 的形状和结构 下面首先介绍术语――网站、 网页出度、 入度、 导航影响入度和认可影响入度, 然后具体介绍中国 W eb 的特性. 网站: 在Web 上具有独立的IP, 当接收到HTTP 请求时, 返回响应码
200 和HTTP 应答的网 页.站点就是由驻留在该网站 IP 地址上的链接着的 网页构成. 对于不同 IP, 内容一样的网站, 认为是不 同的网站. 网页出度: 在一个网页中发现的所有超链接数. 网页入度: 其它网页指向同一个网页的链接数. 入度主要有两种功能: 导航功能(即网站的设计者自 己在相关网页中安排的链接) 和认可功能(一个网页 对于另一网页的认可链接, 两个网页的U RL 中域 名不相同). 值得注意的是在网页的入度中存在影响分析网 页结构的链接 . 存在于导航功能中的称为导航影响入度: 一种 情况是具有相同域名的两个网页之间的链接;