编辑: 丑伊 | 2018-02-20 |
2002 原稿收到日期: 2002205208;
修改稿收到日期:
2002205227 本课题得到国家重点基础研究发展规划项目(G1999032706) 和 创建世界一流大学工程 项目基金资助 关于中国W eb 的大小、 形状和结构 闫宏飞 李晓明 (北京大学计算机科学技术系 北京 100871) ({yhf, lxm }@net. cs. pku. edu. cn) 摘要基于天网搜索引擎连续
4 次的大规模搜集记录, 揭示了中国
2002 年初中国W eb 的大小、 形状和结构. 主 要结论包括有: ①中国大约有
5000 万网页和
5 万个W eb 站点;
②全国不到
1 3 的省市拥有
2 3 强数目的网站;
③ 中国网络是高度连通的,W eb 直径是 17;
④网页入度分布很好地符合幂级数定律;
⑤有确凿证据显示, 多数的网络 社区是自主形成的. 关键词 W eb, 网页, 网站, 互连结构, 网络社区 中图法分类号 TP393 ON THE STRUCTURE OF CH INESE W EB
2002 YAN Hong2Fei and L I X iao2 M ing (D ep artm ent of Comp uter S cience and T echnology , P eking U niversity , B eij ing 100871) Abstract Based on the data p roduced from four consecutive craw ling p rocesses, a comp rehensive repo rt on the structure of Chinese w eb as of daw n of the year
2002 is p resented. The p rom inent results include ① the scale of Chinese w eb is about
50 m illion w eb pages and
50 thousand active w ebsites;
② mo re than
2 3 w ebsites are dep loyed in less than
1 3 big cities and p rovinces;
③ the Chinese w eb is highly connected w ith diam eter of 17;
④ the distribution of in2degrees of w eb pages fo llow s a pow er2law nicely;
and ⑤ strong evidence exists fo r large amount of w eb comm unities that are fo rm ed autonomously. Key words wo rld w ide w eb, w eb page, w eb site, hyperlink structure, w eb comm unity
1 引言海量W eb 数据信息, 为数据挖掘提供了丰富的 资源. 对于抽象为有向图的W eb 的全面、 深入的了 解和掌握, 可以加速W eb 信息资源的建设、 利用和 发展. 具体来说, 通过对于W eb 中网页数量的信息 统计以及覆盖率的分析, 可以了解W eb 的发展规 模, 推断和预测过去和未来W eb 的规模;
可以通过 分析W eb 互连结构, 改进搜索引擎的搜集和检索策 略, 便于更加全面和准确的信息定位, 还有助于了解 社会的发展;
对于W eb 中所包含的网络社区的认 识, 可以及时了解W eb 发展新动向, 提供可靠、 新鲜 的信息资源给感兴趣的用户, 便于网页分类 . 本文基于自
2001 年6月以来, 天网搜索引擎[1 ] 连续几次大规模搜集、 组织与整理的中国W eb 数据, 试图对
2002 年前后中国W eb 的大小、 形状和结 构给出一个描述. I BM 研究院对于全球的W eb 结构图作过类似 的研究, 但它是基于一定规模的全球W eb 范围, 没 有针对一个国家或地区的研究. 国内的 CNN IC 作 过统计信息分析, 其调查方法采用计算机网上自动 ? 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved. 搜寻、 网上联机、 网下抽样、 相关单位上报数据等调 查方法, 由于其方法很难协调统一, 人为因素等 (例如: 其统计的中国通用顶级域名数及对应网站数是 通过各通用顶级域名注册单位协助提供的) , 导致其 统计信息与基于天网搜索引擎的W eb 上自动搜寻 结果存在一定的差异. 本文利用天网搜索引擎搜集过程记录的数据, 首先通过分析天网的搜集过程以及对其覆盖情况的 认识来阐明中国W eb 的规模. 接着利用天网搜索引 擎2002 年1月搜集产生的数据分析中国W eb 的形 状和结构, 进一步揭示中国W eb 的特性. 尤其说明 了从海量网页信息中识别网络社区的一种方法.