编辑: 王子梦丶 | 2019-07-06 |
企 业网站是指通过网站对自己的产品进行宣传,而业务主要是在网下进行的以 实体业务为主的网站.其他公益性网站主要指除教育科研外的医疗、图书馆、 博物馆等提供公益性服务的网站. 6.网页搜索是指对抽取的网站从其首页(WWW+域名)开始搜索,通过网页上的 层层链接,抓取所有属于该网站的网页的特征及其文本内容. 7.静态网页是指 URL 中不含?和输入参数的网页,包括:*.htm、*.html、 *.shtml、*.txt、*.xml 等. 第二部分 调查说明
2004 年中国互联网络信息资源数量调查报告
9 8.动态网页是指 URL 中含?或输入参数的网页,包括:ASP,PHP,PERL,CGI 等在 Server 方进行处理的网页. 9.网页的编码形式:是根据网页本身的信息通过分析得到的,不是通过一篇网 页在 HTML 中的声明来判断的.因为大量国内的英文网页在其 HTML 声明中都 是简体中文. 10. 网页的内容形式:是通过文件后缀获得的.关于图像、音频、视频的文件 后缀定义标准参考 MIME 标准. 11. 网页的更新情况:网页的更新时间是指网页的最后更新日期与当前时间之 间的时间差. 12. 考虑到抽样调查的可操作性,本次调查暂不包括香港、澳门及台湾的互联 网络信息资源状况及海外中文网络信息资源状况.
五、 调查方法
一、总体界定: 按照上述的关于中国互联网络信息资源的定义,将目标总体定义为 全国范 围内以 Web 形式公开提供服务的网站 . 为了调查的方便,将总体分为两个部分: 子总体 A:中国大陆(不包括香港、澳门、台湾地区)所有已注册域名的网 站,包括.COM, .NET, .ORG 和.CN 域名(含ORG.CN,GOV.CN 等)下的所有网站. 子总体 B:中国大陆(不包括香港、澳门、台湾地区)未注册域名的网站. 考虑到子总体 B 的网站数量较少,在本次调查过程中予以忽略.以下所述内 容均针对子总体 A.
二、调查方法: 分析以前的调查结果发现,由于不同类型的网站在相关参数诸如网页数量 等方面存在较大的差别,当然结果方差也较大.为此,考虑整个调查以抽样调查 和电话访问的方式为主, 通过抽样调查对全国的互联网络信息资源的状况做一个 全面的了解.
三、抽样调查: 第一部分 前言
2004 年中国互联网络信息资源数量调查报告
10
(一)抽样指标 在确定分层后各层的样本量以及用各层样本数据推断全国时,我们考虑的 指标是 网站数量 .
(二)目标量分类 总量:比如说总体中拥有在线数据库的网站数等;
比例:本调查的总体目标量大部........