编辑: 阿拉蕾 2017-10-10

第一章 背景介绍 -

4 - 万,网民数近8000万[Cnnic]. 这样庞大的一个万维网的规模,包 含的信息是海量的.按 照万维网的这种发展速度,海 量信息也是爆炸式的增长的.而 人工在如此大规模的信息中寻找有效信息是很困难的,低 效的.我 们需要采用一种方法,获 取这些海量信息并对它们进行一定程度的加工,从 而帮助人们更好地利用这些信息.其中的一种方法就是信息检索的方法(Information Retrieval, 简称IR) . 它的过程是这样的:用户给出一个查询的请求(通常是一组关键字或者一些问题),信息检索系统给出系统中与该查询相关的结果.从 而用户就可以方便的从获得的结果中提取有用的信息.1.2 搜索引擎概述 搜索引擎是信息检索在万维网上一种很好的应用.它 的基本功能是:用 户给出查询,搜 索引擎返回给用户和查询相关的万维网上的信息.由 于在很多情况下,相 关信息结果是大量的,因 此系统需要对这些结果进行查询相关性排序,把更加相关更加有用的信息放在前面,便于用户的浏览,最后返回排序后的结果.用户可以通过搜索引擎,很容易地获取他们所需要的万维网上的信息,大 大提高了利用信息的效率.最早的万维网的搜索引擎叫做World Wide Web Worm (WWWW) [McBryan.,1994], 它建于1994年,当时它只有收集了110000的网页,每天对于它的查询在1500个左右.在 以后的10年里,搜 索引擎有了大规模的发展,截至2003年底,Google索引的网页数已经超过了40亿[Google]. 天网搜索引擎[天 网 ]是 针对中国万维网上丰富的信息资源而开发的具有中文特色的搜索引擎.本 文的工作,就 是在天网搜索引擎的基础上完成的.搜索引擎的工作流程基本包括三个步骤:

1、Web 网页的搜集:它 的基本原理是先设定一个初始的URL 集合S,对于集合中的每个URL,搜集器下载对应的网页,从 S 中删除这个URL,扫描这个网页,把 这个网页向外的链接中没有被下载过的

第一章 背景介绍 -

5 - URL 加到S中,如 此的循环操作,直 至S集合为空.通 过这一过程,我们获取了Web 上从初始集合S出发的所有可达网页.

2、对Web 网页建立索引库:建 立索引的目的是加快查询的速度.通常的是采取倒排表的技术,即 对于每一个关键词,建 立这个关键词出现的文档号和位置号的列表.在 检索的时候,用 户输入的关键词就可以快速对应到倒排文件的某一个关键词,从而获得结果.

3、 检索查询:用户输入一系列关键词,程序在倒排表中找到相应的项,进 行相关的运算,获 得结果的集合.然 后根据网页的重要程度以及网页和查询的相关程度进行评测,给 出结果的排序,然 后根据这个排序返回给用户结果页面.1.3 Cache 概述高速缓冲存储器( Cache)在单机的物理结构上,是 处于CPU 和主存之间的一种存储器,它 的大小一般很小,只 有几十到几百K,存取速度在主存和CPU 寄存器之间,考虑到计算机在使用的过程中对数据块的存取有很强的时间局部性和空间局部性,因 此我们采用它来暂存常用的数据块,以缩短存取的时间.我们这里的Cache 只是一种和物理Cache 思想类似的逻辑结构,它的物理媒介是主存.在 很多应用程序中,对 数据的使用有很强的局部性的特征.这 里的数据包括:存 储在磁盘,磁 带等慢速设备上的数据;

存 在分布式系统上的数据;

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题