【PDF】第一章背景介绍 - 资源下载

编辑：

阿拉蕾

2017-10-10

第一章背景介绍 -

4 - 万,网民数近8000万[Cnnic]. 这样庞大的一个万维网的规模,包含的信息是海量的.按照万维网的这种发展速度,海量信息也是爆炸式的增长的.而人工在如此大规模的信息中寻找有效信息是很困难的,低效的.我们需要采用一种方法,获取这些海量信息并对它们进行一定程度的加工,从而帮助人们更好地利用这些信息.其中的一种方法就是信息检索的方法(Information Retrieval, 简称IR) . 它的过程是这样的:用户给出一个查询的请求(通常是一组关键字或者一些问题),信息检索系统给出系统中与该查询相关的结果.从而用户就可以方便的从获得的结果中提取有用的信息.1.2 搜索引擎概述搜索引擎是信息检索在万维网上一种很好的应用.它的基本功能是:用户给出查询,搜索引擎返回给用户和查询相关的万维网上的信息.由于在很多情况下,相关信息结果是大量的,因此系统需要对这些结果进行查询相关性排序,把更加相关更加有用的信息放在前面,便于用户的浏览,最后返回排序后的结果.用户可以通过搜索引擎,很容易地获取他们所需要的万维网上的信息,大大提高了利用信息的效率.最早的万维网的搜索引擎叫做World Wide Web Worm (WWWW) [McBryan.,1994], 它建于1994年,当时它只有收集了110000的网页,每天对于它的查询在1500个左右.在以后的10年里,搜索引擎有了大规模的发展,截至2003年底,Google索引的网页数已经超过了40亿[Google]. 天网搜索引擎[天网 ]是针对中国万维网上丰富的信息资源而开发的具有中文特色的搜索引擎.本文的工作,就是在天网搜索引擎的基础上完成的.搜索引擎的工作流程基本包括三个步骤:

1、Web 网页的搜集:它的基本原理是先设定一个初始的URL 集合S,对于集合中的每个URL,搜集器下载对应的网页,从 S 中删除这个URL,扫描这个网页,把这个网页向外的链接中没有被下载过的

第一章背景介绍 -

5 - URL 加到S中,如此的循环操作,直至S集合为空.通过这一过程,我们获取了Web 上从初始集合S出发的所有可达网页.

2、对Web 网页建立索引库:建立索引的目的是加快查询的速度.通常的是采取倒排表的技术,即对于每一个关键词,建立这个关键词出现的文档号和位置号的列表.在检索的时候,用户输入的关键词就可以快速对应到倒排文件的某一个关键词,从而获得结果.

3、检索查询:用户输入一系列关键词,程序在倒排表中找到相应的项,进行相关的运算,获得结果的集合.然后根据网页的重要程度以及网页和查询的相关程度进行评测,给出结果的排序,然后根据这个排序返回给用户结果页面.1.3 Cache 概述高速缓冲存储器( Cache)在单机的物理结构上,是处于CPU 和主存之间的一种存储器,它的大小一般很小,只有几十到几百K,存取速度在主存和CPU 寄存器之间,考虑到计算机在使用的过程中对数据块的存取有很强的时间局部性和空间局部性,因此我们采用它来暂存常用的数据块,以缩短存取的时间.我们这里的Cache 只是一种和物理Cache 思想类似的逻辑结构,它的物理媒介是主存.在很多应用程序中,对数据的使用有很强的局部性的特征.这里的数据包括:存储在磁盘,磁带等慢速设备上的数据;

存在分布式系统上的数据;

注：以上内容是本站开源项目的机器提供的预览内容，更完整和更好的阅读体验请直接免费下载资源后阅读

下载（注：源文件不在本站服务器，都将跳转到源网站下载）

备用下载

PDF《第一章背景介绍》