编辑: ddzhikoi | 2017-09-09 |
Realization of a Powerful FTP Search Engine System --- 陈华 2001.
6.10 摘要 在因特网上对众多FTP站点进行快速的文件条目查找,是网络信息搜索的重要组成部分.本文以 天网 FTP搜索引擎为例,介绍了千万级基于WEB的强大的FTP搜索引擎的设计与实现,并重点分析了系统所采用的关键技术和方法. 关键词 FTP, 搜索引擎,WWW Abstract FTP Search Engine is a powerful tool to search useful files for users from various resourceful FTP sites. In this paper, mainly described are the design and implementation of our FTP search engine, as well as the key technologies and methods we adopt. Keyword FTP, Search Engine, World Wide Web 目录引言…4 搜索引擎的历史与发展…4 搜索引擎的起源…4 真正意义的搜索引擎…4 Ftp的搜索引擎…5 I、基于文本的ftp搜索引擎:Archie.5 II、基于Web的Ftp搜索引擎.5 天网ftp搜索引擎的现状…5 天网Ftp搜索产生的起源与发展历史.5 天网ftp搜索引擎的现状…6 提供的功能…6 文件类型的分类…6 时间过滤…6 大小过滤…6 精确匹配…6 站点限制…6 结果中查询功能…6 支持常用的*,?,与,并 操作…7 多语言版本…7 快捷方式系统…7 数据量…7 站点数量在3000以上…7 2. 文件条目1300万左右…7 快捷方式约一千条…7 访问量…7 日页面下载量在3万左右…7 日访问人数在1.5万以上…8 海量ftp搜索引擎的系统结构设计…9 系统的结构设计:四大模块和五个数据库…9 数据库功能和结构说明…10 文件类型库…10 站点列表库…11 素材数据库…11 索引数据库…12 快捷方式数据库…13 搜集建库模块…14 搜集建库过程说明…14 站点获得策略…14 并发搜集策略…15 分布搜集策略…15 多次尝试和断点续搜…15 线性的建库过程…15 数据库的切换…16 搜索服务模块…16 搜索服务过程说明…16 服务接口说明…17 匹配算法…17 Cache策略…18 强大的过滤功能的实现…18 文件类别过滤…18 文件大小过滤…18 文件最后修改时间过滤…18 站点过滤…18 精确匹配…18 对 与 、 并 、*、?操作以及结果中再搜索的支持…19 WWW搜索界面…20 CGI参数说明…20 智能的换页机制…20 使用结果页面模板…21 多语言版本的支持…21 漂亮、实用的结果输出页面…22 为支持分布搜索的改进…22 使用多服务器的可能性和必要性…22 分布搜索的实现…22 对分布搜索的加速…23 支持多媒体文件的特别处理技术…23 多媒体文件条目的文件名特殊性以及查询特殊性…23 一种比较有效的处理技术…23 在建库模块的改动…23 在CGI模块的改动…24 快捷方式系统…24 使用快捷方式的原因…24 快捷方式系统的关系图…24 文件分类类别层次的显示…25 快捷方式条目的显示…25 注册新的软件…26 过滤用户注册的快捷方式…26 管理快捷方式系统…26 天网ftp搜索与国内国际Ftp搜索引擎的比较…26 国内国际ftp搜索引擎系统按原型分类说明:26 功能比较:27 数据量比较:28 速度比较:28 天网Ftp搜索引擎未来的发展…28 结束语…29 引言 今天搜索引擎的核心是网络导航服务,搜索引擎是一个网络门户,他们提供新闻,在线图书馆,词典,以及其它网络资源,他们提供了不仅仅是网站搜索的服务,他们的涉及面越来越广,也越来越有用.比如,Yahoo!注重的是网站分类归总服务,而如Alta Vista,Excite等则注重提供庞大的搜索数据库.根据中国互联网络信息中心(CNNIC)有关中国Internet发展状况统计报告,搜索引擎是除电子邮件以外网民使用最多的服务.面对浩如烟海的网络信息资源,网络搜索与导航已成为网络用户必不可少的工具.与相对众多的WWW搜索引擎相比,功能强大的FTP搜索引擎并不常见,由此限制了人们对具有大量信息与资源的FTP站点的访问.实现一个高速、海量、功能强大而又基于WEB的FTP搜索引擎将为网络用户提供极大方便. 为此,北京大学计算机系网络与分布式系统领域最新开发出了 天网 FTP搜索引擎,并已作为 天网 中、英文搜索引擎[1, 2]的一个子系统在网上提供服务, 获得了广大用户的一致好评.本文将从 天网 FTP搜索引擎的系统结构与算法出发阐述一种千万级FTP搜索引擎的设计与实现的方案. 搜索引擎的历史与发展 搜索引擎的起源 1991年,XWAIS版本提供了一个有着友好界面的信息搜索系统,但这个系统要求很特殊的文件格式.而在同一年还出现了另外一个信息搜索系统,这是我们所称之为的GOPHER.Gopher 是一种按 菜单 形式组织的分布式文档查询系统 , 最初在 Minnesota大学发展起来(1991年), 开始用于校园网, 后来推广到Internet. Gopher为用户查询信息提供一个多级的菜单界面, 只需按照菜单指示的路径就能获取你想要的信息, 使用非常方便. Gopher由Gopher客户(Gopher Client)程序和Gopher服务器(Gopher Server)程序两部分组成. 在Internet上建立了数以千计的运行Gopher服务器程序的 Gopher 服务器. 它们是一些能为用户提供信息查询服务的计算机系统. 到1995年初的统计, 约有 6, 000主机安装了Gopher Server, 遍及全世界 100多个国家. 绝大多数 Gopher 服务器都是向 所有Internet用户开放的. Gopher系统的主要信息形式是正文文件. 信息文件可能驻留在不同的计算机上, 通过目录结构把它们链接在一起. 一个 Gopher 服务器的所有信息文件组成一棵信息树. 由于这种链接是透明的, 用户查询时可以在信息树之间自由穿越, 不必考虑信息的物理位置. Gopher 客户程序是用户端的信息浏览程序, 用于同Gopher Server进行对话. 用户查询时, 通过Client对Server发出查询请求;