编辑: star薰衣草 | 2019-07-11 |
网址:http://labs.soso.com/可以了解更多与SOSO相关的知识,网站Logo如图1-3所示. 图1-3 搜搜网站的Logo 1.3.4 搜狗 搜狗是搜狐旗下的搜索引擎,现为淘宝合作项目,如果您是从事电子商务行业的,完全可以在这里开拓市场,网站Logo如图1-4所示. 搜狗拼音是搜狐于2006年推出的一款汉字拼音输入法.凭着易用、灵活、全面等特点,再加上推广得当很快就在网络上蔓延开来. 搜狗输入法最显著的特点是基于搜狗搜索引擎,很多在搜狗搜索引擎中所查询的热门关键词会同步到搜狗输入法当中,如图1-5所示. 图1-4 搜狗网站的Logo 图1-5 搜狗拼音输入法自动更新 搜狗输入法有一个自己特有的搜狗细胞词库,里面有网友自己创建的关键词,基本上都是日常所用到的,还有很多是最新最热门的关键词.词库的首页还有一个热词指数,对SEO人员很有参考价值.搜狗与搜狗拼音整合之后最大的好处就是方便SEO人员查询当下热门关键词,以备工作之需.搜狗拼音细胞库网址为:http://pinyin.sogou.com/dict/. 1.4 搜索引擎工作原理 从事SEO(搜索引擎优化)工作的人可以比喻成搜索引擎的贴身管家,作为一名合格称职的管家必须了解所服务对象的习性、爱好、健康程度等. SEO服务的对象就是搜索引擎,必须对它的运行规律、工作原理、习性、优缺点等都要铭记在心,多多实践操作,平时实践的越多,经验也就越丰富. 搜索引擎是由人创造出来的,所以也是有理可寻的.搜索引擎工作过程有主要有三段工作流程,爬行抓取、预处理及服务输出. 1.4.1 爬行抓取 爬行抓取是搜索引擎工作最重要的一步,把所有需要抓取的地方抓取回来处理分析,因此如果在抓取这部分出了错,后面完全就瘫痪了. 回想一下每当我们用搜索引擎输入关键词后,会出现许许多多所查询的关键词信息,这个过程是以秒来计算的.这时我们可以想一想,搜索引擎是在1秒钟之内把所查询的关键词从广大的互联网中逐一抓取一遍,还是事先已经处理好了这部分数据呢. 平时我们上网的时候随便打开一个网页的时间也是在1秒钟之内,这仅仅是打开一个网页的时间,所以搜索引擎在以秒计算的情况下是不可能把互联网上的信息都查询一遍,这不仅耗时也耗钱. 因此现在的搜索引擎是事先已经处理好了所抓取的网页.搜集工作也是要按照一定的规律来进行的,基本上有如下两种特征. 批量收集:对互联网上只要是存在链接的网页都收集一遍,耗时在几周左右.缺点在于增加了额外的带宽消耗,时效性也不高. 增量收集:是批量收集的一个技术升级,完美的弥补了批量收集的缺点.在原有的基础上搜集新增加的网页,变更上次收集之后有改变的页面,删除收集重复和不存在的网页. 还有一种比较简单的方法让搜索引擎来爬行,自己主动向搜索引擎提交网站,等到一定的时间就会来爬取.不过现在主动提交后再来爬行的速度越来越慢了,最理想的办法还是顺着自然链接来收集比较好.这就需要我们在前期做好蜘蛛爬行的入口,一定要找一个和网站自身相关的入口.下面将详细介绍搜索引擎蜘蛛的情况. 1.各搜索引擎蜘蛛介绍 搜索引擎蜘蛛是搜索引擎的一个自动程序.它的作用是访问互联网上的网页、图片、视频等内容,建立索引数据库,使用户能在搜索引擎中搜索到您网站的网页、图片、视频等内容.一般用法为 spider+URL ,后面的URL(网址)是搜索引擎的痕迹,如果要查看某搜索引擎是否来爬取过你们的网站,可查看服务器的日志里是否有该URL,同时还能查看来的时间、频率等…… (1)百度蜘蛛:可以根据服务器的负载能力调节访问密度,大大降低服务器的服务压力.根据以往的经验百度蜘蛛通常会过度重复地抓取同样的页面,导致其他页面无法被抓取到而不能被收录.这种情况可以采取robots协议的方法来 调节.百度蜘蛛的用法如下: Baiduspider+(+http://www.baidu.com/search/spider.htm) (2)谷歌蜘蛛:谷歌蜘蛛属于比较活跃的网站扫描工具,其间隔28天左右就派出 蜘蛛 检索有更新或者有修改的网页.与百度蜘蛛最大的不同点是谷歌蜘蛛的爬取深度要比百度蜘蛛多一些.其用法如下: Mozilla/5.0(compatible;