编辑: star薰衣草 | 2019-07-11 |
Googlebot/2.1;
+http://www.google.com/bot.html) (3)雅虎中国蜘蛛:如果某个网站在谷歌网站下没有很好的收录,在雅虎下也不会有很好的收录和爬行.雅虎蜘蛛的数量庞大,但平均的效率不是很高,相应的搜索结果质量不高,其用法如下: Mozilla/5.0 (compatible;
Yahoo! SLurp China;
http://misc.yahoo.com.cn/help.html) (4)雅虎英文蜘蛛:雅虎英文蜘蛛的用法与中文蜘蛛不同,其用法如下:Mozilla/5.0 (compatible;
Yahoo! SLurp/3.0;
http://help.yahoo.com/help/us/ysearch/slurp) (5)微软必应蜘蛛:必应与雅虎有着深度的合作关系,所以基本运行模式和雅虎蜘蛛差不多,其用法如下: msnbot/1.1 (+http://search.msn.com/msnbot.htm) (6)搜狗蜘蛛:搜狗蜘蛛的爬取速度比较快,抓取的数量比起速度来说稍微少点.搜狗蜘蛛最大的特点是不抓取robot.text文件,其用法如下: Sogou+web+robot+(+http://www.sogou.com/docs/help/webmasters.htm#07 (7)搜搜蜘蛛:搜搜早期是运用谷歌的搜索技术,谷歌有收录,搜搜肯定也会收录.2011年搜搜已经宣布采用自己的独立搜索技术,但搜搜蜘蛛的特性和谷歌蜘蛛的特点还是有着相似的地方,其用法如下: Sosospider+(+http://help.soso.com/webspider.htm) (8)有道蜘蛛:和其他搜索引擎蜘蛛一样,凡是高权重网站的链接一般都能将其收录.爬行原理也是通过链接之间的爬行,其用法如下: Mozilla/5.0(compatible;
YodaoBot/1.0;
http://www.yodao.com/help/webmaster/ spider/;
) 2.链接布局 蜘蛛主要通过爬取页面上的链接来发现新的页面,以此类推不停地十字交叉爬行下去便形成一张蜘蛛网. 爬行主要按两种策略来执行:一是深度优先爬行,二是广度优先爬行. 深度优先爬行:如图1-6所示,蜘蛛从A网页顺序到A
1、A
2、A
3、A4,爬行到A4页面之后发现没有页面了,于是又重新返回到了A页面,以此类推爬行到B
1、B
2、B
3、B4页面.深度爬行的主要特点是蜘蛛会一直沿着一条线抓取下去,直到最后,然后再返回到另一条线. 图1-6 深度优先爬行示意图 广度优先爬行:指蜘蛛在一个页面上发现多个连接的情况下,首先要做的是把所有第一层的链接抓取一遍,然后再沿着第二层的链接向第三层链接爬行,如图1-7所示. 归根到底,只要给蜘蛛足够的时间,无论是广度爬行还是深度爬行都能爬完整个网站.我们做SEO优化就要给蜘蛛节省宽带和资源,毕竟蜘蛛的资源不是无限的,也有满负载的时候,我们所要做的工作就是为蜘蛛指明一条正确的道路,尽量减少蜘蛛的工作. 图1-7 广度优先爬行示意图 3.避免网页重复收集 重复收集,从表面意思可以理解为第一次已经收集过之后,又进行了第二次的收集.效率不但没有提高反而增加了带宽的额外开销.对于搜索引擎而言重复做事情相当地消耗资源,也就做不到时效性地更新,而且有可能降低秒........