编辑: 梦三石 | 2014-08-10 |
com/blog/车东 搜索引擎做为互联网的"路由器" 搜索引擎是网民的上网主要入口之一;
搜索引擎每天给其他网站带去4-6亿流量(相当于搜索引擎自身流量的1-2倍);
在内容网站的外网来源流量中:搜索引擎占80%-90%;
超过传统的友情链接等推介方式一个数量级以上;
从搜索获益最多网站之一维基百科 维基百科每天从Google获得数百万用户流量;
内容管理系统(CMS)比较 同样是:标题,时间,作者,内容这几个因素的组合,为什么blog/wiki/新闻组归档往往比BBS更容易被搜索引擎搜到?为什么同样的内容:大网站的转载往往比原文出处排名更靠前?什么样的网站对蜘蛛比较友好?(Spider Friendly) 比较成功的几个Blog发布系统: 几年前第一次找Blog发布系统:WordPress (php) 便于架设,插件丰富,管理简单MovableType(活字印刷的系统) 性能较好;
比较流行的BSP发布商:LiveJournal;
Blogger;
这些Blog发布系统的特点 链接稳定;
蜘蛛抓取方便;
按时间归档;
RSS输出;
Trackback ping/留言反馈机制;
分类归档;
搜索引擎的职能: 重现 点击搜索结果链接地址,却无法返回期望的结果,用户会很失望;
服务器无法访问;
页面不存在;
内容已经变更;
搜索引擎的重要职能:重现 Blog内容: 单条目永久链接:PermaLink 每个条目都是永久链接个人按月归档:条目数量仍然控制在几十条之内,不用分页;
按类目归档:即使有内容更新,旧内容仍然保留 BBS/论坛的内容:由于内容量过多,旧内容往往会被删除;
index.php?page=12 这样的链接几天后内容全部变化;
&PHPSESSION=l85skdj23w4qq2sw3w42每个蜘蛛识别为不同链接;
网页快照可以解决一部分问题 但是用户得到的内容可能是过时的;
原网站丢失了原本可以获得的用户;
搜索引擎的负担:除重 Blog内容:内容页相对稳定;
归档链接规则稳定;
类似的:邮件列表归档也是搜索引擎比较容易收录的内容;
BBS内容:Foo.php?a=1&b=2与foo.php?b=2&a=1内容是一样的index.html?from=foo与index.html?from=bar内容是一样的 不同地址标记相同内容的危害 会损失其他地址带来的链接;
大量使用转向进行统计也为搜索引擎识别链接的别名带来负担;
访问日志中的referer可以代替标记跟踪来源;
帧结构: frame不利于蜘蛛抓取 BLOG大部分为平板式页面浏览;
BBS的左导航/右侧内容模式,不利于蜘蛛抓取,也不利于重现;
性能因素:缓存机制 静态归档更容易缓存性能更高MT的静态页面归档;
LJ的memcache动态缓存模式;
动态页面生成:过大压力下容易造成服务器宕机;
结构化数据库往往是瓶颈;
Tips:Cache Friendly ~= SEO 使用稳定的连接:避免经常变化;
避免使用动态参数来进行点击来源跟踪index.html?source=fooIndex.html?source=bar有更简单的方法:基于referer进行来源识别;
增加Last-Modify/Expires等缓存控制Header;
链接/域名更换:要保留原地址可访问,设置301转向;
Blog内容的特点 作者对内容/回复完全控制;
个人版权声明: CC;
时效性;
归档机制;
主贴和回复是天生不平等的 文章发布者是文章条目的所有人;
可以控制回复的数量和质量、排序等因素;
可以控制文章;
主贴作者甚至无法控制低质量的回复;
回复内容展现大量的噪音:回复者的信息,排名,签名等噪音回复和主贴存储在同一空间中,严重降低效率;