编辑: 牛牛小龙人 2012-12-15

4 类,但实际上主要是两大类:通用爬虫和聚焦爬虫.通用爬虫 主要有 Google、百度、必应等搜索引擎,主要以核心算法为主导,学习成本相对较高.聚焦爬虫 就是定向爬取数据,是有目的性的爬虫,学习成本相对较低. 我们常说的网络爬虫大多数以聚焦爬虫为主,其原理和过程与通用爬虫大致相同,读者在编 写爬虫程序的时候,需要以设定的爬虫规则和爬取目标为主导,这样更具较强的目的性. 网络爬虫在大多数情况下都不会违法,在生活中几乎都有爬虫应用,比如在百度中搜索的内 容几乎都是通过爬虫采集下来的,因此网络爬虫作为一门技术,技术本身是不违法的,且在大多数 情况下可以放心使用爬虫技术.当然也有特殊情况,正如水果刀本身在法律上并不被禁止使用,但 是用来伤害他人,这就触犯了法律规则. 既然爬虫技术是合法的,那么,我们有必要了解爬虫的开发流程.只有掌握开发流程,才能 编写高质的爬虫程序,这好比盖房子一样,建筑施工人员需要根据房屋设计图才能搭建房子,而房 屋设计图等同于爬虫的开发流程. 第2章爬虫开发基础 2.1 HTTP 与HTTPS HTTP(Hyper Text Transfer Protocol,超文本传输协议)是一个客户端和服务器端请求和应答 的标准(TCP).客户端是终端用户,服务器端是网站.通过使用 Web 浏览器、网络爬虫或者其 他工具,客户端发起一个到服务器上指定端口(默认端口为 80)的HTTP 请求,这个客户端叫用 户代理(User Agent).........

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题