【PDF】第1 章 - 资源下载 - 网路锅炉资源网

编辑：

牛牛小龙人

2012-12-15

4 类,但实际上主要是两大类:通用爬虫和聚焦爬虫.通用爬虫主要有 Google、百度、必应等搜索引擎,主要以核心算法为主导,学习成本相对较高.聚焦爬虫就是定向爬取数据,是有目的性的爬虫,学习成本相对较低. 我们常说的网络爬虫大多数以聚焦爬虫为主,其原理和过程与通用爬虫大致相同,读者在编写爬虫程序的时候,需要以设定的爬虫规则和爬取目标为主导,这样更具较强的目的性. 网络爬虫在大多数情况下都不会违法,在生活中几乎都有爬虫应用,比如在百度中搜索的内容几乎都是通过爬虫采集下来的,因此网络爬虫作为一门技术,技术本身是不违法的,且在大多数情况下可以放心使用爬虫技术.当然也有特殊情况,正如水果刀本身在法律上并不被禁止使用,但是用来伤害他人,这就触犯了法律规则. 既然爬虫技术是合法的,那么,我们有必要了解爬虫的开发流程.只有掌握开发流程,才能编写高质的爬虫程序,这好比盖房子一样,建筑施工人员需要根据房屋设计图才能搭建房子,而房屋设计图等同于爬虫的开发流程. 第2章爬虫开发基础 2.1 HTTP 与HTTPS HTTP(Hyper Text Transfer Protocol,超文本传输协议)是一个客户端和服务器端请求和应答的标准(TCP).客户端是终端用户,服务器端是网站.通过使用 Web 浏览器、网络爬虫或者其他工具,客户端发起一个到服务器上指定端口(默认端口为 80)的HTTP 请求,这个客户端叫用户代理(User Agent).........

注：以上内容是本站开源项目的机器提供的预览内容，更完整和更好的阅读体验请直接免费下载资源后阅读

下载（注：源文件不在本站服务器，都将跳转到源网站下载）

备用下载

下一篇: CANDTU-100R-mini
上一篇: 手机阅读与手机电子书阅读器的发展与展望

PDF《第1 章》