编辑: 牛牛小龙人 2012-12-15

5 有效地获得更多与主题相关的页面,主要通过内容与 Web 的URL 结构指导进行页面的抓取.聚焦 爬虫会给所下载的页面一个评价分, 根据得分排序插入一个队列中. 最好下一个搜索对弹出队列的 第一个页面进行分析后执行, 这种策略保证爬虫能优先跟踪那些最有可能 URL 到目标页面的页面. 决定网络爬虫搜索策略的关键是评价 URL 价值,即URL 价值的计算方法,不同的价值评价 方法计算出的 URL 的价值不同, 表现出的 URL 的 重要程度 也不同, 从而决定不同的搜索策略. 由于 URL 包含于页面之中, 而通常具有较高价值的页面包含的 URL 也具有较高价值, 因此对 URL 价值的评价有时也转换为对页面价值的评价. 1.5 爬虫的合法性与开发流程 网络爬虫在大多数情况下都不会违法,在生活中几乎都有爬虫应用,比如在百度中搜索的内 容几乎都是通过爬虫采集下来的,因此网络爬虫作为一门技术,技术本身是不违法的,且在大多数 情况下可以放心使用爬虫技术.当然也有特殊情况,正如水果刀本身在法律上并不被禁止使用,但 是用来伤害他人,这就触犯了法律规则.一般情况下,爬虫所带来的违法风险主要体现在以下几个 方面: (1)利用爬虫技术与黑客技术结合,攻击网站后台,从而窃取后台数据.因为爬虫是爬取网 站上的网页信息,这些信息能给用户浏览,也就是说这些信息允许我们使用和爬取.但网站的后台 数据是不被公开的数据, 这些数据涉及了用户的隐私和财产安全, 如果通过爬虫技术与黑客技术窃 取后台数据,这就明显触发法律的底线. (2)利用爬虫恶意攻击网站,造成网站系统的瘫痪.爬虫是通过程序去访问并操控网站,因 此访问速度非常快,再加上程序的高并发处理,可以在短时间内模拟成千上万的用户在访问网站. 当网站的访问量过高,就会加重网站的负载,从而造成系统的瘫痪,如果长期这样恶意攻击网站系 统,也很可能违反相关的法律条例. 综上所述,爬虫技术本身是无罪的,问题往往出在人的无限欲望上.因此爬虫开发者和企业 经营者的道德良知才是避免触碰法律底线的根本所在. 既然爬虫技术是合法的,那么,我们有必要了解一下爬虫的开发流程.只有掌握开发流程, 才能编写高质的爬虫程序,这好比盖房子一样,建筑施工人员需要根据房屋设计图才能搭建房子, 而房屋设计图等同于爬虫的开发流程.一般情况下,爬虫的开发流程如下: (1)需求说明.任何程序开发都离不开需求说明,爬虫开发也是如此.需求说明包含功能说 明、功能的业务逻辑等详细说明.爬虫的需求说明要明确告知开发人员需要爬取哪些数据、数据的 存储方式以及爬虫的爬取效率. (2)爬虫开发计划.根据爬虫的需求说明制定相关的开发计划,比如选择爬虫的开发工具、 功能模块化设计、设计爬虫运行模式等一系列开发明细. (3)爬虫的功能开发.根据开发计划编写相应的功能代码.以功能模块化设计为依据,每个 功能模块以函数或类的形式表示,再将各个模块进行组合,从而实现整个爬虫功能的开发. (4)爬虫的部署与交付.程序开发完成后(包含测试通过)就可以进行部署上线或交付客户.

6 | 实战 Python 网络爬虫 部署和交付的方式有多种,比如打包 exe 程序、GUI 界面(爬虫软件)或定时执行等. 上述的爬虫开发流程是相对而言的,每一个开发步骤并非一成不变的,具体的开发流程还需 要结合实际情况而定. 1.6 本章小结网络爬虫的类型理论上分为

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题