【PDF】《大数据处理技术Spark》 - 资源下载

编辑：

jingluoshutong

2019-07-03

Executor向SparkContext 申请Task,Task Scheduler将Task发放给Executor运行,并提供应用程序代码 (4)Task在Executor上运行, 把执行结果反馈给 TaskScheduler,然后反馈给 DAGScheduler,运行完毕后写入数据并释放所有资源 SparkContext对象代表了和一个集群的连接《大数据处理技术Spark》厦门大学计算机科学系林子雨 [email protected] 3.3.3 Spark运行基本流程总体而言,Spark运行架构具有以下特点: (1)每个Application都有自己专属的Executor进程,并且该进程在Application运行期间一直驻留.Executor进程以多线程的方式运行Task (2)Spark运行过程与资源管理器无关,只要能够获取 Executor进程并保持通信即可 (3)Task采用了数据本地性和推测执行等优化机制《大数据处理技术Spark》厦门大学计算机科学系林子雨 [email protected] 3.3.4 RDD运行原理 1.设计背景 2.RDD概念 3.RDD特性 4.RDD之间的依赖关系 5.Stage的划分 6.RDD运行过程《大数据处理技术Spark》厦门大学计算机科学系林子雨 [email protected] 3.3.4 RDD运行原理 1.设计背景 ?许多迭代式算法(比如机器学习、图算法等)和交互式数据挖掘工具,共同之处是,不同计算阶段之间会重用中间结果 ?目前的MapReduce框架都是把中间结果写入到HDFS中, 带来了大量的数据复制、磁盘IO和序列化开销 ?RDD就是为了满足这种需求而出现的,它提供了一个抽象的数据架构,我们不必担心底层数据的分布式特性,只需将具体的应用逻辑表达为一系列转换处理,不同RDD之间的转换操作形成依赖关系,可以实现管道化,避免中间数据存储《大数据处理技术Spark》厦门大学计算机科学系林子雨 [email protected] 3.3.4 RDD运行原理 2.RDD概念 ?一........

注：以上内容是本站开源项目的机器提供的预览内容，更完整和更好的阅读体验请直接免费下载资源后阅读

下载（注：源文件不在本站服务器，都将跳转到源网站下载）

备用下载

下一篇: 速度为王
上一篇: 《Spark编程基础（Scala版）》

PDF《《大数据处理技术Spark》》