编辑: jingluoshutong | 2019-07-03 |
Executor向SparkContext 申请Task,Task Scheduler将Task发放给Executor运行,并提 供应用程序代码 (4)Task在Executor上运行, 把执行结果反馈给 TaskScheduler,然后反馈给 DAGScheduler,运行完毕后写 入数据并释放所有资源 SparkContext对象代表了和一个集群的连接 《大数据处理技术Spark》 厦门大学计算机科学系 林子雨 [email protected] 3.3.3 Spark运行基本流程 总体而言,Spark运行架构具有以下特点: (1)每个Application都有自己专属的Executor进程,并 且该进程在Application运行期间一直驻留.Executor进 程以多线程的方式运行Task (2)Spark运行过程与资源管理器无关,只要能够获取 Executor进程并保持通信即可 (3)Task采用了数据本地性和推测执行等优化机制 《大数据处理技术Spark》 厦门大学计算机科学系 林子雨 [email protected] 3.3.4 RDD运行原理 1.设计背景 2.RDD概念 3.RDD特性 4.RDD之间的依赖关系 5.Stage的划分 6.RDD运行过程 《大数据处理技术Spark》 厦门大学计算机科学系 林子雨 [email protected] 3.3.4 RDD运行原理 1.设计背景 ?许多迭代式算法(比如机器学习、图算法等)和交互式数 据挖掘工具,共同之处是,不同计算阶段之间会重用中间 结果 ?目前的MapReduce框架都是把中间结果写入到HDFS中, 带来了大量的数据复制、磁盘IO和序列化开销 ?RDD就是为了满足这种需求而出现的,它提供了一个抽 象的数据架构,我们不必担心底层数据的分布式特性,只 需将具体的应用逻辑表达为一系列转换处理,不同RDD之 间的转换操作形成依赖关系,可以实现管道化,避免中间 数据存储 《大数据处理技术Spark》 厦门大学计算机科学系 林子雨 [email protected] 3.3.4 RDD运行原理 2.RDD概念 ?一........