编辑: 黎文定 2019-07-02
www.

huawei.com 版权所有?

2015 华为技术有限公司 Spark架构原理 第1页 版权所有?

2015 华为技术有限公司 前言 ? 本章主要对Spark组件的应用场景,功能和架构以及在 FusionInsight平台中的使用等进行简单介绍 第2页 版权所有?

2015 华为技术有限公司 目标 ? 学完本课程后,您将能够: ? 理解Spark应用场景,了解Spark特点 ? 了解Spark计算能力及其技术架构 ? 了解Spark组件在FusionInsight 平台中的使用 第3页 版权所有?

2015 华为技术有限公司 目录 1. Spark 应用场景 ? Spark应用场景 ? Spark特点 2. Spark基本功能和技术架构 3. Spark组件介绍 第4页 版权所有?

2015 华为技术有限公司 Spark适用场景 ? 是什么 ? Spark系统是分布式批处理系统和分析挖掘引擎 ? Spark 是AMP LAB贡献到Apache社区的开源项目,是AMP大数据栈的 基础组件 ? 做什么 ? 数据处理(Data Processing):可以用来快速处理数据,兼具容错性和可 扩展性 ? 迭代计算(Iterative Computation):支持迭代计算,有效应对多步的数 据处理逻辑 ? 数据挖掘(Data Mining):在海量数据基础上进行复杂的挖掘分析,可 支持各种数据挖掘和机器学习算法 第5页 版权所有?

2015 华为技术有限公司 Spark适用场景 ? 大多数现有集群计算框架如Hadoop等基于从稳定存储(文件系统 )到稳定存储的非循环数据流---应对数据集重用型应用时低效,与 传统的MR任务的频繁读写磁盘数据相比,基于内存计算的Spark则 更适合应用与迭代计算,交互式分析等场景 第6页 版权所有?

2015 华为技术有限公司 Spark特点 ? 轻:Spark核心代码有3万行. ? Scala语言的简洁和丰富表达力 ? 巧妙利用了Hadoop和Mesos的基础设施 ? 快:Spark对小数据集可达到亚秒级的延迟 ? 对大数据集的迭代机器学习即席查询、图计算等应用,Spark 版 本比基于MapReduce、Hive和Pregel的实现快 ? 内存计算、数据本地性和传输优化、调度优化 第7页 版权所有?

2015 华为技术有限公司 Spark特点 ? 灵:Spark提供了不同层面的灵活性 ? Scala语言trait动态混入策略(如可更换的集群调度器、序列化库) ? 允许扩展新的数据算子、新的数据源、新的language bindings ? Spark支持内存计算、多迭代批量处理、即席查询、流处理和图 计算等多种范式 ? 巧:巧妙借力现有大数据组件 ? Spark借Hadoop之势,与Hadoop无缝结合 ? 图计算借用Pregel和PowerGraph的API以及PowerGraph的点 分割思想 第8页 版权所有?

2015 华为技术有限公司 本节总结 ? 本章主要对Spark的产生背景和应用场景给予简单介绍,同时 介绍了spark的特点. 第9页 版权所有?

2015 华为技术有限公司 目录 1. Spark应用场景 2. Spark技术架构和基本功能 ? Spark系统架构 ? Spark基本概念 ? 任务运行过程 ? 任务调度 3. Spark基本功能和技术架构 第10页 版权所有?

2015 华为技术有限公司 Spark技术架构 ? Spark架构采用了分布式计算中的Master-Slave模型.Master是对应集群 中的含有Master进程的节点(ClusterManager),Slave是集群中含有 Worker进程的节点.Master作为整个集群的控制器,负责整个集群的正 常运行;

Worker相当于是计算节点,接收主节点命令与进行状态汇报;

Executor负责任务的执行,运行在Worker节点(在FI集群中,Master节点 即为Resourcemanager节点,Slave节点即为NodeManager节点);

? Spark的任务流程:Client作为客户端提交应用,Master找到一个Worker 启动Driver(或者本地启动Driver),Driver向Master申请资源,之后将应用 转化为RDD Graph,再由DAGScheduler将RDD Graph转化为Stage后提交 给TaskScheduler,由TaskScheduler提交给Executor执行. 第11页 版权所有?

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题