编辑: 达达恰西瓜 | 2014-08-08 |
1 1.
1
2 2.1 2.2 2.2.1 2.2.2 2.2.2.1 2.2.2.2 2.2.2.3 2.2.2.4 2.2.3 2.3 2.4
3 3.1 3.1.1 3.2 3.2.1 3.2.2 3.3 3.3.1 3.3.2 3.3.3
4 4.1 4.2
5 6 目录 Introduction Spark 概述 Spark 生态环境 Spark 安装配置 Spark 编译 Spark 部署模式 Spark 单机版 Spark Standalone 无HA 单点恢复 ZooKeeper HA 配置项 Spark on Yarn Spark Shell Spark Submit Spark Relate Software ZooKeeper ZooKeeper安装配置 Hadoop Hadoop 1.x 安装配置 Hadoop 2.x 安装配置 kafka kafka 安装配置 kafka 配置项 kafka 使用 Spark 监控 Web Interfaces Spark Metrics Spark 调优 Spark Core Spark 运维实战
2 6.1 6.2 6.2.1 6.3 6.4 6.5
7 7.1 Context RDD Key-Value Pairs RDD Transform Action Persist &
Cache Spark Streaming DStream Spark 运维实战
3 Spark运维实战 本书参考Spark官方文档和源码,通过本书你将精通Spark的安装、配置、监控和调优. Spark 运维实战
4 Introduction Apache Spark Spark的来源 Spark 运维实战
5 Spark 概述 Spark ecological environment Spark Spark 运维实战
6 Spark 生态环境 Spark Install Spark 运维实战
7 Spark 安装配置 Spark 编译 有三种方式:SBT、MAVEN、make-distribution.sh. SBT、MAVEN两种方式打出来的 包比较大,不适合部署使用.因此我们通常使用第三种方式打包. 官方已经提供安装包了,为什么要自己编译? Spark能同Hadoop进行交互,而Hadoop的厂商比较多有很多商业版.Spark官方提供的 安装包不一定和我们的Hadoop集群版本相同,如果不相同就有可能出现莫名其妙的错误.这时,我们手工指定相应版本进行编译是最好选择. SBT编译 sbt/sbt clean assembly MAVEN编译 由于MAVEN工具默认的内存比较小,需要先调大其占用的内存上限: export MAVEN_OPTS= -Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m 打包 mvn clean assembly:assembly make-distribution.sh构建安装包 该脚本会使用MAVEN进行编译,然后打成一个tgz包. 脚本的使用方法: ./make-distribution.sh --help 打包: Spark 运维实战
8 Spark 编译 ./make-distribution.sh --tgz --with-tachyon Hadoop版本对应的MAVEN Profile Hadoop version Profile required 0.23.x hadoop-0.23 1.x to 2.1.x (none) 2.2.x hadoop-2.2 2.3.x hadoop-2.3 2.4.x hadoop-2.4 Yarn版本对应的MAVEN Profile YARN version Profile required 0.23.x to 2.1.x yarn-alpha 2.2.x and later yarn Hive对应的MAVEN Profile 在构造脚本后面添加 -Phive便可 自定义Hadoop版本 如果要构建hortonworks Hadoop 2.4.0.2.1.4.0-632,所对应的Hadoop版本是2.4.x.因此,相应的Profile为-Phadoop-2.4 -Pyarn. 编译方式: SBT sbt clean assembly -Phive -Phadoop-2.4 -Pyarn -Dhadoop.version=2.4.0.2.1.4.0-632 Maven export MAVEN_OPTS= -Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m Spark 运维实战
9 Spark 编译 mvn clean assembly:assembly make-distribution.sh 1.1.x 使用 ./make-distribution.sh --tgz --with-tachyon -Phadoop-2.4 -Pyarn -Phive -Dhadoop.version=2.4.0.2.1.4.0 对于1.1.x以前的版本使用: ./make-distribution.sh --hadoop 2.4.0.2.1.4.0-632 --with-yarn --with-tachyon --tgz 如果yarn的版本和Hadoop的版本不一致可添加 -Dyarn.version=2.4.0.2.1.4.0-632 Spark 运维实战
10 Spark 编译 Spark Deploy Type 单机运行 用来做一些简单测试,学习使用相关工具. Standalone Spark本身提供的资源管理器,可以直接运行. 提供HA功能 Yarn Spark和Hadoop YARN集成,运行Hadoop集群中.由YARN提供资源分配管理. 提供运行spark应用的jar包Mesos 另一种资源管理系统 Amazon EC2 / ElasticMapReduce Spark 运维实战