编辑: 山南水北 | 2019-07-03 |
如果有 多个jar包,可以使用逗号分隔符连接它们 《大数据处理技术Spark》 厦门大学计算机科学系 林子雨 [email protected] 4.2 在spark-shell中运行代码 比如,要采用本地模式,在4个CPU核心上运行spark-shell: $ cd /usr/local/spark $ ./bin/spark-shell --master local[4] 或者,可以在CLASSPATH中添加code.jar,命令如下: $ cd /usr/local/spark $ ./bin/spark-shell --master local[4] --jars code.jar 可以执行 spark-shell --help 命令,获取完整的选项列表,具体如下: $ cd /usr/local/spark $ ./bin/spark-shell --help 《大数据处理技术Spark》 厦门大学计算机科学系 林子雨 [email protected] 4.2 在spark-shell中运行代码 启动Spark Shell成功后在输出信息的末尾可以看到 Scala >
的命令提示符 执行如下命令启动Spark Shell(默认是local模式): 《大数据处理技术Spark》 厦门大学计算机科学系 林子雨 [email protected] 4.2 在spark-shell中运行代码 可以在里面输入scala代码进行调试: 可以使用命令 :quit 退出Spark Shell: 或者,也可以直接使用 Ctrl+D 组合键,退出Spark Shell 《大数据处理技术Spark》 厦门大学计算机科学系 林子雨 [email protected] 4.3 开发Spark独立应用程序 使用 Scala 编写的程序需要使用 sbt或Maven 进行编译打包 4.3.1 安装编译打包工具 4.3.2 编写Spark应用程序代码 4.3.3 编译打包 4.3.4 通过spark-submit运行程序 4.3.5 使用Eclipse编写Spark应用程序 《大数据处理技术Spark》 厦门大学计算机科学系 林子雨 [email protected] 4.3.1 安装编译打包工具 1.安装sbt sbt是一款Spark用来对scala编写程序进行打包的工具,Spark 中没有自带 sbt,需 要下载安装 下载sbt安装包以后,执行如下命令拷贝至 /usr/local/sbt 中: 接着在 /usr/local/sbt 中创建 sbt 脚本(vim ./sbt),添加如下内容: #!/bin/bash SBT_OPTS= -Xms512M -Xmx1536M -Xss1M - XX:+CMSClassUnloadingEnabled -XX:MaxPermSize=256M java $SBT_OPTS -jar `dirname $0`/sbt-launch.jar $@ 《大数据处理技术Spark》 厦门大学计算机科学系 林子雨 [email protected] 4.3.1 安装编译打包工具 保存后,为./sbt 脚本增加可执行权限: 最后运行如下命令,检验 sbt 是否可用(需要几分钟时间): 只要能得到如下图的版本信息就没问题: 《大数据处理技术Spark》 厦门大学计算机科学系 林子雨 [email protected] 4.3.1 安装编译打包工具 2. 安装Maven $ sudo unzip ~/下载/apache-maven-3.3.9-bin.zip -d /usr/local $ cd /usr/local $ sudo mv ./apache-maven-3.3.9 ./maven $ sudo chown -R hadoop ./maven 下载到Maven安装文件以后,保存到 ~/下载 目录下.然后,可以 选择安装在 /usr/local/maven 目录中,命令如下: 《大数据处理技术Spark》 厦门大学计算机科学系 林子雨 [email protected] 4.3.2 编写Spark应用程序代码 在终端中执行如下命令创建一个文件夹 sparkapp 作为应用程序根目录: 在./sparkapp/src/main/scala 下建立一个名为 SimpleApp.scala 的文件, 添加代码如下 《大数据处理技术Spark》 厦门大学计算机科........