编辑: 夸张的诗人 | 2017-09-16 |
教育程度'
, num BIGINT COMMENT '
人数'
);
DataWorks V1.0 快速入门
5 选择本地数据文件,配置导入信息,单击 下一步.如下图所示: 至少输入2个字母搜索表名,选择需导入数据的表,如:bank_data.若需新建,可单击 去新建表 ,如下图所示: DataWorks V1.0 快速入门
6 选择字段匹配方式(本示例选择按位置匹配),单击 导入.如下图所示: 文件导入后,系统将提示您数据导入成功或失败. 其他数据导入方式 创建数据同步任务 适用范围: 保存在 RDS、MySQL、SQL Server、PostgreSQL、MaxCompute、OCS、DRDS、OSS、Oracle、FTP、 dm、Hdfs、MongoDB 等多种数据源中的各种数据. 通过 DataIDE 创建数据同步任务的具体操作请参见 创建数据同步任务. 本地文件上传 DataWorks V1.0 快速入门
7 适用范围: 文件大小不超过 10M,支持 .txt 和.csv 文件类型,目标仅支持非分区表. 通过 DataIDE 进行本地文件上传,具体操作如上文 本地数据上传至 bank_data 所示. 使用 Tunnel 命令上传文件 适用范围: 大小超过 10M 的本地文件和其他资源文件等. 通过 MaxCompute 客户端 提供的 Tunnel 命令来进行数据的上传及下载,当本地数据文件需要上传到分区表 时,可以通过客户端 tunnel 命令方式进行上传. 详情请参见 Tunnel 命令操作. 使用 dataX 开源工具 适用范围: 大批量的本地数据导入,二维表结构的数据等,上述3种方式无法支持的其他场景. 更多 DataX 开源介绍,请参见 DataX 开源地址. 后续步骤 现在,您已经学习了如何创建表并上传数据,您可以继续学习下一个教程.在该教程中您将学习如何创建工作 流来对项目空间的数据进行进一步的计算与分析.详情请参见 创建工作流分析数据. 步骤2:创建工作流 大数据开发套件的数据开发功能支持图形化设计数据分析工作流,以工作流任务和内部节点的方式实现对数据 的处理和相互依赖.目前支持包括 ODPS_SQL、数据同步、OPEN_MR、SHELL、机器学习、虚节点等多种任 务类型,每种任务类型的具体使用方法请参见 任务类型介绍. 本文将以创建工作流 work 为例,说明如何在工作流中创建节点并配置依赖关系,以方便地设计和展现数据分 析的步骤和顺序,并简要说明如何利用数据开发功能对工作空间的数据做进一步的分析和计算. 前提条件 在开始本操作前请确保您已根据 创建表并上传数据 的操作,在工作空间中准备好业务数据表 bank_data 和其 DataWorks V1.0 快速入门
8 中的数据,以及结果表 result_table. 操作步骤 创建工作流 进入项目空间后,单击 数据开发 页面中的 新建,选择 新建任务.如下图所示: 选择弹出框中的相关内容,指定任务类型为 工作流任务.如下图所示: 注意:下图中的调度属性一旦选定,不可以更改. DataWorks V1.0 快速入门
9 - - 在工作流画布中创建节点和关系 本节将在工作流中创建一个虚节点 start 和一个 odps_sql 节点 insert_data,并配置为 insert_data 依赖于 start. 注意: 虚拟节点属于控制类型节点,在工作流运行过程中不对数据产生任何影响,仅用于实现对下游节点的 运维控制. 虚节点在被其他节点依赖的情况下,如果被运维人员手动设置为运行失败,则下游未运行的节点将因 此无法被触发运行,在运维过程中可以防止上游错误数据进一步蔓延.详情请参见 任务类型介绍 中 的虚节点类型.综上所述,一般建议设计工作流时,默认创建一个虚节点作为根节点来控制整个工作 流. 双击虚节点,输入节点名 start. DataWorks V1.0 快速入门