编辑: 夸张的诗人 | 2017-10-01 |
教育程度'
, num BIGINT COMMENT '
人数'
);
DataWorks V1.0 快速入门
5 选择本地数据文件,配置导入信息,单击下一步.如下图所示: 至少输入2个字母搜索表名,选择需导入数据的表,如bank_data.若需新建,可单击去新建表,如 下图所示: DataWorks V1.0 快速入门
6 选择字段匹配方式(本示例选择按位置匹配),单击导入.如下图所示: 文件导入后,系统将提示您数据导入成功或失败. 其他数据导入方式 创建数据同步任务 适用范围: 保存在RDS、MySQL、SQLServer、PostgreSQL、MaxCompute、OCS、DRDS、OSS、Oracle、FTP、 dm、Hdfs、MongoDB等多种数据源中的各种数据. 通过DataWorks创建数据同步任务的具体操作请参见创建数据同步任务. 本地文件上传 DataWorks V1.0 快速入门
7 适用范围: 文件大小不超过10M,支持.txt和.csv文件类型,目标支持分区表和非分区表,但不支持中文作为分区. 通过DataWorks进行本地文件上传,具体操作如上文本地数据上传至bank_data所示. 使用Tunnel命令上传文件 适用范围: 大小超过10M的本地文件和其他资源文件等. 通过MaxCompute客户端提供的Tunnel命令来进行数据的上传及下载,当本地数据文件需要上传到分区表时 ,可以通过客户端Tunnel命令方式进行上传. 详情请参见Tunnel命令操作. 使用dataX开源工具 适用范围: 大批量的本地数据导入,二维表结构的数据等,上述3种方式无法支持的其他场景.详情请参见DataX. 更多DataX开源介绍,请参见DataX开源地址. 后续步骤 现在,您已经学习了如何创建表并上传数据,您可以继续学习下一个教程.在该教程中您将学习如何创建工作 流来对项目空间的数据进行进一步的计算与分析.详情请参见创建工作流. 步骤2:创建工作流 DataWorks(数据工场,原大数据开发套件)的数据开发功能支持图形化设计数据分析工作流,以工作流任务 和内部节点的方式实现对数据的处理和相互依赖.目前支持包括 ODPS_SQL、数据同步、OPEN_MR、 SHELL、机器学习、虚节点等多种任务类型,每种任务类型的具体使用方法请参见 任务类型介绍. 本文将以创建工作流 work 为例,说明如何在工作流中创建节点并配置依赖关系,以方便地设计和展现数据分 析的步骤和顺序,并简要说明如何利用数据开发功能对工作空间的数据做进一步的分析和计算. 前提条件 在开始本操作前请确保您已根据 创建表并上传数据 的操作,在工作空间中准备好业务数据表 bank_data 和其 DataWorks V1.0 快速入门
8 中的数据,以及结果表 result_table. 操作步骤 创建工作流 进入项目空间后,单击 数据开发 页面中的 新建,选择 新建任务.如下图所示: 选择弹出框中的相关内容,指定任务类型为 工作流任务.如下图所示: 注意: 下图中的调度属性一旦选定,不可以更改. DataWorks V1.0 快速入门
9 在工作流画布中创建节点和关系 本节将在工作流中创建一个虚节点 start 和一个 odps_sql 节点 insert_data,并配置为 insert_data 依赖于 start. 注意: 虚拟节点属于控制类型节点,在工作流运行过程中不对数据产生任何影响,仅用于实现对下游节 点的运维控制. 虚节点在被其他节点依赖的情况下,如果被运维人员手动设置为运行失败,则下游未运行的节点 将因此无法被触发运行,在运维过程中可以防止上游错误数据进一步蔓延.详情请参见 任务类 型介绍 中的虚节点类型.综上所述,一般建议设计工作流时,默认创建一个虚节点作为根节点 来控制整个工作流. 双击虚节点,输入节点名 start. DataWorks V1.0 快速入门