【PDF】DataWorks V1.0 - 资源下载

编辑：

夸张的诗人

2017-10-01

教育程度'

, num BIGINT COMMENT '

人数'

);

DataWorks V1.0 快速入门

5 选择本地数据文件,配置导入信息,单击下一步.如下图所示: 至少输入2个字母搜索表名,选择需导入数据的表,如bank_data.若需新建,可单击去新建表,如下图所示: DataWorks V1.0 快速入门

6 选择字段匹配方式(本示例选择按位置匹配),单击导入.如下图所示: 文件导入后,系统将提示您数据导入成功或失败. 其他数据导入方式创建数据同步任务适用范围: 保存在RDS、MySQL、SQLServer、PostgreSQL、MaxCompute、OCS、DRDS、OSS、Oracle、FTP、 dm、Hdfs、MongoDB等多种数据源中的各种数据. 通过DataWorks创建数据同步任务的具体操作请参见创建数据同步任务. 本地文件上传 DataWorks V1.0 快速入门

7 适用范围: 文件大小不超过10M,支持.txt和.csv文件类型,目标支持分区表和非分区表,但不支持中文作为分区. 通过DataWorks进行本地文件上传,具体操作如上文本地数据上传至bank_data所示. 使用Tunnel命令上传文件适用范围: 大小超过10M的本地文件和其他资源文件等. 通过MaxCompute客户端提供的Tunnel命令来进行数据的上传及下载,当本地数据文件需要上传到分区表时 ,可以通过客户端Tunnel命令方式进行上传. 详情请参见Tunnel命令操作. 使用dataX开源工具适用范围: 大批量的本地数据导入,二维表结构的数据等,上述3种方式无法支持的其他场景.详情请参见DataX. 更多DataX开源介绍,请参见DataX开源地址. 后续步骤现在,您已经学习了如何创建表并上传数据,您可以继续学习下一个教程.在该教程中您将学习如何创建工作流来对项目空间的数据进行进一步的计算与分析.详情请参见创建工作流. 步骤2:创建工作流 DataWorks(数据工场,原大数据开发套件)的数据开发功能支持图形化设计数据分析工作流,以工作流任务和内部节点的方式实现对数据的处理和相互依赖.目前支持包括 ODPS_SQL、数据同步、OPEN_MR、 SHELL、机器学习、虚节点等多种任务类型,每种任务类型的具体使用方法请参见任务类型介绍. 本文将以创建工作流 work 为例,说明如何在工作流中创建节点并配置依赖关系,以方便地设计和展现数据分析的步骤和顺序,并简要说明如何利用数据开发功能对工作空间的数据做进一步的分析和计算. 前提条件在开始本操作前请确保您已根据创建表并上传数据的操作,在工作空间中准备好业务数据表 bank_data 和其 DataWorks V1.0 快速入门

8 中的数据,以及结果表 result_table. 操作步骤创建工作流进入项目空间后,单击数据开发页面中的新建,选择新建任务.如下图所示: 选择弹出框中的相关内容,指定任务类型为工作流任务.如下图所示: 注意: 下图中的调度属性一旦选定,不可以更改. DataWorks V1.0 快速入门

9 在工作流画布中创建节点和关系本节将在工作流中创建一个虚节点 start 和一个 odps_sql 节点 insert_data,并配置为 insert_data 依赖于 start. 注意: 虚拟节点属于控制类型节点,在工作流运行过程中不对数据产生任何影响,仅用于实现对下游节点的运维控制. 虚节点在被其他节点依赖的情况下,如果被运维人员手动设置为运行失败,则下游未运行的节点将因此无法被触发运行,在运维过程中可以防止上游错误数据进一步蔓延.详情请参见任务类型介绍中的虚节点类型.综上所述,一般建议设计工作流时,默认创建一个虚节点作为根节点来控制整个工作流. 双击虚节点,输入节点名 start. DataWorks V1.0 快速入门

注：以上内容是本站开源项目的机器提供的预览内容，更完整和更好的阅读体验请直接免费下载资源后阅读

下载（注：源文件不在本站服务器，都将跳转到源网站下载）

备用下载

PDF《DataWorks V1.0》