编辑: 夸张的诗人 | 2017-10-01 |
0 快速入门 快速入门 使用说明 本指南将指引您快速完成一个完整的数据开发和运维操作. 注意: 如果您是第一次使用DataWorks(数据工场,原大数据开发套件),请确认已经根据准备工作模块的操作 ,准备好账号和项目角色、项目空间等内容,然后进入DataWorks管理控制台页面,单击对应项目空间后 的进入工作区,便可进入DataWorks的数据开发页面开始数据开发工作. 通常情况下,通过DataWorks的项目空间实现数据开发和运维,包含以下操作: 步骤1:建表并上传数据 步骤2:创建工作流 步骤3:创建同步任务 步骤4:设置周期和依赖 步骤5:运维及日志排错 基本流程如下图所示: DataWorks V1.0 快速入门
1 步骤1:建表并上传数据 本文将以创建表bank_data和result_table为例,说明如何创建表并上传数据.其中表bank_data用于存储业务 数据,表result_table用于存储数据分析后产生的结果. 操作步骤 创建表bank_data 进入项目空间后,在数据开发页面单击新建,选择新建表.如下图所示: 在新建表页面,输入建表语句,单击确认.创建表的更多SQL语法请参见创建/查看/删除表. DataWorks V1.0 快速入门
2 本示例的建表语句如下所示: 创建表后,可以在左侧导航栏表查询中输入表名进行搜索,查看表信息.如下图所示: CREATE TABLE IF NOT EXISTS bank_data ( age BIGINT COMMENT '
年龄'
, job STRING COMMENT '
工作类型'
, marital STRING COMMENT '
婚否'
, education STRING COMMENT '
教育程度'
, default STRING COMMENT '
是否有信用卡'
, housing STRING COMMENT '
房贷'
, loan STRING COMMENT '
贷款'
, contact STRING COMMENT '
联系途径'
, month STRING COMMENT '
月份'
, day_of_week STRING COMMENT '
星期几'
, duration STRING COMMENT '
持续时间'
, campaign BIGINT COMMENT '
本次活动联系的次数'
, pdays DOUBLE COMMENT '
与上一次联系的时间间隔'
, previous DOUBLE COMMENT '
之前与客户联系的次数'
, poutcome STRING COMMENT '
之前市场活动的结果'
, emp_var_rate DOUBLE COMMENT '
就业变化速率'
, cons_price_idx DOUBLE COMMENT '
消费者物价指数'
, cons_conf_idx DOUBLE COMMENT '
消费者信心指数'
, euribor3m DOUBLE COMMENT '
欧元存款利率'
, nr_employed DOUBLE COMMENT '
职工人数'
, y BIGINT COMMENT '
是否有定期存款'
);
DataWorks V1.0 快速入门
3 DataWorks V1.0 快速入门
4 创建表result_table 进入数据开发页面,单击新建,选择新建表. 在新建表页面,输入建表语句,单击确认.建表语句如下所示: 创建表后,可以在左侧导航栏表查询中输入表名进行搜索,查看表信息. 本地数据上传至bank_data DataWorks(数据工场,原大数据开发套件)支持以下操作: 将保存在本地的文本文件中的数据上传到工作空间的表中. 通过数据集成模块将业务数据从多个不同的数据源导入到工作空间. 注意: 本文将使用本地文件作为数据来源.本地文本文件上传有以下限制: 文件类型:仅支持.txt和.csv格式. 文件大小:不超过10M. 操作对象:支持分区表导入和非分区表导入,但不支持分区值为中文. 以导入本地文件banking.txt到DataWorks为例,操作如下: 单击导入,选择导入本地数据.如下图所示: CREATE TABLE IF NOT EXISTS result_table ( education STRING COMMENT '