安装指南 用户指南 文档下载 |
Main /
任务创建数据预处理完成后,可进入更多数据配置创建算子处理任务或者SQL处理任务,对数据进一步加工。 1.任务新增
进入数据资源中心,选中数据资源分层下的数据资源库(原始层或标准层),点击右侧更多数据配置中的【创建算子处理任务】或【创建SQL处理任务】 即可为该数据资源归属的组合任务创建一个算子处理任务或者SQL处理任务,如下图所示。 ![]() 2.任务设计鼠标移动到资源库下的数据资源或算子库中所需要的算子上,直接拖拽这些算子到右侧流程画布(如资源库下的“员工信息”,数据处理算子库中的“数据清洗”和“去重”算子)。 在流程画布区,点击被拖入的算子图标中心位置的→到下一个算子节点,当下一个算子周围出现绿色实线框则连线成功,如下图所示。 ![]() 鼠标移到算子图标上,单击该算子,流程画布右侧弹出属性设置界面,已有数据资源作为数据读取时,仅需配置数据读取配置 这里读取资源选择【全量】,算子属性配置完成后,点击流程画布空白处保存该算子属性配置,如下图所示。 ![]() 读取资源包括全量和增量,默认全量读取。只有选择增量读取才会显示增量列,增量列展示数据资源中数值类型以及日期类型列。 数据清洗算子属性配置分为信息转换规则和过滤规则定义配置,属性配置完成后,点击流程画布空白处保存该算子属性配置,如下图所示。 ![]() 信息转换规则包括选择列、生成列、重命名以及过滤功能。 过滤规则定义则用于完成复杂过滤逻辑配置,支持多字段按函数表达式方式过滤。 批量转大小写,支持对字段进行批量大小写转换。 字段顺序调整:可直接通过拖拽的方式任意调整字段的顺序。 点击【清洗】弹出函数表达式配置弹框,过滤规则定义支持输入和函数过滤两种,如下图所示。 ![]() 点击列转换函数中的【+】,弹出函数表达式编辑弹框,如下图所示。 ![]() 函数选择支持字符串操作类、数学、日期、逻辑函数等,并支持根据关键字查询函数。 鼠标点击指定函数,函数说明中展示该函数的使用说明,主要包括命令格式、描述、参数说明、返回值、示例五块内容。 去重算子由输出信息配置以及去重策略配置两个部分组成。点击【多选框】选择输出属性以及设置去重属性列,点击【下拉框】设置排序字段和排序类型, 属性配置完成后,点击流程画布空白处保存该算子属性配置,如下图所示。 ![]() 输出信息配置主要展示前置算子列信息。 去重策略主要是指从多条重复数据中保留数据的策略。 数据分发是将平台流程处理过的数据导出到指定的库表或指定的数据资源,即可以选择新增新的资源分层用来存放您处理过的其他数据资源。数据分发算子分为基本配置、 分区配置和索引配置。基本配置主要用来配置数据资源目录和库对应的资源目录以及表对应的资源目录,支持下拉选择或手工输入,如下图所示。 ![]() 注意事项 1、中间的算子进行属性设置时需要已连接前置算子,且前置算子已设置好属性并保存。 2、数据清洗算子新增列后,需要手动勾选该列保证新增列正常输出。 3、每个算子名称后的?都会有相应的算子说明。 算子属性配置完成,点击【保存】,保存该流程,如下图所示。 ![]() 2.任务运行点击【运行】按钮,流程开始运行,如下图所示。 ![]() 若流程运行成功,则在算子右下角有个绿色的勾,如下图所示。 ![]() 算子任务执行成功,数据落地后,可到数据资源中心查看结果,这里表格支持宽度可拖拽,如下图所示。 ![]() 返回 入门引导 |