安装指南 用户指南 文档下载 |
数据资源中心 /
创建算子任务除了数据接入和数据标准化,还提供更多数据处理能力,包含算子处理和SQL处理,本章节先介绍如何创建算子任务。 创建算子任务
点击左侧菜单【资源中心】图标,进入数据资源首页,在左侧原始层选中需要操作的库表,点击右侧表详情里面的【创建算子处理任务】按钮,开始算子处理任务配置,如下图所示: ![]() 编辑任务名称
进入任务编辑页面,点击页面左上方任务名称右侧的编辑图标,可对任务名称进行自定义,如下图所示: ![]() 任务名称修改后会自动刷新,如下图所示: ![]() 配置数据接入算子
在数据资源中心创建的算子处理任务,系统会默认将该数据资源作为数据读取算子,加载到流程画布中。这里直接点击画布中的算子图标,在右侧弹出的【数据读取】配置界面中 ![]() 配置数据处理算子
在左侧【算子库】中选择【数据处理类】算子,这里以【数据清洗】算子为例,拖动【数据清洗】算子画布中,如下图所示: ![]() 点击数据接入算子,拖动连线到下一个算子,如下图所示: ![]() 点击【数据清洗】算子,在右侧【数据清洗】配置框中清洗规则。第一步:进行重命名配置,如下图所示: ![]() 第二步配置列转换规则,点击列转换函数中的+号图标,弹出输出函数表达式配置框,然后选择函数和表字段,进行函数配置,也可直接通过拖拽的方式任意调整字段的顺序。 ![]() 第三步配置过滤规则,点击过滤规则定义中的【清洗】按钮,弹出输出函数表达式配置框,然后选择函数和表字段,进行过滤条件配置,最后点击【提交】按钮完成配置,如下图所示: ![]() 重命名、列转换、过滤规则配置完成后,界面展示如下图所示: ![]() 配置数据分发算子
在左侧【算子库】中选择【数据分发】算子,拖动算子画布中,然后点击数据清洗算子拖动连线到数据分发算子,如下图所示: ![]() 点击【数据分发】算子,在右侧【数据分发】配置框中分发规则。第一步:配置数据资源目录以及落地后的数据库名和表名;第二步:配置存储数据库类型,目前支持postgres和hive,这里以postgres为例,然后选择连接,最后配置存储策略,如下图所示: ![]() 运行任务
保存并运行任务,点击【保存】按钮保存任务,然后点击【运行】按钮运行任务,如下图所示: ![]() 运行成功后,所有算子上打勾,页面提示运行成功,如下图所示: ![]() 流程运行成功,点击画布右侧的调度策略,为该任务配置自动调度策略,如下图所示: ![]() 发布任务
点击【发布】按钮将任务发布,发布成功后,页面提示任务发布成功,如下图所示: ![]() 结果查询
任务发布后,点击【任务流转图】可查看到流程DAG图,如下图所示: ![]() 任务保存后点击左侧菜单【任务管理】图标进入任务列表页面可查看到创建成功的任务,如下图所示: ![]() 任务列表点击任务的所属组合任务名,可进入组合任务详情页面查看组合任务DAG,如下图所示: ![]() 任务运行成功后,数据会同步到数据资源,点击左侧菜单【资源中心】按钮进入资源中心,可查看到同步的数据资源目录、库、表,并且数据落地成功正常展示,如下图所示: ![]() 返回 数据资源中心 |