最近更改 - 搜索:

功能总览?

产品介绍?

安装指南

用户指南

文档下载


FAQ.chm

调度专题.pdf

项目成员管理专题.pdf

数据质量与报告推送配置专题指导.pdf

edit SideBar

数据标准化

数据接入完成后,可以对接入数据进行标准化操作,这里以接入的mysql数据为例介绍如何进行数据标准化。


创建标准化任务 数据标准化

Step1: 数据标准化

点击左侧菜单【资源中心】图标,进入数据资源首页,在左侧原始层选中需要标准化的库表,点击右侧表详情里面的【标准化配置:去配置】按钮,开始标准化配置操作,如下图所示:

选择数据来源 数据标准化

Step2: 数据标准化

选择数据来源,配置数据接入方式,支持全量接入和增量接入,如下图所示:

选择数据存储 数据标准化

Step3:数据标准化

配置数据存储策略,选择存储引擎、连接信息,存储策略(支持覆盖和追加两种模式),输入标准化后落地的数据库名、数据表名,如下图所示:

定义信息转换规则 数据标准化

Step4:数据标准化

定义清洗转换规则,可进行数据探查、变更列数量、添加备注、重命名、函数配置、全量大小写转换、备注批量导入等操作,如下图所示:

参数说明:
数据探查:点击数据探查按钮进行探查操作,如果有模板,可以通过选择既有模板进行探查操作;
列调整:点击【删除列】/【新增列】可删除/增加列数;
增加备注:可以为字段添加中文或详细注释说明;
重命名:支持对字段进行重命名操作;
函数处理:提供多种函数对字段进行函数处理操作,包括数据处理、格式转换、数据校验等;
全量转大写:支持对所有字段名转大写操作;
全量转小写:支持对所有字段名转小写操作;
备注批量导入:支持将字段的备注信息批量导入,目前支持txt和csv两种文件格式导入;
字段顺序调整:可直接通过拖拽的方式任意调整字段的顺序;

定义去重策略 数据标准化

Step5:数据标准化

配置去重策略,去重属性配置待去重的列,排序列和类型用于设置在重复的列按排序列排序,并保留第一条。还可配置过滤、脏数据等,如下图所示:

参数说明:
过滤:支持配置过滤规则将符合条件的数据过滤出;
脏数据处理策略定义:是否保留脏数据配置;

配置调度策略 数据标准化

Step6:数据标准化

配置调度策略,在发布时有效,如下图所示:

参数说明:
自定义调度时间:不依赖于任何任务的调度
父任务调度时间:依赖于前置任务的调度时间且调度时间周期与父任务一致
数据依赖配置:任务调度策略依赖组合任务中的上一个任务,上一个任务策略调度完成后才启动本任务的调度策略;
上一周期调度任务调度成功:依赖当前任务上一个周期策略调度,调度结束后,才启动下一个周期的调度;
强依赖:任务发布开始定时调度执行,依赖于上级数据资源,上级数据资源数据接入后,且本任务到达调度时间才能开始执行。
弱依赖:任务发布开始定时调度执行,不依赖于上级数据资源,本任务到达调度时间,直接执行。
调度周期配置:

周期小时分钟备注
按月 每月指定时间(天),*时*分钟执行该策略
按周 每周指定时间(周几),*时*分钟执行该策略
按日(指定时间)  每日的*时*分钟执行该策略
按日(周期)  每日具体时间范围内,时间间隔*小时,第*分钟执行该策略
按分   具体时间范围内,每间隔*分钟执行该策略

运行标准化任务 数据标准化

Step7:数据标准化

点击【立即运行】按钮,运行标准化流程,如下图所示:

Step8:数据标准化

运行成功后,页面提示用户运行成功,如下图所示:

发布标准化任务

Step9:数据标准化

点击【发布】按钮,发布任务,如下图所示:

Step10:数据标准化

发布成功后,页面提示用户发布成功,如下图所示:

结果查询 数据标准化

Step11:数据标准化

运行成功后,点击【结果比对】按钮,可查看原始数据和标准化数据的比对结果,如下图所示:

Step12:数据标准化

标准化完成后,返回到数据资源目录,标准层会新增刚刚标准化后的表,如下图所示:

Step13:数据标准化

标准化完成后,点击【任务管理】进入任务列表查看生成的标准化任务,如下图所示:

Step14:数据标准化

任务列表结果查询,如下图所示:

返回 数据资源中心

编辑 - 版本历史 - 打印 - 最近更改 - 搜索
本页面最后修订于:2021年-07月-14日