安装指南 用户指南 文档下载 |
Main /
数据标准化数据标准化用于实现数据清洗、转换、去重功能,完成接入后的数据标准化操作。 标准化配置进入数据资源分层中的原始层,点击该数据资源分层下的数据资源库【企业数据项目】,右侧将会显示该资源库目录下的表列表 鼠标移到具体表列表的标准化配置上,点击【去配置】,进入标准化配置页面,如下图所示。 ![]() 或点击数据资源库下的表目录,鼠标移到右侧功能操作区的表详情上,点击【去配置】进入到标准化配置页面,如下图所示。 ![]() 数据标准化过程一共分五步:选择数据来源、数据存储策略、定义清洗转换规则、定义去重策略、配置调度策略(选填)。 鼠标移动到具体步骤上,点击步骤名进行每一步的配置,如下图所示。 ![]() 选择数据接入模式、存储引擎、连接名称和存储策略(这里接入模式选择全量,存储引擎选择postgresql,存储策略选择覆盖) 标准表所属目录库和标准表表名由系统默认生成,也可根据实际情况进行修改,如下图所示。 ![]() 选择数据来源:用于完成选定数据资源后的数据接入方式选择。 数据存储策略:用于完成结果数据的存储配置。 连接名称:从连接管理中选择已有连接。 定义清洗转换规则即对当前输入表的所有字段信息进行展示并可按照一定的规则对表中字段进行清洗转换。 例如:点击【新增列】新增一列时间字段create_time,输出函数表达式选择unix_timestamp(current_timestamp())用来表示数据的处理时间; 再将列companyName重命名为companyname;使用函数lower()对creaditCode列的值进行小写处理,如下图所示。 ![]() 新增列:系统支持对当前数据表新增一列,并支持对列进行函数表达式设置。 重命名:系统支持对当前数据表字段进行重命名。 函数转换:系统支持对列值进行常用函数转换,包括字符串、日期、逻辑函数等。 全量转大写:支持对所有字段名转大写操作。 全量转小写:支持对所有字段名转小写操作。 备注批量导入:支持将字段的备注信息批量导入,目前支持txt和csv两种文件格式导入。 字段顺序调整:可直接通过拖拽的方式任意调整字段的顺序。 定义去重策略包括过滤规则定义、去重定义策略、脏数据处理策略定义。点击【配置】弹出过滤规则弹框,设置过滤规则,如下图所示。 ![]() 过滤规则定义:用于完成复杂过滤逻辑配置,支持多字段按函数表达式方式过滤。 脏数据处理策略定义:支持是否保存脏数据,默认是保存。 去重定义策略:支持去重属性选择、排序列和排序类型设置,其中去重字段支持多选,排序类型支持升序、降序,默认降序。 信息转换规则配置完成之后,点击【结果比对】可以查看数据标准化前后的比对结果,这里表格支持宽度可拖拽,如下图所示。 ![]() 标准化配置完成后,点击【立即运行】,数据标准化开始,如下图所示。 ![]() 数据标准化开始前,会首先弹出提示“后续操作将会覆盖原有的数据”弹框(存储策略为覆盖时),点击【确定】,开始执行数据标准化操作,如下图所示。 ![]() 标准化过程中,立即运行按钮会实时展示标准化百分比进度,标准完成,提示“运行成功”,且左下角小赛助手会提示运行成功并给出下一步可操作的引导,如下图所示。 ![]() 标准化完成后,可到数据资源中心-标准层,查看标准化结果,如下图所示。 ![]() 系统支持配置任务调度时间周期,支持按分钟、日、周、月配置调度周期调度策略。此配置为选填,根据实际情况配置即可。 这里调度周期配置选择分,开始时间选择00:00,时间间隔填写15分钟,结束时间选择15:59,依赖上一周期选择是,依赖强度选择强依赖,如下图所示。 ![]() 调度周期说明可参考 配置调度策略 。 返回 入门引导 |