开发者论坛 | 海睿思 轻量化数据中台生态引领者

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 21285|回复: 7

什么是数据血缘,数据血缘的应用场景是什么?

[复制链接]

1

主题

3

帖子

14

积分

新手上路

Rank: 1

积分
14
发表于 2020-10-21 14:35:34 | 显示全部楼层 |阅读模式
前言:
数据血缘属于数据治理中的一个概念,是在数据溯源的过程中找到相关数据之间的联系,它是一个逻辑概念。

数据治理里经常提到的一个词就是血缘分析,血缘分析是保证数据融合的一个手段,通过血缘分析实现数据融合处理的可追溯。大数据数据血缘是指数据产生的链路,直白点说,就是我们这个数据是怎么来的,经过了哪些过程和阶段。

数据血缘关系的应用场景是什么:

在数据的处理过程中,从数据源头到最终的数据生成,每个环节都可能会导致我们出现数据质量的问题。比如我们数据源本身数据质量不高,在后续的处理环节中如果没有进行数据质量的检测和处理,那么这个数据信息最终流转到我们的目标表,它的数据质量也是不高的。也有可能在某个环节的数据处理中,我们对数据进行了一些不恰当的处理,导致后续环节的数据质量变得糟糕。因此,对于数据的血缘关系,我们要确保每个环节都要注意数据质量的检测和处理,那么我们后续数据才会有优良的基因,即有很高的数据质量。

举例说明:

现在假设你是一只数据开发工程师,为了满足一次业务需求,,然后为了生成这张表,可能是处于程序逻辑清晰或者性能优化的考虑,你会使用很多份数据表,也会通过 MR、Spark 或者 Hive 来生产很多中间表。
如下图,是你将花费时间来实现的整个数据流。


  • 其中 Table X 是最终给到业务侧的表。
  • 蓝色的 Table A-E,是原始数据。
  • 黄色的 Table F-I 是你计算出来的中间表。这些表都是你自己写程序要处理的表。
  • 然后你为了懒省事,嗯,应该说本着不重复开发的原则,你还要用到同事小伙伴处理的表,Table J 就是别人处理过的结果表。

过了一段时间后,业务侧的感觉你提供的数据中有个字段总是不太对劲,其实就是怀疑你的数据出问题!需要你来追踪一下这个字段的来源。
首先你从 Table X 中找到了异常的字段,然后定位到了它来源于 Table I,再从 Table I 定位到了它来源于 Table G, 再从 Table G 追溯到了 Table D,最终发现是某几天的来源数据有异常。
或者说,你从 Table X 定位到了异常的字段原来来自于其它小伙伴处理的表 Table J,然后继续向前回溯,找到了这张表在处理过程中的某一个步出现了问题。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

0

主题

6

帖子

14

积分

新手上路

Rank: 1

积分
14
发表于 2020-10-22 11:07:55 | 显示全部楼层
感谢楼主分享
回复

使用道具 举报

1

主题

9

帖子

23

积分

新手上路

Rank: 1

积分
23
发表于 2020-10-23 09:31:37 | 显示全部楼层
数据 血缘,通俗易懂~~~~~~~~~~~
回复

使用道具 举报

1

主题

10

帖子

25

积分

新手上路

Rank: 1

积分
25
发表于 2020-10-24 10:44:22 | 显示全部楼层
赞赞赞赞赞赞赞赞赞赞赞赞赞赞赞赞赞赞赞赞
回复

使用道具 举报

1

主题

10

帖子

23

积分

新手上路

Rank: 1

积分
23
发表于 2020-10-27 16:39:21 | 显示全部楼层
顶顶顶顶顶顶顶顶顶顶顶顶顶顶
回复

使用道具 举报

0

主题

11

帖子

24

积分

新手上路

Rank: 1

积分
24
发表于 2020-10-28 10:26:48 | 显示全部楼层
回复

使用道具 举报

0

主题

9

帖子

20

积分

新手上路

Rank: 1

积分
20
发表于 2020-10-29 13:53:08 | 显示全部楼层
感谢分享,很不错的文章
回复

使用道具 举报

0

主题

21

帖子

48

积分

新手上路

Rank: 1

积分
48
发表于 2020-10-30 14:22:17 | 显示全部楼层
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|开发者论坛 | 海睿思 轻量化数据中台生态引领者 ( 苏ICP备13008384号-7 )

GMT+8, 2022-7-1 21:08 , Processed in 0.051249 second(s), 19 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表