开发者论坛 | 海睿思 轻量化数据中台生态引领者

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 1031|回复: 2

数据中台技术选型讨论

[复制链接]

10

主题

14

帖子

50

积分

注册会员

Rank: 2

积分
50
发表于 2020-10-29 16:38:52 | 显示全部楼层 |阅读模式
一:数据中台架构底层是数据基础平台,包括数据采集平台&计算平台&存储平台,这些可以自建也可以使用云计算服务;
中间部分两大块是中台的公共数据区,公共数据区包括数据仓库(数据湖) ,主要负责公共数据模型研发,还包括统一指标(标签)平台,负责把模型组织成可以对外服务的数据,例如数据指标、数据标签;
上层是数据应用服务层,主要将公共数据区的数据对外包装并提供服务,包括数据接口平台、多维查询平台,数据可视化平台、数据分析平台等。


二:数据中台技术选项参考
在搭建数据中台方面,基于开源技术的选型,尤其是Hadoop生态圈有非常多的选择,从数据整体流向来看各大层级的选型。
数据抽取层:sqoop和flume是两大主流工具,其中sqoop作为结构化数据(关系型数据库)离线抽取,flume作为非结构化日志接入;
数据存储层:Hadoop文件系统Hdfs大家都比较了解,而kafka作为流式数据总线应用也非常广泛;
计算与调度层,包括:
离线计算:离线计算主要是hive,spark,也有部分选用tez
实时计算:前些年storm,spark比较流行,最近几年大家纷纷往Flink转型
数据调度:除了像Airflow Azkaban Oozie等,易观开源的Dolphin-scheduler也非常活跃
数据引擎层:也就是我们常说的OLAP层,我们看到这一层里的选择非常多,就不一一列举了,(业务需求带动技术进步的典型,选择丰富主要是可以适配不同的数据应用场景)。从概念上讲分为ROLAP、MOLAP以及两者混搭。MOLAP提前做一些预计算,以生成Cube的方式,达到空间换取查询效率;而ROLAP是即查即用,效率完全取决于查询引擎的性能,我个人认为从将来看,ROLAP的趋势会更加明显,因为没有中间的数据链路。但目前看来,没有一个统一的引擎足以支撑各类数据场景(这或许是将来的机会~);
数据可视化层:比较主流的有Metabase、Superset、Redash,也可以选择其他一些开源控件。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

5

主题

7

帖子

31

积分

新手上路

Rank: 1

积分
31
发表于 2020-10-29 16:40:55 | 显示全部楼层
建模、开发中的一些提效小工具成本不高可以考虑自研,但是复杂一些例如任务调度完全可以找到成熟的开源工具。
回复

使用道具 举报

0

主题

21

帖子

48

积分

新手上路

Rank: 1

积分
48
发表于 2020-10-30 15:13:36 | 显示全部楼层
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|开发者论坛 | 海睿思 轻量化数据中台生态引领者 ( 苏ICP备13008384号-7 )

GMT+8, 2022-7-1 22:01 , Processed in 0.047498 second(s), 19 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表