开发者论坛 | 海睿思 轻量化数据中台生态引领者

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 38579|回复: 14

学习Spark之前是否需要先学习Hadoop,两者是否有必然的联系?

[复制链接]

3

主题

7

帖子

27

积分

新手上路

Rank: 1

积分
27
发表于 2020-10-20 10:28:23 | 显示全部楼层 |阅读模式
本帖最后由 xgj1010 于 2020-10-20 10:28 编辑

spark与hadoop两者是怎样的一个关系
回复

使用道具 举报

0

主题

1

帖子

9

积分

新手上路

Rank: 1

积分
9
发表于 2020-10-20 10:36:28 | 显示全部楼层
不需要吧,spark是做计算的,hadoop的hdfs是用来做存储的,已经是大数据存储的标配了。spark是用来弥补MapReduce处理速度慢的缺点
回复

使用道具 举报

0

主题

1

帖子

9

积分

新手上路

Rank: 1

积分
9
发表于 2020-10-20 10:47:08 | 显示全部楼层
我们为什么要用Spark? 用来做大数据分析!

Spark是数据分析引擎。但不学hadoop 你分析的数据从哪里读?数据数据分析完了存哪里? hdfs至少要了解吧, hive,hbase得知道如何call吧。

其实这完全是伪命题。为啥用spark, spark跟MR比更高效的是利用的hadoop里的组件。所以你都不想学hadoop学啥spark
回复

使用道具 举报

0

主题

1

帖子

9

积分

新手上路

Rank: 1

积分
9
发表于 2020-10-20 10:55:57 | 显示全部楼层
不一定。但学到一定程度还要是要去学习。

目前,在企业中大数据的工作方向大致有几类
1、数据平台研发:侧重于大数据平台部署、运维、开源软件优化改造等
2、数据研发: 侧重于数仓建设、数据同步、数据埋点设计等
3、BI和数据挖掘:侧重于指标体系建设、报表建设、业务异常分析、数据挖掘等
4、算法:侧重于算法平台的算法开发,如推荐算法,或语音识别等
5、全能选手:小公司什么都要做或者大牛什么都懂

不同角色对技术对Spark/Hadoop的了解深度是不一样的。比如平台研发的同学更注重Spark原理,如任务调度,Sql解析引擎等,这样定制开发。但这一块在国内也只有一线互联网公司有资源做。数据研发的同学,需要了解如何在Spark上运行任务,如何编写sql实现ETL

解决不同问题,技术侧重也是不一样的。比如解决OLAP时,更侧重的查询响应时间。所以Presto,Kylin就需要去了解。而构建数仓时需要开发和管理很多ETL任务,有不同数据源,这时候就需要了解Hadoop的HDFS是如何存储数据的。如何拿到自己的数据。

以上。等等

对于初学的同学来说,找准一个和自己职业规划相契合的切入点的技术,结合现在自己做的项目,先满足现在的需求,再怀着一颗好奇心,逐步构建自己的知识体系。最终成为全能选手。

因为,对于程序员来说,技术才是硬实力。
回复

使用道具 举报

0

主题

1

帖子

9

积分

新手上路

Rank: 1

积分
9
发表于 2020-10-20 11:02:53 | 显示全部楼层
hadoop和spark,有关系,但并不是需要先学hadoop才能学spark的关系,它俩之间的对比如下

1、诞生的先后顺序,hadoop属于第一代开源大数据处理平台,而spark属于第二代
2、属于下一代的spark肯定在综合评价上要优于第一代的hadoop
3、spark和hadoop在分布式计算的底层思路上,其实是极为相似的,即mapreduce分布式运算模型:将运
     算分成两个阶段,阶段1-map,负责从上游拉取数据后各自运算,然后将运算结果shuffle给下游的
     reduce,reduce再各自对通过shuffle读取来的数据进行聚合运算
4、spark和hadoop在分布式计算的具体实现上,又有区别;hadoop中的mapreduce运算框架,一个运算
     job,进行一次map-reduce的过程;而spark的一个job中,可以将多个map-reduce过程级联进行
5、spark和hadoop的另一个区别是,spark是一个运算平台,而hadoop是一个复合平台(包含运算引擎,
     还包含分布式文件存储系统hdfs,还包含分布式运算的资源调度系统yarn),所以,spark跟hadoop来
     比较的话,主要是比运算这一块
6、大数据技术发展到目前这个阶段,hadoop(主要是说它的运算部分)日渐式微,而spark目前如日中
     天,相关技术需求量大,offer好拿,薪资相对更高

总结,如果要学spark,其实逃不开HDFS,也逃不开yarn,所以,虽然理论上可以不用学hadoop就直接学spark,但还是建议学一下hadoop,毕竟这玩意儿又不是个多难的事,也就两三天时间就足够让你上手,并铺垫好学spark的基础了
回复

使用道具 举报

0

主题

1

帖子

4

积分

新手上路

Rank: 1

积分
4
发表于 2020-10-20 11:07:45 | 显示全部楼层
不需要吧。不过理解两者的区别会对日后工作很有帮助。和spark相对比的应该是MapReduce。MapReduce 是Hadoop的运算框架,其运算结果必须送回HDFS即Hadoop的存储框架。而Spark的中间结果可以存到内存中,因此对迭代大数据运算效果提升显著,比如PageRank或者一些Machine Leanring算法。
回复

使用道具 举报

0

主题

1

帖子

4

积分

新手上路

Rank: 1

积分
4
发表于 2020-10-20 11:18:28 | 显示全部楼层
不需要,你学习使用Git的时候也没让你会用SVN,甚至学习的比有SVN基础的更快
回复

使用道具 举报

3

主题

7

帖子

27

积分

新手上路

Rank: 1

积分
27
 楼主| 发表于 2020-10-21 17:05:47 | 显示全部楼层
回复

使用道具 举报

1

主题

9

帖子

23

积分

新手上路

Rank: 1

积分
23
发表于 2020-10-23 09:34:43 | 显示全部楼层
感谢分享~~~~~
回复

使用道具 举报

1

主题

10

帖子

25

积分

新手上路

Rank: 1

积分
25
发表于 2020-10-24 10:42:24 | 显示全部楼层
赞赞赞赞赞赞赞赞赞赞赞赞赞赞赞赞赞赞赞赞
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|开发者论坛 | 海睿思 轻量化数据中台生态引领者 ( 苏ICP备13008384号-7 )

GMT+8, 2022-7-1 23:00 , Processed in 0.052148 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表