合聚咖

合聚咖

怎么自学大数据

admin

自学大数据学习路线:(前提:以Java语言为基础)

总共分为四个模块:

大数据基础

大数据框架

大数据项目

其他

第一模块:大数据基础

Java基础:集合,IO流

JVM:重点是项目调优

多线程:理论和项目应用

Linux:最基本的操作

这一个模块的重点是为了面试做准备,个人根据自己的情况去复习,复习的时候理论部分建议看书和博客资料,应用部分建议看视频和Demo调试。

下面分别去详细的介绍一下:

Java基础:集合,IO流

主要是理论部分,可以看书或者博客总结,这一块没什么推荐的,网上很多资料可以找到。

JVM:重点是项目调优

多线程:理论和项目应用

这两块重点要结合到项目中,通过项目中的实际使用,然后反馈到对应的理论基础,这一块建议在B站上看对应的视频。B站”尚硅谷“官网上的视频很详细。

Linux:最基本的操作

这一块有时间,先把《鸟哥的Linux私房菜》这本书看一遍,然后装个Linux系统自己玩玩,对应的最常使用的命令自己敲敲。

如果没时间,就把最常用的命令自己敲敲,网上有对应的总结,自己很容易搜到。一定要自己敲敲。

第二模块:大数据框架

Hadoop:重点学,毕竟大数据是以Hadoop起家的,里面就HDFS,MapReduces,YARN三个模块。

Hive:先学会怎么用,当作一个工具来学习。

Spark:重点学,用来替代Hadoop的MapReduces的,里面重点有三块:Spark Core,Spark SQL,Spark Streaming。

Flink:我还没学。

Hbase:当作一个工具来学习,先学习怎么用。

Kafka:先学怎么用,其实里面的模块可以先理解成两部分:生产者和消费者。所有的核心都是围绕这两个展开的。

Flume:当作一个工具来学习,先学习怎么用。

Sqoop:当作一个工具来学习,先学习怎么用。

Azkaban:当作一个工具来学习,先学习怎么用。

Scala:这个是一门编程语句,基于Java 而来的,可以工作后在学习。

Zookeeper:当作一个工具来学习,先学习怎么用。

以上的学习视频和资料可以在B站的”尚硅谷“和”若泽大数据“里找到,很详细。资料目前最详细的资料就是各个框架对应的官网。视频里也是对着官网一步一步讲的。官网都是英文的,可以用Google浏览器的翻译插件,翻译成中文后在看。

第三模块:大数据项目

B站的”尚硅谷“和”若泽大数据“。

第四模块:其他

分布式:知道最基本的概念,有个分布式项目的经验。分布式项目可以在B站的”尚硅谷“里找到。

算法:网上有详细的总结,书:推荐《剑指Offer》和《算法4》,看算法的目的是先掌握实现算法的思路然后才是实现方式。

SQL:主要是调优,网上有很详细的总结。

除此之外:Storm框架不要学了。

很多准备前期都是为了面试,例如:JVM和多线程,SQL调优和算法。这些东西真正使用的过程中千差万别,但核心知识不变,所以面试的时候总是会问,这一块的前期以通过面试为主要点。

学习了差不多了,例如:Hadoop,Hive 和Spark学完了,就去面试面试,通过面试的情况在来调整自己的学习。