怎么自学大数据

admin 2025-04-30 13:22:04

自学大数据学习路线：（前提：以Java语言为基础）

总共分为四个模块：

大数据基础

大数据框架

大数据项目

其他

第一模块：大数据基础

Java基础：集合，IO流

JVM：重点是项目调优

多线程：理论和项目应用

Linux：最基本的操作

这一个模块的重点是为了面试做准备，个人根据自己的情况去复习，复习的时候理论部分建议看书和博客资料，应用部分建议看视频和Demo调试。

下面分别去详细的介绍一下：

Java基础：集合，IO流

主要是理论部分，可以看书或者博客总结，这一块没什么推荐的，网上很多资料可以找到。

JVM：重点是项目调优

多线程：理论和项目应用

这两块重点要结合到项目中，通过项目中的实际使用，然后反馈到对应的理论基础，这一块建议在B站上看对应的视频。B站”尚硅谷“官网上的视频很详细。

Linux：最基本的操作

这一块有时间，先把《鸟哥的Linux私房菜》这本书看一遍，然后装个Linux系统自己玩玩，对应的最常使用的命令自己敲敲。

如果没时间，就把最常用的命令自己敲敲，网上有对应的总结，自己很容易搜到。一定要自己敲敲。

第二模块：大数据框架

Hadoop：重点学，毕竟大数据是以Hadoop起家的，里面就HDFS，MapReduces，YARN三个模块。

Hive：先学会怎么用，当作一个工具来学习。

Spark：重点学，用来替代Hadoop的MapReduces的，里面重点有三块：Spark Core，Spark SQL，Spark Streaming。

Flink：我还没学。

Hbase：当作一个工具来学习，先学习怎么用。

Kafka：先学怎么用，其实里面的模块可以先理解成两部分：生产者和消费者。所有的核心都是围绕这两个展开的。

Flume：当作一个工具来学习，先学习怎么用。

Sqoop：当作一个工具来学习，先学习怎么用。

Azkaban：当作一个工具来学习，先学习怎么用。

Scala：这个是一门编程语句，基于Java 而来的，可以工作后在学习。

Zookeeper：当作一个工具来学习，先学习怎么用。

以上的学习视频和资料可以在B站的”尚硅谷“和”若泽大数据“里找到，很详细。资料目前最详细的资料就是各个框架对应的官网。视频里也是对着官网一步一步讲的。官网都是英文的，可以用Google浏览器的翻译插件，翻译成中文后在看。

第三模块：大数据项目

B站的”尚硅谷“和”若泽大数据“。

第四模块：其他

分布式：知道最基本的概念，有个分布式项目的经验。分布式项目可以在B站的”尚硅谷“里找到。

算法：网上有详细的总结，书：推荐《剑指Offer》和《算法4》，看算法的目的是先掌握实现算法的思路然后才是实现方式。

SQL：主要是调优，网上有很详细的总结。

除此之外：Storm框架不要学了。

很多准备前期都是为了面试，例如：JVM和多线程，SQL调优和算法。这些东西真正使用的过程中千差万别，但核心知识不变，所以面试的时候总是会问，这一块的前期以通过面试为主要点。

学习了差不多了，例如：Hadoop，Hive 和Spark学完了，就去面试面试，通过面试的情况在来调整自己的学习。

本文地址： http://www.hjuga.com/20241215/1/658303