大数据学习路线

大数据学习路线

news2025/4/28 6:31:56

学习建议
#1、Java
这个没毛病，看 Java 程序员进阶之路就好了，Spring Boot 也要能掌握

#2、MySQL
要能写复杂的 SQL 语句，为后面学习 Hive 数仓的 HQL 打好基础。

#3、Linux
大数据的相关软件都是在 Linux 上运行的，所以 Linux 要学习的扎实一些。

要能在 Linux 上配置 Hadoop、Hive、HBase、Spark 等大数据软件的运行环境和网络环境配置。

#4、Hadoop 学习
包括：

HDFS：存储数据
MapReduce：对数据进行处理计算
Yarn： Yarn 的全称是 Yet Another Resource Negotiator，意思是“另一种资源调度器”，这种命名和“有间客栈”一样，很妙。这里多说一句，以前 Java 有一个项目编译工具，叫做 Ant，他的命名也是类似的，叫做 “Another Neat Tool”的缩写，翻译过来是”另一种整理工具“。
第一步，先让 Hadoop 跑起来

第二步，试着用一用 Hadoop

上传下载文件
提交运行 MapReduce 示例程序
查看 Job 运行状态，查看 Job 运行日志
第三步，了解原理

MapReduce：如何分而治之
HDFS：数据到底在哪里，什么是副本
Yarn 到底是什么，它能干什么；
NameNode 到底在干些什么；
esourceManager 到底在干些什么；
第四步，自己写一个 MapReduce 程序

#5、学习 Hive
Hive 就是 SQL On Hadoop，Hive 提供了 SQL 接口，开发人员只需要编写简单易上手的 SQL 语句，Hive 负责把 SQL 翻译成 MapReduce，提交运行。

#6、学习数据采集 Sqoop / Flume / DataX
Sqoop 主要用于把 MySQL 里的数据导入到 Hadoop 里的。

Flume 是一个分布式的海量日志采集和传输框架，可以实时的从网络协议、消息系统、文件系统采集日志，并传输到 HDFS 上。

DataX 是阿里云 DataWorks 数据集成的开源版本。

#7、学习 Spark
Spark 弥补了 MapReduce 处理数据速度上慢的缺点

#8、学习 kafka
使用 Flume 采集的数据，不是直接到 HDFS 上，而是先到 Kafka，Kafka 中的数据可以由多个消费者同时消费，其中一个消费者，就是将数据同步到 HDFS 上。

Flume + Kafka，在实时流式日志的处理非常常见，后面再通过 Spark Streaming 等流式处理技术，就可完成日志的实时解析和应用。

#9、学习任务调度 Oozie / Azkaban

在这里插入图片描述
#10、学习实时数据的处理 Flink / Spark Streaming
大数据的技术栈体系

再总结一份大数据学习指南的思维导图吧。
在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/191798.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Django默认的Auth权限管理系统的使用

Django默认的Auth权限管理系统的使用

1.Django默认已经提供了认证系统Auth模块。认证系统包含： 用户管理权限用户组密码哈希系统用户登录或内容显示的表单和视图一个可插拔的后台系统 admin Django默认用户的认证机制依赖Session机制，我们在项目中将引入JWT认证机制，将用户的身…

阅读更多...

无法启动此程序，因为dll丢失的解决方法分享

无法启动此程序，因为dll丢失的解决方法分享

大家在使用电脑的时候，应该经常会遇到这种情况吧？在你打开某些程序的时候，突然弹出一个框框说无法启动此程序，因为dll丢失，那么遇到这种情况，我们需要怎么去解决呢？今天小编就详细的给大家讲解一…

阅读更多...

对象的序列化和反序列化

对象的序列化和反序列化

读写JSON格式的数据通过上面的讲解，我们已经知道如何将文本数据和二进制数据保存到文件中，那么这里还有一个问题，如果希望把一个列表或者一个字典中的数据保存到文件中又该怎么做呢？在Python中，我们可以将程序中的数…

阅读更多...

方向梯度直方图（HOG）

方向梯度直方图（HOG）

摘要： 方向梯度直方图(HOG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述。HOG特征通过计算和统计图像局部区域的梯度方向直方图来构成特征。主要用于解决人体目标检测，主要通过梯度方向直方图特征来表达人体，提取人体的外…

阅读更多...

OpenMMLab AI实战营Day1 计算机视觉算法基础与 OpenMMLab

OpenMMLab AI实战营Day1 计算机视觉算法基础与 OpenMMLab

目录一、计算机视觉任务二、计算机视觉的应用三、计算机视觉的发展四、OpenMMLab介绍一、计算机视觉任务计算机视觉三大基础任务：分类、检测、分割。分割分为两种：语义分割（Semantic Segmentation）、实例分割&#xff08…

阅读更多...

【Node.js实战】一文带你开发博客项目之Express重构（博客的增删查改、morgan写日志）

【Node.js实战】一文带你开发博客项目之Express重构（博客的增删查改、morgan写日志）

个人简介 👀个人主页： 前端杂货铺 🙋‍♂️学习方向： 主攻前端方向，也会涉及到服务端 📃个人状态： 在校大学生一枚，已拿多个前端 offer（秋招） 🚀未…

阅读更多...

Java之并发编程（二）

Java之并发编程（二）

二、Java内存模型（重要） 1. CPU缓存模型 1.1 CPU缓存 CPU缓存是为了解决 CPU处理速度和内存处理速度不对等的问题。（类比：缓存如Redis是为了解决程序处理速度和访问常规关系型数据库速度不对等的问题） 内存缓存是为…

阅读更多...

UDS诊断系列介绍16-DTC状态位介绍

UDS诊断系列介绍16-DTC状态位介绍

本文框架1. 系列介绍2.各状态位逻辑介绍2.0 Bit0(TestFailed)置位逻辑2.1 Bit1(TestFailedThisOperationCycle)置位逻辑2.2 Bit2(PendingDTC)置位逻辑2.3 Bit3(ConfirmedDTC)置位逻辑2.4 Bit4(TestNotCompletedSinceLastClear)置位逻辑2.5 Bit5(TestFailedSinceLastClear)置位逻…

阅读更多...

网站排名下降怎么恢复（网站降权的原因如何知道）

网站排名下降怎么恢复（网站降权的原因如何知道）

网站降权后恢复网站排名的方法对于我们很多SEO新手来说，降权可能是不可避免的，但很多时候是因为我们的无知或粗心大意导致网站降权，从延长排名周期到导致网站进入沙盒效应，所以我们的网站降权后并非无法恢复。很多时候&#xff…

阅读更多...

【逆向分析】静态分析_Navtive_小计

【逆向分析】静态分析_Navtive_小计

静态分析so小计源APK https://github.com/eternalsakura/ctf_pwn/blob/master/android%E9%80%86%E5%90%91/mobicrackNDK.apk jadx 通过源码发现关键函数在 public native boolean testFlag(String str);static {System.loadLibrary("mobicrackNDK");}所以要看na…

阅读更多...

【C++】入门（上）

【C++】入门（上）

本期博客给大家带来的全是干货，慢慢享用吧~C入门主要是一些对C语言不足的语法补充，废话不多说直接上干货：一、C的输出和输入1.1 输出在C上我们要想在屏幕（控制台）上进行一些内容的输出可以使用关键字：cout具…

阅读更多...

MoCo解读

MoCo解读

MoCo方法由何凯明团队提出，是无监督对比学习的代表作。经过MoCo预训练的视觉表征迁移到各种下游任务时，其效果超过了有监督预训练模型。两点创新对比学习的思想是将相似的样本距离拉近，不相似的样本距离拉远。对比学习主要在两方面进行设计…

阅读更多...

JavaEE13-MyBatis查询数据库

JavaEE13-MyBatis查询数据库

前言：前面已经学习了Spring,Spring Boot,Spring MVC这3个框架，接下来学习第4个框架MyBatis(国内)：将前端传递的数据存储起来(前身IBatis)或者查询数据库里面的数据。PS：不同版本号区别3.5.1 -> 3.5的第一个版本3.5.10 -> 3.…

阅读更多...

命令执行利用

命令执行利用

数据来源 01 命令执行漏洞命令执行漏洞- 例子1（无防御） 示例：（我这里使用dvwa靶场做演示） 解决靶场响应结果的中文乱码 charsetutf-8，修改为charsetgb2312 把安全等级调到：low&#xff0…

阅读更多...

concat函数在mySQL和Oracle中的不同

concat函数在mySQL和Oracle中的不同

在mysql中的使用1>.在该函数中传入两个值：22和33,得到结果为两个值的拼接效果如图所示2>.在该函数中传入两个及以上的值：22和33和44,得到结果为多个值的拼接效果如图所示3>.在该函数中传入两个及以上的值：null和22和33，得…

阅读更多...

GitHub 上有哪些优秀的项目？

GitHub 上有哪些优秀的项目？

前言各个领域模块的都整理了一下，包含游戏、一些沙雕的工具、实用正经的工具以及一些相关的电商项目，希望他们可以给你学习的路上增加几分的乐趣，我们直接进入正题~ 游戏 1.吃豆人一款经典的游戏开发案例，包括地图绘制、玩家控…

阅读更多...

车载网络 - BootLoader - CAN/CANFD刷写过程

车载网络 - BootLoader - CAN/CANFD刷写过程

话接上回，我们继续分享刷写流程。刷写Boot到RAM（如果ECU中有独立的boot代码，无需执行此段） 9、获取单次刷写的最大长度（参考https://mp.csdn.net/mp_blog/creation/editor/127720716） Request：34 00 44 + 地址 + 长度 Response：74 00 44 + Maxlength 10、进行刷写传…

阅读更多...

Netty之DefaultAttributeMap与AttributeKey的机制和原理

Netty之DefaultAttributeMap与AttributeKey的机制和原理

为什么要分析DefaultAttributeMap和AttributeKey呢？我自己对Netty也是一个不断的学习过程，从前面几篇Netty分析的博客中，可以看出，Netty是比较博大精深的，很像java.util.concurrent.*包中的源码，如果只是看…

阅读更多...

【微电网】微电网的分布式电源优化配置研究（Matlab代码实现）

【微电网】微电网的分布式电源优化配置研究（Matlab代码实现）

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。 ⛳️座右铭&a…

阅读更多...

企业工程管理系统源码-专注项目数字化管理

企业工程管理系统源码-专注项目数字化管理

高效的工程项目管理软件不仅能够提高效率还应可以帮你节省成本提升利润在工程行业中，管理不畅以及不良的项目执行，往往会导致项目延期、成本上升、回款拖后，最终导致项目整体盈利下降。企企管理云业财一体化的项目管理系统，确保项…

阅读更多...

推荐文章

最新文章