大数据平台开发学习路线及技能

news2025/1/1 13:17:12

背景

最近项目涉及这方面,特地整理学习路线方便后续学习。

必备技能

一、编程语言

  • Java:大数据开发的基础语言,具有跨平台能力,可用于编写各种应用。

  • Python:机器学习和数据分析领域广泛使用的语言,易于上手。

二、数据存储与处理

  • Hadoop:开源分布式存储和计算框架,处理海量数据集。

      HDFS

      MapReduce

      Yarn机制

  • Spark:内存计算引擎,比Hadoop更快更通用。

  • Hive:基于Hadoop的数据仓库工具,提供 SQL 查询功能。

  • HBase:面向列的 NoSQL 数据库,适合非结构化数据存储。

  • Kettle:数据迁移工具

三、数据挖掘与机器学习

  • Apache Mahout:大规模机器学习库,支持聚类、分类等算法。

  • TensorFlow:谷歌开源机器学习框架,提供高级 API。

四、数据可视化

  • Tableau:商业智能和数据可视化平台,提供交互式仪表盘和图表。

  • ggplot2:基于 R 的数据可视化包,提供丰富的绘图功能。

  • Power bi:数据可视化

五、云计算

  • AWS:亚马逊云服务,提供大数据存储、计算和分析服务。

  • Azure:微软云服务,提供 Azure HDInsight 大数据平台。

六、其他技术

  • Linux 操作系统:大数据开发常用的操作系统。

  • ZooKeeper:分布式协调服务,用于配置管理和故障恢复。

  • Kafka:分布式流处理平台,处理实时数据流。

  • Docker:容器化技术,实现应用的隔离和可移植性。

学习路线

第一阶段:大数据开发入门

在这个阶段,我们将从传统的关系型数据库开始,掌握数据迁移工具、BI数据可视化工具以及SQL,为后续学习打下坚实基础。

MySQL是IT基础课程中的重要一环,因为熟练掌握SQL不仅可以轻松应对工作,而且能够随时随地找到工作。

学习目标:

  • 掌握MySQL数据库的使用

  • 熟悉SQL语法

  • 熟练运用Kettle数据迁移工具

  • 掌握BI可视化工具的使用

  • 具备一定的数据开发认知,掌握BI工程师的基本技能

第二阶段:大数据核心基础

这个阶段主要学习Linux、Hadoop、Hive等,掌握大数据的核心技术。

学习目标:

  • 掌握Linux常用命令,为后续数据开发学习奠定基础

  • 理解大数据核心框架Hadoop及其生态系统,包括HDFS、MapReduce和Yarn机制,能够搭建Hadoop高可用HA集群

  • 掌握Hive的使用和优化

  • 具备Hadoop开发和离线数据仓库开发能力

  • 能够构建基本的企业级数据仓库

第三阶段:千亿级数仓技术

这个阶段的学习内容以真实项目驱动为主,着重掌握离线数仓技术。

学习目标:

  • 掌握离线数仓的分层设计和建模,从需求到上线的完整项目流程

  • 深度应用Presto项目,解决海量数据场景下的优化配置问题

  • 学习拉链表的具体应用,以及新增数据和更新数据的抽取和分析

  • 提供新零售大型商超集团的数据存储分析和服务监控方案

  • 使用Git对代码进行管理

第四阶段:PB内存计算

现在,Spark官方已将Python列为首选语言,并在3.2版本中强调了内置Pandas。因此,建议同学们学习黑马程序员Python on Spark的内容,顺应社区和招聘需求的趋势。

Python基础编程

学习目标:

  • 配置Python开发环境

  • 使用运算符、表达式、流程控制语句、数组等

  • 熟悉字符串基本操作

  • 初步掌握面向对象编程思维

  • 熟悉异常处理流程

Python进阶

学习目标:

  • 掌握面向对象编程

  • 理解Python高级语法特性

  • 实现多任务编程

  • 理解多进程多线程原理

  • 掌握网络编程技术和通讯协议原理

  • 使用日志进行开发

  • 能够使用Python处理数据

Spark 3.2 相关内容

学习目标:

  • 掌握Spark的RDD、DAG、CheckPoint等设计思想

  • 使用SparkSQL进行结构化数据处理,实现Spark On Hive

  • 掌握Pandas数据处理分析,以及Pandas on Spark

  • 实现Structured Streaming,完成多数据源的实时数据处理

  • 具备Spark全栈开发能力,满足大数据行业多场景统一技术栈的数据开发需求,提供就业核心竞争力。

完成以上学习后,你将能够运用大数据技术架构解决工业互联网制造行业的数据存储、分析、可视化和个性化推荐等问题,基于SparkSQL进行数据分析。


这个路线也很好:2021最全大数据学习路线(建议收藏)_大数据_小林玩大数据-GitCode 开源社区

换了新工作,买了PS5,DIY台机,又要学新东西了~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2267575.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【机器学习(九)】分类和回归任务-多层感知机(Multilayer Perceptron,MLP)算法-Sentosa_DSML社区版 (1)11

文章目录 一、算法概念11二、算法原理(一)感知机(二)多层感知机1、隐藏层2、激活函数sigma函数tanh函数ReLU函数 3、反向传播算法 三、算法优缺点(一)优点(二)缺点 四、MLP分类任务实…

R基于贝叶斯加法回归树BART、MCMC的DLNM分布滞后非线性模型分析母婴PM2.5暴露与出生体重数据及GAM模型对比、关键窗口识别

全文链接:https://tecdat.cn/?p38667 摘要:在母婴暴露于空气污染对儿童健康影响的研究中,常需对孕期暴露情况与健康结果进行回归分析。分布滞后非线性模型(DLNM)是一种常用于估计暴露 - 时间 - 响应函数的统计方法&am…

e3 1220lv3 cpu-z分数

e3 1220lv3 双核四线程,1.1G频率,最低可在800MHZ运行,TDP 13W。 使用PE启动后测试cpu-z分数。 现在e3 1220lv3的价格落到69元。

Debian安装配置RocketMQ

安装配置 本次安装在/tools/rocket目录下 下载 wget https://dist.apache.org/repos/dist/release/rocketmq/5.3.1/rocketmq-all-5.3.1-bin-release.zip 解压缩 unzip rocketmq-all-5.3.1-bin-release.zip 如果出现以下报错 -bash: unzip: command not found可安装unzip工具后执…

cocos 运行时,实时查看、修改节点树

简介 cocos论坛提供的一款辅助查看、修改cocos运行时的节点树工具,同时也可以实时修改运行的节点树并进行修改。在此感谢大佬提供这么实用的工具。 参考链接:【运行时显示节点树插件】ccc-devtools悄悄更新 - Creator 2.x - Cocos中文社区 仓库链接&a…

UE(虚幻)学习(四) 第一个C++类来控制小球移动来理解蓝图和脚本如何工作

UE5视频看了不少,但基本都是蓝图如何搞,或者改一下属性,理解UE系统现有组件使用的。一直对C脚本和蓝图之间的关系不是很理解,看到一个视频讲的很好,我也做笔记记录一下。 我的环境是UE5.3.2. 创建UE空项目 我们创建…

记一次内存泄漏分析(待写稿)

背景 线上Flink频繁重启,先后排查了很多情况,目前在内存阶段排查,首先说说学到的知识 内存泄漏分析 JVM常用命令 JConsole JVisualvm 快照的这里是最有用的,它和jmap不同,jmap查找的是占用字节最多的类&#xff…

【蓝桥杯——物联网设计与开发】拓展模块5 - 光敏/热释电模块

目录 一、光敏/热释电模块 (1)资源介绍 🔅原理图 🔅AS312 🌙简介 🌙特性 🔅LDR (2)STM32CubeMX 软件配置 (3)代码编写 (4&#x…

C语言从入门到放弃教程

C语言从入门到放弃 1. 介绍1.1 特点1.2 历史与发展1.3 应用领域 2. 安装2.1 编译器安装2.2 编辑器安装 3. 第一个程序1. 包含头文件2. 主函数定义3. 打印语句4. 返回值 4. 基础语法4.1 注释4.1.1 单行注释4.1.2 多行注释 4.2 关键字4.2.1 C语言标准4.2.2 C89/C90关键字&#xf…

第三百四十六节 JavaFX教程 - JavaFX绑定

JavaFX教程 - JavaFX绑定 JavaFX绑定同步两个值:当因变量更改时,其他变量更改。 要将属性绑定到另一个属性,请调用bind()方法,该方法在一个方向绑定值。例如,当属性A绑定到属性B时,属性B的更改将更新属性A…

慧集通客户案例:致远OA与熵基考勤机集成方案

本原型公司是一家专注大健康产业的综合性高新科技形实体企业,按照单位的战略业务布局,围绕“做强做优、世界一流”的目标,加快内外部资源整合、加强业务协同、优化资源配置,有序推进大健康及相关产业的有机融合,加快构…

SCSA: Exploring the Synergistic Effects Between Spatial and Channel Attention

摘要 https://arxiv.org/pdf/2407.05128 通道注意力和空间注意力分别为各种下游视觉任务在提取特征依赖性和空间结构关系方面带来了显著改进。通道注意力和空间注意力的结合使用被广泛认为有利于进一步提升性能;然而,通道注意力和空间注意力之间的协同作…

UE5在蓝图中使用VarestX插件访问API

在Fab中安装好VarestX免费插件 这个插件可以用来远程请求http和api等,返回json等格式内容 插件网址 https://www.fab.com/zh-cn/listings/d283e40c-4ee5-4e73-8110-cc7253cbeaab 虚幻里开启插件 然后网上随便搜个免费api测试一下,这里我找了个微博热搜…

碰一碰发视频矩阵系统源码搭建,支持OEM

一、引言 随着短视频的火爆发展,碰一碰发视频的矩阵系统逐渐受到关注。这种系统能够实现用户通过碰一碰设备(如 NFC 标签)快速触发视频的发布,在营销推广、互动体验等领域有着广泛的应用前景。本文将详细介绍碰一碰发视频矩阵系统…

Pandas01

文章目录 内容简介1 常用数据分析三方库2 Jupyter notebook3 Series的创建3.1 通过Numpy的Ndarray 创建一个Series3.2 通过列表创建Series 4 Series的属性和方法4.1 常用属性4.2 常用方法4.3 布尔值列表筛选部分数据4.4 Series 的运算 5 DataFrame的创建通过字典创建通过列表[元…

WebPack3项目升级webpack5的配置调试记录

文章目录 前言一、webpack3环境1.1、知识点记录1.1.1、配置解释1.1.2、webpack与sass版本对应关系1.1.3、CommonJS与ESModule1.1.4、node版本管理nvm1.1.5、sass-loader、sass与node-sass 1.2、其他1.2.1、.d.ts是什么文件1.2.2、react与types/react版本对应关系1.2.3、webpack…

plsql :用户system通过sysdba连接数据库--报错ora-01031

一、winR cmd通过命令窗口登录sys用户 sql sys/[password]//localhost:1521/[service_name] as sysdba二、输入用户名:sys as sysdba 三、输入密码:自己设的 四、执行grant sysdba to system; 再去PL/SQL连接就可以了

Quo Vadis, Anomaly Detection? LLMs and VLMs in the Spotlight 论文阅读

文章信息: 原文链接:https://arxiv.org/abs/2412.18298 Abstract 视频异常检测(VAD)通过整合大语言模型(LLMs)和视觉语言模型(VLMs)取得了显著进展,解决了动态开放世界…

药片缺陷检测数据集,8625张图片,使用YOLO,PASICAL VOC XML,COCO JSON格式标注,可识别药品是否有缺陷,是否完整

药片缺陷检测数据集,8625张图片,使用YOLO,PASICAL VOC XML,COCO JSON格式标注,可识别药品是否有缺陷,是否完整 有缺陷的标注信息: 无缺陷的标注信息 数据集下载: yolov11:https://d…

蓝桥杯速成教程{三}(adc,i2c,uart)

目录 一、adc 原理图​编辑引脚配置 Adc通道使能配置 实例测试 ​编辑效果显示 案例程序 badc 按键相关函数 测量频率占空比 main 按键的过程 显示界面的过程 二、IIC通信-eeprom 原理图AT24C02 引脚配置 不可用状态,用的软件IIC 官方库移植 At24c02手册 ​编辑…