✨博文作者:烟雨孤舟
💖 喜欢的可以 点赞 收藏 关注哦~~✍️ 作者简介: 一个热爱大数据的学习者
✍️ 笔记简介:作为大数据爱好者,以下是个人总结的学习笔记,如有错误,请多多指教!
数仓:主要以SQL语言为主离线数仓(目前基本状态)和实时数仓(趋势)
SQL语法包括mysql中的sql、hive中的hive sql(重点),spark中的 spark sql,flink中的flink sql
离线数仓需要掌握:
hadoop(HDFS,MapReduce,yarn)
hive(重点,hive底层原理,hiveSQL及调优)
Spark(spark会用及了解底层原理)
Oozie(调度工具,会用即可)离线数仓建设(搭建数仓,数仓建模规范)维度建模(建模方式常用的有范式建模和维度建模,维度建模是重点)
实时数仓需要掌握:
hadoop(这是大数据的基础,必须掌握)
kafaka(重点,大数据领域唯一的消息队列)
flink(重点,实时计算的老大)
hbase(会使用,了解底层原理)
druid(会用)
大数据开发工程师:
写代码为主,以java和scala为主。大数据开发分两类,第一类是编写hadoop、spark、flink的应用程序,第二类是对大数据处理系统本身进行开发,如对开源框架的扩展开发,数据中台的开发。
需要掌握的知识:
java和scala
linux
hadoop
hive
spark
kafaka
flink
hbase
ETL工程师:
ETL是抽象转换加载,ETL工程师是对接业务和数据的交接点,所需要处理上下游的关系,对上游需要和业务系统的人打交道,要对业务系统比较熟悉;对下游需要和数据开发工程师打交道,将准备好的数据(数据的清洗、整理、融合)交给下游的数据开发和数据科学家
需要掌握的知识:
java和python
shell脚本(熟悉)
linux(基本使用)
kettle(需要掌握)
sqoop
flume
mysql
hive
hafs
oozie(任务调度框架会使用一个即可)
数据分析工程师:
数据工程师准备好数据维护好数仓,就到数据分析师了,根据业务分析结论制定业务策略或者建立模型,创造新的业务价值并支持业务高效运转。数据分析师在后期分为数据爬虫、数据挖掘和算法工程师三个分支。
需要掌握的知识:
数学知识(数据分析师的基础知识如统计学、线性代数)
编程语言python、R语言
分析工具(Excel是必须的,还要Tableau可视化工具)
数据敏感性