大数据:分布式资源调度框架YARN,核心架构,主从结构,辅助结构,yarn和MapReduce部署与配置,蒙特卡罗法求圆周率PI
2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开
测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库
这oracle比sql安全,强大多了,所以你需要学习,最重要的,你要是考网络警察公务员,这玩意你不会就别去报名了,耽误时间!
与此同时,既然要考网警之数据分析应用岗,那必然要考数据挖掘基础知识,今天开始咱们就对数据挖掘方面的东西好生讲讲 最最最重要的就是大数据,什么行测和面试都是小问题,最难最最重要的就是大数据技术相关的知识笔试
文章目录
- 大数据:分布式资源调度框架YARN,核心架构,主从结构,辅助结构,yarn和MapReduce部署与配置,蒙特卡罗法求圆周率PI
- @[TOC](文章目录)
- 大数据:分布式资源调度框架YARN
- yarn的架构,核心架构和辅助架构
- yarn的辅助架构
- MapReduce和yarn部署
- MapReduce和yarn初体验
- 提交MapReduce任务去yarn执行
- 蒙特卡洛算法求pi
- 总结
文章目录
- 大数据:分布式资源调度框架YARN,核心架构,主从结构,辅助结构,yarn和MapReduce部署与配置,蒙特卡罗法求圆周率PI
- @[TOC](文章目录)
- 大数据:分布式资源调度框架YARN
- yarn的架构,核心架构和辅助架构
- yarn的辅助架构
- MapReduce和yarn部署
- MapReduce和yarn初体验
- 提交MapReduce任务去yarn执行
- 蒙特卡洛算法求pi
- 总结
大数据:分布式资源调度框架YARN
yarn管理资源和调度
在调度过程中可以实现MapReduce
学校几万人,有教室就可以管了
调度就好办了
有效运行
集群中最好
集群大管家
分配资源,分散计算,汇总都靠yarn监管,分配
申请
yarn可以调度资源
剩下的别人用
三大组件,基本就OK了
存储,计算,资源调度。
yarn的架构,核心架构和辅助架构
一个存储,一个资源调度
各是各的
跟工厂一样
总的董事长resourcemanager
各个厂长nodemanager
懂事长总体安排
剩下的厂长各自安排即可
客户只需要问resourcemanager要资源即可
container容器
集装箱,一个个箱子
去找集装箱就行
你不能多装
只能装这么多
RM关了一堆NM
还是主从管理结构
老大管整体
老二管单机
yarn的辅助架构
辅助提高安全性
给yarn提供安全保障就行
历史,记录
感觉就是辅助干活
隔离资源
干脆整一个统一记录日志的服务器
美滋滋
统一收集日志
美滋滋
舒服
这就是辅助架构
主从角色
辅助角色
MapReduce和yarn部署
部署,就是要启动主从辅助节点
MapReduce运行在yarn上的
不需要启动进程,只需要修改配置哦
为啥给node1上配置那么多内存
它承担的东西很多
各种配置MapReduce即可
yarn也要配置各种环境
配置resourcemanager和nodemanager
本地日志
历史服务器端口日志
代理服务器,安全
三台服务器都这样玩
hdfs那边也是这么玩的
yarn也是这么玩
–daemon
mapred是历史服务器的启动
骚
hdfs是9870端口
8088是yarn集群的监控界面
init 0关机
MapReduce不需要单独启动进程哦
MapReduce和yarn初体验
主从,辅助中的代理服务器
历史服务器需要单独启动
提交MapReduce任务去yarn执行
hive用的就是MapReduce
不需要写代码
spark和flink需要写代码
性能快
jar代表运行程序
程序代码在jar中
java类是我们要用程序中的wordcount类
输入文件
输出结果要不存在wc文件夹
结果
美滋滋
工作历史服务器
记录历史
map个数
样本数量
求pi
蒙特卡洛算法求pi
圆周率是一个比例,算的就是整个正方形的面积,乘比例
牛逼 了
在半圆内就是距离小于1就是内部
落到半圆内的点个数统计一波
就是圆周率/4
最后easy求出来了pi
总结
提示:重要经验:
1)
2)学好oracle,即使经济寒冬,整个测开offer绝对不是问题!同时也是你考公网络警察的必经之路。
3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。