大数据:
2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开
测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库
这oracle比sql安全,强大多了,所以你需要学习,最重要的,你要是考网络警察公务员,这玩意你不会就别去报名了,耽误时间!
与此同时,既然要考网警之数据分析应用岗,那必然要考数据挖掘基础知识,今天开始咱们就对数据挖掘方面的东西好生讲讲 最最最重要的就是大数据,什么行测和面试都是小问题,最难最最重要的就是大数据技术相关的知识笔试
文章目录
- 大数据:
- @[TOC](文章目录)
- 大数据
- 大数据的诞生
- 分布式处理技术
- 大数据概述
- 大数据软件生态
- Apache Hadoop概述
- 总结
文章目录
- 大数据:
- @[TOC](文章目录)
- 大数据
- 大数据的诞生
- 分布式处理技术
- 大数据概述
- 大数据软件生态
- Apache Hadoop概述
- 总结
大数据
各种操作行为的记录
用户是什么样的人?
他想要购啥物品,基本根据数据就可以拿下
大数据的诞生
计算机发明之前,是用纸来记录的
后来就是计算机记录
上世纪
都是独立的计算机
后来小规模互联互通
后来全球互联
随着全球互联网发展,用户越来越多
数据越来越大
很猛
大
就是大数据
太多了,你顶得住吗?
一个计算机解决不了这个问题
分布式处理技术
数据量大,用大规模服务器解决
要存
要算
传输
2008年前
小企业玩不了
大企业才有的
后来阿里云出现了
开源
Hadoop出现了
开源
牛逼
逐步开花结果
牛逼
核心就是分布式计算
存储和资源调度
Apache的Hadoop超级吊
大数据概述
本质就是分布式
海量数据的处理
背后的价值,挖掘
数字化时代
volume大体量,
variety数据种类来源多样化
value低价值密度,需要挖掘
velocity增长速度快,获取快,用得快,高性能
veracity数据的质量,准确,可信,结论靠谱才行
海量的、高增长的、多类别的、低信息密度的大数据中挖掘出有用高质量的结果
说白了,要计算
先存储
算的过程中,需要传输和调度
大数据软件生态
这波就是考网警所考的理论重点了
这点2023年网警特招就考了
HDFS,是分布式存储技术
HBase是nosql数据库技术
HBase就是基于HDFS的
存储技术
下面即计算技术
技术核心就是MapReduce
而Hive就是基于MapReduce的数据库计算技术
特招网警考试必考这个
数据传输呢?
存储,计算,传输
仨都很丰富哦
Apache
是公司
Apache Hadoop概述
Apache软件基金会
分布式存储、计算、资源调度
大道至简,简单又重要
大数据:诞生大数据,概述、大数据软件生态,Apache Hadoop概述
资源调度就是传输数据
骚
各种调来调去的
YARN的前瞻性功能,很重要。
GFS中的分布式存储
MapReduce就是分布式计算
它根据这仨论文,直接设计了Hadoop,开源了
牛逼
牛逼
牛逼
大佬
大佬
大佬
开源社区版本
商业发型版本
Google还是牛逼的
它本身有这个技术
总结
提示:重要经验:
1)
2)学好oracle,即使经济寒冬,整个测开offer绝对不是问题!同时也是你考公网络警察的必经之路。
3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。