大数据:诞生大数据,概述、大数据软件生态,Apache Hadoop概述

news2024/11/24 9:35:11

大数据:

2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开
测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库
这oracle比sql安全,强大多了,所以你需要学习,最重要的,你要是考网络警察公务员,这玩意你不会就别去报名了,耽误时间!
与此同时,既然要考网警之数据分析应用岗,那必然要考数据挖掘基础知识,今天开始咱们就对数据挖掘方面的东西好生讲讲 最最最重要的就是大数据,什么行测和面试都是小问题,最难最最重要的就是大数据技术相关的知识笔试
在这里插入图片描述


文章目录

  • 大数据:
    • @[TOC](文章目录)
  • 大数据
  • 大数据的诞生
  • 分布式处理技术
  • 大数据概述
  • 大数据软件生态
  • Apache Hadoop概述
  • 总结

大数据

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
各种操作行为的记录
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
用户是什么样的人?
他想要购啥物品,基本根据数据就可以拿下
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

大数据的诞生

在这里插入图片描述
在这里插入图片描述
计算机发明之前,是用纸来记录的
后来就是计算机记录
上世纪
都是独立的计算机
在这里插入图片描述
在这里插入图片描述
后来小规模互联互通
在这里插入图片描述
后来全球互联
在这里插入图片描述
在这里插入图片描述
随着全球互联网发展,用户越来越多
数据越来越大
很猛

就是大数据
太多了,你顶得住吗?
一个计算机解决不了这个问题

在这里插入图片描述
在这里插入图片描述

分布式处理技术

数据量大,用大规模服务器解决
要存
要算
传输
在这里插入图片描述
在这里插入图片描述
2008年前
小企业玩不了
大企业才有的

后来阿里云出现了
开源
Hadoop出现了
开源

在这里插入图片描述
牛逼
在这里插入图片描述
在这里插入图片描述
逐步开花结果
牛逼
在这里插入图片描述
核心就是分布式计算
存储和资源调度

Apache的Hadoop超级吊

大数据概述

在这里插入图片描述
在这里插入图片描述
本质就是分布式
海量数据的处理
背后的价值,挖掘
数字化时代
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
volume大体量,
variety数据种类来源多样化
value低价值密度,需要挖掘
velocity增长速度快,获取快,用得快,高性能
veracity数据的质量,准确,可信,结论靠谱才行
在这里插入图片描述
在这里插入图片描述
海量的、高增长的、多类别的、低信息密度的大数据中挖掘出有用高质量的结果
说白了,要计算
先存储
算的过程中,需要传输和调度
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

大数据软件生态

在这里插入图片描述
在这里插入图片描述
这波就是考网警所考的理论重点了
在这里插入图片描述
在这里插入图片描述
这点2023年网警特招就考了
HDFS,是分布式存储技术
HBase是nosql数据库技术
HBase就是基于HDFS的

在这里插入图片描述
存储技术

下面即计算技术
技术核心就是MapReduce
Hive就是基于MapReduce的数据库计算技术

在这里插入图片描述
特招网警考试必考这个
在这里插入图片描述

数据传输呢?
在这里插入图片描述
在这里插入图片描述

存储,计算,传输
仨都很丰富哦

在这里插入图片描述
在这里插入图片描述
Apache
是公司
在这里插入图片描述

Apache Hadoop概述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Apache软件基金会
分布式存储、计算、资源调度

在这里插入图片描述
大道至简,简单又重要

大数据:诞生大数据,概述、大数据软件生态,Apache Hadoop概述

在这里插入图片描述
资源调度就是传输数据

各种调来调去的
YARN的前瞻性功能,很重要。

在这里插入图片描述
GFS中的分布式存储
MapReduce就是分布式计算
它根据这仨论文,直接设计了Hadoop,开源了
牛逼
牛逼
牛逼

大佬
大佬
大佬

在这里插入图片描述
开源社区版本
商业发型版本
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Google还是牛逼的
它本身有这个技术


总结

提示:重要经验:

1)
2)学好oracle,即使经济寒冬,整个测开offer绝对不是问题!同时也是你考公网络警察的必经之路。
3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/588330.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

专业的 Code 128 条码标签如何创建?

Aspose.Words是一种高级Word文档处理API,用于执行各种文档管理和操作任务。API支持生成,修改,转换,呈现和打印文档,而无需在跨平台应用程序中直接使用Microsoft Word。 Aspose API支持流行文件格式处理,并…

Linux 系统的中断子系统基本框架(一)

中断是大家用的最多的功能,不管是单片机还是 Linux 系统,都需要用到中断,对它的深入理解是非常必要的。 为什么需要中断? 答案:处理器的速度比外设快很多,内核必须要处理其他任务,只有当外设准…

在centos上安装splint

lint lint是最著名的C语言工具之一,是由贝尔实验室SteveJohnson于1979在PCC(PortableC Compiler)基础上开发的静态代码分析,一般由UNIX系统提供。 工具介绍 与大多数C语言编译器相比,lint可以对程序进行更加广泛的错误分析,是一…

Day56【动态规划】583.两个字符串的删除操作、72.编辑距离

583.两个字符串的删除操作 力扣题目链接/文章讲解 视频讲解 1、确定 dp 数组下标及值含义 dp[i][j]:以下标 i 为结尾的字符串 word1,和以下标 j 为结尾的字符串 word2,想要达到相等,所需要删除元素的最少次数为 dp[i][j] 2、…

【1110. 删点成林】

来源:力扣(LeetCode) 描述: 给出二叉树的根节点 root,树上每个节点都有一个不同的值。 如果节点值在 to_delete 中出现,我们就把该节点从树上删去,最后得到一个森林(一些不相交的…

LeetCode——可被三整除的偶数的平均值

#全国科技者工作日—为创新和未来而努力# 目录 1、题目 2、题目解读 3、代码 1、题目 2455. 可被三整除的偶数的平均值 - 力扣(Leetcode) 给你一个由正整数组成的整数数组 nums ,返回其中可被 3 整除的所有偶数的平均值。 注意&#xff…

论文阅读:Directed Greybox Fuzzing

一、论文相关信息 二、现有研究的不足 现有的Greybox模糊器(GF)无法有效地定向到有问题的更改或补丁、关键系统调用或危险位置、或定向到我们希望重现的已报告漏洞的堆栈跟踪中的函数。 三、知识点 (1)introduction 定向模糊测试…

第二章(一):Django框架的模型(Model)

系列文章目录 备注:这里是Django系列文章的所有文章的目录 第一章(一) : Django框架如何创建项目、创建应用、创建templates;如何启动django项目; 第一章(二):Django框架的模式、路由、视图; 第一章(三):Dj…

learn C++ NO.7——C/C++内存管理

引言 现在是5月30日的正午,图书馆里空空的,也许是大家都在午休,也许是现在37摄氏度的气温。穿着球衣的我已经汗流浃背,今天热火战胜了凯尔特人,闯入决赛。以下克上的勇气也激励着我,在省内垫底的大学中&am…

JS的异或运算XOR

概念 异或(xor)是一个数学运算符。它应用于逻辑运算。异或的数学符号为“⊕”,计算机符号为“xor”。 两个值相同时,返回false,否则返回true。也就是说,XOR可以用来判断两个值是否不同。 JavaScript 语言…

企业级信息系统开发——Spring Boot加载自定义配置文件

文章目录 一、使用PropertySource加载自定义配置文件(一)创建Spring Boot Web项目ConfigDemo01(二)创建自定义配置文件(三)创建自定义配置类(四)编写测试方法(五&#xf…

一键部署属于自己的ChatGPT-Next-Web

完整功能刚需: OpenAI 注册登录之后给的 api Key GitHub账号 Netlify账号 Tip: 注册 OepenAI账号 需要用国外手机号 这里建议去一些渠道购买账号 十块钱不到如果访问 OpenAI 的话 一定要挂欧美节点 否则禁止IP访问 概率会被封号为什么用 Netlify 托…

测试替身Test Doubles的5类型(Mockito)

测试替身Test Doubles的5类型(Mockito) 我们有一个名为 BankAccount 的类。 数据库用于存储和检索银行帐户信息。 我们想测试 BankAccount 中的逻辑,而不必担心它使用的底层数据库.由此类实现——它将 SQL 查询发送到数据库并返回其中包含的值。 测试替身Test Dou…

SuperMap iDesktopX扩展开发之GPA算子扩展

作者:dongyx SuperMap iDesktopX是超图研究院推出的一款跨平台的桌面GIS软件,兼容Windows和Linux,同时iDesktopX也采用的是插件式扩展开发框架,支持定制开发。 使用iDesktopX定制开发有以下优势: ⚫ 采用 Swing 图形界…

VM虚拟机仿真网络问题

在电子数据取证中,拿到一个镜像需要仿真的时候,经常会遇到网络问题。尤其是Linux服务器镜像,例如centos操作系统的镜像,一般镜像会有固定IP设置,仿真起来后,系统与本机不能建立连接,不能连接互联…

VSCode远程连接Ubuntu使用LLDB调试程序

VSCode已经具有远程开发的能力,可以使用SSH连接到Linux/MacOS进行远程开发,包括编译与调试,只需要安装Remote Development插件即可,如果想使用CMake管理项目,则需要将VSCode的CMake以及CMake Tools插件安装在远程机器上…

SpringBoot自定义打印横幅

众所周知,springboot项目启动的时候会打印横幅,横幅内容就是spring; 而spring boot提供了一个Banner接口用于处理启动横幅,默认情况下启动会打印如下信息 . ____ _ __ _ _/\\ / ____ __ _ _(_)_ __ __ _ \ \ \ \ ( (…

分布式系统

一.分布式理论基础 1.CAP理论 CAP定理是分布式系统中的重要理论,在一个分布式系统中最多只能同时满足一致性(Consistency)、可用性(Availability)和分区容错性(Partition tolerance)这三项中的…

以太网驱动的流程浅析(五)-mii_bus初始化以及phy id的获取

【硬件环境】 Imx6ul 【Linux kernel版本】 Linux4.1.15 【以太网phy】 Realtek8201f 1.1. 以太网驱动probe流程 1.1 mii_bus初始化以及phy id的获取 然后进行mii的一些初始化fec_enet_mii_init(pdev); 主要是对struct mii_bus这里的成员进行初始化 并且会做注册mdiobus的…

小笔记-简单但够用系列_jupyter notebook 的重新安装问题

文章目录 目的目标步骤 目的 做程序开发时,想到 jupyter notebook 的浏览器交互式执行,决定再次启用放置许久的 jupyter notebook。 但太久没有执行的 jupyter notebook 在打开页面有一旦打开或创建新的 python,就自动报错退出。 使用过往经…