Hadoop 复习 ---- chapter01【大数据概念】

Hadoop 复习 ---- chapter01【大数据概念】

news2026/2/15 13:43:31

Hadoop 复习 ---- chapter01【大数据概念】

- 1. 什么是大数据
- - 大数据的简介
  - 从IT过渡到DT
- 2. Hadoop生态系统工具
- - HADOOP
  - HBASE
  - HIVE
  - STORM
  - ZooKeeper
  - Sqoop
  - MAHOUT

1. 什么是大数据

大数据的简介

在这里插入图片描述
指“无法由现有软件工具进行提取、存储、搜索、共享、分析和处理的庞大而复杂的数据集”。
通常由四个 V 来描述（大量数据、多样化、价值密度低、速度快）。

大量数据（valume）：从 TB 级别，跃升到 PB 级别
多样化（variety）：网络日志、视频、图片、地理位置
价值密度低（value）：价值密度与数据总量成反比。
速度快（velocity）：大数据区分为传统数据挖掘的显著特征–一秒定律。

从IT过渡到DT

IT时代：信息处理技术以自我控制和自我管理为主导。
DT时代：DT（数据技术）时代是一种数据处理技术，它是一种服务于公众并刺激生产力的技术。

2. Hadoop生态系统工具

在这里插入图片描述

HADOOP

在这里插入图片描述

Hadoop 是由 Apache Foundation 开发的分布式系统基础结构。
MapReduce 框架可以将应用程序分解为许多并行计算命令，从而在大量计算节点上运行非常大的数据集，使用“分而治之”的思想，Map 用于分隔大数据，Reduce 用于合并 Map 计算的结果。
HDFS：分布式文件系统为海量数据和大文件提供存储服务，将大文件（大于 64M/128M）拆分为块（每块 64M或者128M），多节点存放。

HBASE

在这里插入图片描述

HBASE 是 apache 的开源 KV（Key-Value）数据库。它基于 HDFS，为数据库系统提供了可靠性、高性能、列存储、可伸缩性和实时读写功能。
它只能通过行键和行键范围来搜索数据。它支持单行事务。主要用于存储非结构化和半结构化的松散数据。

HBASE 的特征：

大：一个表可以有上亿行，上百万列
面向列：面向列（族）的存储和权限控制，列（族）独立检索
稀疏：对于为空（null）的列，并不占用存储空间，因此，表可以设计的非常稀疏

HIVE

在这里插入图片描述

Apache Hive 数据仓库软件提供对存储在分布式中的大型数据集的查询和管理，它本身是建立在 Apache Hadoop 之上。
可以对数据进行提取、转化、加载。
HIVE 可以存储、查询、分析存储在 HDFS（或者HBase）中的大规模数据。
通过将 SQL 转化为 MapReduce 作业在 Hadoop 上运行。
Hive 定义了一种类似 SQL 的查询语言，称为 HQL。

Hive 的缺点：

Hive 目前不支持事务
不能对表数据进行修改（不能更新、删除、插入；只能通过文件追加数据、重新导入数据）
查询速度比较慢

STORM

在这里插入图片描述

Apache Storm 是一个免费和开源的分布式实时计算系统，它简化了流数据的可靠处理。
Storm 具有许多应用场景，包括实时数据分析，在线学习，连续计算，分布式 RPC、ETL 等。
Storm 速度非常快，并且测试在单个节点上每秒执行一百万个组处理。

ZooKeeper

在这里插入图片描述

ZooKeeper 是一种高性能、分布式、开源的分布式应用程序协调服务。它是 Storm 和 HBase 的重要组成部分。
ZooKeeper 是一个领导者，负责编写服务于数据同步。

特征：

顺序一致性
原子性
均匀度
可靠性
及时性

使用场景：

数据发布与订阅
名称空间服务
分布式通知、协调
集群管理

Sqoop

在这里插入图片描述

Sqoop 是 Apache 的顶级项目，它允许用户将关系数据库中的数据提取到 Hadoop 中进行进一步处理，获得分析结果后，Sqoop 还可以将分析结果导回数据库，以供其它客户端使用。

MAHOUT

在这里插入图片描述

Mahout 是功能强大的数据挖掘工具和一组分布式机器学习算法，包括分布式协调过滤的实现，分类和聚类。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/184653.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【软件测试】某城商行手机银行授权漏洞分析黑客攻击，测试优化手段......

【软件测试】某城商行手机银行授权漏洞分析黑客攻击，测试优化手段......

目录：导读前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结（尾部小惊喜）前言问题描述据报道&am…

阅读更多...

【FreeRTOS】详细讲解FreeRTOS的软件定时器及通过示例讲述其用法

【FreeRTOS】详细讲解FreeRTOS的软件定时器及通过示例讲述其用法

软件定时器所谓定时器，也就可以类比生活中人们常用的闹钟，可以单次响铃提醒，也可以间隔固定时间响铃提醒；与FreeRTOS定时器不同的是周期不同，FreeRTOS的周期更加短，一般使用毫秒(ms)、秒(s)。软件定时…

阅读更多...

Python的数字类型、布尔类型和运算优先级

Python的数字类型、布尔类型和运算优先级

文章目录1.数字类型1.1分类1.2整数1.3浮点数1.4复数2.数字运算符2.1运算符表格2.2 运算符 //3.divmod（）函数4.abs（）函数4. int()，float() 和 complex() 函数5.pow（）函数和运算符 **6.布尔类型6.…

阅读更多...

NB-IoT的低功耗特性原理解说

NB-IoT的低功耗特性原理解说

什么是NB-IoT NB-IoT的中文名叫窄带蜂窝物联网(Narrow Band Internet of Things)，NB-IoT网络是基于4G网络演进过来的，所以它在上行和下行的复用技术上还是沿用了4G的OFDMA和SC-FDMA。NB-IoT有三大特性：速率低，成本低，…

阅读更多...

电脑风扇声音大怎么办？具体原因以及解决措施，快速解决

电脑风扇声音大怎么办？具体原因以及解决措施，快速解决

很多小伙伴使用台式电脑，使用的时间长了，电脑机箱里的风扇就会发出一些噪音，很影响小伙伴的整体使用体验。电脑风扇声音大怎么办？具体的原因以及解决措施有哪些？下面就跟着小编一起来看看吧。一、电脑风扇声音大的原…

阅读更多...

数据挖掘，计算机网络、操作系统刷题笔记39

数据挖掘，计算机网络、操作系统刷题笔记39

数据挖掘，计算机网络、操作系统刷题笔记39 2022找工作是学历、能力和运气的超强结合体，遇到寒冬，大厂不招人，可能很多算法学生都得去找开发，测开测开的话，你就得学数据库，sql，orac…

阅读更多...

Kibana最新版8.6.1安装教程

Kibana最新版8.6.1安装教程

Kibana 让您能够自由地选择如何呈现自己的数据。不过借助 Kibana 的交互式可视化，您可以先从一个问题出发，看看能够从中发现些什么。查看完整的 Kibana 功能列表https://www.elastic.co/cn/kibana/featuresKibana的下载地址：https://www.elas…

阅读更多...

有状态/无状态认证

有状态/无状态认证

文章目录一、什么是有状态认证？二、什么是无状态认证？（token）三、无状态分布式认证解决方案一、什么是有状态认证？ 有状态认证，即服务端需要记录每次会话的客户端信息，从而识别客户端身份&#…

阅读更多...

几种最小二乘法及python代码：ELS、TLS、RLS

几种最小二乘法及python代码：ELS、TLS、RLS

1.ARMAX模型下面各章节，我就是使用上面公式的符号，其中y是输出，u是输入，e是噪声。有m个输出y，r个输入u。进一步精简为： YPθE 其中：Y为要预测的部分，P为已知数据（包…

阅读更多...

k8s添加node节点和master节点

k8s添加node节点和master节点

一.准备1.基本概述版本：kubelet：v1.20.4docker： 20.10.23资源：cpu：8mem：16kernel：3.10.0-1160.71.1.el7.x86_64镜像仓库地址：registry.cn-hangzhou.aliyuncs.com/google_containers/…

阅读更多...

大部分人都容易焦虑，那么应该如何对待焦虑呢？

大部分人都容易焦虑，那么应该如何对待焦虑呢？

新年伊始，告别喜庆欢乐的春节，大家应该已经投入到正常的工作当中去了。面对节后的开工，难免都会有点焦虑，因为大多数人还沉浸在春节喜悦的回忆当中，回忆都是美好的，因为回忆中是带有感情的，美好…

阅读更多...

总投资30亿、算力500P，宜昌先进计算产业可持续发展之路

总投资30亿、算力500P，宜昌先进计算产业可持续发展之路

近日，国家先进计算产业创新（宜昌）中心项目工程总承包和委托运营（EPCO）中标结果公示，由中科升哲数据科技有限公司联合重庆市设计院有限公司、中讯邮电咨询设计院有限公司、中国化学工程第十六建设有限公司组…

阅读更多...

multipart/form-data 在低版本spring和webFlux中的解析

multipart/form-data 在低版本spring和webFlux中的解析

背景最近在做一个技术项目的迁移，将老的springMVC项目迁移到SpringWebFlux项目中，在流量迁移过程中发现有一个业务方传过来的参数新项目拿不到，究其原因是老版本的spring解析器和新版本的解析器对multipart/form-data类型的contentType解析…

阅读更多...

《深入浅出计算机组成原理》学习笔记 Day14

《深入浅出计算机组成原理》学习笔记 Day14

数据通路（下）1. PC 寄存器的实现2. 读写数据所需要的译码器3. 数据通路完整实现4. 总结参考1. PC 寄存器的实现 PC 寄存器又名程序计数器（Program Counter）。 PC 寄存器由两个部分组成： 时钟信号。提供定时的输入&a…

阅读更多...

刚来的00后太卷了，上班还没2年，跳到我们公司起薪25k....

刚来的00后太卷了，上班还没2年，跳到我们公司起薪25k....

都说00后躺平了，但是有一说一，该卷的还是卷。这不，前段时间我们公司来了个00后，工作都没两年，跳槽到我们公司起薪18K，都快接近我了。后来才知道人家是个卷王，从早干到晚就差搬张床到工位睡觉了…

阅读更多...

Arthas 入门到实战（四）arhtas idea plugin集成插件

Arthas 入门到实战（四）arhtas idea plugin集成插件

前言： Arthas 官方的工具还不够足够的简单，需要记住一些命令，但是我们需要的是一个能够简单处理字符串信息的插件即可使用。当在处理线上问题的时候需要最快速、最便捷的命令，因此插件还是有存在的意义和价值的。一、idea插件安…

阅读更多...

Blender 粒子系统

Blender 粒子系统

文章目录简介.添加粒子系统.属性.自发光（发射）.源.烘焙(仅发射体).速度(仅发射体).旋转(仅发射体，除非毛发系统开启了高级属性).物理(仅发射体).毛发动力学(仅毛发).渲染.路径.视图显示.子级.簇集.糙度.扭结.力场权重.顶点组.粒子编辑.渲染毛…

阅读更多...

GraalVM和Spring Native尝鲜，一步步让Springboot启动飞起来，66ms完成启动

GraalVM和Spring Native尝鲜，一步步让Springboot启动飞起来，66ms完成启动

简介 GraalVM是高性能的JDK，支持Java/Python/JavaScript等语言。它可以让Java变成二进制文件来执行，让程序在任何地方运行更快。这或许是Java与Go的一场战争？ 下载安装GraalVM 安装GraalVM 首先到官网下载，我是直接到GitHub Re…

阅读更多...

7-2输入/输出系统-I/O方式

7-2输入/输出系统-I/O方式

文章目录一.程序查询方式二.程序中断方式三.DMA方式1.传送过程2.DMA控制器（DMAC）的内部结构3.DMA传送方式（1）停止CPU访问主存（2）DMA与CPU交替访存（3）周期挪用/周期窃取4.DMA方式的特…

阅读更多...

基于改进粒子群算法的混合储能系统容量优化（Matlab代码实现）

基于改进粒子群算法的混合储能系统容量优化（Matlab代码实现）

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。 ⛳️座右铭&a…

阅读更多...

推荐文章

最新文章