Hadoop 复习 ---- chapter01【大数据概念】

news2024/11/16 17:43:56

Hadoop 复习 ---- chapter01【大数据概念】

    • 1. 什么是大数据
      • 大数据的简介
      • 从IT过渡到DT
    • 2. Hadoop生态系统工具
      • HADOOP
      • HBASE
      • HIVE
      • STORM
      • ZooKeeper
      • Sqoop
      • MAHOUT

1. 什么是大数据

大数据的简介

在这里插入图片描述
指“无法由现有软件工具进行提取、存储、搜索、共享、分析和处理的庞大而复杂的数据集”。
通常由四个 V 来描述(大量数据、多样化、价值密度低、速度快)。

  • 大量数据(valume):从 TB 级别,跃升到 PB 级别
  • 多样化(variety):网络日志、视频、图片、地理位置
  • 价值密度低(value):价值密度与数据总量成反比。
  • 速度快(velocity):大数据区分为传统数据挖掘的显著特征–一秒定律。

从IT过渡到DT

  • IT时代:信息处理技术以自我控制和自我管理为主导。
  • DT时代:DT(数据技术)时代是一种数据处理技术,它是一种服务于公众并刺激生产力的技术。

2. Hadoop生态系统工具

在这里插入图片描述

HADOOP

在这里插入图片描述

  • Hadoop 是由 Apache Foundation 开发的分布式系统基础结构。
  • MapReduce 框架可以将应用程序分解为许多并行计算命令,从而在大量计算节点上运行非常大的数据集,使用“分而治之”的思想,Map 用于分隔大数据,Reduce 用于合并 Map 计算的结果。
  • HDFS:分布式文件系统为海量数据和大文件提供存储服务,将大文件(大于 64M/128M)拆分为块(每块 64M或者128M),多节点存放。

HBASE

在这里插入图片描述

  • HBASE 是 apache 的开源 KV(Key-Value)数据库。它基于 HDFS,为数据库系统提供了可靠性、高性能、列存储、可伸缩性和实时读写功能。
  • 它只能通过行键和行键范围来搜索数据。它支持单行事务。主要用于存储非结构化和半结构化的松散数据。

HBASE 的特征

  • :一个表可以有上亿行,上百万列
  • 面向列:面向列(族)的存储和权限控制,列(族)独立检索
  • 稀疏:对于为空(null)的列,并不占用存储空间,因此,表可以设计的非常稀疏

HIVE

在这里插入图片描述

  • Apache Hive 数据仓库软件提供对存储在分布式中的大型数据集的查询和管理,它本身是建立在 Apache Hadoop 之上。
  • 可以对数据进行提取、转化、加载。
  • HIVE 可以存储、查询、分析存储在 HDFS(或者HBase)中的大规模数据。
  • 通过将 SQL 转化为 MapReduce 作业在 Hadoop 上运行。
  • Hive 定义了一种类似 SQL 的查询语言,称为 HQL。

Hive 的缺点

  • Hive 目前不支持事务
  • 不能对表数据进行修改(不能更新、删除、插入;只能通过文件追加数据、重新导入数据)
  • 查询速度比较慢

STORM

在这里插入图片描述

  • Apache Storm 是一个免费和开源的分布式实时计算系统,它简化了流数据的可靠处理。
  • Storm 具有许多应用场景,包括实时数据分析,在线学习,连续计算,分布式 RPC、ETL 等。
  • Storm 速度非常快,并且测试在单个节点上每秒执行一百万个组处理。

ZooKeeper

在这里插入图片描述

  • ZooKeeper 是一种高性能、分布式、开源的分布式应用程序协调服务。它是 Storm 和 HBase 的重要组成部分。
  • ZooKeeper 是一个领导者,负责编写服务于数据同步。

特征:

  • 顺序一致性
  • 原子性
  • 均匀度
  • 可靠性
  • 及时性

使用场景:

  • 数据发布与订阅
  • 名称空间服务
  • 分布式通知、协调
  • 集群管理

Sqoop

在这里插入图片描述

  • Sqoop 是 Apache 的顶级项目,它允许用户将关系数据库中的数据提取到 Hadoop 中进行进一步处理,获得分析结果后,Sqoop 还可以将分析结果导回数据库,以供其它客户端使用。

MAHOUT

在这里插入图片描述

  • Mahout 是功能强大的数据挖掘工具和一组分布式机器学习算法,包括分布式协调过滤的实现,分类和聚类。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/184653.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【软件测试】某城商行手机银行授权漏洞分析黑客攻击,测试优化手段......

目录:导读前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜)前言 问题描述 据报道&am…

【FreeRTOS】详细讲解FreeRTOS的软件定时器及通过示例讲述其用法

软件定时器 所谓定时器,也就可以类比生活中人们常用的闹钟,可以单次响铃提醒,也可以间隔固定时间响铃提醒;与FreeRTOS定时器不同的是周期不同,FreeRTOS的周期更加短,一般使用毫秒(ms)、秒(s)。   软件定时…

Python的数字类型、布尔类型和运算优先级

文章目录1.数字类型1.1分类1.2整数1.3浮点数1.4复数2.数字运算符2.1运算符表格2.2 运算符 //3.divmod()函数4.abs()函数4. int(),float() 和 complex() 函数5.pow()函数和运算符 **6.布尔类型6.…

NB-IoT的低功耗特性原理解说

什么是NB-IoT NB-IoT的中文名叫窄带蜂窝物联网(Narrow Band Internet of Things),NB-IoT网络是基于4G网络演进过来的,所以它在上行和下行的复用技术上还是沿用了4G的OFDMA和SC-FDMA。NB-IoT有三大特性:速率低,成本低,…

电脑风扇声音大怎么办?具体原因以及解决措施,快速解决

​很多小伙伴使用台式电脑,使用的时间长了,电脑机箱里的风扇就会发出一些噪音,很影响小伙伴的整体使用体验。电脑风扇声音大怎么办?具体的原因以及解决措施有哪些?下面就跟着小编一起来看看吧。 一、电脑风扇声音大的原…

数据挖掘,计算机网络、操作系统刷题笔记39

数据挖掘,计算机网络、操作系统刷题笔记39 2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开 测开的话,你就得学数据库,sql,orac…

Kibana最新版8.6.1安装教程

Kibana 让您能够自由地选择如何呈现自己的数据。不过借助 Kibana 的交互式可视化,您可以先从一个问题出发,看看能够从中发现些什么。查看完整的 Kibana 功能列表https://www.elastic.co/cn/kibana/featuresKibana的下载地址:https://www.elas…

有状态/无状态认证

文章目录一、什么是有状态认证?二、什么是无状态认证?(token)三、无状态分布式认证解决方案一、什么是有状态认证? 有状态认证,即服务端需要记录每次会话的客户端信息,从而识别客户端身份&#…

几种最小二乘法及python代码:ELS、TLS、RLS

1.ARMAX模型 下面各章节,我就是使用上面公式的符号,其中y是输出,u是输入,e是噪声。有m个输出y,r个输入u。 进一步精简为: YPθE 其中:Y为要预测的部分,P为已知数据(包…

k8s添加node节点和master节点

一.准备1.基本概述版本:kubelet:v1.20.4docker: 20.10.23资源:cpu:8mem:16kernel:3.10.0-1160.71.1.el7.x86_64镜像仓库地址:registry.cn-hangzhou.aliyuncs.com/google_containers/…

大部分人都容易焦虑,那么应该如何对待焦虑呢?

新年伊始,告别喜庆欢乐的春节,大家应该已经投入到正常的工作当中去了。面对节后的开工,难免都会有点焦虑,因为大多数人还沉浸在春节喜悦的回忆当中,回忆都是美好的,因为回忆中是带有感情的,美好…

总投资30亿、算力500P,宜昌先进计算产业可持续发展之路

近日,国家先进计算产业创新(宜昌)中心项目工程总承包和委托运营(EPCO)中标结果公示,由中科升哲数据科技有限公司联合重庆市设计院有限公司、中讯邮电咨询设计院有限公司、中国化学工程第十六建设有限公司组…

multipart/form-data 在低版本spring和webFlux中的解析

背景 最近在做一个技术项目的迁移,将老的springMVC项目迁移到SpringWebFlux项目中,在流量迁移过程中发现有一个业务方传过来的参数新项目拿不到,究其原因是老版本的spring解析器和新版本的解析器对multipart/form-data类型的contentType解析…

《深入浅出计算机组成原理》学习笔记 Day14

数据通路(下)1. PC 寄存器的实现2. 读写数据所需要的译码器3. 数据通路完整实现4. 总结参考1. PC 寄存器的实现 PC 寄存器又名程序计数器(Program Counter)。 PC 寄存器由两个部分组成: 时钟信号。提供定时的输入&a…

刚来的00后太卷了,上班还没2年,跳到我们公司起薪25k....

都说00后躺平了,但是有一说一,该卷的还是卷。 这不,前段时间我们公司来了个00后,工作都没两年,跳槽到我们公司起薪18K,都快接近我了。后来才知道人家是个卷王,从早干到晚就差搬张床到工位睡觉了…

Arthas 入门到实战(四)arhtas idea plugin集成插件

前言: Arthas 官方的工具还不够足够的简单,需要记住一些命令,但是我们需要的是一个能够简单处理字符串信息的插件即可使用。当在处理线上问题的时候需要最快速、最便捷的命令,因此插件还是有存在的意义和价值的。 一、idea插件安…

Blender 粒子系统

文章目录简介.添加粒子系统.属性.自发光(发射).源.烘焙(仅发射体).速度(仅发射体).旋转(仅发射体,除非毛发系统开启了高级属性).物理(仅发射体).毛发动力学(仅毛发).渲染.路径.视图显示.子级.簇集.糙度.扭结.力场权重.顶点组.粒子编辑.渲染毛…

GraalVM和Spring Native尝鲜,一步步让Springboot启动飞起来,66ms完成启动

简介 GraalVM是高性能的JDK,支持Java/Python/JavaScript等语言。它可以让Java变成二进制文件来执行,让程序在任何地方运行更快。这或许是Java与Go的一场战争? 下载安装GraalVM 安装GraalVM 首先到官网下载,我是直接到GitHub Re…

7-2输入/输出系统-I/O方式

文章目录一.程序查询方式二.程序中断方式三.DMA方式1.传送过程2.DMA控制器(DMAC)的内部结构3.DMA传送方式(1)停止CPU访问主存(2)DMA与CPU交替访存(3)周期挪用/周期窃取4.DMA方式的特…

基于改进粒子群算法的混合储能系统容量优化(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…