大数据 | Hadoop、Hive、Spark的关系

news2024/10/5 21:53:07

文章总括图
总括图

数据存储

单机数据库时代

所有数据在单机都能存的下,数据处理的任务都是IO密集型,更谈不上分布式系统

一个典型的2U服务器可以插6块硬盘,每块硬盘4T,共24T原始容量,再加上一些数据包的可用冗余,再加上一些格式化的损失,保守估计一台服务器至少可以有10T以上的可用容量,再加上128G内存和两颗CPU,装入DBMS,稍微调优,单表处理10e条数据问题不大

多机数据库时代

当数据量变多时,单台机器无法满足容量需求,一个很常规的想法就是加机器,一台机器存不下就用10台乃至100台。

那么HDFS就诞生了,HDFS会统一管理100台机器上的存储空间,提供一个接口,让100台机器的存储空间看起来就像在一台机器上,让用户感觉到这是一个无限大的存储空间,然后再基于这个去写应用程序。

数据计算

数据分布式的存储于每台机器,每台机器都有自己的CPU和内存,如果能充分利用这些资源可以使数据计算更快完成。
但对于程序员来讲很难去操作100台机器,编写程序将一个计算任务分配到这些机器上,并让这些任务进行同步、机器容错等问题过于复杂,于是MapReduce就出现了。

MapReduce提供了一个任务并行的框架,通过他的API的抽象,让用户将并行程序分为两个阶段分别是:

  1. map阶段:将完整任务分成多份交给分布式设备分别完成
  2. reduce阶段:将分布式计算完成的任务结果进行聚合,输出最终结果

Spark与Mapreduce类似都是计算引擎,主要区别是Spark基于内存计算,MapReduce基于磁盘,因此Spark速度更快,在数据集不大、机器内存能完全装下的极端情况,Spark比MR快100倍,但正常情况下大约比MR快2-3倍。

Spark核心模块与Mapreduce使用上类似,都会提供一系列API,让开发者写数据处理程序,同时,Spark生态中也有SparkSQL实现MR的Hive的功能。此外,Spark中也有其他类型的抽象,如Spark Streaming实现流处理程序、MLlib实现机器学习相关程序、GraphX实现图处理程序。

数据查询

单机数据库时代用户使用SQL语句即可实现数据查询,而分布式数据库如果需要查询数据需要用户自己写程序,而且还是比较专业的分布式处理程序。其核心诉求是再Hadoop上写SQL,于是Hive出现了(Impala、Presto等也可实现SQL on Hadoop)

Hive是在Hadoop上进行结构化数据处理的解决方案,为了能让用户写SQL处理程序,那么程序就需要对数据进行结构化处理,Hive中的一个核心模块Metastore,就是用来存储这些结构化信息,比如一些“表”的信息,列的数量,表中每个列是什么样的数据结构。

Hive执行过程:

  1. 解析阶段(该阶段与单机数据库无异):Hive的执行引擎会把一条SQL语句进行语法分析,生成语法分析树;
  2. 执行阶段:Hive的执行引擎会把SQL语句翻译成Mapreduce程序进行执行,将结果进行加工返回给用户;

但是复杂性与灵活性是一对矛盾体,在实际应用是还需要根据场景来选择使用Hive还是直接写MR程序

参考资料:
强烈推荐B站视频,讲得非常通俗易懂:【大数据技术生态中,Hadoop、Hive、Spark是什么关系?| 通俗易懂科普向】 https://www.bilibili.com/video/BV1LU4y1e7Ve/?share_source=copy_web&vd_source=f193a6361a31cec8fe86dfc200c75753

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/52420.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

22081-12-1 cortex-M4核中断和串口通信实验的结合

1、实验要求:按键触发时,LED灯状态取反,并在串口工具打印一句话 eg:KEY1按键按下,LED1状态取反,串口工具打印key1 down! 重点代码如下: //gpio.c void HAL_GPIO_EXTI_Falling_Cal…

全程软件自动化测试

软件自动化测试的概念 “什么是软件自动化测试?”也许很多人的回答是:“使用自动化测试工具或者编写自动化脚本来自动化测试软件”,还有一些权威网站,比如 WikiPedia 是这样定义的: “在软件测试中,自动化…

IDEA2020.3.3创建Java web工程时找不到Java Enterprise

最近在学习使用IDEA进行java web开发,然后在创建的时候找不到Java Enterprise,如下图: 解决办法: 可以新建一个java项目,再将这个项目升级成javaweb项目即可 新建一个javaweb的java项目,右键选择Add Framework Suppo…

Spring Cloud教程 第十一弹 Spring Cloud Config连接git和数据库

Spring Cloud Config1、什么是Spring Cloud Config?2、EnvironmentRepository抽象3、实战:使用git作为配置源1、搭建config server2、搭建config client3、config server HTTP接口4、实战:使用数据库作为配置源5、实战:复合配置源1、什么是S…

Ajax访问本地服务器案例

1.首先我们需要两个文件夹 2.我们先从服务器开始,此处我们搭建一个express服务器 用vscode打开express文件夹,打开终端 先执行 npm init 初始化项目(此处可以一直回车,直到出现新的可操作终端为止) 3.终端中输入 npm…

GEE开发之Modis_GPP数据分析和获取

GEE开发之Modis_GPP数据分析和获取1.GPP2.MOD系列和MYD系列区别3.MOD17A2H(500m/8天)4.MYD17A2H(500m/8天)4.1 MYD17A2H下的指数4.2 遥感影像查看5.GPP日数据下载(以MYD17A2H为例)6.GPP月数据下载(以MYD17A2H为例)7.GPP年数据下载(以MYD17A2H为例)前言:主要介绍利用…

谷歌浏览器

引言:众所周知,一个好的浏览器可以提高我们的工作效率,那么今天教大家如何安装超 nice 的浏览器 —— 谷歌浏览器 文章目录一、安装谷歌浏览器二、修改谷歌浏览器搜索引擎三、修改谷歌浏览器默认下载位置一、安装谷歌浏览器 打开&#x1f5b…

R语言在逻辑回归中求R square R方

并非所有结果/因变量都可以使用线性回归进行合理建模。也许第二种最常见的回归模型是逻辑回归,它适用于二元结果数据。最近我们被客户要求撰写关于逻辑回归的研究报告,包括一些图形和统计输出。如何计算逻辑回归模型的R平方? 相关视频&…

B端产品实战课读书笔记:第六章产品设计

目录 一、流程驱动设计 1.1流程驱动设计 1.2流程 1.3流程驱动设计实践 1.4流程驱动设计的不足 二、微服务 三、领域驱动设计 3.1领域驱动设计 3.2领域驱动设计实践 四、两种设计方法的关系 一、流程驱动设计 1.1流程驱动设计 流程驱动设计,是指根据实际业…

一文搞懂序列化

参考自: 1.https://mp.weixin.qq.com/s/K135j6_t0npqt7E1Su8zhA 2. https://zhuanlan.zhihu.com/p/499806202 文章目录(1) 序列化和反序列化是什么?(2) 什么时候需要用到序列化和反序列化呢?(3) 实现序列化和反序列化为什么要实现Serializable接口?(4) 手动实现序…

如何快速搜索多个文件中内容是否有你需要的东西?

有没有这么的经历,我想搜索自己电脑里有没有想要的文件,这时大家应该可以: 方案一、windows自带搜索 方案二、Everything 那如果要搜索的不是文件名称而是文件的内容呢? 重点来了!!!&#xff0…

Git commitId 压缩(推送远程和未推送远程)

背景: 代码提交后,基于review 风格,和代码整洁度,以及后续业务划分,需要对commitId进行压缩操作 核心思想 基于rebase命令进行合并操作 场景一 commitId提交本地且推送远程 1、准备数据 准备所有已经提交且推送远…

切换模糊化的自适应滑模控制

目录 前言 1.系统描述 2.控制器设计 3.模糊逼近切换项 4.仿真分析 4.1仿真系统 4.2仿真模型 4.3仿真结果 4.4结论 5.总结 前言 前面两篇文章分别介绍了切换增益模糊化和系统不确定项f或g模糊化,其原理都是使用模糊控制对未知量进行估计,上两篇…

uni vuex 组件及常用api

vuex 在store>index.js //导入vue import Vuex from vuex //导入Vue import Vue from vue //使用Vuex Vue.use(Vuex) //导出Vuex export default new Vuex.Store({//状态state:{gTitle:{text:你好,color:#000,fontSize:"24px",background:#f70},joks:[]},//改变状…

循环神经网络(四)

一、循环神经网络和自然语言处理介绍 目标 知token和tokenization知道N-gram的概念和作用知道文本向量化表示的方法 1.1 文本的tokenization 1.1.1 概念和工具的介绍 tokenization 就是通常所说的分词,分出的每一个词话我们把它称为token。 常见的分词工具很多…

【Android App】物联网中查看手机支持的传感器及实现摇一摇功能-加速度传感器(附源码和演示 超详细)

需要源码请点赞关注收藏后评论区留言~~~ 一、传感器的种类 传感器Sensor是一系列感应器的总称,是Android设备用来感知周围环境和运动信息的工具。 因为具体的感应信息依赖于相关硬件,所以虽然Android定义了众多感应器,但是并非每部手机都能支…

JZ-7Y-15 AC220V【静态中间继电器】

系列型号: JZ-7Y-15静态中间继电器; JZ-7J-15静态中间继电器; JZ-7L-15静态中间继电器; JZ-7D-15静态中间继电器; JZ-7Y-16静态中间继电器; JZ-7J-16静态中间继电器; JZ-7L-16静态中间继电器&am…

【Redis-07】Redis哨兵机制Sentinel的实现原理

Sentinel是Redis高可用性的解决方案:由一个或者多个Sentinel实例组成的哨兵系统监视多个主从服务器,并实现主从服务器的故障转义。  Sentinel本质上只是一个运行在特殊模式下的Redis服务器,使用以下命令可以启动并初始化一个Sentinel实例&am…

Express 4 快速入门 - 基本路由

Express Express 中文网 本文仅用于学习记录,不存在任何商业用途,如侵删 文章目录Express4 快速入门 - 基本路由4.1 什么是路由4.2 定义简单路由4.2.1 在主页回复字符串4.2.2 响应/应用程序主页根路由 ( ) 上的 POST 请求:4.2.3 响应对/user路…

订单超时自动取消3种方案——我们用这种!

大家好,大家对电商购物应该都比较熟悉了,我们应该注意到,在下单之后,通常会有一个倒计时,如果超过支付时间,订单就会被自动取消。 下单 今天,我们来聊聊订单超时未支付自动取消的几种方案。 1…