Hadoop初步理解

Hadoop初步理解

news2025/4/9 6:39:53

产生原因

在之前，数据量小，增长速度慢，且数据基本都是文件。储存和处理这些数据并不麻烦，单个存储单元和处理器组合就可以。
之后随着互联网发展，产生了大量多种形式的数据。
非结构化数据：邮件、图像、音频和视频等形式。这些与结构化数据一起称为大数据。此时，储存单元和处理器的组合显然不够
如何解决？
引入了hadoop框架，它通过使用硬件集群，可以有效地存储和处理大量数据

三大组件：HDFS、MapReduce、YARN

第一步存储数据
HDFS分布式文件系统，数据分布在许多计算机中并以块的形式存储。HDFS将数据存储在多个数据块上。如果其中一个数据点崩溃了–不会导致损失任何数据
HDFS对数据进行拷贝并将其存储在多个系统中。复制方法

第二步：数据处理。
之前放在单个处理器上处理，低效且费时。
MapReduce将数据分成多个部分，并在不同的数据节点上分别处理每个部分。然后将各个结果汇总并最终输出
例如统计文章中每个单词出现的次数：
步骤：输入 – 分割成不同的小部分 – 每一个部分进行分词统计 – 按同一个单词排序 – 汇总计数
在这里插入图片描述
这改善了负载平衡并节约了时间

第三步：
每个任务都需要硬件资源来支持完成，为了有效的管理这些资源，用到了第三个组件YARN

除了这三大组件外，HADOOP还有各种大数据工具和框架。专门用于管理、分析和处理数据，例如hive spark flume 和scoop等等

HDFS的三种模式的优势？

支持并行处理
更快的数据分析
确保容错
管理集群资源

概念理解

分布式：将不同的业务分布在不同的地方
集群：将几台服务器集中在一起，实现同一个业务
微服务：一种架构风格

岗位区别：

做菜过程：采购(数据开发)、清洗(ETL)、备菜(ETL)、摆盘(BI)、烹饪(数据分析)

hadoop主要要学的

三大组件：HDFS、MapReduce、YARN
学习对象：中台（集群+数据中台）+数据开发（算法，实时，离线），大学生

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/349664.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

盘点3个.Net开发的WMS仓库管理系统

盘点3个.Net开发的WMS仓库管理系统

更多开源项目请查看：一个专注推荐.Net开源项目的榜单仓库管理系统在企业中，重要性越来越高，不仅可以提高效率，还能降低企业的压力，企业通过协调和优化资源使用和物料流动，能极大程度地提升了管理效率&…

阅读更多...

中国500强｜长虹控股集团携手契约锁，推动采购-人事业务电子签

中国500强｜长虹控股集团携手契约锁，推动采购-人事业务电子签

四川长虹电子控股集团（以下简称“长虹控股集团”）是国内知名的电器制造商之一，拥有六家上市公司、一家新三板的公众公司，入选世界品牌500强、中国企业家协会发布的中国500强企业榜单。此次，长虹控股集团携手契约锁打造…

阅读更多...

数据分析与SAS学习笔记3

数据分析与SAS学习笔记3

SAS在最新的展示图，表现力比较丰富。 SAS的处理流程： 数据步过程步： ETL是数据分析非常重要的步骤。70%-90%花在收集数据以及整理数据，数据分析数据的时间不是很多的。一个完整的数据步和过程步： 数据步基本语句总…

阅读更多...

新手学习node.js基础,node.js安装过程,node.js运行环境及javascript运行环境.

新手学习node.js基础,node.js安装过程,node.js运行环境及javascript运行环境.

学习node.js1.什么是node.js?2.node.js中的javaScript运行环境3.node.js可以做什么？4. node.js学习思路5.node.js环境的安装6.如何在node.js中执行JavaScript代码1.什么是node.js? node.js是一个基于Chrome v8 引擎的JavaScript运行环境(后端) node.js官网 &…

阅读更多...

Flutter for Android

Flutter for Android

将 Flutter 添加到现有应用程序在 Flutter 中一次重写整个应用程序是不切实际的。对于这些情况，Flutter 可以作为库或模块逐步集成到您现有的应用程序中。然后可以将该模块导入到您的 Android 或 iOS（当前支持的平台）应用程序中&#xff…

阅读更多...

GEE学习笔记八十六：分类中的特征重要性分析

GEE学习笔记八十六：分类中的特征重要性分析

之前在GEE中做随机森林分类时候，很多人都在问如何做特征重要性分析？但是在GEE之前并没有相关API可以做特征重要性分析，最新的API更新后GEE也可以做特征重要性分析了。 1、目前常用的包含特征重要信息分析的分类方法包括： &#…

阅读更多...

基础篇：03-SpringCloud工程部署启动

基础篇：03-SpringCloud工程部署启动

目录 1.工程搭建部署方案一：完整工程导入方案二：从零开始搭建 1.工程与module创建 2.数据库导入 3.项目启动 3.1 启动并访问user-service 3.2 启动并访问order-service 4.服务远程调用时序图说明服务远程调用实现注入RestTemplate Res…

阅读更多...

自学web前端觉得好难，可能你遇到了这些困境

自学web前端觉得好难，可能你遇到了这些困境

好多人跟我说上学的时候也学过前端，毕业了想从事web前端开发的工作，但自学起来好难，快要放弃了，所以我总结了一些大家遇到的困境，希望对你会有所帮助。目录 1. 意志是否坚定 2. 没有找到合适自己的老师 3. 为了找…

阅读更多...

论文阅读【PAMI_2022】FSGANv2: Improved Subject Agnostic Face Swapping and Reenactment

论文阅读【PAMI_2022】FSGANv2: Improved Subject Agnostic Face Swapping and Reenactment

论文阅读【PAMI_2022】FSGANv2: Improved Subject Agnostic Face Swapping and Reenactment论文的缩写全拼一、摘要（问题，贡献，效果）二、引言（idea）三、方法(FSGAN)1.Detection and tracking2.Generator ar…

阅读更多...

node学习-3:服务器渲染和客户端渲染

node学习-3:服务器渲染和客户端渲染

1. 概念一.服务端渲染，后端嵌套模板，后端渲染模板，SSR（后端把页面组装好） 做好静态页面，动态效果把前端代码提供给后端，后端则把静态html以及里面的假数据给删除掉通过模板进行动态生成h…

阅读更多...

8个让你收入翻倍的高质量免费网站

8个让你收入翻倍的高质量免费网站

毕业几年了，如果你的月薪不到1w，还是做着重复机械的动作，现在马上往下看，今天分享6个资源网站让你的收入暴增，尤其是最后一个。每天花一个小时，让你工资翻倍，从此在职场横着走，再也不…

阅读更多...

GEE学习笔记八十三：【GEE之Python版教程十三】几何图形

GEE学习笔记八十三：【GEE之Python版教程十三】几何图形

遥感分析中用到的数据主要就是这两大类：矢量数据和栅格数据。在Google Earth Eninge中，它为我们讲这两类数据封装成为了以下几类数据。下面几节内容我会依次讲解相关内容的详细信息，这一节先讲一下几何图形ee.geometry。学习任何新的东西首…

阅读更多...

设计模式之抽象工厂模式(C++)

设计模式之抽象工厂模式(C++)

作者：翟天保Steven 版权声明：著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处一、抽象工厂模式是什么？ 抽象工厂模式是一种创建型的软件设计模式，该模式相当于升级版的工厂模式。如果…

阅读更多...

采集知乎评论

采集知乎评论

声明本文章中所有内容仅供学习交流，抓包内容、敏感网址、数据接口均已做脱敏处理，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关，若有侵权，请联系我立即删除！ excel保存效果图：首先我们找一个评论比较多的帖子，如下图所示有874条评论点击评论…

阅读更多...

算法刷刷刷| 回溯篇| 组合问题大集合

算法刷刷刷| 回溯篇| 组合问题大集合

77.组合给定两个整数 n 和 k，返回范围 [1, n] 中所有可能的 k 个数的组合。你可以按任何顺序返回答案。输入：n 4, k 2 输出： [[2,4], [3,4], [2,3], [1,2], [1,3], [1,4],] import java.util.ArrayList; import java.util.List;clas…

阅读更多...

可靠、稳定、安全，龙蜥云原生容器镜像正式发布！

可靠、稳定、安全，龙蜥云原生容器镜像正式发布！

文/云原生 SIG01背景随着云原生的蓬勃发展，越来越多的企业在自己的生产或者测试环境使用云原生技术，而容器镜像正是云原生技术中应用的实际运行环境。一个好的容器运行环境即容器镜像会真正关系到应用的体验、演进和维护。那么选择一个好的容器镜像需要考…

阅读更多...

Flink实时同步MySQL与Doris数据

Flink实时同步MySQL与Doris数据

参考： 技术解析｜Doris Connector 结合 Flink CDC 实现 MySQL 分库分表 Exactly Once 精准接入-阿里云开发者社区逻辑图： 1. Flink环境： https://flink.apache.org/zh/ 下载flink-1.15.1 wget https://dlcdn.apache.org/flink…

阅读更多...

并发编程之synchronized详解

并发编程之synchronized详解

目录设计同步器的意义如何解决线程并发安全问题？ synchronized原理详解 synchronized底层原理 Monitor监视器锁什么是monitor？ 对象的内存布局对象头对象头分析工具锁的膨胀升级过程偏向锁轻量级锁自旋锁锁消除逃逸分析设…

阅读更多...

RabbitMQ学习（七）：交换器

RabbitMQ学习（七）：交换器

〇、前言在之前的内容中，我们创建了一个工作队列。我们假设的是工作队列背后，每个任务都恰好交付给一个消费者(工作进程)。在今天的内容中，我们将做一些完全不同的事情——我们将消息传达给多个消费者。这种模式称为 “发布/订阅”。为了说…

阅读更多...

横板格斗类游戏实战：核心玩法介绍(一)

横板格斗类游戏实战：核心玩法介绍(一)

第一章讲解了横板格斗类游戏框架主要涉及到的一些模块设计与技术原理，本章节开始讲解横板格斗类游戏的玩法，美术资源与游戏的数值策划。我们以主要的截图为示意图，来把整个横板格斗类游戏的核心玩法和要实现的功能大致列一遍。对啦&#xff0…

阅读更多...

推荐文章

最新文章