Hadoop学习一（初识大数据）

news2026/2/15 18:36:36

目录

一什么是大数据？

二大数据特征

三分布式计算

四 Hadoop是什么?

五 Hadoop发展及版本

六为什么要使用Hadoop

七 Hadoop vs. RDBMS

八 Hadoop生态圈

九 Hadoop架构

一什么是大数据？

大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。

大数据技术要解决的问题：海量数据存储和海量数据计算

二大数据特征

4V特征
- Volume(大数据量)：90% 的数据是过去两年产生
- Velocity(速度快)：数据增长速度快，
- 时效性高 Variety(多样化)：数据种类和来源多样化结构化数据（如表形式的数据）、半结构化数据（如 json）、非结构化数据（如日志信息）
- Value(价值密度低)：需挖掘获取数据价值
固有特征
- 时效性
- 不可变性

三分布式计算

分布式计算将较大的数据分成小的部分进行处理。

	传统分布式计算	新的分布式计算 - Hadoop
计算方式	将数据复制到计算节点	在不同数据节点并行计算
可处理数据量	小数据量	大数据量
CPU性能限制	受CPU限制较大	受单台设备限制小
提升计算能力	提升单台机器计算能力	扩展低成本服务器集群

四 Hadoop是什么?

Hadoop是一个开源分布式系统架构，解决海量数据存储和海量数据计算的问题
处理海量数据的架构首选
非常快得完成大数据计算任务
已发展成为一个Hadoop生态圈

五 Hadoop发展及版本

Hadoop起源于搜索引擎Apache Nutch
- 创始人：Doug Cutting
- 2004年 - 最初版本实施
- 2008年 - 成为Apache顶级项目
Hadoop发行版本
- 社区版：Apache Hadoop
- Cloudera发行版：CDH
- Hortonworks发行版：HDP

六为什么要使用Hadoop

高扩展性
- 在集群间分配任务数据，可方便的扩展数以千计的节点
高可靠性
- Hadoop底层维护多个数据副本
高容错性
- Hadoop框架能够自动将失败的任务重新分配
低成本
- Hadoop架构允许部署在廉价的机器上
灵活，可存储任意类型数据
开源，社区活跃

七 Hadoop vs. RDBMS

Hadoop与关系型数据库对比

	RDBMS	Hadoop
格式	写数据时要求	读数据时要求
速度	读数据速度快	写数据速度快
数据监管	标准结构化	任意结构数据
数据处理	有限的处理能力	强大的处理能力
数据类型	结构化数据	结构化、半结构化、非结构化
应用场景	交互式OLAP分析 ACID事务处理企业业务系统	处理非结构化数据海量数据存储计算

八 Hadoop生态圈

九 Hadoop架构

HDFS(Hadoop Distributed File System)
- 分布式文件系统，解决分布式存储
MapReduce
- 分布式计算框架
YARN
- 分布式资源管理系统在Hadoop 2.x中引入
Common
- 支持所有其他模块的公共工具程序

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/913777.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

allegro gerber导出

allegro gerber导出

allegro gerber导出 1、生产钻孔数据nc_param.txt钻孔参数文件生成2、生成钻孔图形3、放置钻孔图和钻孔表4、生产钻孔文件5、路板中使用了椭圆孔、矩形或者长条形的开槽孔，就需要出一个铣刀数据文件，单独生成NC Route文件；6、生成叠层截面图7…

阅读更多...

森林生物量（蓄积量）估算全流程

森林生物量（蓄积量）估算全流程

python森林生物量（蓄积量）估算全流程一.哨兵2号获取/去云处理/提取参数1.1 影像处理与下载1.2 导入2A级产品1.3导入我们在第1步生成的云掩膜文件1.4.SNAP掩膜操作1.5采用gdal计算各类植被指数1.6 纹理特征参数提取二.哨兵1号获取/处理/提取数据2.1 纹理…

阅读更多...

5G NR：协议 - PDCCH信道

5G NR：协议 - PDCCH信道

1、基本概念不同于LTE中的控制信道包括PCFICH、PHICH和PDCCH，在5G NR中，控制信道仅包括PDCCH（Physical Downlink Control Channel），负责物理层各种关键控制信息的传递，PDCCH中传递的下行控制信息&#xff…

阅读更多...

rainbond云原生应用管理平台部署

rainbond云原生应用管理平台部署

rainbond简介 rainbond 是一个开源的Kubernetes 云原生应用管理平台。 Rainbond 核心100%开源，Serverless体验，不需要懂K8s也能轻松管理容器化应用，平滑无缝过渡到K8s，是国内首个支持国产化信创、适合私有部署的一体化应用管理…

阅读更多...

股票开户哪个券商进行炒股佣金最低手续费最低？万1融5！

股票开户哪个券商进行炒股佣金最低手续费最低？万1融5！

股票交易的手续费最低金额取决于券商、地区、交易所以及具体的交易类型等因素。不同券商和地区的手续费政策会有所不同，因此无法给出一个通用的最低手续费金额。一些券商可能会提供特定的交易活动或优惠，例如首次交易免费、低交易费等。此外&#xff0…

阅读更多...

linux设备驱动模型：设备树

linux设备驱动模型：设备树

设备树诞生背景：硬件设备中种类逐年递增，板级platform平台设备文件越来越多。设备树由根节点开始，可以包含若干个子节点；每个子节点又可以包含若干个子节点。 DTS（device tree source）：设备树…

阅读更多...

人力资源管理难？看看这些大厂是怎么做的！附数据分析模板

人力资源管理难？看看这些大厂是怎么做的！附数据分析模板

组织管理的质量是影响企业运作效率的重要因素之一。今天，本文分享帆软自己是如何用简道云搭建HR系统的。 Tips：本文中的“同学”，是对帆软员工的称呼。本文由帆软人事同学提供。最初，在帆软的快速成长期，公司聚焦发展…

阅读更多...

景区气象站丨它的结构与功能是什么样的？

景区气象站丨它的结构与功能是什么样的？

景区气象站是由传感器、数据采集系统、LED显示屏、供电系统、立杆和监控主机组成，能够同时监测大气温度、湿度、大气压、风速、风向、pm2.5 /pm10、二氧化碳、光照强度等气象参数，并将这些气象参数上传至环境监控平台，具有数据传输快、无需布…

阅读更多...

excel中两列数据生成折线图

excel中两列数据生成折线图

WPS中excel的两列数据，第一列为x轴，第二列为y轴，生成折线图，并生成拟合函数。 1.选中两列数据，右击选择插入图表，选择XY（散点图），生成散点折线图 2.选中图中散点&#x…

阅读更多...

高压功率放大器在损伤检测中的应用有哪些

高压功率放大器在损伤检测中的应用有哪些

损伤检测技术是一种基于材料力学和声学原理的非破坏性检测技术。它通过对材料内部声波传播的特征进行分析，来判断材料内部是否存在缺陷、裂纹等损伤。在损伤检测技术中，高压功率放大器作为信号源和信号放大器，发挥着重要的作用。下面&#xf…

阅读更多...

【Linux】实现进度条的两种方式(C语言实现)

【Linux】实现进度条的两种方式(C语言实现)

文章目录前言一、简单写法1.processbar.h2. processbar.c3.main.c 二、使用回调函数1.processbar.h2. processbar.c3.main.c 前言回车（\r）：让光标回到当前行的最左端换行（\n）：让光标回到下一行的最左端&…

阅读更多...

Camunda 7.x 系列【24】脚本任务

Camunda 7.x 系列【24】脚本任务

有道无术，术尚可求，有术无道，止于术。本系列Spring Boot 版本 2.7.9 本系列Camunda 版本 7.19.0 源码地址：https://gitee.com/pearl-organization/camunda-study-demo 文章目录 1. 概述2. 脚本3. 案例演示3.1 建模3.2 测试1. 概述 Script Task脚本任务是一个自动化的活…

阅读更多...

SpringBoot - 两种方式刷新配置信息

SpringBoot - 两种方式刷新配置信息

一、第一种方式 ConfigurationProperties不能自动刷新，需要手动调用contextRefresher.refresh()方法来刷新配置。 import org.springframework.boot.context.properties.ConfigurationProperties; import org.springframework.stereotype.Component;Component…

阅读更多...

pytorch里面的nn.AdaptiveAvgPool2d

pytorch里面的nn.AdaptiveAvgPool2d

今天遇到nn.AdaptiveAvgPool2d((None, 1)) AdaptiveAvgPool2d函数详细解释： 2D自适应平均池化（2D adaptive average pooling）是一种对输入信号进行二维平均池化的操作，输入信号由多个输入平面（input planes&#xff0…

阅读更多...

MAC 查看被占用的端口

MAC 查看被占用的端口

今天启动一个一个服务的时候，总是报端口被占用的错误，所以就需要找一下是哪个程序占用了端口，查看的命令是： netstat -anp tcp -v | grep 8082那这个命令出来的那个是进程id呢，很显然我画框的就是了，前面的…

阅读更多...

「Python｜音视频处理｜环境准备」如何在Windows系统下安装并配置音视频处理工具FFmpeg

「Python｜音视频处理｜环境准备」如何在Windows系统下安装并配置音视频处理工具FFmpeg

本文主要介绍如何在Windows系统下安装并配置音视频处理工具FFmpeg，方便使用python进行音视频相关的下载或编辑处理。文章目录一、下载软件二、解压并配置三、验证安装一、下载软件首先要去 ffmpeg官网下载软件包由于上面直接下载的按钮是.tar.xz格式的。为了…

阅读更多...

IDEA项目实践——VUE介绍与案例分析

IDEA项目实践——VUE介绍与案例分析

系列文章目录 IDEA项目实践——JavaWeb简介以及Servlet编程实战 IDEA项目实践——Spring集成mybatis、spring当中的事务 IDEA项目实践——Spring当中的切面AOP IDEWA项目实践——mybatis的一些基本原理以及案例 IDEA项目实践——Spring框架简介，以及IOC注解 I…

阅读更多...

制造业与MES管理系统：一对不可分割的“黄金搭档”

制造业与MES管理系统：一对不可分割的“黄金搭档”

在当今高度竞争的市场环境中，制造业企业面临着越来越多的挑战。为了保持竞争力并实现可持续发展，许多企业已经开始寻求采用先进的技术和系统来提高生产效率和产品质量。在这方面，MES系统（制造执行系统）已经成为制造业中…

阅读更多...

mac常用

mac常用

一、查看ip地址 ifconfig en0 二、telnet命令如果报没有telnet命令则安装 brew install telnet 在linux/unix下使用telnet（telnet ip 端口号）连接主机时提示Escape character is ^]。 1、这个提示的意思是按Ctrl ]会呼出telnet的命令行。 2、telnet…

阅读更多...

esp32 micropython oled实时时钟

esp32 micropython oled实时时钟

简介合宙esp32C3，128*64 I2C oled，硬件i2c,将下面两个py文件放入esp32. ssd1306.py是我优化后的，为了避免错误，使用我提供的ssd1306驱动只支持128*64的I2C oled 代码 main.py import network import urequests import ujso…

阅读更多...

推荐文章

最新文章