大数据与Hadoop入门理论

news2024/11/16 21:40:40

一、大数据的3种数据类型

在这里插入图片描述

1、结构化数据

可定义,有类型、格式、结构的强制约束
如:RDBMS(关系型数据库管理系统)
在这里插入图片描述

2、非结构化数据

没有规律没有数据约束可言,很复杂难以解析
如:文本文件,视频,音频,PDF文件,各种类型文件,图片,邮件等
在这里插入图片描述

3、半结构化数据

一定的格式约束但是不多
如: csv,xml,json,html文件,拥有开标签闭标签规定但是中间内容不确定
在这里插入图片描述

二、大数据4V特征

在这里插入图片描述

1、Volume 大量性

数据量大,包括采集、存储和计算的量都非常大。

2、Velocity高速性

数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。

3、Variety 多样性

种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。

4、Veracity 真实性、精准性

数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。数据的准确性和可信赖度,即数据的质量。数据不一定完整,有一定缺陷

在这里插入图片描述

三、什么是Hadoop?

在这里插入图片描述

1、Apache公司用Java开发的一种开源框架
2、可以进行大数据的分布式存储(HDFS)+分布式处理(MapReduce)
3、使用自身电脑资源,进行并行化数据处理,代码处理模式简单

四、Hadoop内部框架

在这里插入图片描述

1、Hadoop Common

Hadoop的通用类,Hadoop是基于Java开发的,所以需要一些Java的库和实体类的支持

2、HDFS

HDFS 全称为Hadoop Distribute File System,中文名为Hadoop分布式文件系统, 用于文件的存储

3、MapReduce

MapReduce是分布式处理框架,分为Map和Reduce两部分,用于数据处理

4、YARN

YARN全称为 Yet Another Resource Negotiate,中文名为另一个资源协调者,用于作业管理和资源调度

五、YARN例子讲解

1、作业管理

比如,班级里需要搬凳子搬桌子擦窗子,班长可以安排1-5号同学搬凳子,安排6-10号同学搬桌子,安排11-15号同学擦窗子。这个班长(Yarn),安排不同的人(电脑)做不同的事情(作业)

2、资源调度

1-5号同学搬凳子,有男有女,男同学力气大所以每人搬10张,女生力气小所以每人搬2张,6-10号同学搬桌子,有男有女,男同学力气大所以每人搬10张,女生力气小所以每人搬2张,11-15号同学擦窗子,有男有女,男同学体力好所以每人擦3扇,女生体力差所以每人擦1扇,这个过程就是资源调度,班长(Yarn)安排男生(性能好的电脑,空闲的电脑)多干点,安排女生(性能差点的电脑,繁忙的电脑)少干点。

六、Hadoop Cluster (Hadoop集群)

在这里插入图片描述

1、Hadoop集群的架构为“”“”架构
2、由一台电脑作为主电脑,其他多台电脑作为从电脑相互关联组成
3、主电脑的配置一般比较好性能比较高,从电脑一般是市面上的普通商品电脑,性能普通
4、在Hadoop中后续会将电脑称之为“节点”

七、Hadoop Cluster Detail(Hadoop集群详解)

在这里插入图片描述

1、Hadoop集群的主从架构

主节点叫做NameNode,从节点叫做DataNode

2、从节点用于数据的实际存放

数据存放时会将文件首先进行拆块(split block),不同的块(block)文件会存放在不同的从节点中,Hadoop1.x版本中,块的默认大小为64MB,Hadoop2.xHadoop3.x中,默认块大小为128MB

3、主节点用于记录数据,不用于存放数据

主节点中有一个MetaData文件,叫做元数据文件,也被称为记录数据的数据文件,一般记录分块文件信息,块名字信息,块大小信息,块路径信息,等等。

八、Hadoop 历史

1、Hadoop创始人叫Doug Cutting2006年Hadoop问世
2、Hadoop的图标是他儿子的大象玩具

九、Hadoop 4种安装模式

1、Local runtime mode 单机模式

一般用于测试和debug,无进程

2、Pseudo-distributed operating mode 伪分布模式

一般用于学习,一台机器上有一个主节点一个从节点和其他环境

3、Fully distributed operating mode 全分布模式

多台机器,一台作为主节点,其他作为从节点,完全符合Hadoop集群架构

4、High availability(HA) operating mode 高可用模式

保证Hadoop的一切运行顺利,有两个主节点其中一个是备份

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1065766.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第86步 时间序列建模实战:Transformer回归建模

基于WIN10的64位系统演示 一、写在前面 这一期,我们介绍Transformer回归。 同样,这里使用这个数据: 《PLoS One》2015年一篇题目为《Comparison of Two Hybrid Models for Forecasting the Incidence of Hemorrhagic Fever with Renal Sy…

Casdoor系统static任意文件读取漏洞

文章目录 Casdoor系统static任意文件读取漏洞复现0x01 前言0x02 漏洞描述0x03 影响平台0x04 漏洞环境0x05 漏洞复现1.访问漏洞环境2.构造POC3.复现 Casdoor系统static任意文件读取漏洞复现 0x01 前言 免责声明:请勿利用文章内的相关技术从事非法测试,由…

郁金香2021年游戏辅助技术中级班(七)

郁金香2021年游戏辅助技术中级班(七) 058-C,C写代码HOOK分析封包数据格式A059-C,C写代码HOOK分析封包数据格式B-detours劫持060-C,C写代码HOOK分析封包数据格式C-过滤和格式化061-C,C写代码HOOK分析封包数据格式D-写入配置文件062-C,C写代码HOOK分析封包…

容器运行elasticsearch安装ik分词非root权限安装报错问题

有些应用默认不允许root用户运行,来确保应用的安全性,这也会导致我们使用docker run后一些操作问题,用es安装ik分词器举例(es版本8.9.0,analysis-ik版本8.9.0) 1. 容器启动elasticsearch 如挂载方式&…

第二证券:A股“业绩底”已现?两大板块被看好

9月,A股商场经历了一段明显的缩量下跌,成交量持续萎缩,增量资金不足,商场“痛感”激烈。跟着国庆十一长假结束,2023年四季度正式敞开,大都分析人士和私募安排都认为,国内经济预期转好将为A股商场…

蓝桥杯每日一题2023.10.7

跑步锻炼 - 蓝桥云课 (lanqiao.cn) 题目描述 题目分析 简单枚举&#xff0c;对于2的情况特判即可 #include<bits/stdc.h> using namespace std; int num, ans, flag; int m[13] {0, 31, 28, 31, 30, 31, 30, 31, 31, 30, 31, 30, 31}; bool is_ren(int n) {if((n %…

3d渲染农场全面升级,好用的渲染平台值得了解

什么是渲染农场&#xff1f; 渲染农场是专门从事 3D 渲染的大型机器集合&#xff0c;称为渲染节点&#xff0c;这些机器组合在一起执行一项任务&#xff08;渲染 3D 帧和动画&#xff09;。通过将渲染工作分配给数百台机器&#xff0c;可以显着减少渲染时间&#xff0c;从而使…

STM32F030在使用内部参考电压 (VREFINT)时与STM32G070的区别

背景&#xff1a; 之前使用过STM32G070的内部参考电压来提升ADC采集的准确度&#xff08;STM32使用内部参考电压提高ADC采集准确度&#xff09;&#xff0c;所以本次使用STM32F030的芯片时直接把之前G070的代码拿过来用了&#xff0c;但是出现了问题。 查找资料发现两者不同&am…

go语言判断管道是否关闭的误区

前言 本文是探讨的是"在Go语言中&#xff0c;我们是否可以使用读取管道时的第二个返回值来判断管道是否关闭?" 样例 在Go语言中&#xff0c;我们是否可以使用读取管道时的第二个返回值来判断管道是否关闭? 可以看下面的代码 package mainimport "fmt"…

步进电机S曲线驱动模块

一、电路 带有CAN及485接收&#xff0c;三个光耦接口&#xff0c;TMC2660电机驱动芯片&#xff0c;stm32f103的主控芯片 二、协议 一般来说&#xff0c;板子之间的通信协议格式通常为&#xff1a; 内容 帧头 长度 类型1 类型2 Data 校验 帧尾 字节数 1 1 1 1 N 2 1 帧头为0xB…

二叉树--二叉树最大深度

文章前言&#xff1a;如果有小白同学还是对于二叉树不太清楚&#xff0c;作者推荐&#xff1a;二叉树的初步认识_加瓦不加班的博客-CSDN博客 二叉树最大深度-力扣 104 题 &#xff08;不知道“后序遍历”的小白同学&#xff0c;请先看&#xff1a;二叉树的初步认识_加瓦不加班…

组件的挂载和渲染

React的挂载和渲染 React的生命周期中包括三个主要的阶段&#xff1a;挂载、渲染以及卸载。 很多小伙伴包括我自己可能对挂载和渲染的概念比较模糊&#xff0c;今天这篇文章主要的目的是为了解答我们的这个小疑惑~ 这张图是从其他地方搬运过来的&#xff0c;这张图中描述的主…

直播间自动点赞第一章:MouseEvent 实现根据坐标X,Y自动点击浏览器的效果

最终项目 制作一个自动点赞的浏览器插件&#xff0c;可以根据用户指定一个浏览器区域&#xff0c;进行自动化点击&#xff0c;其中可以设置参数&#xff1a;点击频率、指定区域。 本章节效果 指定了一块区域&#xff0c;进行点击&#xff0c;这边是模拟直播间实现自动化点击 …

【Java 进阶篇】JDBC数据库连接池Druid工具类详解

在Java应用程序中&#xff0c;数据库连接是一种重要的资源&#xff0c;因为每次创建和销毁数据库连接都会产生开销&#xff0c;降低了系统性能。为了高效地管理数据库连接&#xff0c;降低资源消耗&#xff0c;常常使用数据库连接池。Druid是一个功能强大的数据库连接池&#x…

成品短视频App源码:10个最热门的功能模块详解

作为成品短视频App源码领域的专家&#xff0c;我将为您揭开成品短视频App的神秘面纱。在这篇文章中&#xff0c;我将详细介绍这热门应用背后的10个最受欢迎的功能模块。无论您是想开发一款创新的短视频App&#xff0c;还是寻找适合您业务的现成解决方案&#xff0c;本文都会为您…

递归

欢迎来到Cefler的博客&#x1f601; &#x1f54c;博客主页&#xff1a;那个传说中的man的主页 &#x1f3e0;个人专栏&#xff1a;题目解析 &#x1f30e;推荐文章&#xff1a;题目大解析&#xff08;3&#xff09; 目录 &#x1f449;&#x1f3fb;汉诺塔 &#x1f449;&…

C#Winform新建工程

C#Winform新建工程 选择创建新项目 搜索窗体 填写工程名称和位置

第四课 递归、分治

文章目录 第四课 递归、分治lc78.子集--中等题目描述代码展示 lc77.组合--中等题目描述代码展示 lc46.全排列--中等题目描述代码展示 lc47.全排列II--中等题目描述代码展示 lc226.翻转二叉树--简单题目描述代码展示 lc98.验证二叉搜索树--中等题目描述代码展示 lc104.二叉树的最…

八、Thymeleaf链接表达式

链接表达式使用&#xff20;符开头&#xff0c;用于描述一个URL&#xff0c;url可以是相对的&#xff0c;也可以是绝对的。当为相对路径时&#xff0c;此表达式用于在指定的URI前拼接项目的根路径&#xff0c;相当于request.getContextPath()。当为绝对路径时&#xff0c;路径按…

纳百川冲刺创业板上市:计划募资约8亿元,宁德时代为主要合作方

近日&#xff0c;纳百川新能源股份有限公司&#xff08;下称“纳百川”&#xff09;向深交所创业板递交的上市申请材料获得受理&#xff0c;浙商证券为其独家保荐人。 本次冲刺上市&#xff0c;纳百川计划募资8.29亿元&#xff0c;将用于纳百川&#xff08;滁州&#xff09;新能…