大数据,Hadoop,HDFS的简单介绍

大数据,Hadoop,HDFS的简单介绍

news2026/2/14 22:21:08

大数据

海量数据，具有高增长率、数据类型多样化、一定时间内无法使用常规软件工具进行捕捉、管理和处理的数据集

合

大数据的特征: 4V

Volume : 巨大的数据量

Variety : 数据类型多样化

结构化的数据 : 即具有固定格式和有限长度的数据

半结构化的数据 : 是一些 xml 或者 html 格式的数据

非结构化的数据 : 现在非结构化的数据越来越多，就是不定长、无固定格式的数据，例如网

页、语音、视频等

Velocity : 数据增长速度快, [vəˈlɒsəti]

Value : 价值密度低，商业价值高

大数据的处理:

数据采集，数据存储，数据清洗，数据分析，数据可视化。

核心就是 " 数据价值化 "

应用场景

存储和读取效率

分布式存储: 将一个数据集存储到多个硬盘里，然后并行读取

比如 1T 的数据，我们平均 100 份存储到 100 个 1TB 硬盘上，同时读取，那么读取完整个数

据集的时间用不上两分钟。至于硬盘剩下的 99% 的容量，我们可以用来存储其他的数据集，这样就不会产生浪费。解决读取效率问题的同时，我们也解决了大数据的存储问题。

存储大数据集----->>硬盘不够大、数据存储单份的安全隐患----->>分布式文件系统

快速分析大数据集----->>基于分布式文件系统的计算分析的编程框架模型

传统型关系数据库不适合存储非结构化数据------>>BigTable(适合存储结构化和半结构化数据)

Hadoop

Hadoop 是 Apache 基金会旗下 一个开源的分布式存储和分析计算平台 ，使用 java 语言开发，具有很好的跨平台性，可以运行在商用( 廉价 ) 硬件上，用户无需了解分布式底层细节，就可以开发分布式程序，充分使用集群的高速计算和存储

组成部分

面试必问

生态系统

Hadoop不仅仅是一个单一的软件，它是一个生态系统，意味着它包含了一系列的相关工具和框架，这些工具和框架可以相互配合使用，以支持不同类型的数据处理任务。

安装

CDH

使用CDH会简化Hadoop的安装,（Cloudera's Distribution Including Apache Hadoop）是由Cloudera公司提供的一种基于Apache Hadoop的大数据平台解决方案。它是一个企业级的发行版，旨在简化和优化Hadoop的部署、管理和使用.

CM 集群管理平台

(Cloudera Manager) 是一个功能全面的集群管理工具，它通过提供自动化的部署、配置、监控和管理功能，极大地简化了 Hadoop 集群的运维工作

HUE 开发平台

全称为Hadoop User Experience，是一个开源的Apache Hadoop UI系统，它为用户提供了一个在浏览器端与Hadoop集群进行交互的Web控制台.它提供了一个功能强大的SQL编辑器，用户可以编写、执行和调试SQL查询，支持自动完成、语法高亮和查询结果可视化。此外，Hue还内置了HDFS文件浏览器，用户可以方便地浏览、上传、下载和管理HDFS文件

Hue主要用于数据分析和处理，而Cloudera Manager则主要用于集群的管理和运维。

HDFS的结构图

HDFS的优点

1. 高容错性（硬件故障是常态）：数据自动保存多个副本，副本丢失后，会自动恢复

2. 适合大数据集：GB、TB、甚至PB级数据、千万规模以上的文件数量，1000以上节点规模(一台服务器/电脑是一个节点)

3. 构建成本低：Hadoop开源,并且可以构建在廉价机器上。

4. 多种软硬件平台中的可移植性

5. 高效性：Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。

HDFS的缺点

1. 不适合做低延迟数据访问(无法实时)：

HDFS适合处理大型数据集，高吞吐率。这一点以高延迟为代价的。因此HDFS不

适合处理用户要求的毫秒级的低延迟应用请求

2. 不适合小文件存取：

一是需要消耗大量的寻址时间，

第二, 无论块中文件大小, 文件的元数据所占的内存是相同的, 因此相对来说，大文件更省内存。如果文件太小,很可能导致元数据比文件本身还要大.

解决: 把多个小文件合并成大文件

3. 不适合并发写入，文件随机修改：

HDFS上的文件只能拥有一个写者，仅仅支持append操作。不支持多用户对同一个文件的写操作，以及在文件任意位置进行修改

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2279997.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

EAMM: 通过基于音频的情感感知运动模型实现的一次性情感对话人脸合成

EAMM: 通过基于音频的情感感知运动模型实现的一次性情感对话人脸合成

EAMM: 通过基于音频的情感感知运动模型实现的一次性情感对话人脸合成 1所有的材料都可以在EAMM: One-Shot Emotional Talking Face via Audio-Based Emotion-Aware Motion Model网站上找到。摘要尽管音频驱动的对话人脸生成技术已取得显著进展，但现有方法要么忽…

阅读更多...

基于STM32的智能门锁安防系统（开源）

基于STM32的智能门锁安防系统（开源）

目录项目演示项目概述硬件组成： 功能实现 1. 开锁模式 1.1 按键密码开锁 1.2 门禁卡开锁 1.3 指纹开锁 2. 功能备注 3. 硬件模块工作流程 3.1 步进电机控制 3.2 蜂鸣器提示 3.3 OLED显示 3.4 指纹与卡片管理项目源代码分析 1. 主程序流程 (main…

阅读更多...

2024年度总结：从后端Java到全栈成长的蜕变

2024年度总结：从后端Java到全栈成长的蜕变

目录前言1. 用数据与实践书写成长篇章2. 技术与生活的双重蜕变3. 技术的进阶与生活的绽放前言今年是我入行的第十年，也是记录在CSDN平台上的第五年。这五年来，我始终坚持记录成长的点滴，将个人事业与博客创作紧密相连。一路走来&#xff0…

阅读更多...

行人识别检测数据集，yolo格式，PASICAL VOC XML，COCO JSON,darknet等格式的标注都支持，准确识别率可达99.5%

行人识别检测数据集，yolo格式，PASICAL VOC XML，COCO JSON,darknet等格式的标注都支持，准确识别率可达99.5%

作者简介： 高科，先后在 IBM PlatformComputing从事网格计算，淘米网，网易从事游戏服务器开发，拥有丰富的C，go等语言开发经验，mysql，mongo，redis等数据库，设计模…

阅读更多...

Web3 游戏周报（1.13 - 1.19）

Web3 游戏周报（1.13 - 1.19）

回顾上周的区块链游戏概况，查看 Footprint Analytics 与 ABGA 最新发布的数据报告。【1.13–1.19】Web3 游戏行业动态索尼区块解决方案实验室 (Sony BSL) 宣布其以太坊 L2 区块链 Soneium 主网上线。Hyve Labs 融资 275 万美元，推动 Web3 游戏基础设…

阅读更多...

Java RSA加密工具类（含密钥对生成和根据私钥计算公钥）

Java RSA加密工具类（含密钥对生成和根据私钥计算公钥）

RSA算法是一种常用的非对称加密算法，它具有以下主要特点： 1.非对称性：RSA 使用一对密钥——公钥和私钥。公钥用于加密，私钥用于解密，也可以反过来使用私钥签名、公钥验证。相对于对称加密的单一密钥，非对称…

阅读更多...

无数据库开源Wiki引擎WikiDocs

无数据库开源Wiki引擎WikiDocs

简介什么是 WikiDocs ？ WikiDocs 是一个无数据库的开源 Markdown 文件平面 Wiki 引擎。它旨在提供一个简单、灵活且易于使用的 Wiki 解决方案，允许用户创建和管理文档而无需依赖传统数据库。主要特点无数据库：使用纯文本文件存储数据&am…

阅读更多...

Spring Boot 配置（官网文档解读）

Spring Boot 配置（官网文档解读）

目录摘要 Spring Boot 配置加载顺序配置文件加载顺序 Spring Boot 配置加载方式 Value Value 注解简单示例 ConfigurationProperties 启动 ConfigurationProperties ConfigurationProperties 验证 ConfigurationProperties 与 Value 对比 Autowired Autowired 自…

阅读更多...

Comment(爆破+git泄漏+二次注入)

Comment(爆破+git泄漏+二次注入)

通过爆破密码的后三位，获得账号为：zhangwei666 F12查看控制台使用bugscanteam的githack工具，下载泄漏的源码，根据控制台的提示，完整源码还在历史的commit中 git log –reflog 查看历史记录查看最新的提交记录&#…

阅读更多...

C++otlv4连接sql serveer使用记录（注意点）

C++otlv4连接sql serveer使用记录（注意点）

C使用otlv4在做插入时，有一些设计的坑需要注意插入数据： 当要给表中插入单个字符时，数据库表设计使用varchar(1)是合理的，但是otlv4一直报错char。后续查很久才知道，otlv4所写的绑定的字符数组的长度应该实际数组…

阅读更多...

2024又是一年的CSDN之旅-总结过去展望未来

2024又是一年的CSDN之旅-总结过去展望未来

一、前言一年就这样在忙忙碌碌的工作和生活中一晃而过，总结今年在CSDN上发表的博客，也有上百篇之多，首先感谢CSDN这个平台，能让我有一个地方记录工作中的点点滴滴，也在上面学到了不少知识，解决了工作中遇到…

阅读更多...

JDK长期支持版本（LTS）

JDK长期支持版本（LTS）

https://blogs.oracle.com/java/post/the-arrival-of-java-23 jdk长期支持版本（LTS）：JDK 8、11、17、21：

阅读更多...

大数据学习(37)- Flink运行时架构

大数据学习(37)- Flink运行时架构

&&大数据学习&& 🔥系列专栏： 👑哲学语录: 承认自己的无知，乃是开启智慧的大门 💖如果觉得博主的文章还不错的话，请点赞👍收藏⭐️留言📝支持一下博主哦&#x1f91…

阅读更多...

“AI 大模型内容安全审核软件系统：守护网络世界的卫士

“AI 大模型内容安全审核软件系统：守护网络世界的卫士

在如今这个信息爆炸的互联网时代，网络上的内容那是五花八门、层出不穷。这时候，咱就得靠 AI 大模型内容安全审核软件系统来给咱把把关了。咱就说社交媒体平台吧，每天都有海量的用户在上面发布文字、图片、视频啥的。要是没有一个靠谱的审核系…

阅读更多...

pyspark连接clickhouse数据库的方式(其它数据库同样适用）

pyspark连接clickhouse数据库的方式(其它数据库同样适用）

目录一、背景简记二、pyspark连接clickhouse方式记录三、结语参考学习博文一、背景简记实际工作中，大部分所用的数据存储地址都是在数据库中，如我司现在常用的数据库是clickhouse，相关数据的统计分析都在此上操作。如果想用pyspark连接cl…

阅读更多...

C 语言雏启：擘画代码乾坤，谛观编程奥宇之初瞰

C 语言雏启：擘画代码乾坤，谛观编程奥宇之初瞰

大家好啊，我是小象٩(๑ω๑)۶ 我的博客：Xiao Xiangζั͡ޓއއ 很高兴见到大家，希望能够和大家一起交流学习，共同进步。* 这一课主要是让大家初步了解C语言，了解我们的开发环境，main函数，库…

阅读更多...

nacos2.3.0 接入pgsql或其他数据库

nacos2.3.0 接入pgsql或其他数据库

首先尝试使用官方插件进行扩展，各种报错后放弃，不如自己修改源码吧。一、官方解决方案 1、nocos 文档地址：Nacos 配置中心简介, Nacos 是什么 | Nacos 官网 2、官方解答：nacos支持postgresql数据库吗 | Nacos 官网 3、源码下载地…

阅读更多...

随遇随记篇

随遇随记篇

vue 函数 unref() 获取原始值 ref 定义的属性需要 .value 才能拿到值，unref 直接返回原始值；若属性不是ref 定义的，也是直接返回原始值； /* description: 是否必填*/required?: boolean | Ref<boolean>.....let value …

阅读更多...

网站HTTP改成HTTPS

网站HTTP改成HTTPS

您不仅需要知道如何将HTTP转换为HTTPS，还必须在不妨碍您的网站自成立以来建立的任何搜索排名权限的情况下进行切换。为什么应该从HTTP转换为HTTPS？ 与非安全HTTP于不同，安全域使用SSL（安全套接字层）服务器上的加密代…

阅读更多...

微软Win10 RP 19045.5435(KB5050081)预览版发布!

微软Win10 RP 19045.5435(KB5050081)预览版发布!

系统之家1月20日最新报道，微软面向Release Preview频道的Windows Insider项目成员，发布了适用于Windows10 22H2版本的KB5050081更新，更新后系统版本号将升至19045.5435。本次更新增加了对GB18030-2022标准的支持，同时新版日历将为…

阅读更多...

推荐文章

最新文章