探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维

news2024/12/24 8:28:40

文章目录

  • 一 数据导论
  • 二 大数据的诞生
  • 三 大数据概论
    • 3.1 大数据的5V特征
      • 3.2 大数据的工作核心
  • 四 大数据软件生态
    • 4.1 数据存储软件
    • 4.2 数据计算软件
    • 4.3 数据传输软件
  • 五 Apache Hadoop概述
    • 5.1 Apache Hadoop框架
    • 5.2 Hadoop的功能
    • 5.3 Hadoop的发展
    • 5.4 Hadoop发行版本

一 数据导论

  • 数据:一种可以被鉴别的对客观事件进行记录的符号。简单来说就是:对人类的行为及产生的事件的一种记录。
  • 数据的价值:数据的背后都会隐藏着巨大的价值,丰富的数据支撑可以让我们更好的了解,事和物在现实世界的运行规律

  • 大数据时代:当下时代已经是数据的时代,数据非常重要并且蕴含巨大的价值
  • 大数据技术栈:对超大规模的数据进行处理并挖掘出数据背后的价值的技术体系

二 大数据的诞生

  • 大数据的诞生和信息化以及互联网的发展是密切相关的。
    在这里插入图片描述
  • 早期的计算机(上世纪70年代之前)大多数是相互独立的,各自处理各自的数据
    在这里插入图片描述
  • 上世纪70年代后,逐步出现了基于TCP/IP协议的小规模的计算机互联互通。但多数是军事、科研等用途
    在这里插入图片描述
  • 上世纪90年代左后,全球互联的互联网出现。个人、企业均可参与其中,真正逐步的实现了全球互联
    在这里插入图片描述
  • 在2000年后,互联网上的商业行为剧增。在互联网参与者众多的前提下,商业公司、科研单位等,所能获得的数据量也是剧增。
    在这里插入图片描述
  • 剧增的数据量,和羸弱的单机性能,让许多科技公司开始尝试以数量来解决问题。
    在这里插入图片描述
    在这里插入图片描述
  • 2008年之前,这些在当时较为”高端”的分布式技术基本上还处于大企业内部专用且不够成熟。
    在这里插入图片描述
  • 2008年 Apache Hadoop开源广大企业拥有了成熟的、开源的、分布式数据处理解决方案

Apache Hadoop 是一款开源的分布式处理技术栈为业界提供了

  • 基于Hadoop HDFS的:分布式数据存储技术
  • 基于Hadoop MapReduce的:分布式数据计算技术
  • 基于Hadoop YARN的:分布式资源调度技术
    Apache Hadoop的出现具有非常重大的意义:
  • 为业界提供了”第一款”企业级开源大数据分布式技术解决方案
  • 从Hadoop开始,大数据体系逐步建成,各类大数据技术不断出现
    在这里插入图片描述

三 大数据概论

  • 大数据的出现,本质上是为了解决海量数据的处理难题。
  • 大数据就是:使用分布式技术完成海量数据的处理,得到数据背后蕴含的价值。
    在这里插入图片描述
  • 狭义上:大数据是一类技术栈,是一种用来处理海量数据的软件技术体系。
  • 广义上:大数据是数字化时代、信息化时代的基础(技术)支撑,以数据为生活赋能。

3.1 大数据的5V特征

在这里插入图片描述
在这里插入图片描述

3.2 大数据的工作核心

  • 大数据的核心工作其实就是:从海量的高增长、多类别、低信息密度的数据中挖掘出高质量的结果
    在这里插入图片描述

四 大数据软件生态

在这里插入图片描述
大数据的核心工作:

  • 存储:妥善保存海量待处理数据
  • 计算:完成海量数据的价值挖掘
  • 传输:协助各个环节的数据传输
  • 所以大数据软件生态也是围绕工作重心展开的

4.1 数据存储软件

  • Apache Hadoop - HDFS
    在这里插入图片描述
    Apache Hadoop框架内的组件HDFS是大数据体系中使用最为广泛的分布式存储技术

  • Apache HBase
    在这里插入图片描述
    Apache HBase是大数据体系内使用非常广泛的NoSQL KV型数据库技术HBase是基于HDFS之上构建的。

  • Apache KUDU
    在这里插入图片描述
    Apache Kudu同样为大数据体系中使用较多的分布式存储引擎

  • 云平台存储组件
    各大云平台厂商也有相应的大数据存储组件,如阿里云的OSS、UCloud的US3、AWS的S3、金山云的KS3等等

4.2 数据计算软件

  • Apache Hadoop - MapReduce
    在这里插入图片描述
    • Apache Hadoop的MapReduce组件是最早一代的大数据分布式计算引擎对大数据的发展做出了卓越的贡献

  • Apache Hive
    在这里插入图片描述
    • Apache Hive是一款以SQL为要开发语言的分布式计算框架。其底层使用了Hadoop的MapReduce技术
    • Apache Hive至今仍活跃在大数据一线,被许多公司使用

  • Apache Spark
    在这里插入图片描述
    • Apache Spark是目前全球范围内最火热的分布式内存计算引擎。是大数据体系中的明星计算产品

  • Apache Flink
    在这里插入图片描述
    • Apache Flink同样也是一款明星级的大数据分布式内存计算引擎。特别是在实时计算(流计算)领域,Flink占据了大多数的国内市场。

4.3 数据传输软件

  • Apache Kafka
    在这里插入图片描述
    • Apache Kafka是一款分布式的消息系统,可以完成海量规模的数据传输工作。
    • Apache Kafka在大数据领域也是明星产品

  • Apache Pulsar
    在这里插入图片描述
    • Apache Pulsar同样是一款分布式的消息系统。在大数据领域同样有非常多的使用者。

  • Apache Flume
    在这里插入图片描述
    • Apache Flume是一款流式数据采集工具,可以从非常多的数据源中完成数据采集传输的任务。

  • Apache Sqoop
    在这里插入图片描述
    • Apache Sqoop是一款ETL工具,可以协助大数据体系和关系型数据库之间进行数据传输

五 Apache Hadoop概述

在这里插入图片描述

5.1 Apache Hadoop框架

  • Hadoop是Apache软件基金会下的顶级开源项目,用以提供:分布式数据存储、分布式数据计算、分布式资源调度为一体的整体解决方案。
  • Apache Hadoop是典型的分布式软件框架,可以部署在1台乃至成千上万台服务器节点上协同工作。个人或企业可以借助Hadoop构建大规模服务器集群,完成海量数据的存储和计算。

5.2 Hadoop的功能

  • 通常意义上,Hadoop是一个整体,其内部还会细分为三个功能组件,分别是:
    在这里插入图片描述
  • Hadoop是一个集合了:存储、计算、资源调度为一体的大数据分布式框架

5.3 Hadoop的发展

  • Hadoop创始人:Doug Cutting
    在这里插入图片描述
  • Hadoop起源于Apache Lucene子项目:Nutch
    • Nutch的设计目标是构建一个大型的全网搜索引擎。
    • 遇到瓶颈:如何解决数十亿网页的存储和索引问题
  • Google三篇论文
    • 《The Google file system》:谷歌分布式文件系统GFS
    • 《MapReduce: Simplified Data Processing on Large Clusters》:谷歌分布式计算框架MapReduce
    • 《Bigtable: A Distributed Storage System for Structured Data》:谷歌结构化数据存储系统

在这里插入图片描述

5.4 Hadoop发行版本

在这里插入图片描述

  • Apache开源社区版本
  • 商业发行版本
    • CDH(Cloudera’s Distribution, including Apache Hadoop) Cloudera公司出品,目前使用最多的商业版
    • HDP(Hortonworks Data Platform),Hortonworks公司出品,目前被Cloudera收购
    • 星环,国产商业版,星环公司出品,在国内政企使用较多

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/890790.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用Python批量将Word文件转为PDF文件

说明:在使用Minio服务器时,无法对word文件预览,如果有需要的话,可以将word文件转为pdf文件,再存储到Minio中,本文介绍如果批量将word文件,转为pdf格式的文件; 安装库 首先&#xff…

由于找不到msvcp140.dll无法继续执行代码是什么原因

使用计算机过程中,有时会遇到一些错误提示,其中之一就是关于msvcp140.dll文件丢失或损坏的错误。msvcp140.dll是Windows系统中非常重要的文件,是Microsoft Visual C Redistributable中动态链接库的文件,如果缺失或损坏&#xff0c…

Git 入门到熟悉

一、版本控制 1.1 什么是版本控制 版本控制(Revision control)是一种在开发的过程中用于管理我们对文件、目录或工程等内容的修改历史,方便查看更改历史记录,备份以便恢复以前的版本的软件工程技术。简单说就是用于管理多人协同开…

管理类联考——逻辑——真题篇——按知识分类——汇总篇——一、形式逻辑——三段论——第二节 规则

文章目录 第二节 三段论-规则题-三段论-规则-补前提-“特推特,否推否,两特两否无结论”得前提是“有的/所有”→所有概念出现两次→中项要周延。题-三段论-规则-补前提-“特推特,否推否,两特两否无结论”得前提是“有的/所有”→…

css 文字排版-平铺

序: 1、表格的宽度要有!!!!! 2、容器不能是display:inline 3、扩展---》node全栈框架 代码 text-align-last: justify; width: 70px; display: inline-block; 主要是用于表单左侧文字排序!

AI如何看待能力,学历,文凭

1 假设: {文凭}⊂{学历}⊂{能力} 2 证明: 首先,我们需要明确这些集合的定义和关系。 {能力}是一个包含各种能力的集合,例如学习能力、沟通能力、创新能力、领导能力和专业技能等。 {学历}是一个包含各种学历的集合&#xff0c…

ps安装找不到msvcp140.dll,分享msvcp140.dll丢失三个修复方法

当在安装PS(Adobe Photoshop)时遇到找不到msvcp140.dll的错误提示时,我首先感到有些困惑,因为这个错误可能会影响我使用某些程序或软件。但是,通过尝试不同的修复方法,我发现问题可以得到解决。 首先缺失ms…

Linux多线程【初识线程】

✨个人主页: 北 海 🎉所属专栏: Linux学习之旅 🎃操作环境: CentOS 7.6 阿里云远程服务器 文章目录 🌇前言🏙️正文1、什么是线程?1.1、基本概念1.2、线程理解1.3、进程与线程的关系…

[oneAPI] Neural Style Transfer

[oneAPI] Neural Style Transfer oneAPINeural Style Transfer特殊环境定义使用包加载数据Neural Style Transfer模型与介绍训练过程结果 比赛:https://marketing.csdn.net/p/f3e44fbfe46c465f4d9d6c23e38e0517 Intel DevCloud for oneAPI:https://devcl…

1609.奇偶数

目录 一、题目 二、代码 三、完整测试代码 一、题目 1609. 奇偶树 - 力扣(LeetCode) 二、代码 /*** Definition for a binary tree node.* struct TreeNode {* int val;* TreeNode *left;* TreeNode *right;* TreeNode() : val(0),…

【大数据Hive】hive 事务表使用详解

目录 一、前言 二、Hive事务背景知识 hive事务实现原理 hive事务原理之 —— delta文件夹命名格式 _orc_acid_version 说明 bucket_00000 合并器(Compactor) 二、Hive事务使用限制 参数设置 客户端参数设置 客户端参数设置 三、Hive事务使用操作演示 操作步骤 客…

电脑msvcr120.dll丢失怎么修复,msvcr120.dll怎么安装?

msvcr120.dll是Microsoft Visual C Redistributable的一部分,它是Windows操作系统中的一个动态链接库文件。这个文件包含了一些用于C编程的函数和资源,它们被许多应用程序用于提供特定的功能和服务。如果你在运行某个程序时遇到了缺少msvcr120.dll的错误…

AlexNet中文翻译

ImageNet classification with deep convolutional neural networks 原文链接:https://dl.acm.org/doi/abs/10.1145/3065386 目录 使用深度卷积神经网络进行 ImageNet 分类 摘要 1 简介 2 数据集 3 架构 3.1 ReLU非线性 3.2 多GPU上的训练 3.3 局部响应标准化 3.4 重…

centos安装elasticsearch7.9

安装es 下载elasticsearch安装包解压安装包,并修改配置文件解压进入目录修改配置文件 添加用户,并修改所有者切换用户,运行es如何迁移旧版本的数据 下载elasticsearch安装包 下载地址如下,版本号可以替换成自己想要的。 这里需要注意一点&am…

讯飞星火、文心一言和通义千问同时编“贪吃蛇”游戏,谁会胜出?

同时向讯飞星火、文心一言和通义千问三个国产AI模型提个相同的问题: “python 写一个贪吃蛇的游戏代码” 看哪一家AI写的程序直接能用,谁就胜出! 讯飞星火 讯飞星火给出的代码: import pygame import sys import random# 初…

上海亚商投顾盘:沪指震荡反弹 机器人概念股掀涨停潮

上海亚商投顾前言:无惧大盘涨跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。 市场情绪 三大指数今日震荡反弹,科创50盘中涨超1%。机器人概念股掀涨停潮,通力科技、昊志机电、哈焊…

java接口导出csv

1、背景介绍 项目中需要导出数据质检结果,本来使用Excel,但是质检结果数据行数过多,导致用hutool报错,因此转为导出csv格式数据。 2、参考文档 https://blog.csdn.net/ityqing/article/details/127879556 工程环境:…

Spring Clould 网关 - Gateway

视频地址:微服务(SpringCloudRabbitMQDockerRedis搜索分布式) Gateway网关-网关作用介绍(P35) Spring Cloud Gateway 是 Spring Cloud 的一个全新项目,该项目是基于 Spring 5.0,Spring Boot 2…

The coming up production issues

Introduction Ladies and gentlemen, give it up for the wonderful world of software production ! Now, I know that what youre thinking. "Software production!?" That sounds exciting, well, let me tell you, its a rollercoaster(过山车、剧烈起伏的事物…

【第六讲---非线性优化】

优化与优化库 优化问题 👉优化问题组成 优化对象目标函数/损失函数/评价函数约束条件 👉分类 可以分为凸优化和非凸优化 什么是凸优化呢? 目标函数是凸的(有单一极值点称为是凸的)不等式约束是凸的所在的空间是凸…