1.大数据概述

news2024/10/6 6:02:25

目录

  • 概述
  • hadoop
    • hadoop 模块
    • hadoop 发行版
      • apache社区版本
      • CDP(CDH+HDP)
      • 其它云产商
      • 框架选择
    • hadoop 安装
  • 结束

概述

先了解几个常用的网站

  • apache 官网
  • hadoop 官网
  • hadoop github
  • https://github.com/apache/xxx [https://github.com/apache/spark (example)]

hadoop

hadoop 模块

hadoop 包含了四块内容,如下图
在这里插入图片描述

  • Hadoop Common 通用工具(其实也不能算一个模块)
  • HDFS 分布式文件系统
  • Hadoop YARN 任务调试与集群资源管理
  • Hadoop MapReduce 基于 YARN 的分布式大数据处理系统 (后面使用 hive、spark 、flink)

注意:hadoop官方文档就是基本上按这四个模块讲述的,在此点出,方便想阅读的同学,更能系统有脉络的阅读。具体参考下面的图

在这里插入图片描述

hadoop 狭义上就已代表了 大数据 的基础生态。

hadoop 发行版

apache社区版本

至 hadoop 官网进行下载

缺点:

  • 1.组件之间 jar 包冲突问题,组件只保证了自己无问题,并没有测试组件之间是否有版本冲突,特别是组件选择各自版本的时候。这种情况是比较恶心的。
  • 2.有问题,也不容易定位,网上相同的报错,不一定是同一种情况导致的,所以有时候,看别人这样是解决了,但自己同样配置,不能生效。

CDP(CDH+HDP)

最大的问题就是收费,一年下来,费用也是不少。

其它云产商

阿狸、华为等等。

框架选择

选择框架根据以下条件

  • 社区活跃度
  • 框架在业界的使用程度

对于 Hadoop MapReduce 的替代品有很多,Hive、Spark、Flink。根据功能侧重的点不同,都是需要的存在,可以通过 Kyuubi 这类 网关 统一整合起来。

hadoop 安装

文章名称链接
hadoop安装基础环境安装一地址
hadoop一主三从安装地址

后续,会有 HAk8s 上部署的相关文章。

结束

至此,大数据概述至此就结束了,如有疑问,欢迎评论区留言。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1359855.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【计算机算法设计与分析】棋盘覆盖问题(C++_分治法)

文章目录 题目描述测试样例算法原理算法实现参考资料 题目描述 在一个 2 k 2 k 2^k \times 2^k 2k2k个方格组成的棋盘中,若恰有一个方格与其他方格不同,则称该方格为一个特殊方格,且称该棋盘为一个特殊棋盘。显然,特殊方格在棋…

论文阅读: Semantics-guided Triplet Loss

ICCV 2021 Abstract 一个度量学习方法,通过浏览语义引导的局部集合去优化内在深度表示。一个新颖的特征融合模块能有效利用跨模态特异质特征。 Senantics-guided Triplet Loss 基本假设: 在场景语义分割图像中,目标内部相邻像素拥有同样…

书生·浦语大模型全链路开源体系(陈恺|上海人工智能实验室 青年科学家)-听课笔记

大模型重要性 大模型确实已成为发展通用人工智能(AGI)的重要途径。它们通过整合和处理大量数据,学习语言、图像、声音等多种模式的表示,以此来模拟人类的学习和思维方式。通过不断地学习和优化,这些模型能够在各种任…

基于SSM的人事档案管理系统的设计与实现

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:采用JSP技术开发 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目&#x…

Fiddler抓取https原理?

首先fiddler截获客户端浏览器发送给服务器的https请求, 此时还未建立握手。 第一步, fiddler向服务器发送请求进行握手, 获取到服务器的CA证书, 用根证书公钥进行解密, 验证服务器数据签名, 获取到服务器C…

各类Java对象

相关概念的混淆 在某一时间段,人们对某种编程困境感到烦恼,不少人脑中产生了一种新开发方式的概念 一些代表人物提出了他们的意见,而同一时期可能又不少人对同一问题,用自己的不同语言提出不同概念 如果又官方组织维护概念&#x…

CSS新增文本描边-text-stroke属性

-webkit-text-stroke属性 概念:-webkit-text-stroke属性为文本添加描边效果。所谓的描边效果,指的是给文字添加边框 语法: -webkit-text-stroke:width color;Chrome和Firefox这两个浏览器都只能识别带有-webkit前缀的text-stroke属性 -web…

科锐16位汇编学习笔记 02 分段,机器码和寻址

分段 问题1 8086是16位cpu,最多可以访问(寻址)多大内存? - 运算器一次最多处理16位的数据。 - 地址寄存器的最大宽度为16位。 - 访问的最大内存为:216 64K 即 0000 - FF…

UOS下通过SSH隧道访问云端内网windows桌面

1 用户痛点 随着时代的发展,众多企业的服务器慢慢走向云端。大量云端服务器节省企业成本的同时,也带来了安全性问题。例如:管理云端的服务器,特别是windows桌面服务器,往往需要给这个服务器分配一个公网IP地址&#x…

ReCAPTCHA 解决方案的自动识别和解决方法

ReCAPTCHA,作为广泛使用的安全措施,旨在区分人类和自动化机器人。然而,技术的进步导致了自动识别和解决 ReCAPTCHA 挑战的方法的发展。在本文中,我们将探讨自动 ReCAPTCHA 识别和解决技术的概念,以及创新解决方案 Caps…

[附代码]稳态视觉诱发电位SSVEP之预训练模型提高性能

SSVEP 之深度学习 深度学习已经被广泛运用在脑电信号分析来提高脑机接口的性能,这是一个end-to-end的方法,简单来说,只要搭建好深度学习网络,做好特征工程,然后分类即可,对于一个刚刚接触脑机接口领域深度学习的学习者来说,可以先忽略中间的数学相关的东西,先建一个网…

【Java 进阶篇】Nginx 使用详解:搭建高性能的 Web 服务器

在互联网的世界里,Web 服务器是我们访问网站、获取信息的入口。Nginx(发音"engine x")作为一款轻量级、高性能的 Web 服务器和反向代理服务器,因其出色的性能和可扩展性而备受推崇。本文将围绕 Nginx 的使用进行详解&am…

十大电脑屏幕监控软件超全盘点!

电脑屏幕已经成为我们工作、学习和生活中不可或缺的一部分。然而,随着人们对电脑使用的日益频繁,电脑屏幕监控软件也应运而生,成为了企业和个人用户进行电脑管理和监控的重要工具。 本文将为您盘点十大电脑屏幕监控软件,帮助您了…

Vue学习计划-Vue3--核心语法(一)OptionsAPI、CompositionAPI与setup

1. OptionsAPI与CompositionAPI Vue2的API设计是Options(配置)风格的Vue3的API设计是Composition(组合)风格的 Options API的弊端: Options类型的API,数据、方法、计算属性等,是分散在:data、methods、computed中的,若…

前缀和算法模板

一维前缀和 算法用途:快速求出数组中某一连续区间的和 一维前缀和算法模板 1、预处理出一个 dp 数组 要求原数组存储在 n 1 的空间大小中,其中后 n 个空间存数据。 dp数组,数组开 n 1个空间,dp[i] 表示 [ 1, i ] 区间内所有…

主题-----读微信公众号

1.SOA 面向服务的架构(Service-Oriented Architecture,SOA)还没有一个公认的定义。许多组织从不同的角度和不同的侧面对 SOA 进行了描述,较为典型的有以下三个: (1)W3C 的定义:SOA 是…

机器学习库【03】:-NumPy-算术运算

一、说明 与常规数学一样,数组算术本质上是关于加法、减法、乘法和除法。在 中NumPy,此类操作是按元素执行的 [2]: NumPy 是 Numerical Python 的缩写,是 Python 生态系统中一个功能强大的库,它提供对大型多维数组和矩阵的支持,以及对这些数组进行操作的数学函数集合。Nu…

Guava Cache 异步刷新技巧,你值得拥有!

以下文章来源于勇哥Java实战 ,作者勇哥 Guava Cache是一款非常优秀的本地缓存框架。 这篇文章,我们聊聊如何使用 Guava Cache 异步刷新技巧带飞系统性能 。 1 经典配置 Guava Cache 的数据结构跟 JDK1.7 的 ConcurrentHashMap 类似,提供了基…

Springcloud alibab和dubbo有什么区别?

Spring Cloud Alibaba 和 Dubbo 都是为了简化企业级应用开发而生的框架,尤其是在分布式系统和微服务架构的背景下。 虽然他们在某些功能上有重叠,但各有侧重点和使用场景。 微服务架构图 首先介绍一下 Spring Cloud Alibaba: Spring Cloud …

【c语言】指针小结

一、指针是什么? 可以通过运算符&来取得变量实际保存的 起始地址 。 (这个地址是虚拟地址,并不是真正物理内存上的地址。) 数据类型 *标识符 &变量; int *pa &a; int *pa NULL; (NULL表示地址为0的内存空间&a…