1.2 Hadoop简介-hadoop-最全最完整的保姆级的java大数据学习资料

news2024/9/21 18:37:06

文章目录

    • 1.2 Hadoop简介
      • 1.2.1 什么是Hadoop
      • 1.2.2 Hadoop的起源
      • 1.2.3 Hadoop的特点
      • 1.2.4 Hadoop的发行版本
      • 1.2.5 Apache Hadoop版本更迭
      • 1.2.6 第六节 Hadoop的优缺点

1.2 Hadoop简介

1.2.1 什么是Hadoop

​ Hadoop 是一个适合大数据的分布式存储和计算平台

​ 如前所述,狭义上说Hadoop就是一个框架平台,广义上讲Hadoop代表大数据的一个技术生态 圈,包括很多其他软件框架

Hadoop生态圈技术栈

​ Hadoop(HDFS + MapReduce + Yarn)

​ Hive 数据仓库工具

​ HBase 海量列式非关系型数据库

​ Flume 数据采集工具

​ Sqoop ETL工具

​ Kafka 高吞吐消息中间件

​ …

1.2.2 Hadoop的起源

Hadoop 的发展历程可以用如下过程概述:
Nutch —> Google论文(GFS、MapReduce)—> Hadoop产生 —> 成为Apache顶级项目—> Cloudera公司成立(Hadoop快速发展)

  • Hadoop最早起源于Nutch,Nutch 的创始人是Doug Cutting
    Nutch 是一个开源 Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题
  • 2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。GFS,可用于处理海量网页的存储;MapReduce,可用于处理海量网页的索引计算问题

​ Google的三篇论文(三驾马车)
​ GFS:Google的分布式文件系统(Google File System)
​ MapReduce:Google的分布式计算框架
​ BigTable:大型分布式数据库
​ 发展演变关系:
​ GFS —> HDFS
​ Google MapReduce —> Hadoop MapReduce
​ BigTable —> HBase

  • 随后,Google公布了部分GFS和MapReduce思想的细节,Doug Cutting等人用2年的业余时间实 现了DFS和MapReduce机制,使Nutch性能飙升
  • 2005年,Hadoop 作为Lucene的子项目Nutch的一部分引入Apache
  • 2006年,Hadoop从Nutch剥离出来独立
  • 2008年,Hadoop成为Apache的顶级项目
  • Hadoop这个名字来源于Hadoop之父Doug Cutting儿子的毛绒玩具象

在这里插入图片描述

1.2.3 Hadoop的特点

在这里插入图片描述

1.2.4 Hadoop的发行版本

​ 目前Hadoop发行版非常多,有Cloudera发行版(CDH)、Hortonworks发行版、华为发行版、 Intel发行版等,所有这些发行版均是基于Apache Hadoop衍生出来的,之所以有这么多的版本,是由Apache Hadoop的开源协议决定的(任何人可以对其进行修改,并作为开源或商业产品发布/销售)

​ 企业中主要用到的三个版本分别是:Apache Hadoop版本(最原始的,所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称“CDH”)、 Hortonworks版本(Hortonworks Data Platform,简称“HDP”)。

  • Apache Hadoop 原始版本
    官网地址:http://hadoop.apache.org/
    优点:拥有全世界的开源贡献,代码更新版本比较快
    缺点:版本的升级,版本的维护,以及版本之间的兼容性,学习非常方便
    Apache所有软件的下载地址(包括各种历史版本):http://archive.apache.org/dist/
  • 软件收费版本ClouderaManager CDH版本 --生产环境使用
    官网地址:https://www.cloudera.com/
    Cloudera主要是美国一家大数据公司在Apache开源Hadoop的版本上,通过自己公司内部的各种补丁,实现版本之间的稳定运行,大数据生态圈的各个版本的软件都提供了对应的版本,解决了版本的升级困难,版本兼容性等各种问题,生产环境强烈推荐使用
  • 免费开源版本HortonWorks HDP版本–生产环境使用
    官网地址:https://hortonworks.com/
    hortonworks主要是雅虎主导Hadoop开发的副总裁,带领二十几个核心成员成立Hortonworks, 核心产品软件HDP(ambari),HDF免费开源,并且提供一整套的web管理界面,供我们可以通过web界面管理我们的集群状态,web管理界面软件HDF网址(http://ambari.apache.org/)

1.2.5 Apache Hadoop版本更迭

0.x 系列版本:Hadoop当中最早的一个开源版本,在此基础上演变而来的1.x以及2.x的版本
1.x 版本系列:Hadoop版本当中的第二代开源版本,主要修复0.x版本的一些bug等
2.x 版本系列:架构产生重大变化,引入了yarn平台等许多新特性
3.x 版本系列:EC技术、YARN的时间轴服务等新特性

在这里插入图片描述

1.2.6 第六节 Hadoop的优缺点

Hadoop的优点

  • Hadoop具有存储和处理数据能力的高可靠性。
  • Hadoop通过可用的计算机集群分配数据,完成存储和计算任务,这些集群可以方便地扩展到数以千计的节点中,具有高扩展性。
  • Hadoop能够在节点之间进行动态地移动数据,并保证各个节点的动态平衡,处理速度非常快,具有高效性。
  • Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配,具有高容错性。

Hadoop的缺点

  • Hadoop不适用于低延迟数据访问。
  • Hadoop不能高效存储大量小文件。
  • Hadoop不支持多用户写入并任意修改文件。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/58058.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

html5期末大作业:基于HTML+CSS技术实现——传统手工艺术雕刻网站(3页)

🎉精彩专栏推荐 💭文末获取联系 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业: 【📚毕设项目精品实战案例 (10…

深度强化学习的组合优化[1] 综述阅读笔记

文章目录前言零、组合优化问题基础1. 定义(1)定义(2)常见问题2. 方法(1)精确方法(2)近似方法(3)深度学习方法3. 文章架构一、概述1. 神经网络(1&a…

【图文教程】若依前后端分离版本-菜单怎么设置

在使用若依前后端分离版本作为基础架构的时候,需要新建菜单怎么操作?本文凯哥将详细讲解怎么添加。 1:登录若依系统后,[系统管理]>>[菜单] 先新建一个一级菜单。可以模仿【系统管理】菜单来创建: 系统菜单&am…

226.翻转二叉树

226.翻转二叉树 题目 给你一棵二叉树的根节点 root ,翻转这棵二叉树,并返回其根节点。 示例 1 输入:root [4,2,7,1,3,6,9] 输出:[4,7,2,9,6,3,1]示例 2: 输入:root [2,1,3] 输出:[2,3,…

神器必会!特别好使的编辑器Source Insight

已剪辑自: https://mp.weixin.qq.com/s/nA9VJeMjC4gDpDSI8r-2FA “Source Insight(以下简称SI)是世界上最好的编辑器”,说这句话不知道会不会出门被打呢?-_- 中国古话说得好,“文无第一,武无第二”&#x…

都2202年了,不会有人还不会发布npm包吧

背景 介绍了axios的二次封装用于支持常规请求及自定义请求,并对同一时间内的相同请求做拦截处理(如果您没有阅读过这篇文章,建议您花费3分钟大致了解)。恰逢最近准备写一个跨框架组件库(工作量很大,前端三…

浏览器存储(webStorage)常用API以及简单使用

前言 最近正值世纪杯期间,不知道大家心目中的球队成绩如何,在此期间我学了浏览器存储(webStorage)以及API,下面就分享给大家 浏览器存储(webStorage) 存储内容不是Vue团队打造的,原本的js中就有,所以可以不适用脚手架编译&…

UGUI性能优化学习笔记(番外)一些零星的优化点

一、Overdraw 1.1 什么是Overdraw overdraw也就是过度绘制,是指在每个渲染周期内,屏幕上每个像素最理想只渲染一次,但是由于UI元素的重叠会导致像素会被渲染多次,每次渲染从CPU阶段到GPU阶段会消耗大量资源,如果这种…

[附源码]计算机毕业设计JAVA学习资源共享与在线学习系统

[附源码]计算机毕业设计JAVA学习资源共享与在线学习系统 项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: S…

Spring统一异常处理捕获不到CompletableFuture异步编排中的异常的问题

Spring统一异常处理捕获不到CompletableFuture异步编排中的异常的问题Spring统一异常处理捕获不到CompletableFuture异步编排中的异常的问题Spring统一异常处理简单例子多线程无法捕获场合正常场合(不使用异步编排)代码ServiceImExcpHandlerController结…

2023最新SSM计算机毕业设计选题大全(附源码+LW)之java高校车辆租赁管理系统23qhn

要开始我们毕业设计的第一步的关键就是选好我们的课题,有的同学开始选题的时候想着按照传统的课题延续下去,在设计题目时,不要过于笼统广泛,选择题目其实并不难,要多从自身的角度出发,要结合你们当前所处的…

【java】网络编程

文章目录网络编程概述基本概念IP地址概念InetAddress端口与协议概念UDP通信编程UDP发送数据UDP接受数据UDP通信程序练习TCP通信编程TCP发送数据TCP接收数据TCP通信程序练习网络编程概述 基本概念 IP地址概念 终端检查: InetAddress package heima.网络编程;impor…

nginx配置文件 location语法

1:nginx官方文档给出location语法如下: location [|~|~*|^~] uri { ....... }2:路径匹配 开头表示精确匹配。如 A 中只匹配根目录结尾的请求,后面不能带任何字符串;^~ 开头表示uri以某个常规字符串开头,不是…

字符串中第二大的数字(遍历)

力扣链接:力扣 给你一个混合字符串 s ,请你返回 s 中 第二大 的数字,如果不存在第二大的数字,请你返回 -1 。 混合字符串 由小写英文字母和数字组成。 示例 1: 输入:s "dfa12321afd" 输出&…

Keras生成式学习(五)

生成式深度学习 生成式学习即创造学习,深度学习开始创造 一、使用LSTM 生成文本 给定前面的标记(token,通常是单词或字符),能够对下一个标记的概率进行建模的任何网络都叫作语言模型(language model&…

Android Camera性能分析 - 第25讲 CameraServer LatencyHistogram简介

本讲是Android Camera性能分析专题的第25讲 ​,我们介绍CameraServer LatencyHistogram简介,包括如下内容: LatencyHistogram是什么CameraServer默认有哪些Latency的Histogram如何获取CameraLatencyHistogram数据CameraLatencyHistogram类详…

Java项目:SSM CRM人事管理系统

作者主页:源码空间站2022 简介:Java领域优质创作者、Java项目、学习资料、技术互助 文末获取源码 项目介绍 CRM人事管理系统,主要功能有: 用户管理:用户查询、添加用户、编辑、删除; 职位管理&#xff1a…

Java基于springboot+vue的防护用品销售购物商城系统 前后端分离

开发背景 随着近些年疫情的爆发人们对个人医疗相关防护也越来越重视了,尤其是在疫情开始之初,人们对疫情感受到非常的恐慌,虽然在国家和领导人的领导下疫情一次次的得到了控制,但是我们还是要做好个人防护,为了让更多…

5、Linux文件系统

目录 1、万事万物皆文件 2、Linux二级文件目录 3、Linux的文件操作 4、读取文件信息 在Linux中万物皆文件 1、万事万物皆文件 1)在Linux中,所有的东西都是以文件的方式进行操作 2)在Linux中,文件的访问和Window的不一样。window依靠的是通过盘符进…

Tomcat经验2

背景 资产系统与财务系统对接,开发经常让我在数据库中执行数据库更新语句,并重启Tomcat,将log文件发给他,他能够根据log文件判断,数究竟有没有传对。 在这个过程中会出现一个问题: 部署在同一台Web服务器…