大数据之hadoop入门

news2024/11/18 5:42:20

大数据概念

大数据:无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现李和流程优化能力的海量、高增长率和多样化的信息资产。

大的概念是相对来说的:目前来说,大数据的规模至少10T以上。
目前单台主机一般只能存放1T左右的数据,所以要进行计算首先要进行分布式存储,分开到10台电脑中进行存储。然后后面的计算也必须基于分布式的存储结构来进行分布式运算。

大数据特点

  1. 大量(Volume)
  2. 高速(Velocity)
  3. 多样(Variety)
  4. 低价值密度(Value)

大数据应用

  • 增加用户粘性:进行客户画像,推荐客户喜欢的内容。
  • 多臂试探:当用户画像基本完成时,尝试推送其他内容,并重新画像。
  • 发现多个事务之间的潜在关联性:比如纸尿布和啤酒。
  • 获取商场的流量信息,分析运营情况。
  • 保险/金融:挖掘潜在客户,助力保险行业精准营销。

大数据不是用来开发一个独立的软件,而且需要贴合其他软件来叠加使用,助力软件更加智能和贴合用户需求。

业务分析

数据部门搭建数据平台,分析数据指标。分析分为两种,一种是离线数仓分析,一种是实时分析。处理好后的展示环节交给前端处理。

大数据部门组织结构:

  1. 平台组:搭建Hadoop、Flume、Kafka、HBase平台
  2. 数据仓库组:ETL数据清洗、数据分析
  3. 实时组:实时指标分析
  4. 数据挖掘组:算法工程师、推荐系统工程师、用户画像工程师
  5. 报表开发组:javaEE工程师 + 前端工程师(非大数据部分)

Hadoop概述

Hadoop是什么

是一个分布式系统架构,Apache基金会所开发的。主要解决海量数据的存储和海量数据的分析计算问题。Hadoop通常指一个更广泛的概念,Hadoop生态圈(Hadoop, Hive, )
大数据之父:Doug Cutting,开发了Lucene,一个搜索引擎,类似谷歌搜索引擎。为了在对Lucene进行优化升级,提升面对大数据的查询效率,结合谷歌发布的三篇论文,实现了DFS和MapReduce机制,使Nutch搜索引擎性能飙升。之后项目立项更名为Hadoop,从此Hadoop诞生了。
在这里插入图片描述

Hadoop三大发行版本

  • Apache原始版本
  • 国外开发的图形化版本
  • 国内的阿里云、腾讯云版本

Hadoop优势

  1. 高可靠性:有备份
  2. 高扩展性:可以扩展节点数量
  3. 高效性:Hadoop是并行运算的
  4. 高容错性:能够自动将失败的任务重新分配

Hadoop组成

  • Hadoop1.x:
    • HDFS数据存储
    • MapReduce计算+资源调度
  • Hadoop2.x/3.x:
    • HDFS数据存储
    • MapReduce计算
    • Yarn资源调度

HDFS架构概述

  1. NameNode(nn): 存储文件的元数据,如文件名,文件目录结构,文件属性
  2. DataNode(dn): 存储文件块数据, 以及校验和
  3. Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。

YARN架构概述

  • 永久节点:
    • ResourceManager(RM): 汇总所有资源信息
    • NodeManager(NM): 动态收集当前节点的资源情况
  • 任务节点:
    • ApplicationMaster(AM): 单个任务运行的管理员
    • Container: 容器,相当于一台独立的服务器,里面封装了任务所需要的资源,如内存、CPU、磁盘、网络等,类似一个小虚拟机。

MapReduce架构概述

MapReduce有两个阶段。Map表示细分为子任务,Reduce表示合并计算结果。细分任务的名称为MapTask, 合并任务名称为ReduceTask(规约)。MapReduce这个名称概括了分布式系统进行计算的基本过程。

HDFS、YARN、MapReduce三者关系

在这里插入图片描述

大数据技术生态体系

在这里插入图片描述

Hadoop搭建

创建模版机

  1. 最小化安装
  2. 安装一些必要软件
  3. 修改ip为静态ip
  4. 修改主机名和hosts映射文件
  5. 关闭防火墙
  6. 创建atguigu用户,配置sudo权限
  7. 在/opt目录下创建两个子目录
    • module安装好的软件
    • software安装包
    • 修改module和software的所属者和所属组

使用xshell连接查询虚拟机ip地址:

  • ip addr命令查看ip地址连接

安装jdk和Hadoop

  1. 使用ftp将jdk传输到software文件中
  2. 使用jar -zxfc解压到module文件中
  3. 配置环境变量
    • profile.d目录下声明环境变量
    • #JAVA_HOME export JAVA_HOME=/opt/module/jdk1.8.0_212 export PATH=$PATH:$JAVA_HOME/bin

shell的补充

  • 父子shell项
    • 父类定义变量子类不能获取:有办法获取,使用export 变量名将父类变量传递给子类shell
    • 子类定义变量父类不能获取:获取不了
  • 使用pstree命令可以查看进程之间的父子关系
  • shell的三种执行方式
    • 开子bash的形式执行,使用子类的shell的环境变量
      • bash + 脚本文件
      • chmod 777 脚本文件 + ./ 脚本文件
    • 在当前bash中执行,使用当前shell的环境变量
      • . 或者 source 脚本文件
    • 一般情况下脚本都是开子shell来执行的,除了环境变量是父shell中运行

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/962651.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于51单片机的SHT11温湿度上下限LCD12864显示报警仿真设计( proteus仿真+程序+原理图+报告+讲解视频)

51单片机SHT11温湿度上下限LCD12864显示报警仿真设计( proteus仿真程序原理图报告讲解视频) 讲解视频1.主要功能:2.仿真3. 程序代码4. 原理图5. 设计报告6. 设计资料内容清单&下载链接 51单片机SHT11温湿度上下限LCD12864显示报警仿真设计( proteus仿…

实现跨境电商测评和采退、LU卡、LU货最安全的系统方案

首先你要有一个稳定的测评环境系统,这个是做自养号退款、撸货、撸卡的基础。测评环境系统有很多,从早期的虚拟机,模拟机,云手机,VPS等等。这些系统方案先不说成本高,最重要的是成功率很低,所以一…

Git和Github的基本用法

目录 背景 下载安装 安装 git for windows 安装 tortoise git 使用 Github 创建项目 注册账号 创建项目 下载项目到本地 Git 操作的三板斧 放入代码 三板斧第一招: git add 三板斧第二招: git commit 三板斧第三招: git push 小结 🎈个人主页&#xf…

基于单片机的串行通信发射机设计

一、项目介绍 串行通信是一种常见的数据传输方式,允许将数据以比特流的形式在发送端和接收端之间传输。当前实现基于STC89C52单片机的串行通信发射机,通过红外发射管和接收头实现自定义协议的数据无线传输。 二、系统设计 2.1 单片机选择 在本设计中&…

黑马 大事件项目 笔记

学习视频:黑马 Vue23 课程 后台数据管理系统 - 项目架构设计 在线演示:https://fe-bigevent-web.itheima.net/login 接口文档: https://apifox.com/apidoc/shared-26c67aee-0233-4d23-aab7-08448fdf95ff/api-93850835 接口根路径: http:/…

系统架构技能之设计模式-抽象工厂模式

一、上篇回顾 上篇我们主要讲述了简单工厂模式和工厂模式。并且分析了每种模式的应用场景和一些优缺点,我们现在来回顾一下: 简单工厂模式:一个工厂负责所有类型对象的创建,不支持无缝的新增新的类型对象的创建。 工厂模式&…

系统架构技能之设计模式-工厂模式

一、开篇 本文主要是讲述设计模式中最经典的创建型模式-工厂模式,本文将会从以下几点对工厂模式进行阐述。 本文将会从上面的四个方面进行详细的讲解和说明,当然会的朋友可以之处我的不足之处,不会的朋友也请我们能够相互学习讨论。 二、摘…

学习心得06:Halcon

据说实际场景中,使用Halcon的多。功能上跟OpenCV差不多,轮廓,线条,边缘,连通,滤波,深度学习等。 需要了解的是,如何与其他语言对接。这当然也不难,人家早就考虑好了。 看…

企业架构LNMP学习笔记4

企业服务器LNMP环境搭建: 常见的软件架构: 1)C/S: client/server 2)B/S: browser/server 不管是C还是B,都是属于客户端属于前端。那么运维人员主要是负责和管理的Server端,也统称为服务器端。为了快速的…

[标注工具]rolabelImg旋转框标注工具安装和使用教程

rolabelImg是一个专门用于标注旋转框的工具,目前最新版本是3.0版本,rolabelImg是python编写的,为了避免安装python环境和配置。我们可以直接使用安装包安装,首先我们打开安装包 双击打开安装包 选择安装路径,不要是中文…

Linux-Centos7安装Docker

文章目录 一、前言二、Docker安装1、Docker及系统版本2、Docker的自动化安装3、Docker手动安装3.1、卸载Docker(可选)3.2、设置源仓库3.3、Docker安装3.4、Docker启动3.5、验证是否安装成功3.5.1、拉取镜像3.5.2、查看镜像3.5.3、运行镜像 3.6、删除Dock…

Spring-Cloud-Openfeign如何传递用户信息?

用户信息传递 微服务系统中,前端会携带登录生成的token访问后端接口,请求会首先到达网关,网关一般会做token解析,然后把解析出来的用户ID放到http的请求头中继续传递给后端的微服务,微服务中会有拦截器来做用户信息的…

一,表单标签

一,表单标签 <!DOCTYPE html> <html><head><meta charset"utf-8"><title>常用标签</title></head><body><!-- 1.表单标签:比表格多了数据提交的功能1.1, 要求:必须使用form标签 必须有提交按钮 必须配置name属…

springcloud3 注册中心以及cloud启动原理总结(含面试)

一 Springcloud微服务面试题 1.1 为何使用注册中心 1)问题描述 在多个单体微服务之间&#xff0c;可以直接通过http请求进行通信&#xff0c;但是存在以下问题&#xff1a; 1.调用服务提供者时需要写ip和端口&#xff0c;如果出现ip和端口进行了修改&#xff0c;没有及时告…

SAP_ABAP_接口技术_RFC远程函数实践总结

SAP ABAP顾问能力模型梳理_企业数字化建设者的博客-CSDN博客SAP Abap顾问能力模型&#xff0c;ALV/REPORT|SMARTFROM|SCREEN|OLE|BAPI|BDC|PI|IDOC|RFC|API|WEBSERVICE|Enhancement|UserExits|Badi|Debughttps://blog.csdn.net/java_zhong1990/article/details/132469977 SAP接…

[C/C++]天天酷跑超详细教程-中篇

个人主页&#xff1a;北海 &#x1f390;CSDN新晋作者 &#x1f389;欢迎 &#x1f44d;点赞✍评论⭐收藏✨收录专栏&#xff1a;C/C&#x1f91d;希望作者的文章能对你有所帮助&#xff0c;有不足的地方请在评论区留言指正&#xff0c;大家一起学习交流&#xff01;&#x1f9…

stable diffusion实践操作-hypernetworks

本文专门开一节写hypernetworks的内容&#xff0c;在看之前&#xff0c;可以同步关注&#xff1a; stable diffusion实践操作 一、hypernetworks是什么&#xff1f; 中文名字叫超网络&#xff0c;功能和embedding&#xff0c;lora类似&#xff0c;都是对生成的图片进行针对性…

Spring Cloud--从零开始搭建微服务基础环境【二】

&#x1f600;前言 本篇博文是关于Spring Cloud–从零开始搭建微服务基础环境【二】&#xff0c;希望你能够喜欢 &#x1f3e0;个人主页&#xff1a;晨犀主页 &#x1f9d1;个人简介&#xff1a;大家好&#xff0c;我是晨犀&#xff0c;希望我的文章可以帮助到大家&#xff0c;…

02-Flask-对象初始化参数

对象初始化参数 前言对象初始化参数import_namestatic_url_pathstatic_foldertemplate_floder 前言 本篇来学习Flask中对象初始化参数 对象初始化参数 import_name Flask程序所在的包(模块)&#xff0c;传__name__就可以 _name_ 是一个标识 Python 模块的名字的变量&#x…

随记-多租户数据隔离

数据隔离 DataBase 隔离 ( 独立数据库 )Schema 隔离 ( 共享数据库&#xff0c;但隔离数据架构 )Table 隔离 ( 共享数据库&#xff0c;共享数据架构 ) DB 隔离 即一个租户一个数据库&#xff0c;这种方案的用户数据隔离级别最高&#xff0c;安全性最好&#xff0c;但成本较高 …