大数据离线阶段

news2024/12/23 22:07:50

目录

      • 数分
      • 分布式
      • Apache ZooKeeper
      • Apache Hadoop
      • Shell 命令选项
      • 数据仓库
      • Hive

数分

数据分析的目的是把隐藏在数据背后的信息集中和提炼出来,总结出所研究
对象的内在规律,帮助管理者进行有效的判断和决策。
目的:提炼信息,找出规律,辅助决策
作用:现状分析、原因分析、预测分析
分析步骤:明确分析目的-数据收集-数据预处理-数据分析-展示-报告撰写

数据收集:公开、数据库、爬虫、市场调查
报告撰写:要有明确的结论、建议或解决方案
大数据5V特征:数据量大、种类多、价值密度低、增长速度快、数据质量低

分布式

  • 分布式:一个硬件或者组件,其组件分布在不同的计算机上,彼此之间仅仅通过网络消息传递进行通信
    一群独立计算机集合起来共同对外提供服务,但是对于系统用户来说,就像是一台计算机在提供服务一样
  • 分布式:分布式应用和服务( Dubbo)、分布式数据存储(Apache Hadoop HDFS)、分布式计算(Apache Hadoop MapReduce)
  • 分布式(distributed)是指在多台不同的服务器中部署不同的服务模块,通过远程调用协同工作,对外提供服务。
  • 集群(cluster)是指在多台不同的服务器中部署相同应用或服务模块,构成一个集群,通过负载均衡设备对外提供服务。

Apache ZooKeeper

ZooKeeper 本质上是一个分布式的小文件存储系统。提供基于类似于文件系
统的目录树方式的数据存储,并且可以对树中的节点进行有效管理。从而用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化,从而可以达到基于数据的集群管理
ZooKeeper 集群角色:

  • Leader(事务请求(写操作)的唯一调度和处理者)
  • Follower(处理客户端非事务(读操作)请求)
  • Observer(观察 Zookeeper 集群的最新状态,对于非事务请求可以进行独立处理,对于事务请求,则会转发给 Leader)

Apache Hadoop

Hadoop 指 Apache 这款开源框架,它的核心组件有:

  • HDFS(分布式文件系统):解决海量数据存储
  • YARN(作业调度和集群资源管理的框架):解决资源任务调
  • MAPREDUCE(分布式运算编程框架):解决海量数据计算

HADOOP 集群具体来说包含两个集群:HDFS 集群和 YARN 集群,两者逻辑上分离,但物理上常在一起。

  • HDFS 集群负责海量数据的存储,集群中的角色主要有:
    NameNode、DataNode、SecondaryNameNode
  • YARN 集群负责海量数据运算时的资源调度,集群中的角色主要有:
    ResourceManager、NodeManager

Shell 命令选项

在这里插入图片描述

数据仓库

数据仓库是面向主题的(Subject-Oriented )、集成的(Integrated)、非
易失的(Non-Volatile)和时变的(Time-Variant )数据集合,用以支持管理
决策。
数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、
为了决策需要而产生的,它决不是所谓的“大型数据库”。

Hive

Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为
一张数据库表,并提供类 SQL 查询功能。
本质是将 SQL 转换为 MapReduce 程序。
主要用途:用来做离线数据分析,比直接用 MapReduce 开发效率更高。
Hive组件:

  • 用户接口:包括 CLI、JDBC/ODBC、WebGUI。其中,CLI(command line
    interface)为 shell 命令行;JDBC/ODBC 是 Hive 的 JAVA 实现,与传统数据库JDBC 类似;WebGUI 是通过浏览器访问 Hive。
  • 元数据存储:通常是存储在关系数据库如 mysql/derby 中
  • 解释器、编译器、优化器、执行器:完成 HQL 查询语句从词法分析、语法分
    析、编译、优化以及查询计划的生成。

Hive 利用 HDFS 存储数据,利用 MapReduce 查询分析数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/643156.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

清华大学出版社618大促《IT系列丛书》

💂 个人网站:【海拥】【摸鱼游戏】【神级源码资源网】🤟 前端学习课程:👉【28个案例趣学前端】【400个JS面试题】💅 寻找学习交流、摸鱼划水的小伙伴,请点击【摸鱼学习交流群】 1.《网络安全应急管理与技术…

win11 x86 系统部署arm架构的虚拟机(银河麒麟为例)

文章目录 一、使用 win11 x86 系统部署arm架构的虚拟机(银河麒麟为例)1.1.1、前言1.1.2、准备环境1.1.1.1、首先,需要一个银河麒麟的arm镜像1.1.1.2、QEMU 软件的下载地址1.1.1.3、UEFI(BIOS的替代方案)的下载地址1.1.…

Windows编程课设(C#)——基于WPF和.net的即时通讯系统(仿微信)

一款参考QQ、微信的即时通讯软件。采用CS结构,客户端基于.Net与WPF开发,服务端使用Java开发。 提供的服务 注册功能:用户通过手机号码进行账号的注册,每个手机号唯一对应一个用户,需要接收验证码进行手机的绑定。此外…

强化学习笔记-0910 On-policy Method with Approximation

前几章我们所讨论的强化学习方法都是将价值函数建模为一个table形式,通过状态来查询具体状态的价值。但是当状态-动作空间极大,且多数状态-动作并没有太大意义时,这种table查询效率是极低的。 因此本节是将价值函数建模为一个参数模型&#…

修改文件权限chown/chgrp/chmod【Linux】

文章目录 Linux当中的权限问题Linux权限的概念切换用户账号 Linux权限管理文件类型和访问权限(事物属性) Linux文件名后缀文件权限值的表示方法 文件访问权限的相关设置方法如何改变文件的访问权限如何改变文件的拥有者如何改变文件的所属组如何修改文件…

leetcode 152.乘积最大子数组

题目描述 给你一个整数数组 nums ,请你找出数组中乘积最大的非空连续子数组(该子数组中至少包含一个数字),并返回该子数组所对应的乘积。 测试用例的答案是一个 32-位 整数。 子数组 是数组的连续子序列。 来源:力扣&a…

从2PC和容错共识算法讨论zookeeper中的Create请求

大家好,我是方圆。最近在读《数据密集型应用系统设计》,其中谈到了zookeeper对容错共识算法的应用。这让我想到之前参考的zookeeper学习资料中,误将容错共识算法写成了2PC(两阶段提交协议),所以准备以此文对…

Speech | 提取语音(数据集)的语音特征合集

本文主要讲解了提取数据集的一些主要工具,以及如何使用这些工具,包含安装以及运行命令。 提取语音(数据集)的语音特征工具(Extract audio features toolkits) • openSMILE • COVAREP • ESPNet • YAAF…

Java集合框架:链表和LinkedList详解

目录 一、ArrayList的缺陷 二、链表(主要介绍不带头的非循环的 单链表 / 双链表) 注: 三、模拟链表的实现: MySingleList(单链表) MyLinkedList(双链表) 四、LinkedList的使用 …

HNU计算机体系结构-实验一:RISC-V指令理解

HNU计算机体系结构-实验一 前言1.实验目的2.实验步骤1.安装模拟器Ripes2.生成汇编指令3.思考问题1)指令add x15, x14, x152)指令bge x15 x14 -683)指令lw x15, -20 x84)指令sw x15, -20 x85)简述BranchE信号的作用6&am…

通达信筹码集中度计算公式,解决了结果不同的问题

筹码分布图基本上是国内股票交易软件的标配,一般在K线图窗口的右侧。通达信软件中,在右下角有个“筹”,点击之后就可以看到“筹码分布图”。(如下图)筹码分布图是根据一定的模型计算出的流通股票持仓成本分布情况&…

postman接口关联实战解析

在使用postman做接口测试时,有时候后面的接口需要获取前面接口的某一个返回值做为请求参数,这时就可以使用关联。 如从A接口提取出a字段的值,供B接口的b字段使用。 一个接口的返回报文如下: {"retCode": "0&quo…

【数据库原理与实践】知识点归纳(上)

第1章 数据库系统概述 (数据处理技术的发展 数据库的基本概念和特点) 一:数据、信息、知识、决策 对应:Data、Information、Knowledge、Decision 二:数据库技术的产生与发展 产生原因:数据管理任务的…

如何正确使用Postman变量?又该如何灵活设置变量?

目录 引言 理解变量 postman的变量类型 变量作用域 变量覆盖规则 创建变量 创建全局变量 创建环境变量 创建集合变量 使用变量 引言 Postman变量可以帮助你快速生成测试数据、模拟不同的场景和环境。 但是,如何正确使用Postman变量?又该如何…

Android的服务Service

Android学了太久了,都忘了。复习下四大组件之一的Service。 介绍 Android的Service是一种在后台执行长时间运行操作的组件,它可以在没有用户界面的情况下执行任务,并且可以与应用程序的其他组件进行通信。Service通常用于处理网络请求、音乐…

快速创建Django项目

环境搭建 安装Django之前需要先安装python环境和pycharm。 目前 Django 1.6.x 以上版本已经完全兼容 Python 3.x。 python安装教程:https://blog.csdn.net/David_house/article/details/100110542 项目创建 打开pycharm,选择文件–>新建项目 创建D…

MySQL操作基础

文章目录 一、Mysql的基本概念1.1数据库有哪些组成数据表数据库 1.2数据库系统和数据库管理系统1.3数据库的发展史 二、数据库的分类三、数据库的数据类型三、数据库的操作3.1查看数据库的结构3.2创建及删除数据库和表3.3管理表中的数据记录3.4修改表名和表结构 Linux操作系统&…

11.JavaWeb-Spring框架

1.Spring概念 Spring框架是一个轻量级开源的应用程序框架,用于开发Java企业级应用程序。它提供了一种综合的编程和配置模型,可以帮助开发人员构建灵活、可扩展且易于维护的应用程序。 Spring的根本使命:简化Java开发 【Spring给予了Java新生】…

文心一言 VS 讯飞星火 VS chatgpt (40)-- 算法导论5.4 4题

四、一次聚会需要邀请多少人,才能让其中 3 人的生日很可能相同? 文心一言: 为了解决这个问题,我们需要先计算出所有可能的生日组合数,然后计算出其中生日相同的组合数。 已知需要邀请的人数为:23人 根据组合数公式…

大数据开发之Hive案例篇12:HDFS rebalance 一例

文章目录 一. 问题描述二. 解决方案2.1 增加节点2.2 rebalance2.3 rebalance引发的问题 一. 问题描述 公司的离线数仓是CDH集群,19个节点,HDFS存储空间大约400TB左右,使用量在200TB左右。 由于历史遗留的问题,数据仓库需要重构&a…