大数据导论、Apache ZooKeeper

news2024/11/29 6:29:28

目录标题

    • 1、数据与数据分析
    • 2、数据分析基本步骤
    • 3、大数据时代
    • 4、分布式技术
    • 5、 Apache ZooKeeper
      • 5.1 ZooKeeper 概述
      • 5.2 ZooKeeper 特性
      • 5.3 ZooKeeper 集群角色
      • 5.4 ZooKeeper 集群搭建
      • 5.5 ZooKeeper 数据模型

1、数据与数据分析

数据分析是指用适当的统计分析方法对收集来的数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。
数据分析的目的是把隐藏在数据背后的信息集中和提炼出来,总结出所研究对象的内在规律,帮助管理者进行有效的判断和决策
数据分析作用:原因分析、现状分析、预测分析

2、数据分析基本步骤

步骤:明确目的和思路、数据收集、数据处理、数据分析、数据展现、报告撰写

  1. 把跟数据分析相关的营销、管理等理论统称为数据分析方法论。比如用户行为理论、PEST 分析法、5W2H 分析法等等。
  2. 数据收集:数据库、互联网、市场调查、公开出版物
  3. 数据处理主要包括数据清洗、数据转化、数据提取、数据计算等处理方法。
  4. 数据挖掘侧重解决四类数据分析问题:分类、聚类、关联和预测
  5. 数据展现:通过表格和图形的方式来呈现
  6. 数据分析报告:其实是对整个数据分析过程的一个总结与呈现
    数据分析报告需要有明确的结论
    好的分析报告一定要有建议或解决方案

3、大数据时代

大数据的特点:
Volume:数据量大,包括采集、存储和计算的量都非常大;
Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据;
Value:数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵;
Velocity:数据增长速度快,处理速度也快,时效性要求高;
Veracity:数据的准确性和可信赖度,即数据的质量。

4、分布式技术

分布式系统是指:一个硬件或软件,其组件会分布在不同的计算机上,彼此之间仅仅通过网络消息传递进行通信和协调的系统。
简单来说就是一群独立计算机集合起来共同对外提供服务,但是对于系统的用户来说,就像是一台计算机在提供服务一样。

分布式(distributed):是指在多台不同的服务器中部署不同的服务模块,通过远程调用协同工作,对外提供服务。
集群(cluster):是指在多台不同的服务器中部署相同应用或服务模块,构成一个集群,通过负载均衡设备对外提供服务

5、 Apache ZooKeeper

5.1 ZooKeeper 概述

学习一个软件:学习其定位、用来干什么、怎么用、特性和优缺点

Apache是一个软件基金会,大数据组件大多都是它孵化出来的

Zookeeper 是一个分布式协调服务的开源框架。主要用来解决分布式集群中应用系统的一致性问题。类似十字路口的红绿灯
协调:如何控制大家有序的做某事

Zookeeper 本质:分布式的小文件存储系统

5.2 ZooKeeper 特性

  1. 全局数据一致:集群中每个服务器保存一份相同的数据副本,client 无论连接到哪个服务器,展示的数据都是一致的
    事务性操作:增、删、改
    非事务性操作:查
    针对非事务性操作,因为不涉及数据修改,所以不需要维护一致性;
    针对事务性操作,事务性请求都转发到leader,leader把所有的事物性请求进行编号,根据编号依次执行

  2. 可靠性:如果消息被其中一台服务器接受,那么将被所有的服务器接受。

  3. 顺序性:包括全局有序和偏序两种:全局有序是指如果在一台服务器上消息 a 在消息 b 前发布,则在所有 Server 上消息 a 都将在消息 b 前被发布;偏序是指如果一个消息 b 在消息 a 后被同一个发送者发布,a 必将排在 b 前面

  4. 数据更新原子性:一次数据更新要么成功(半数以上节点成功),要么失败,不存在中间状态

  5. 实时性:Zookeeper 保证客户端将在一个时间间隔范围内获得服务器的更新信息,或者服务器失效的信息。

5.3 ZooKeeper 集群角色

在这里插入图片描述
Leader:
Zookeeper 集群工作的核心
事务请求(写操作)的唯一调度和处理者,保证集群事务处理的顺序性;集群内部各个服务器的调度者

Follower:
处理客户端非事务(读操作)请求,转发事务请求给 Leader;
参与集群 Leader 选举投票。

此外,针对访问量比较大的 zookeeper 集群,还可新增观察者角色。
为了扩大集群的读写能力,同时又不增加选举复杂度,增加了观察者角色

Observer:
观察者角色,观察 Zookeeper 集群的最新状态变化并将这些状态同步过来,其对于非事务请求可以进行独立处理,对于事务请求,则会转发给 Leader服务器进行处理。
不会参与任何形式的投票只提供非事务服务,通常用于在不影响集群事务处理能力的前提下提升集群的非事务处理能力

5.4 ZooKeeper 集群搭建

Zookeeper 集群搭建指的是 ZooKeeper 分布式模式安装。通常由 2n+1台 servers 组成。
因为要投票,所以 ZooKeeper 集群的数量一般为奇数

5.5 ZooKeeper 数据模型

一个标准的文件系统特征:

  • 从/根目录开始
  • 分为文件、文件夹
  • 路径唯一

zookeeper文件系统特征:

  • 从结构上看,也是类似于标准文件系统的目录树结构
  • 里面没有文件、文件夹之分,所有节点统称为znode
  • znode兼备文件夹、文件的特点
    即可以像文件夹一样可以创建子目录,又像文件一样可以保存数据
  • 路径也是从/根目录开始,唯一

客户端去操作zk集群分为几步?

  • 客户端连接集群 建立会话
  • 根据需求对zk目录树进行增删改查
  • 客户端断开连接 会话结束

znode的类型:

  • 永久节点:客户端创建znode后,将会一直存在,除非手动强制删除
  • 临时节点:客户端创建znode后,只要断开连接,会话结束,znode就被删除。临时节点不允许拥有子节点

Znode 还有一个序列化的特性,如果创建的时候指定的话,该 Znode 的名字后面会自动追加一个不断增加的序列号。序列号对于此节点的父节点来说是唯一的,这样便会记录每个子节点创建的先后顺序。

这样便会存在四种类型的 Znode 节点,分别对应:
PERSISTENT:永久节点
EPHEMERAL:临时节点
PERSISTENT_SEQUENTIAL:永久节点、序列化
EPHEMERAL_SEQUENTIAL:临时节点、序列化

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/402021.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

零基础小白如何自学网络安全成为顶尖黑客?

在成为黑客之前,你需要做两点准备: 1、学一门编程语言。学哪一门不重要,但你要参考一下下面的条例: C语言是Unix系统的基础。它(连同汇编语言)能让你学习对黑客非常重要的知识:内存的工作原理…

Go爬虫学习笔记(二)

3 进阶路线:如何深入学习Go语言? 时间与复利思维 一万小时定律 - MBA智库百科 (mbalib.com):大量训练。 思维模型 类比:类比旧知识知识组块:将知识拆分知识体系:知识之间的联系:wiki、笔记双链…

漏洞分析丨cve-2012-0003

作者:黑蛋一、漏洞简介这次漏洞属于堆溢出漏洞,他是MIDI文件中存在的堆溢出漏洞。在IE6,IE7,IE8中都存在这个漏洞。而这个漏洞是Winmm.dll中产生的。二、漏洞环境虚拟机调试工具目标软件辅助工具XP-SP3、KaliOD、IDAIE6Windbg组件gflags.exe三…

Java 不同路径

不同路径中等一个机器人位于一个 m x n 网格的左上角 (起始点在下图中标记为 “Start” )。机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角(在下图中标记为 “Finish” )。问总共有多少条不同的路径&#xff1f…

直播间与2位优秀创作者分享经历

我是卢松松,点点上面的头像,欢迎关注我哦! 昨天,卢松松的直播间好像又被推荐给了2.9万人观看,讲了一个小时后直播间的人数一直攀升,最终冲破了2万人大关。晚些时候,白杨SEO也来到了我的直播间&…

【数据结构】——树与二叉树

文章目录树二叉树二叉树的性质完全二叉树二叉树的存储遍历二叉树和线索二叉树6.4 树和森林哈夫曼树应用树 树的定义:树是以分支关系定义的层次结构。 D; 树(Tree)是n(n≥0)个结点的有限集。 R 数据关系 有且仅有一个特定的称为根(Root) 的结点 当n>1时&…

FCN网络介绍

目录前言一.FCN网络二.网络创新点前言 在图像分割领域,有很多经典的网络,如MASK R-CNN,U-Net,SegNet,DeepLab等网络都是以FCN为基础进行设计的。我们这里简单介绍一下这个网络。 一.FCN网络 FCN网络介绍   FCN 即全…

【学习笔记】人工智能哲学研究:《心智、语言和机器》

关于人工智能哲学,我曾在这篇文章里 【脑洞大开】从哲学角度看人工智能:介绍徐英瑾的《心智、语言和机器》 做过介绍。图片来源:http://product.dangdang.com/29419969.html在我完成了一些人工智能相关的工作以后,我再来分享《心智…

基于libco的c++协程实现(时间轮定时器)

在后端的开发中,定时器有很广泛的应用。 比如: 心跳检测 倒计时 游戏开发的技能冷却 redis的键值的有效期等等,都会使用到定时器。 定时器的实现数据结构选择 红黑树 对于增删查,时间复杂度为O(logn),对于红黑…

【Unity趣味编程】——c++实现小球的自由移动

👨‍💻个人主页:元宇宙-秩沅 👨‍💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由 秩沅 原创 👨‍💻 收录于专栏:Uni…

IOS APP Store发布流程

一、官网添加新版本 进入官网,点击左上角号,添加新版本 新增版本 -> 填写推广文本、更新内容 -> 点击存储 二、Xcode打包 苹果打包需要注意版本号、版本code不能与线上重复。 点击Xcode -> Product -> Archive,选择App Store 第二步选择导出…

移除元素问题解决方法------LeetCode-OJ题

问题: 给你一个数组 nums 和一个值 val,你需要 原地 移除所有数值等于 val 的元素,并返回移除后数组的新长度。 要求: 不要使用额外的数组空间,你必须仅使用 O(1) 额外空间并 原地 修改输入数组。 元素的顺序可以改…

爆品分析第5期 | 一条视频带货3700+,这款斋月不锈钢厨具套装火了!

俗话说民以食为天,吃在任何一种文化中都占据重要的位置,要做出一道美味佳肴,除了食材、烹饪者的自身厨艺之外,还少不了一口好锅。新冠疫情以来,全世界范围内的封闭让很多人养成了居家做饭的习惯,不仅为厨具…

Spark高手之路1—Spark简介

文章目录Spark 概述1. Spark 是什么2. Spark与Hadoop比较2.1 从时间节点上来看2.2 从功能上来看3. Spark Or Hadoop4. Spark4.1 速度快4.2 易用4.3 通用4.4 兼容5. Spark 核心模块5.1 Spark-Core 和 弹性分布式数据集(RDDs)5.2 Spark SQL5.3 Spark Streaming5.4 Spark MLlib5.5…

玩转金山文档 3分钟让你的文档智能化

在上个月底,我们给大家推荐了金山轻维表的几个使用场景,社群中不少用户反响很好,对其中一些场景的解决方案十分感兴趣。但也有一些人表示,有些场景不知道如何实现,希望我们能提供模版/教程。这次我们将做一期热门模板盘…

案例20-内存长期占用导致系统变慢

一、背景介绍 本篇博客是对生产环境出现内存长期占用导致系统变慢的原因分析及总结。 现状: 系统出现了爬取加载慢的情况,核心服务的内存占用很高的情况。 如下图: 二、思路&方案 查询服务内存占用过高的原因: 1、服务启动…

再学C语言43:字符串表示和字符串I/O

字符串是以空字符(\0)结尾的char数组 在程序中定义字符串 1)字符串常量 字符串常量(字符串文字):位于一对双引号中的任何字符 双引号里的字符加上编译器自动提供的结束标志\0字符,作为一个字…

线程安全 List 效率测试

List 常见类以及各自优缺点可自行参考 https://blog.csdn.net/weixin_39883065/article/details/111197724 本机环境 java 版本:1.8.0_161 window 信息: 测试代码 下面通过代码测试 List 线程安全类 Vector、Collections.synchronizedList(List lis…

在空投之后,Blur能否颠覆OpenSea的主导地位?

Mar. 2023, Daniel数据源: NFT Aggregators Overview & Aggregator Statistics Overview & Blur Airdrop一年前,通过聚合器进行的NFT交易量开始像滚雪球一样增长,有时甚至超过了直接通过市场平台的交易量。虽然聚合器的使用量从10月到…

【Redis】P1 Redis - NoSQL

Redis - NoSQLSQL 与 NoSQL差别一:结构化 与 非结构化差别二:关联性 与 非关联性差别三:规范化查询语句 与 非规范化差别四:事务 与 无事务差别五:磁盘存储 与 内存存储RedisRedis 的安装当前数据库存储主要分为 关系型…