处理大数据的基础架构,OLTP和OLAP的区别,数据库与Hadoop、Spark、Hive和Flink大数据技术

news2024/11/24 20:15:10

处理大数据的基础架构,OLTP和OLAP的区别,数据库与Hadoop、Spark、Hive和Flink大数据技术

2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开
测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库
这oracle比sql安全,强大多了,所以你需要学习,最重要的,你要是考网络警察公务员,这玩意你不会就别去报名了,耽误时间!
与此同时,既然要考网警之数据分析应用岗,那必然要考数据挖掘基础知识,今天开始咱们就对数据挖掘方面的东西好生讲讲 最最最重要的就是大数据,什么行测和面试都是小问题,最难最最重要的就是大数据技术相关的知识笔试


文章目录

  • 处理大数据的基础架构,OLTP和OLAP的区别,数据库与Hadoop、Spark、Hive和Flink大数据技术
    • @[TOC](文章目录)
  • 处理大数据的基础架构
  • 之后我们一个个来学习上述提到的东西,形成一个大数据处理的框架,备考大数据类的试题
  • Hadoop、Spark、Hive和Flink
    • OLTP是啥?
    • 为什么要大数据?
  • kafka传输技术,快速
    • 现有的消息模型?
    • kafka监听器
    • kafka的消息模型
    • 生产者api
    • kafka序列化
    • 实际订餐和菜品看不到
  • 总结

处理大数据的基础架构

处理大数据的基础架构主要有以下几种:

分布式计算框架。
如Hadoop、Spark、Hive和Flink等,这些框架可以处理大规模的数据,并支持分布式存储和计算。

分布式文件系统。
如HDFS(Hadoop Distributed File System)和Google File System等,这些系统可以存储大规模的文件,并支持分布式访问和读取。

数据库集群。
如MySQL集群、PostgreSQL集群等,这些集群可以提高数据处理效率和可用性,并支持分布式事务处理。

NoSQL数据库。
如MongoDB、Cassandra和Redis等,这些数据库可以处理半结构化和非结构化的数据,并支持高并发写入和读取。

云平台。
如Amazon AWS、Google Cloud和阿里云等,这些云平台可以提供虚拟化资源、弹性伸缩和自动化运维等功能,使得处理大数据更加灵活和高效。

这些基础架构可以相互组合和扩展,以适应不同的大数据处理场景和需求。

之后我们一个个来学习上述提到的东西,形成一个大数据处理的框架,备考大数据类的试题

Hadoop、Spark、Hive和Flink

在这里插入图片描述
小数据问题不大

OLTP是啥?

OLTP( On-Line Transaction Processing ) 联机事务处理过程,
通常也可以成为面向交易的处理系统。

个人理解为主要场景针对用户人机交互频繁,数据量小操作快速响应的实时处理系统中
Mysql以及Oracle等数据库软件可以理解为OLTP的工业应用软件体现。

OLAP( On-Line Analytical Processing),联机分析处理过程。
个人理解为主要场景针对大批量数据,实时性无要求,基于数仓多维模型,进行分析操作的系统中。
Hadoop体系中MapReduce、Hive、Spark、Flink等都可以进行为OLAP实现。

原来如此了,数据库做不了大数据的分析类的问题

T是事务
A是分析

为什么要大数据?

在这里插入图片描述
在这里插入图片描述
06年写Java的MapReduce程序,难理解

后来写sql得了,很简单
在这里插入图片描述
在这里插入图片描述
yarn出来就调度一把
美滋滋
在这里插入图片描述
docker现在听说得很多:隔离空间
yarn是container集装箱

在这里插入图片描述
在这里插入图片描述

只写sql然后转译为hive那边的Java

还有pyspark,写Python很容易
在这里插入图片描述
相当于是兼容超级多的程序

批处理,这些是【离线一大批】

下面是流式计算【实时快速处理】
在这里插入图片描述
在这里插入图片描述在这里插入图片描述

两家很骚,后来俩都能处理了
各种技术你看看是不是穿起来了………………
在这里插入图片描述
在这里插入图片描述
你是做那一层呢?
在这里插入图片描述

kafka传输技术,快速

我们从传输开始学起

在这里插入图片描述
在这里插入图片描述
TB级别量的数据,后续可以对接很多大数据处理技术框架

在这里插入图片描述
有点厉害了

现有的消息模型?

在这里插入图片描述
在这里插入图片描述
半结构化的东西

kafka是分布式消息系统
在这里插入图片描述
使得kafka有扩展性
在这里插入图片描述
offset不可重复
在这里插入图片描述
map消息
在这里插入图片描述
不给key那就随机分配
否则分区
在这里插入图片描述
同样的key,同样的key放一起
在这里插入图片描述
在这里插入图片描述
follower就去复制数据,同步,保持数据的可恢复性
这样的话,就不会丢失了
在这里插入图片描述
broker就是一台服务器,负责读写
在这里插入图片描述
主分区由broker读写

kafka监听器

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
docker去部署kafka的内外网监听端口
在这里插入图片描述

kafka的消息模型

在这里插入图片描述
在这里插入图片描述
处于性能和开销的考虑
否则还要维护锁,加锁,减锁
否则就会引入竞争,麻烦
最大化我们要提升性能和吞吐量
在这里插入图片描述
在这里插入图片描述
这种是一对一
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
不同分区之间的消费顺序不知道
offset早的是先消费
在这里插入图片描述
你想要保证顺序会设置key同

在这里插入图片描述
tcp?
ack确认信息
在这里插入图片描述
先读信息,至少读一次
在这里插入图片描述
给位置,最多读一次,可以不读
在这里插入图片描述

生产者api

在这里插入图片描述
在这里插入图片描述
生产者只大量生产,不管消费,现在就是中国缓冲区满了,老百姓没钱消费,导致生产过剩

需要通过一带一路出去消费,这时候美国不乐意
在这里插入图片描述
物流系统?
在这里插入图片描述在这里插入图片描述
就是网购系统,一次精确消费

在这里插入图片描述

我扣款那边就要收款
我失败他不能收款
我付款了,他不能允许说没收到

这就是原子性

数据库就这样的特性
在这里插入图片描述

kafka序列化

在这里插入图片描述
在这里插入图片描述
前序、中序、后序序列化
跟买电脑一样
一堆零件,你送到了,找师傅安装

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
实际上
在这里插入图片描述
要卡主时间顺序的

在这里插入图片描述
注册制
在这里插入图片描述
header标识一下
在这里插入图片描述

实际订餐和菜品看不到

在这里插入图片描述
在这里插入图片描述
如果前面完不成,后面就gg
网络延时导致的

在这里插入图片描述
异步重试顺序如何保证

在这里插入图片描述
一会上菜,半天看不到,gg
消息积压很恶心

在这里插入图片描述
不看所有信息,只看id
在这里插入图片描述
又有问题,看日志
有几个商户的订单贼多,都放一个partition,怎么办?

那按照用户编号来放,这样,某个订单就走同一个partition

在这里插入图片描述
这样好多了
后面呢?
在这里插入图片描述
促销……
在这里插入图片描述
太骚了
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
哈哈哈技术太难了
消息积压有不同的原因

单表存了太多的菜品
在这里插入图片描述
在这里插入图片描述
并发太大,俩请求同事查到,id不存在
同时插入,第二个就gg
加锁?

Redis分布式锁怎么说?
不行,消费着网络超时gg

在这里插入图片描述
尝试插入,不行就改key
在这里插入图片描述
主从服务器
有订单,但是没有菜
主从数据库同步延时
就查不到数据
或者查不到最新数据
在这里插入图片描述

在这里插入图片描述
精确传才行

kafka默认就是容易重复

在这里插入图片描述
不存在插入,存在就更新

在这里插入图片描述
公用数据库和kafka系统

在不同环境中切换容易出错
所以配置要搞清楚

cpu容易挂的话,gg

kafka是牛逼的,很少出问题,大多都是逻辑出了问题。


总结

提示:重要经验:

1)
2)学好oracle,即使经济寒冬,整个测开offer绝对不是问题!同时也是你考公网络警察的必经之路。
3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1144817.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

自学SLAM(5)《第三讲:李群和李代数》作业

前言 小编研究生的研究方向是视觉SLAM,目前在自学,本篇文章为初学高翔老师课的第三次作业。 文章目录 前言1.群的性质2.验证向量叉乘的李代数性质3.推导 SE(3) 的指数映射4.伴随5.轨迹的描绘6.* 轨迹的误差(附加题) 1.群的性质 课上我们讲解了什么是群。…

Linux--进程替换

1.什么是进程替换 在fork函数之后,父子进程各自执行代码的一部分,但是如果子进程想要执行一份全新的程序呢? 通过进程替换来完成,进程替换就是父子进程代码发生写时拷贝,子进程执行自己的功能。 程序替换就是通过特定的…

GPT出大错了!原来GPT不是万能的!这就是人类存在的意义!

目录 前言 测试方式 测试 问题一 问题二 问题三 问题四 结尾 前言 Chat GPT大家应该都听说过,但是它真的有想象中的那么强大吗?这篇文章带你深入了解。 这几个月GPT非常火爆,我也是经常用到。GPT是一个只能聊天机器人,能…

高等数学前置知识——二次函数

文章目录 二次函数1.1 二次函数1.2 二次函数的图像1.2.1 a > 0 时1.2.2 a < 0 时1.2.3 二次函数的平移1.2.4 普通二次型函数图像总结 1.3 其他形式的二次函数1.3.1 顶点式1.3.2 交点式 1.4 二次函数与直线的交点 二次函数 1.1 二次函数 二次函数的定义&#xff1a;y a…

贪心算法学习——最长单调递增子序列

目录 ​编辑 一&#xff0c;题目 二&#xff0c;题目接口 三&#xff0c;解题思路和代码 一&#xff0c;题目 给你一个整数数组 nums &#xff0c;找到其中最长严格递增子序列的长度。 子序列 是由数组派生而来的序列&#xff0c;删除&#xff08;或不删除&#xff09;数组…

STM32F4X SDIO(二) SDIO协议

上一节简单介绍了SD卡的分类&#xff0c;本节将会介绍SD卡的通信协议&#xff0c;也就是SDIO协议。 STM32F4X SDIO&#xff08;二&#xff09;SDIO协议 SD 卡管脚和寄存器SD卡管脚分布SD卡通信协议SD卡寄存器SD卡内部结构 SDIO总线SDIO总线拓扑SDIO总线协议SDIO协议的基本结构…

手写RPC框架

文章目录 什么是RPC框架RPC框架中的关键点通信协议序列化协议动态代理和反射 目前已有的RPC框架手写RPC框架介绍项目框架项目执行流程项目启动 什么是RPC框架 RPC&#xff08;Remote Procedure Call&#xff0c;远程过程调用&#xff09;, 简单来说遵循RPC协议的就是RPC框架. …

编程实例:洗车店会员管理系统软件一卡多项目管理编程

编程实例&#xff1a;洗车店会员管理系统软件一卡多项目管理编程 编程系统化课程总目录及明细&#xff0c;点击进入了解详情。 https://blog.csdn.net/qq_29129627/article/details/134073098?spm1001.2014.3001.5502 1、会员可以直接用手机号&#xff0c;并可以绑定车牌号 2…

进阶JAVA篇- Java 综合基本语法实践(习题一)

路漫漫其修远兮&#xff0c;吾将上下而求索。—— 屈原 目录 第一道题&#xff1a;集合的灵活运用 第二道题&#xff1a;基础编程能力 第三道题&#xff1a; 手写 ArrayList 集合&#xff08;模拟实现 ArrayList 核心API&#xff09; 第四道题&#xff1a;二分查找的应用 第五道…

设置Oracle数据库默认为spfle启动,并且设置数据库SGA大小和PGA大小

本次目标&#xff1a;设置数据库默认为spfle启动&#xff0c;并且数据库SGA大小为2G&#xff0c;PGA大小为200M 1、环境检查 Oracle 9i以后启动的时候默认使用的初始化文件是spfile&#xff0c;但是为了万一还是进行查看一下 首先&#xff0c;确认您的数据库当前是否使用pfi…

事件循环的学习、执行上文、this、执行栈和任务队列

事件循环 对于js运行中的任务&#xff0c;js有一套处理收集&#xff0c;排队&#xff0c;执行的特殊机制&#xff0c;我们称之为事件循环(Even Loop). &#x1f355;js一大特点就是单线程&#xff0c;同一个时间只能做一件事。为了协调事件、用户交互、脚本、UI渲染和网络处理…

FPGA_状态机工作原理

FPGA_状态机介绍和工作原理 状态机工作原理Mealy 状态机模型Moore 状态机模型状态机描述方式代码格式 总结 状态机工作原理 状态机全称是有限状态机&#xff08;Finite State Machine、FSM&#xff09;&#xff0c;是表示有限个状态以及在这些状态之间的转移和动作等行为的数学…

2023年正版win10/win11系统安装教学(纯净版)

第一步&#xff1a;准备一个8G容量以上的U盘。 注意&#xff0c;在制作系统盘时会格式化U盘&#xff0c;所以最好准备个空U盘&#xff0c;防止资料丢失。 第二步&#xff1a;制作系统盘。 安装win10 进入windows官网 官网win10下载地址&#xff1a;https://www.microsoft.c…

【精选】VMware部署ESXI6.5 vCenter Server详解

VMware部署ESXI6.5 vCenter Server 一、ESXi主机介绍1、虚拟机的好处2、为什么要使用虚拟机 二、虚拟化服务器概述1、VSphere物理架构2、体系架构3、VMware vSphere 组件 三、ESXi安装环境1、安装步骤2、使用VMware新建ESXi主机3、初始环境安装 四、创建虚拟机五、安装部署VMwa…

kr 第三阶段(五)32 位逆向

如何寻找 main 函数 对于低版本的 VC 编译器&#xff08;VC 6.0&#xff09;&#xff0c;main 函数在 PE 入口点 mainCRTStartup 函数中是倒数第 3 个函数调用&#xff0c;且参数个数为 3 个&#xff08;wmain 函数为 4 个参数&#xff09;。 对于高版本的 VC 编译器 程序入口…

DTI-ALPS处理笔记

DTI-ALPS处理笔记 前言: 前段时间刚好学习了一下DTI-ALPS处理(diffusion tensor image analysis along the perivascular space ),记录一下,以便后续学习。ALPS是2017年发表在《Japanese Journal of Radiology》的一篇文章首次提出的 (文章地址),主要用于无创评估脑内淋…

锐捷Smartweb管理系统 默认开启Guest账户漏洞

通过弱口令进行登录 guest/guest 文笔生疏&#xff0c;措辞浅薄&#xff0c;望各位大佬不吝赐教&#xff0c;万分感谢。 免责声明&#xff1a;由于传播或利用此文所提供的信息、技术或方法而造成的任何直接或间接的后果及损失&#xff0c;均由使用者本人负责&#xff0c; 文章…

ce从初阶到大牛(两台主机免密登录)

一、配置ssh远程连接 实现两台linux主机之间通过公钥验证能够互相实现免密登陆 1.确认服务程序是否安装 rpm -qa | grep ssh 2.是否启动 ps -aux | grep ssh 3.生成非对称公钥 ssh-keygen -t rsa 4.公钥发送到客户端 cd /root/.ssh/ ssh-copy-id root192.168.170.134 因为…

Apollo 快速上手指南:打造自动驾驶解决方案

快速上手 概述云端体验登录云端仿真环境 打开DreamView播放离线数据包PNC Monitor 内置的数据监视器cyber_monitor 实时通道信息视图福利活动 主页传送门&#xff1a;&#x1f4c0; 传送 概述 Apollo 开放平台是一个开放的、完整的、安全的平台&#xff0c;将帮助汽车行业及自…

搭建帮助中心系统的关键注意事项

帮助中心系统是现代企业不可或缺的一部分。它们提供了一个集中管理和发布信息的平台&#xff0c;使企业能够向客户提供准确、及时且易于访问的帮助文档和知识库。在搭建帮助中心系统之前&#xff0c;务必要仔细考虑这些关键注意事项。 | 选择合适的帮助中心系统软件 考虑功能…