初探大数据流式处理

news2025/1/24 2:14:42

在这里插入图片描述

文章目录

  • 初探大数据流式处理
    • 批式处理系统特点
    • 流式处理系统特点
    • 大批次计算
    • 微批次计算
    • 适用场景
  • 流式计算的应用场景
  • 流式大数据的特征
  • 流式计算的关键技术
  • 流式处理框架的特征
  • 三大流式数据处理框架

初探大数据流式处理

大数据处理系统主要分为批式处理流式处理两类。批式处理将大量数据分成批次进行处理,适用于对实时性要求不高的场景,如离线数据分析和大规模数据计算,常见的框架包括MapReduce、Hive和Spark。流式处理则是一种实时数据处理方式,能够逐条或按小批次处理数据,适用于需要低延迟和高实时性的场景,如实时监控和即时分析,常见的框架包括Spark Streaming、Flink和Storm。

批式处理系统特点

  • 数据批量处理:将某时间段的数据汇聚成一个批次,进行业务逻辑处理后加载至存储系统。
  • 查询延迟性:虽然可对完整大数据集实现高效查询,但无法查询到最新的实时数据,存在一定的数据延迟。
  • 处理时间长:处理数据一般计算时间较长,可能几分钟、几小时甚至几天。

流式处理系统特点

  • 实时处理与低延迟:流式大数据处理系统能够实时处理逐条或多条数据,并将数据加载到高性能内存中进行计算,同时支持数据的持久化,确保低延迟的数据处理。
  • 数据到达的不确定性:流式计算无法预先确定数据的到达时间和顺序,使得数据处理过程具有不确定性。
  • 网络延迟的影响:在实时流计算中,由于网络延迟,来自不同节点的数据可能不会按照发送顺序被处理,可能导致数据处理顺序的混乱。

大批次计算

  • 大批次计算时间:通常以小时、天、周、月、年作为时间间隔,因此也被称为离线计算。
  • 典型的计算框架:包括MapReduce、Hive、SparkCore、SparkSQL等。

微批次计算

  • 微批次计算时间:处理数据的单位通常是毫秒、秒、分钟,因此也被称为实时计算。
  • 典型的计算框架:包括SparkStreaming、Flink、Storm等。

适用场景

  • 批量计算适用场景:适合对实时性要求不高,但对数据的准确性和全面性更为重要的应用场景。通常采用先存储后计算的方式。
  • 流式计算适用场景:适合无需先存储、可以直接进行数据计算,且对实时性要求严格,但对数据精确度要求稍微宽松的应用场景。
  • 流批一体计算适用场景:流量计算和批量计算具有明显的优劣互补特征。在多种应用场合下,可以通过结合流式计算的实时性优势和批量计算的计算精度优势,满足不同阶段的数据计算要求。

流式计算的应用场景

  • 计算结果精度问题:大数据流式计算主要用于对动态产生的数据进行实时计算并及时反馈结果,但通常不要求结果绝对精确。
  • 计算时机问题:在数据的有效时间内获取其价值是大数据流式计算系统的首要设计目标。当数据到来后,系统会立即对其进行计算或对一小段时间间隔的数据进行计算,而不会等待后续全部数据到来再进行计算。

流式大数据的特征

  • 实时性:流式大数据要求数据在产生后能够被即时处理和分析,以确保结果的时效性。
  • 易失性:流式数据往往具有短暂的生命周期,如果不能及时处理,数据可能会丢失或失效。
  • 突发性:流式数据的产生速率可能会突然增加,形成数据洪峰。
  • 无序性:流式数据在传输过程中可能会因为网络延迟等原因而乱序到达。
  • 无限性:流式数据是持续不断产生的,没有明确的结束点。

流式计算的关键技术

  • 系统架构:包括有中心节点的主从式架构和无中心节点的对称式系统架构。
  • 数据传输:包括主动推送方式和被动拉取方式。
  • 编程接口:方便用户根据流式计算的任务特征,通过有向任务图来描述任务内在逻辑和依赖关系,并编程实现任务图中各节点的处理功能。
  • 高可用技术:包括被动等待策略和主动等待策略。
  • 时间窗口动态数据处理:实时系统需要提供对动态数据的实时处理方法,以快速响应来自业务系统的即席查询请求。

流式处理框架的特征

  • 强实时处理:流式处理需要确保数据的实时计算,同时也需要确保处理结果的实时发送。
  • 高容错能力:由于数据很容易丢失,这就需要系统具有一定的容错能力。
  • 动态变化:一般采用流式处理架构的应用场景都存在数据速率不固定的情况。
  • 多数据源:由于可能存在很多的数据源,而且各数据源、数据流之间又可能是相互独立的。
  • 数据时效性:系统在数据计算过程中,无法保存全部数据。

三大流式数据处理框架

  • Storm:提供原生流处理,延迟极低,但吞吐量较低且不支持状态管理。
  • Spark Streaming:采用微批处理模型,支持高吞吐量和状态管理,但延迟较高。
  • Flink:结合了原生流处理和微批处理的优点,提供低延迟、高吞吐量、精确一次的数据保证和强大的状态管理能力,适用于复杂的实时数据处理场景。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2281174.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

快速搭建深度学习环境(Linux:miniconda+pytorch+jupyter notebook)

本文基于服务器端环境展开,使用的虚拟终端为Xshell。 miniconda miniconda是Anaconda的轻量版,仅包含Conda和Python,如果只做深度学习,可使用miniconda。 [注]:Anaconda、Conda与Miniconda Conda:创建和管…

部门管理查询部门,nginx反向代理,前端如何访问到后端Tomcat 注解@RequestParam

接口开发 增删改通常是不用返回data数据,返回null 列表查询-结果封装,时间 前后端联调测试 nginx反向代理,前端如何访问到后端Tomcat服务器 删除部门

PID 控制算法(二):C 语言实现与应用

在本文中,我们将用 C 语言实现一个简单的 PID 控制器,并通过一个示例来演示如何使用 PID 控制算法来调整系统的状态(如温度、速度等)。同时,我们也会解释每个控制参数如何影响系统的表现。 什么是 PID 控制器&#xf…

AutoSar架构学习笔记

1.AUTOSAR(Automotive Open System Architecture,汽车开放系统架构)是一个针对汽车行业的软件架构标准,旨在提升汽车电子系统的模块化、可扩展性、可重用性和互操作性。AUTOSAR的目标是为汽车电子控制单元(ECU&#xf…

RTMP|RTSP播放器只解码视频关键帧功能探讨

技术背景 我们在做RTMP|RTSP直播播放器的时候,遇到过这样的技术诉求,在一些特定的应用场景中,可能只需要关键帧的信息,例如视频内容分析系统,可能只对关键帧进行分析,以提取特征、检测对象或场景变化。鉴于…

C#防止重复提交

C#防止重复提交 文章目录 C#防止重复提交前言防止重复提交的思路Web API 防止重复提交代码实现代码讲解使用方法 MVC防止重复提交总结 前言 当用户在前端进行提交数据时,如果网络出现卡顿和前端没有给出响应的话顾客通常都会狂点提交按钮,这样就很容易导…

基于深度学习的视觉检测小项目(十五) 用户的登录界面

用户管理离不开的是消息框(QMessageBox)和对话框(QDialog),比如对话框用于用户名和密码输入,消息框用于提示登录成功、密码错误。 • 基础知识:PySide6(PyQT5)的常用对话…

在 Kubernetes 上快速安装 KubeSphere v4.1.2

目录标题 安装文档配置repo安装使用插件 安装文档 在 Kubernetes 上快速安装 KubeSphere 配置repo export https_proxy10.10.x.x:7890 helm repo add stable https://charts.helm.sh/stable helm repo update安装 helm upgrade --install -n kubesphere-system --create-name…

CPU 缓存基础知识

并发编程首先需要简单了解下现代CPU相关知识。通过一些简单的图,简单的代码,来认识CPU以及一些常见的问题。 目录 CPU存储与缓存的引入常见的三级缓存结构缓存一致性协议MESI协议缓存行 cache line 通过代码实例认识缓存行的重要性 CPU指令的乱序执行通过…

江天科技主要产品销售单价下滑,应收账款、存货周转率大幅下降

《港湾商业观察》廖紫雯 日前,苏州江天包装科技股份有限公司(以下简称:江天科技)冲击北交所,保荐机构为国投证券。 江天科技主要从事标签印刷产品的研发、生产与销售,公司主要产品包括薄膜类和纸张类的不…

Unity中在UI上画线

在UI中画一条曲线 我封装了一个组件,可以实现基本的画线需求. 效果 按住鼠标左键随手一画. 用起来也很简单,将组件挂到空物体上就行了,红色的背景是Panel. 你可以将该组件理解为一个Image,只不过形状更灵活一些罢了,所以它要放在下面的层级(不然可能会被挡住). 代码 可以…

Cloud Foundry,K8S,Mesos Marathon弹性扩缩容特性对比

一、Cloud Foundry 使用Scaling an Application Using App Autoscaler插件,基于资源使用情况触发简单扩缩容 CPU、内存、Http带宽、延时等 监控这些资源的使用情况决定扩缩容策略:实例是增加还是减少 Instance Limits 限制实例数量范围,定义…

Qt —— 控件属性

一、概述 控件有很多属性,我们学习和整理常见和常用的几个属性,由于所有的控件基本都是继承Widget类的,所以前面会先拿Widget类和常见的控件进行示范。 Qt Designer左侧一长条就是Qt给我们内置好的控件: 二、enabled 状态属性 …

vue+高德API搭建前端Echarts图表页面

利用vue搭建Echarts图表页面,在搭建Echarts图表中,如果搭建地理地形图需要准备一些额外的文件,地理json文件和js文件,js文件目前在网上只能找省一级的,json文件有对应的省市县,js文件和json文件对应的也是不…

Gartner发布2025年网络治理、风险与合规战略路线图

新型网络风险和合规义务,日益成为网络治理、风险与合规实践面临的问题。安全和风险管理领导者可以参考本文,实现从被动、专注于合规的方法到主动、进一步自动化方法的转型。 主要发现 不断变化的监管环境和不断扩大的攻击面,使企业机构难以实…

Redis 集群模式入门

Redis 集群模式入门 一、简介 Redis 有三种集群模式:主从模式、Sentinel 哨兵模式、cluster 分片模式 主从复制(Master-Slave Replication): 在这种模式下,数据可以从一个 Redis 实例(主节点 Master)复…

查看电脑或笔记本CPU的核心数方法及CPU详细信息

一、通过任务管理器查看 1.打开任务管理器 可以按下“Ctrl Shift Esc”组合键,或者按下“Ctrl Alt Delete”组合键后选择“任务管理器”来打开。 2.查看CPU信息 在任务管理器界面中,点击“性能”标签页,找到CPU使用记录区域&#xff0c…

光学遥感显著性目标检测2023-2024论文学习

GRSL 2023: Attention-Aware Three-Branch Network for Salient Object Detection in Remote Sensing Images 基于encoder-decoder框架,提出了一系列缝合模块,GCA,FDUC,MSDC,RA。 GRSL 2023:OR…

Kubernetes 集群中安装和配置 Kubernetes Dashboard

前言 上篇成功部署Kubernetes集群后,为了方便管理和监控集群资源,安装Kubernetes Dashboard显得尤为重要。Kubernetes Dashboard 是一个通用的、基于 Web 的 UI,旨在让用户轻松地部署容器化应用到 Kubernetes 集群,并对这些应用进…

2025西湖论剑-babytrace

前言 就做了下题目,pwn1/3 都是签到,pwn2 后面绕 ptrace 有点意思,简单记录一下 漏洞分析 子进程中的读/写功能没有检查负数的情况,存在越界读写: void __fastcall get_value(__int64 *int64_arr) {__int64 ll; //…