DStream是什么?怎样对DStream进行操作?

news2024/12/24 9:03:02

DStream的本质

DStream(Discretized Stream)是Spark Streaming提供的基本数据抽象。它表示一个连续的数据流,可以是从源接收到的输入数据流,也可以是通过转换输入流生成的已处理数据流。

DStream由一系列连续的RDD表示,每个RDD都包含来自特定间隔的数据,如下图所示。SparkStreaming对流数据按照秒/分等时间间隔进行微批划分,每个微批就是一个RDD,这些个时间上连续的RDD就组成了

DStream

所以DStream本质上就是一系列时间上连续的RDD即DStream=>Seq[RDD]

在这里插入图片描述
对DStream进行操作

对DStream进行操作(如:flatMap/map/filter…)就是对其底层的RDD进行操作

对RDD操作会返回新的RDD,对DStream进行操作也会返回新的DStream
在这里插入图片描述
DStream具有容错性:

RDD之间存在依赖关系,DStream间也有依赖关系,RDD具有容错性,那么DStream也具有容错性
在这里插入图片描述
上图相关说明:

1、每一个椭圆形表示一个RDD

2、椭圆形中的每个圆形代表一个RDD中的一个Partition分区

3、每一列的多个RDD表示一个DStream(图中有三列所以有三个DStream

4、每一行最后一个RDD则表示每一个Batch Size所产生的中间结果RDD

DStream的API

大多数Transformation和Action/Output和之前的RDD的一样使用.少部分不一样的通过案例讲解

DStream Operations
Transformation
大多数和RDD中的类似,但有一些特殊的针对特定类型应用使用的函数,比如updateStateByKey状态函数、window窗口函数等,后续具体结合案例讲解。
http://spark.apache.org/docs/latest/streaming-programming-guide.html#transformations-on-dstreams

在这里插入图片描述
Output函数

Output Operations:将DStream中每批次RDD处理结果resultRDD输出
http://spark.apache.org/docs/latest/streaming-programming-guide.html#output-operations-on-dstreams

在这里插入图片描述
Java最新课程:

Java零基础视频教程(2022最新Java入门,含斯坦福大学练习题+力扣算法题

Java基础入门:

java零基础自学首Java入门教程(含Java项目和Java真题)

Javaweb核心基础

JavaWeb基础教程,Java web从入门到企业实战完整版

Spring Cloud最全微服务架构

史上最全面的springcloud微服务技术栈

SSM框架教程:

SSM框架教程_Spring+SpringMVC+Maven高级+Spring

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/425564.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

学习黑客十余年,如何成为一名高级的安全工程师?

1. 前言 说实话,一直到现在,我都认为绝大多数看我这篇文章的读者最后终究会放弃,原因很简单,自学终究是一种适合于极少数人的学习方法,而且非常非常慢,在这个过程中的变数过大,稍有不慎&#…

LONG LIVE KEJU! THE PERSISTENT EFFECTS OF CHINA’S CIVIL EXAMINATION SYSTEM

LONG LIVE KEJU! The persistent effects of China’s civil examination system(Ting Chen et al) – 论文精读 总览方法论 本文研究了古代科举制度对当代人力资本的持续性影响。 本文最值得关注的是工具变量的选取,选取了各县到最近的竹子和松柏产地的最短河流…

归并排序(递归+非递归)

目录一、什么是归并排序?二、归并排序(递归)三、归并排序(非递归)一、什么是归并排序? 归并排序,是创建在归并操作上的一种有效的排序算法。算法是采用分治法(Divide and Conquer&a…

企业电子招标采购系统源码Spring Boot + Mybatis + Redis + Layui + 前后端分离 构建企业电子招采平台之立项流程图

项目说明 随着公司的快速发展,企业人员和经营规模不断壮大,公司对内部招采管理的提升提出了更高的要求。在企业里建立一个公平、公开、公正的采购环境,最大限度控制采购成本至关重要。符合国家电子招投标法律法规及相关规范,以及…

【redis】缓存双写一致性之更新策略探讨(上)

系列文章目录 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加 例如:第一章 Python 机器学习入门之pandas的使用 提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目…

移动通信技术的毫米波波束成形系统构成

随着通信产业尤其是移动通信的高速发展,无线电频谱的低端频率已趋饱和。采用各种调制方法或多址技术扩大通信系统的容量,提高频谱的利用率,也无法满足未来通信发展的需求,因而实现高速、宽带的无线通信势必向微波高频段开发新的频…

No.035<软考>《(高项)备考大全》【第19章】流程管理

【第19章】流程管理1 章节相关2流程管理基础3 流程分析、设计、实施与评估4 流程重构与改进5 项目管理流程的管理和优化6 练习题参考答案1 章节相关 本章节看一遍即可。 2流程管理基础 ★1、BPM是一种以规范化的构造端到端的卓越业务流程为中心,以持续的提高组织…

Springboot基础学习之(十九):通过Mybatis和shiro框架实现授权功能

在shiro整合mybatis实现认证功能 在此篇文章的基础上实现授权的功能:对网页的访问设置权限,只有登录的用户具有该网页的访问权限才能够访问此网页,那篇文章已经将系统的环境全都配好了,只需要在完善功能即可,所以关于项…

怎么入驻Tik Tok的跨境MCN机构呢?

TIKTOK强势崛起,跨境MCN成黄金赛道 社交媒体格局的改变,往往体现在青少年身上。面对TIKTOK的强势崛起,全球社媒霸主Facebook已经出现衰落的趋势。 据相关数据显示,TIKTOK目前有四分之一的用户都是二十岁一下的青少年,拥…

大公司的okr管理- 氛围 + 月历

OKR之剑实战篇06:OKR致胜法宝-氛围&业绩双轮驱动(下)_vivo互联网技术的博客-CSDN博客 先说说氛围。组织氛围的提出者库尔特勒温被尊为“社会心理学之父”,他的核心理论非常通俗易懂,决定人类行为的,不是…

TK4860E交流充电桩检定装置

TK4860系列是专门针对现有交流充电桩现场检测过程中接线复杂、搬运困难、检测效率低、成本投入高等问题而研制的一系列高效检测仪器,旨在更好的开展充电桩的强制检定工作。 TK4860E交流充电桩检定装置是其中一款专用于现场检定电动汽车单相充电桩的一体式便携式仪器…

236页10万字精选数据中台建设方案2022版(word)

本资料来源公开网络,仅供个人学习,请勿商用,如有侵权请联系删除 1. 数据中台建设方案 1.1. 总体建设方案通过对客户大数据应用平台服务需求的理解,根据建设目标、设计原则的多方面考虑,建议采用星环科技Transwarp Data…

JAVA局域网飞鸽传书软件设计与实现

本文的目标是设计一个类似飞鸽传输的局域网通信软件,并分析它在其领域的优势。本设计以C编 写,能在windows 2000/net/xp等环境下运行。设计共分为五大模块,分别是:首先,介绍选题背景及意义和国内外研究现状&#xff1b…

【id:31】【20分】A. Point(类与构造)

题目描述 下面是一个平面上的点的类定义,请在类外实现它的所有方法,并生成点测试它。 输入 测试数据的组数 t 第一组测试数据点p1的x坐标 第一组测试数据点p1的y坐标 第一组测试数据点p2的x坐标 第一组测试数据点p2的y坐标 .......... 输出 输出…

阿里都在用的线上问题定位工具【收藏备用】

简介 Arthas 是Alibaba开源的Java诊断工具,动态跟踪Java代码;实时监控JVM状态,可以在不中断程序执行的情况下轻松完成JVM相关问题排查工作 。支持JDK 6,支持Linux/Mac/Windows。这个工具真的很好用,而且入门超简单&…

【故障诊断】用于轴承故障诊断的性能增强时变形态滤波方法及用于轴承断层特征提取的增强数学形态算子研究(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。⛳座右铭&#…

动态网站开发讲课笔记06:JSP技术

文章目录零、本节学习目标一、JSP概述(一)什么是JSP1、JSP的概念2、JSP的特征(1)跨平台(2)业务代码相分离(3)组件重用(4)预编译(二)编…

Kettle(9.3.0)连接ClickHouse

注意:低版本的kettle即使装ClickHouse驱动包后也不一定支持ClickHouse数据库连接(具体kettle从什么版本开始支持ClickHouse没测试过),只有高版本的kettle在安装ClickHouse驱动包后才支持ClickHouse数据库连接,因此这里…

海康工业相机USB相机问题排查思路—Windows 系统

​第一步骤:固件版本 a) 查看相机固件版本 b) 若较老建议升级成最新固件后再测试异常是否消失。 注意切勿跨大版本升级; 第二步骤:驱动排查查看客户端中 USB 相机枚举列表中的相机图标,正常情况下如图 2-1:若有“2”的字样(如图 2-2),则说明 PC 的 USB 口是 2.0 的,…

故障注入的方法与工具

可靠性是评估软件质量的重要属性,关键安全系统(Safety Critical Systems,SCS)对可靠性的要求尤为严格,因其一旦失效,将可能对生命、财产或环境造成重大损害。以汽车为例,ISO26262中ASIL D要求相…