Flink——最流批的大数据框架(流批一体)

news2024/11/16 5:46:38

Apache Flink基础教程

资料来源:Apache Flink Tutorial (tutorialspoint.com)

Apache Flink Tutorial

Apache Flink是Apache Hadoop的开源本地分析数据库。它由Cloudera、MapR、Oracle和Amazon等供应商提供。本教程中提供的示例是使用Cloudera Apache Flink开发的。

本教程是为那些想要学习Apache Flink的人准备的。Apache Flink使用传统的SQL知识以闪电般(松鼠般doge)的速度处理大量数据。

1. Flink-前置知识

1.1 大数据平台

学习Flink之前,先来点前置知识

在过去的10年里,数据的进步是巨大的;这就产生了一个术语“大数据”。可以称之为大数据的没有固定大小;传统系统(RDBMS)无法处理的任何数据都是大数据。这些大数据可以是结构化、半结构化或非结构化的格式。最初,数据有三个维度:体量(Volume) 、速度(Velocity)、种类(Variety)。现在,维度已经超过了三个“V”.我们现在添加了其他的V -真实性(Veracity),有效性(Validity),脆弱性(Vulnerability),价值(Value),可变性(Variability)等。

大数据导致了多种工具和框架的出现,这些工具和框架有助于存储和处理数据。目前流行的大数据框架有Hadoop、Spark、Hive、Pig、Storm和Zookeeper等。它还提供了在医疗保健、金融、零售、电子商务等多个领域创建下一代产品的机会。

无论是跨国公司还是初创企业,每个人都在利用大数据来存储和处理数据,并做出更明智的决策。

1.2 批处理vs实时处理

在大数据而言,有两种类型的处理:

  • (批处理)Batch Processing
  • (实时处理)Real-time Processing

处理基于一段时间内收集的数据称为批处理。例如,银行经理希望处理过去一个月的数据(随时间收集),以了解过去一个月被取消的支票数量。

处理基于即时数据的即时结果称为实时处理。例如,银行经理在发生欺诈交易(即时结果)后立即收到欺诈警报。

下表列出了批处理和实时处理的区别:

批处理(Batch Processing)实时处理(Real-Time Processing)
静态文件事件流
按分钟、小时、天等周期处理。纳秒级,及时处理
存在磁盘上的历史数据内存存储
例子−票据生成例子−ATM事务警报

如今,实时处理在每个组织(泛指各种公司、政府部门等机构)中都得到了广泛的应用。欺诈检测、医疗保健中的实时警报和网络攻击警报等用例需要实时处理即时数据;即使是几毫秒的延迟也会产生巨大的影响。

对于这种实时用例,理想的工具应该是能够以流而不是批处理的方式输入数据的工具。Apache Flink就是实时处理工具。

1.3 Flink 简介

Apache Flink是一个实时处理框架,可以处理流数据。它是一个开源流处理框架,用于高性能、可扩展和精确的实时应用程序。它具有真正的流模型。

tips: flink最初是为实时处理设计的,但现在是流批一体(从 Apache Flink 1.12.0 开始),就问你流不流批

Apache Flink是由Data Artisans公司创建的,现在由Apache Flink社区在Apache许可下开发。到目前为止,这个社区有超过479个贡献者和15500多个提交。


Apache Flink的生态系统

下图显示了Apache Flink生态系统的不同层:

Ecosystem on Apache Flink

下面,将从该图的从下往上,分别简要介绍STORAGE、DEPLOY、KERNEL、API’s and LIBRARIES


Storage(存储)

Apache Flink有多种读/写数据的选项。下面是一个基本存储列表−

  • HDFS (Hadoop Distributed File System)
  • 本地文件系统(Local File System)
  • S3
  • 关系型数据库:RDBMS (MySQL, Oracle, MS SQL etc.)
  • MongoDB
  • HBase
  • Apache Kafka
  • Apache Flume

Deploy(部署)

您可以在本地模式、集群模式或云上部署Apache Fink。集群模式包括:standalone、YARN、MESOS。

在云端,Flink可以部署在AWS或GCP上(都是云服务器)。


Kernel(内核)

这是运行时层,它提供分布式处理、容错、可靠性、本地迭代处理能力等等。


APIs & Libraries(api和库)

这是Apache Flink的顶层,也是最重要的一层。它有数据集API,负责批处理;和数据流API,负责流处理。还有其他库,如Flink ML(用于机器学习),Gelly(用于图形处理),Tables for SQL。这一层为Apache Flink提供了多种功能。

未完待续,点个赞呗

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1860687.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于Jmeter的分布式压测环境搭建及简单压测实践

写在前面 平时在使用Jmeter做压力测试的过程中,由于单机的并发能力有限,所以常常无法满足压力测试的需求。因此,Jmeter还提供了分布式的解决方案。本文是一次利用Jmeter分布式对业务系统登录接口做的压力测试的实践记录。按照惯例&#xff0…

揭秘!为何电路仿真软件在线化成为新宠?

在科技飞速发展的今天,电路设计与仿真已经成为电子工程领域不可或缺的一部分。近年来,越来越多的工程师、学生甚至电子爱好者开始青睐在线化电路仿真软件,这一现象引发了广泛的关注。那么,为什么在线化电路仿真软件会如此受欢迎呢…

python turtle 001画两只小狗

效果图: 代码: pythonturtle001画两只小狗资源-CSDN文库 # 作者V w1933423import turtle # 导入turtle模块def draw_dogs():turtle.setup(800, 800) # 设置画布大小为800x800p turtle.Pen() # 创建一个画笔对象p.pensize(14) # 设置画笔大小为14p.…

数据挖掘常见算法(关联)

Apriori算法 Apriori算法基于频繁项集性质的先验知识,使用由下至上逐层搜索的迭代方法,即从频繁1项集开始,采用频繁k项集搜索频繁k1项集,直到不能找到包含更多项的频繁项集为止。 Apriori算法由以下步骤组成,其中的核…

​中国9大流域地图SHP数据

九大流域片区是指中国境内九个主要流域片区。 分别包括东南诸河区、内陆河区、松辽河流区、海河流域区、淮河流域区、珠江流域片、西南诸河片、长江流域片和黄河流域片等。 如果这九大流域数据对你有用,请在文末查看该数据的领取方法。 中国9大流域图 流域&…

谐波减速器行业发展速度有望加快 工业机器人领域为其最大需求端

谐波减速器行业发展速度有望加快 工业机器人领域为其最大需求端 谐波减速器指通过增大转矩、降低转速等方式实现减速目的的精密传动装置。谐波减速器具有轻量化、体积小、承载能力大、精度高、可靠性高、运行噪音小等优势,广泛应用于工业机器人、半导体制造、精密医…

华为的开发语言有2中,分别是ArkTS和仓颉,他们的区别是什么?

华为的开发语言有2中,分别是ArkTS和仓颉,他们的区别在哪呢? ArkTS和仓颉(cangjie)他们的区别是什么? 华为的仓颉和 ArkTS 是两种不同的编程语言,它们有以下区别: 设计目的&#xff1…

c++实现二叉树的前序遍历

文章目录 c代码结果 首先实现一颗这样的树 然后使用系统栈(递归)和自己定义的栈分别实现二叉树的前序遍历 c代码 #include<iostream> #include<stack> #include<map>using namespace std;map<int, char> nodeMap;struct TreeNode {int val_;Tree…

英伟达GB200系列AI芯片供不应求;阿里云通义灵码上线Visual Studio插件市场

&#x1f989; AI新闻 &#x1f680; 英伟达GB200系列AI芯片供不应求 摘要&#xff1a;英伟达GB200系列AI芯片供不应求&#xff0c;台积电和日月光等公司获追加订单。GB200芯片性能提升30倍&#xff0c;成本和能耗降至25分之一。预计2025年出货量突破百万颗&#xff0c;后段封…

ChatGPT智能对话绘画系统 带完整的安装源代码包以及搭建教程

系统概述 ChatGPT 智能对话绘画系统是一款集智能语言处理和绘画创作于一体的综合性系统。它利用了深度学习和自然语言处理技术&#xff0c;能够理解用户的意图和需求&#xff0c;并通过与用户的交互&#xff0c;生成富有创意的绘画作品。该系统的核心是一个强大的人工智能模型…

护眼台灯什么牌子好一点?五款高性能的护眼台灯品牌推荐

随着社会竞争的日益激烈&#xff0c;众多家长在子女教育上的投入愈发深厚&#xff0c;不遗余力地为他们定制各类课外培优和学习计划。在自然光线充足的白日&#xff0c;孩子们阅读或完成作业相对舒适。然而&#xff0c;当夜幕降临&#xff0c;室内光线若显得昏暗或亮度不足&…

FPGA - DFT(离散傅里叶变换)—FFT(快速傅里叶变化)

一&#xff0c;DFT(离散傅里叶变换原理) 1&#xff0c;DFT(离散傅里叶变换原理)理论简介 在数字信号处理中有一个基本概念&#xff1a; 如果信号在频域是离散的&#xff0c;则该信号在时域就表现为周期性的时间函数&#xff1b;相反&#xff0c;如果信号在时域是离散的&#x…

FreeCAD多文档管理及文档组成

FreeCAD的Application和Document都分为App和Gui两层。 1.App::Application功能 App层的Application主要包含两个功能&#xff1a;管理文件和管理配置。 分析App&#xff1a;&#xff1a;Application的成员变量。 App::Application具有一个存储文档对象的容器DocMap以及其他管…

视创云展虚拟展厅融入AI智能助手,有哪些优势?

随着科技的日新月异&#xff0c;AI人工智能技术在各行业中已经得到了广泛的应用和实践&#xff0c;正深刻改变着我们的工作和生活方式。 为了给企业的营销展示注入新的活力&#xff0c;视创云展在其虚拟展厅中巧妙融入了「AI智能助手」。当用户沉浸在虚拟展厅的自由探索之中时…

finalize——释放内存

重写 没写的话就按照定义的方法&#xff0c;object的默认方法 system.gc会主动调用垃圾回收器&#xff0c;不会使用finalize方法。需求不大 对于用debug怎么进入jdk源码&#xff0c;ararry.sort的源码进入

ravynOS 0.5.0 发布 - 基于 FreeBSD 的 macOS 兼容开源操作系统

ravynOS 0.5.0 发布 - 基于 FreeBSD 的 macOS 兼容开源操作系统 ravynOS - 一个旨在提供 macOS 的精致性和 FreeBSD 的自由度的操作系统 请访问原文链接&#xff1a;https://sysin.org/blog/ravynos/&#xff0c;查看最新版。原创作品&#xff0c;转载请保留出处。 作者主页…

未来科技中的RTK接收机应用探索

RTK实时差分定位技术&#xff08;RTK&#xff0c;Real-Time Kinematic&#xff09;&#xff0c;作为高精度定位技术的一种重要手段&#xff0c;已经在地理测绘、测量工程、航空航天等领域取得了广泛应用。随着科技的不断发展&#xff0c;RTK导航接收机的应用领域也日益拓宽。首…

stm32学习笔记---TIM输出比较(理论部分)

目录 TIM简介 定时器类型 基本定时器的结构图 时基单元 预分频器 计数器 自动重装寄存器 主模式触发DAC的功能 通用定时器的结构图 计数器的计数模式 内外时钟源选择和主从触发模式的结构 外部时钟模式2 外部时钟模式1 其他部分 输出比较电路 输入捕获电路 高…

HBase:大数据时代的分布式存储利器

HBase&#xff1a;大数据时代的分布式存储利器 HBase&#xff1a;大数据时代的分布式存储利器1. HBase简介2. HBase特点3. HBase应用场景4. 总结 HBase&#xff1a;大数据时代的分布式存储利器 随着互联网和大数据技术的飞速发展&#xff0c;数据存储和计算需求呈现出爆炸式增…

VMware Workstation环境下,用作测试的客户端,ubuntu安装体验案例

需求说明: 作为学习者&#xff0c;为了学习网络技术&#xff0c;网络操作系统管理技术&#xff0c;学习者首先需要有台计算机&#xff0c;其次需要在自己的计算机安装学习要用到的网络操作系统、模拟软件等。但由于计算机上一般使用的是Windows 10或Windows 7桌面操作系统&…