告别传统MQ:Kafka是一个分布式事件流平台,这到底意味着什么呢?

news2024/12/29 9:25:44

1、引言

在大数据时代,实时数据处理和流式数据分析变得越来越重要。为了应对大规模数据的高吞吐量和低延迟处理需求,出现了各种分布式流处理平台。其中,Apache Kafka作为一种高性能、可扩展的分布式消息系统,成为了广泛应用于实时数据处理和数据管道的核心组件。

2、Kafka概念

Apache Kafka 是一个分布式事件流平台:

  • 发布和订阅事件流,类似于消息队列或企业消息传递系统。
  • 以容错持久的方式存储事件流。
  • 在事件流发生时对其进行处理。

要更详细地了解分布式事件流,您应该首先了解事件是世界或您的业务中“发生的事情”的记录。例如,在拼车系统中,您可能会看到以下事件:

  • 事件key: “Alice”
  • 事件value: “Trip requested at work location”
  • 事件 timestamp: “Jun. 25, 2020 at 2:06 p.m.”

事件数据描述了发生的事情、时间以及涉及的人员。事件流是从数据库、传感器、移动设备、云服务和软件应用程序等源实时捕获示例中的事件的实践。

事件流平台按顺序捕获事件,并持久存储这些事件流,以便实时处理、操作和响应或稍后检索。此外,事件流可以根据需要路由到不同的目标技术。事件流可确保数据的连续流动和解释,以便在正确的时间、正确的地点提供正确的信息。

为了实现这一目标,Kafka 作为集群运行在一台或多台可以跨越多个数据中心的服务器上。并以分布式、高度可扩展、弹性、容错和安全的方式提供其功能。此外,Kafka 可以部署在裸机硬件、虚拟机、容器、本地以及云端。

借助 Kafka,您可以获得用于管理任务的命令行工具,以及用于为您的场景构建事件流解决方案的 Java 和 Scala API。

事件流适用于众多行业和组织的各种用例。例如:

  • 作为消息系统。例如,Kafka 可用于实时处理支付和金融交易,例如在证券交易所、银行和保险公司。
  • 活动跟踪。例如,Kafka 可用于实时跟踪和监控汽车、卡车、车队和货运,例如出租车服务、物流和汽车行业。
  • 收集指标数据。例如,Kafka 可用于连续捕获和分析来自物联网设备或其他设备(例如工厂和风电场)的传感器数据。
  • 用于流处理。例如,使用 Kafka 收集客户交互和订单并做出反应,例如零售、酒店和旅游业以及移动应用程序。
  • 解耦系统。例如,使用 Kafka 连接、存储并提供公司不同部门生成的数据。
  • 与其他大数据技术(例如 Hadoop)集成。

Kafka的核心概念包括以下几个部分:

1.主题(Topic)

主题是数据流的类别或标签,用于将数据进行分类。生产者将数据发布到特定的主题,消费者订阅这些主题以接收数据。

2.分区(Partition)

每个主题可以分为一个或多个分区,每个分区是数据的有序序列。分区允许在多个服务器上并行处理和存储数据,并实现高吞吐量和负载均衡。

3.生产者(Producer)

生产者是将数据发布到Kafka主题的应用程序。它负责将数据发送到指定的主题,并根据分区策略选择目标分区。4.消费者(Consumer)

消费者是从Kafka主题中订阅和读取数据的应用程序。它可以订阅一个或多个主题,并从指定的偏移量开始消费消息。

5.偏移量(Offset)

偏移量是分区中每条消息的唯一标识符,表示消息在分区中的位置。消费者可以指定偏移量来读取特定位置的消息。

Kafka可以用于多种场景,包括日志收集、事件驱动架构、实时分析、指标监控、流式ETL等。它提供了可靠的数据传输、持久化存储、数据复制和容错机制,使得大规模数据处理和流式数据分析变得更加高效和可靠。

3、Kafka特性

  1. 高吞吐量

Kafka设计用于处理高吞吐量的数据流。它能够处理每秒数百万条消息,并支持同时处理大量的生产者和消费者。Kafka通过分区和并行处理来实现高吞吐量的数据传输。

2.可扩展性

Kafka是一个分布式系统,可以在集群中添加更多的服务器来扩展其容量和性能。它使用分区机制将数据分布到多个节点上,允许并行处理和水平扩展。

3.持久性存储

Kafka提供持久化的数据存储,即使消息被消费,它们仍然会被保留在磁盘上一段时间。这使得应用程序可以随时回放历史数据,进行批处理操作或重新处理数据。

4.高可用性

Kafka通过数据的复制和分布式副本机制来提供高可用性。每个分区都有多个副本,其中一个副本被选为Leader,负责处理读写请求,其他副本则作为Followers,用于备份和数据复制。如果Leader副本失效,Followers中的一个会被选举为新的Leader,以确保数据的可用性和连续性。

5.多语言支持

Kafka提供了多种编程语言的客户端API,包括Java、Python、Go和.NET等,方便开发者使用各种编程语言进行消息的生产和消费。

4、Kafka应用


Kafka在大数据和实时数据处理领域有广泛的应用场景。以下是一些常见的Kafka应用场景:

  1. 日志收集和分析

Kafka能够高效地收集和存储大量的日志数据。应用程序可以将日志消息发布到Kafka主题中,而日志分析系统可以通过订阅主题来实时消费和处理日志数据,进行实时监控、故障排查和数据分析等操作。

2.实时流处理

Kafka作为流处理平台,可以进行实时的数据处理、转换和聚合。它提供了Kafka Streams库,使得开发者能够轻松构建和部署实时流处理应用程序。实时流处理场景包括实时计算、实时监控、实时推荐等。

3.事件驱动架构

Kafka作为事件驱动架构的核心组件,能够实现松耦合的异步通信和事件驱动的处理。不同的服务和组件可以通过Kafka进行事件的发布和订阅,实现解耦、可扩展和高可用的架构。

4.指标监控

Kafka可以作为指标数据的收集和传输平台,用于实时监控系统的性能和状态。应用程序可以将指标数据发送到Kafka,监控系统订阅相应的主题来实时消费和处理指标数据,进行实时监控、报警和分析。

5.数据管道和ETL

Kafka可以作为数据管道,连接不同的数据系统和应用程序。它可以与消息队列、数据库、数据湖等系统进行集成,实现异构系统之间的数据流动和交互。同时,Kafka的持久化存储和流处理能力也使得它成为实时ETL(Extract, Transform, Load)的理想选择。

6.媒体流处理

Kafka可以用于处理媒体数据流,如音频、视频等。它能够高效地处理和传输大规模的媒体数据,并支持流媒体处理和实时分析,适用于实时广播、视频直播等场景。

5、使用者

Apache Kafka 是最流行的开源流处理软件,用于大规模收集、处理、存储和分析数据。它以其出色的性能、低延迟、容错和高吞吐量而闻名,每秒能够处理数千条消息。Kafka 用例超过 1,000 个,并且数量还在不断增加,一些共同的好处是构建数据管道、利用实时数据流、启用运营指标以及跨无数来源的数据集成。

如今,Kafka 被数千家公司使用,其中包括超过 80% 的财富 100 强企业。其中包括Box,Goldman Sachs,Target,Cisco,Intuit等。作为授权和创新公司的可靠工具,Kafka 允许组织通过事件流架构实现数据策略的现代化。了解 Kafka 如何被各行各业的组织使用 - 从计算机软件、金融服务和医疗保健到政府和交通。


如果文章对你有帮助,欢迎关注+点赞,必回关!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/747966.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

并发编程 - EDA 实操

文章目录 需求CodeUser定义不同类型的EventChat Channel(Handler)Chat User线程小结需求 借助我们开发的EDA小框架,模拟一个简单的聊天应用程序。 Code User 我们定义一个User对象,代表聊天室的参与者 package com.artisan

【每日一题】931 . 最小下降路径总和

【每日一题】931 . 最小下降路径总和 931 . 最小下降路径总和题目描述解题思路 931 . 最小下降路径总和 题目描述 给你一个n x n方形队列, matrix请你找出并返回matrix下降路径 的最小和。 下降路径可以从第一行中的任意元素开始,并从每一行中选择一个…

函数基础

一、初识函数 函数,可以当做是一大堆功能代码的集合。 def 函数名():函数内编写代码......函数名()例如: # 定义名字叫info的函数 def info():print("第一行")print("第二行")print("第n行...")info()运用函数的场景&a…

uniApp之同步资源失败,未得到同步资源的授权,请停止运行后重新运行,并注意手机上的授权提示、adb、shell、package、uninstall

文章目录 背景解决思路执行查找第三方应用的指令执行卸载指令 背景 一开始正常编译运行,由于应用页面有些许奇怪的错误,便想着卸载,重新运行安装调试基座。卸载后,运行还是会出现,明明已经把应用卸载了,还是…

C++在线五子棋对战(网页版)项目:实用工具类模块代码实现

在线五子棋项目中需要用到的实用工具模块: 1.日志宏:实现程序日志打印 2.mysql_util:数据库的连接和初始化,句柄的消耗,语句的执行 3.json_util:封装实现json的序列化和反序列化 4.string_util:封装实现字符…

Clion开发STM32之W5500系列(四)

W5500协议层之DHCP功能 头文件 #ifndef STM32_VET6_W5500_DHCP_H #define STM32_VET6_W5500_DHCP_H#include "socket.h"#define DEVICE_ID "w5500" #define IP_CONFLICT_STR "CHECK_IP_CONFLICT" #define DHCP_FLAGSBROADCAST 0x8000 /* …

π141E30S 200Mbps四通道数字隔离器兼容代替NSi8141S0

π141E30S荣湃深力科 200Mbps四通道数字隔离器兼容代替NSi8141S0 π141E30S数字隔离器具有出色的性能特 征和可靠性,整体性能优于光耦和基于其他原理的数字隔离器。 在不需要调制和解调的情况下,实现电压信号跨越隔离介质精 准传输。 π141E30S传输通道…

利用ffmpeg使用脚本+excel批量合成视频

起因是忘了是什么时候,下载的视频是被切割的一个一个的,所以网上找了方法,利用ffmpeg批量进行了批量合成,这里记录一下,并用gpt解释一下脚本含义。 1、文件名批量转mp4格式 如果文件名不规范,可以利用exce…

spark Structured Streaming checkpoint参数优化

目录 1 问题描述2 分析 checkpointLocation 配置 2.1 checkpointLocation 在源码调用链2.2 MetadataLog(元数据日志接口)3 分析 checkpointLocation 目录内容 3.1 offsets 目录3.2 commitLog 目录3.3 metadata 目录3.4 sources 目录3.5 sinks 目录4 解决…

跨站脚本攻击XSS

​​​​​​1、漏洞原理及防御 XSS又叫CSS (CrossSiteScript),因为与层叠样式表(css)重名,所以叫Xss,中文名叫跨站脚本攻击。 xss攻击,主要就是攻击者通过“html注入”篡改了网页,插入了恶意的脚本,从而在用户浏览网页时&#…

迅为龙芯3A5000_7A2000COMe_模块和主板

龙芯 3A50007A2000 COME 采用全国产龙芯 3A5000 处理器,基于龙芯自主指令系统 (LoongArche)的 LA464 微结构,并进一步提升频率,降低功耗,优化性能。桥片采用龙芯 7A2000,支持 PCIE 3.0、USB 3.0 和 SATA 3.0、显示接口…

单独编译 Android 固件-打包 update.img-iTOP-RK3588开发板

进入到 3588-android12 文件夹,输入以下命令设置 java 版本为 1.8 版本,如下图所示: source javaenv.sh java -version 输入以下命令使能编译环境: source build/envsetup.sh lunch rk3588_s-userdebug 执行完上述命令,如果需要编译 uboo…

如何破解滑动验证码?

本文通过自动化查询域名或公司的备案信息,来演示其中图片滑动验证码的破解方式,以此来思考验证码的安全性问题,思考如何设计出安全性更高的验证码。 注意:破解验证码进行网络内容抓取可能是一种违规行为,可以以此进行验…

西门子PLC硬件编程需要注意的几个要点

往往一个好的编程程序习惯可以让事情事半功倍。用正确的逻辑思维和方法去写程序,一方面可以减少出错,另一方面就是方便检查程序里出现的bug。下面就为大家盘点一下,西门子PLC的一些硬件编程的好习惯。 1、关于选型 项目开始需要统计出IO点表…

Linux嵌入式项目-智能家居

一、资料下载 二、框架知识 三、MQTT通信协议 1、上位机APP主要工作 1.wait for msg / while(1)订阅等待消息 2.处理消息 客户端创建了两个线程,一个线程用于发布消息,一个线程用于监听订阅消息 (那我的仿真系统也可以啊,一个…

《AutoSar实战》DIO配置

文章目录 前言一、配置过程1,选择引脚2,DIO模块配置1)新建DioChannel 3,PORT模块配置4,保存并生成DIO,PORT模块 二、实现并验证1,调用函数接口2,示波器测量周期 总结 ->返回总目录…

富士施乐/Fuji Xerox SC2022 CPS DA 彩色激光复印机不能扫描的解决方法

一台富士施乐/Fuji Xerox SC2022 CPS DA 彩色激光复印机用网线连接的,有分配的IP地址,有三台电脑连接,可打印,但是不能扫描。 驱动也没问题,找了一台电脑先删除了打印机,在官网下载了驱动重新安装&#xff…

【Spring学习一】简单认识Spring是什么?——框架

目录 1、为什么要学习Spring? 2、Spring是什么? 1、IoC是什么? 2、进一步通过代码演示理解IoC 3、怎么理解容器? 4、知道DI与IoC的区别? 1、为什么要学习Spring? 我们常说的Spring 指的是 Spring Fra…

Microsoft 已经发布了7月份的产品安全问题修复报告。

🔥Microsoft 已经发布了7月份的产品安全问题修复报告。我们建议您关注趋势性漏洞,即那些已经或即将被攻击者积极利用的漏洞。 7月份报告中的两个危险漏洞: CVE-2023-32049和CVE-2023-35311。 CVE-2023-32049漏洞允许网络犯罪分子绕过Window…

卫星图片的Classification_model

Tensorflow版本:2.6.0 使用的是CNN神经网络,网络结构在最后给出 飞机和湖泊的卫星图片二分类网络 数据集请点击链接:https://www.kaggle.com/datasets/yo7oyo/lake-plane-binaryclass 数据集的构成:airplane: 700 张, …