Flink消费Kafka数据积压排查解决

news2024/9/27 17:33:39

0、背景

有个Flink任务每天不定时会出现数据积压,无论是白天还是数据量很少的夜里,且积压的数据量会越来越多,得不到缓解,只能每日在积压告警后重启,重启之后消费能力一点毛病没有,积压迅速缓解,然而问题会周而复始的出现,无论是周末还是节假日忍不了。

一、现象

 1:当积压时,最明显的是kafka积压不断升高

2. Flink ProcessFunction(主要处理逻辑)中多个代码块处理时间变长:

为了定位问题,在processFunction多个代码块加了处理时间的计算,结果发现,无论是简单的json处理部分还是与外部Redis,Mysql交互部分,都会有执行时间久的记录,另外这个任务Sink的地方是神策接口,接口设置的有超时时间,所以也会看到很多Sink TimeOut的记录。

 二、解决过程

2.1 排查过程

1.调整读取kafka消息数量:

ConsumerConfig.MAX_POLL_RECORDS_CONFIG,"300"

 2.调整Sink端接口的超时时间等

3. 调整任务资源

上面三个调整,前面两个没啥用,后面这个任务由原来一天一次不定时积压变成了2-3天积压。

 虽然调整问题有所改善,但是还得找到真正的原因彻底解决,后面发现,当任务积压时,TaskManager所在的机器CPU会突然升高,且一直持续,直到任务重启。

2.2 问题解决

接下来就是分析CPU升高的原因,可以参考另外一篇博客线上java程序CPU占用过高问题排查_vioao的博客-CSDN博客_java程序cpu占用过高

 去查看任务pid的一些相关信息,这里放两张图:

这么频繁的FGC,那问题就很明显了,FGC的时候,CPU升高,对应代码里CPU片段走到哪就停到哪,然后这一块的执行时间就变成,有的是5s,有的是15s

最后就是分析频繁FGC的原因,从上面第一张图也大概能看出来,ResultSetImpl是执行Mysql查询结果返回的对象类型,为了问题的排查,还是借助一下专业的工具

把内存文件dump下来分析一下。

 排查代码,发现与外部Mysql交互的时候,前面开发的同学大意,没做close,好吧,加上吧。

finally {
			if (rs != null) {
				try {
					rs.close();
				} catch (SQLException e) {
					// TODO Auto-generated catch block
					e.printStackTrace();
				}
			}
			if (prepStatement != null) {
				try {
					prepStatement.close();
				} catch (SQLException e) {
					// TODO Auto-generated catch block
					e.printStackTrace();
				}
			}
			if (conn != null) {
				try {
					conn.close();
				} catch (SQLException e) {
					// TODO Auto-generated catch block
					e.printStackTrace();
				}
			}
		}

参考资料:

1.《Flink 消费Kafka每日不定时积压(非重启不能解决)问题排查解决》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2052803.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

性能测试常见面试问题汇总

性能测试是什么? 答:性能测试是评估系统或应用程序在不同负载条件下的表现的过程。它可以帮助我们确定系统在正常使用期间所需的资源,并找出系统在何时无法满足用户需求的瓶颈。 性能测试包括哪些方面? 答:性能测试包括…

计算中间件平台之Linkis

Linkis 是由WeBank自主研发的一款面向大数据和AI的计算中间件平台。它的设计初衷是为了简化和统一各种计算引擎的调用和管理,降低使用大数据和AI技术的门槛。Linkis可以帮助用户在一个平台上方便地调用各种数据处理引擎,如Hadoop、Spark、Hive、Flink等&…

bridge资产导入blender错误 显示bidge Could not send data over port 28888

bridge资产导入blender错误 显示bidge Could not send data over port 28888 解决办法 1.在Quixel bridge里点击Edit找到Manage Plugins下载blender插件 我的显示已经下载好了 2.在Quixel bridge里点击Edit找到Settings找到插件保存路径 3.在路径里找到E:\Documents\Mega…

HTML5服装电商网上商城模板源码

文章目录 1.设计来源1.1 主界面1.2 购物车界面1.3 电子产品界面1.4 商品详情界面1.5 联系我们界面1.6 各种标签演示界面 2.效果和源码2.1 动态效果2.2 源代码 源码下载万套模板,程序开发,在线开发,在线沟通 【博主推荐】:前些天发…

STM32——I2C协议以及软件读写

I2C协议中SCL用于同布,当某一方发送/接收数据时,另一方将会发应答表示数据已收到。 一主多从:类似于老师是主在讲课,学生是从机,只有老师点名学生才能应答,否则不能自己应答。 之后是硬件电路的设置 对于…

【ACL2024】面向Stable Station的交互式多轮Prompt生成模型DiffChat

近日,阿里云人工智能平台PAI与华南理工大学金连文教授团队合作,在自然语言处理顶级会议 ACL 2024 上发表论文《DiffChat: Learning to Chat with Text-to-Image Synthesis Models for Interactive Image Creation. ACL 2024》。DiffChat算法是一个文到文…

【活动议题介绍】2024-08-25 | PowerData 数字经济·杭州开源行

【活动议题介绍】2024-08-25 | PowerData 数字经济杭州开源行 活动介绍议题介绍活动信息扫码报名往期开源行回顾 活动介绍 “总把西湖比西子,浓妆淡抹总相宜”,杭州,这座温婉如画的江南水乡,自古便以其独有的风姿吸引着无数文人墨…

【C++报错已解决】`RuntimeError: CUDA error: invalid device ordinal`

🎬 鸽芷咕:个人主页 🔥 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 引言 你是否在运行CUDA程序时遇到了RuntimeError: CUDA error: invalid device ordinal这样的错误?这通常是由于设…

STM32标准库学习笔记-9.DMA 直接存储器存取

参考教程:【STM32入门教程-2023版 细致讲解 中文字幕】 DMA(Direct Memory Access) DMA(Direct Memory Access)直接存储器存取DMA可以提供外设和存储器或者存储器和存储器之间的高速数据传输,无须CPU干预…

OpenCV图像滤波(20)模糊处理函数stackBlur()的使用

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 stackBlur() 函数用于对图像进行模糊处理。该函数对图像应用了 stackBlur 技术。stackBlur 可以生成与高斯模糊相似的结果,而且随着模…

ICMAN水位接近式检测方案(非接触式)

ICMAN水位液位接近式检测方案(非接触式) 我们的很多家用电器都会需要:液位检测 缺水&溢水提醒保护、高低液位提醒 液位传感器 像健康家电——烧水煮茶熬养生汤的烧水壶、豆浆机、养生壶等需要缺水保护和防溢液提醒; 像清洁…

ArcGis在线地图插件Maponline(好用版)

ArcGis加载插件,可在线浏览谷歌地图、天地图、高德地图、必应地图等多种,包含街道、影像、标注地图等信息(谷歌地图需自备上网手段),免费注册账号即可使用,可加载无水印底图。 与大地2000坐标无需配准直接使…

【吊打面试官系列-Memcached面试题】说说memcached 和 MySQL 的 query cache 相比,有什么优缺点?

大家好,我是锋哥。今天分享关于 【说说memcached 和 MySQL 的 query cache 相比,有什么优缺点? 】面试题,希望对大家有帮助; 说说memcached 和 MySQL 的 query cache 相比,有什么优缺点? 把 mem…

C语言典型例题45

《C程序设计教程(第四版)——谭浩强》 习题3.5 给一个不多于5位的正整数,要求: 1.求出它是几位数; 2.分别输出每一位数字; 3.按逆序输出各位数字,例如&#xff1…

修改了原神4.8版本升级数据表

<!DOCTYPE html> <html lang"zh-CN"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>原神4.8版本升级数据表</title> </head&…

jQuery的遍历和动画

一&#xff0c;前言 jQuery提供了一系列的方法来帮助开发者轻松地遍历和操作DOM元素集合&#xff0c;同时jQuery 提供了一些简单的方法来实现基本的动画效果&#xff0c;如淡入淡出、滑动等&#xff0c;同时还允许用户创建自定义动画序列。 二&#xff0c;遍历 &#xff08;1&…

【TCP/IP】确认应答、超时重传机制和TCP报头

TCP 相关机制 TCP 基本特点&#xff1a;有连接、可靠传输、面向字节流、全双工 有连接、面向字节流和全双工都能在前面的代码中体现有连接&#xff1a;必须要先调用 accept 建立联系才能处理面向字节流&#xff1a;会拿到 clientSocket 对象的 InputStream 和 OutputStream&a…

[书生大模型实战营][L0][Task2] Python 开发前置知识

0. 任务&#xff1a;在 InternStudio 环境中实现功能&#xff1a; python 实现 wordcount函数&#xff0c;统计英文字符串单词的使用频率&#xff0c;并返回字典&#xff1b;vscode 远程调试 InternStudio 中的 python 代码 1. wordcount 函数实现 string.punctuation 是一个…

从【人工智能】到【计算机视觉】,【深度学习】引领的未来科技创新与变革

前几天偶然发现了一个超棒的人工智能学习网站&#xff0c;内容通俗易懂&#xff0c;讲解风趣幽默&#xff0c;简直让人欲罢不能。忍不住分享给大家&#xff0c;点击这里立刻跳转&#xff0c;开启你的AI学习之旅吧&#xff01; 前言 – 人工智能教程https://www.captainbed.cn/l…

CentOS迁移案例 | 保障轨道交通安全、发挥基础设施效能,麒麟信安操作系统支撑某市轨道交通畅行无忧

为缓解城市交通拥堵难题&#xff0c;某市轨道交通公司计划新建一条贯穿城市关键区域、沿路设立20座站点的轨道交通线路&#xff0c;并基于麒麟信安操作系统构建轨道交通信号系统。 轨道交通信号系统是列车核心控制系统&#xff0c;负责列车运行的自动化控制&#xff0c;及对整…