【Kubernetes】记录一次K8S容器内程序OOM排查过程:unable to create new native thread

news2025/1/11 18:02:30

文章目录

  • 项目背景
  • 问题初现
  • 问题排查
  • 问题定位
  • 问题解决

项目背景

基于k8s的容器化kafka PaaS管理平台,业务团队申请kafka,通过一系列操作,封装crd,调用operator创建集群,当然还包括其他功能、topic管理、group管理、监控告警、集群扩容、分区管理等等。

后台会对每个集群启动定时任务,扫描kafka的元数据变化,主要是使用zk客户端Curator。

问题初现

在集群增长到一定数量后,有一天,突然再访问PaaS平台就报错了,报错信息竟然是OOM:unable to create new native thread

原因可能是:

  • 线程数过多,无法再申请新的线程

  • 线程数超过机器每个对进程的线程数的限制

问题排查

首先查看程序占用的线程数

由于种种原因,用了比较笨的方法:

jstack 1 | grep 'java.lang.Thread.State' | wc -l

得到的数量是2300+,而容器对每个pod的线程数限制为2000,这就是问题所在

通过观察之后,大部分线程都是以“Curator-”为前缀的,进一步过滤:

jstack 1 |grep  "Curator" |wc -l

得到的数量是1800+

所以可以定位到:这些线程,都是和zk客户端有关系。

问题定位

首先看是哪个地方创建的线程,根据一顿搜索,找到了创建线程池的代码,其中线程池核心数的取值是这样的:

Math.max(Runtime.getRuntime().availableProcessors(), 16)

平平无奇,毫无波澜,但是这就是罪魁祸首

我们项目的Dockerfile如下:

FROM java:8
WORKDIR /
ADD target/xadd-kafka-console.jar app.jar
RUN bash -c 'cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime && touch /app.jar'
ENTRYPOINT ["java","-Djava.security.egd=file:/dev/./urandom","-server","-Xms4096m","-Xmx4096m","-XX:NewSize=1500m","-XX:+UseConcMarkSweepGC","-XX:CMSInitiatingOccupancyFraction=70","-jar","/app.jar"]

没有指定具体的java版本,这么写,到容器内会拉取哪个版本呢?

root@xadd-consumer-bbb464c4-qp7q8:/# java -version
openjdk version "1.8.0_111"
OpenJDK Runtime Environment (build 1.8.0_111-8u111-b14-2~bpo8+1-b14)
OpenJDK 64-Bit Server VM (build 25.111-b14, mixed mode)
root@xadd-consumer-bbb464c4-qp7q8:/# 
root@xadd-consumer-bbb464c4-qp7q8:/# 

答案是较低版本的:1.8.0_111

低版本的jdk对容器环境支持并不友好,使用代码Runtime.getRuntime().availableProcessors()获取到的CPU数量是宿主机的真实核数,而不是pod所分配的核数,我们K8S node节点的CPU核数为100左右,所以导致线程池的核心线程数是100(这是一个很大的坑,并不容易发现)

这个问题解决了,还有一个问题:为什么线程数会一直不断上涨呢?

查看项目代码:
在这里插入图片描述在这里插入图片描述
通过查看项目代码发现,每个Curator客户端都需要一个线程池作为参数,也就是每次有新的集群创建,都会创建一个新的线程池,这个无法避免,但是可以将核心线程数改小,保证线程数的增长在可控范围内

问题解决

  • 替换基础为openjdk:8u332-jdk

  • 修改核心线程数为4(CPU limit为2)

一个集群会创建4个线程 以集群接入速度来看 目前是可以接受的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/196317.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

年后上来面试了13家企业软件测试岗位,面试题整理

软件测试面试,800多道高频面试真题,随便刷。(希望能帮助大家)项目的测试流程 1. 拿到需求文档后,写测试用例 2. 审核测试用例 3. 等待开发包 4. 部署测试环境 5. 冒烟测试(网页架构图) 6.…

CSS中height:100vh和height:100%的区别是什么?

CSS中height:100vh和height:100%的区别 首先,我们得知道1vh它表示的是当前屏幕可见高度的1/100,而1%它表示的是父元素长或者宽的1%(可以这么理解?) 1、对于设置height:100%;有下面几种情况: &#xff08…

如何使用Maven快速构建JavaWeb项目?在idea中使用TomCat详细解读

文章目录1. 前言2. Web项目的结构3. 创建Maven Web项目4. 在IDEA中使用TomCat4.1 集成本地TomCat4.2 使用TomCat Maven插件5. 总结📂橙子精品文章学习推荐1. 前言 前面在 Web 服务器 TomCat 快速入门一文中,我们介绍了 Web 服务器的基本概念以及 TomCat…

工业平板电脑实现工厂自动化设备无需手动连接

随着中国经济的快速发展和材料水平的不断提高,制造业的竞争日益激烈,市场竞静力逐渐转向质量、效率和价格服务,制造业企业面临更大的挑战,数据转型迫在眉睫。对工业平板电脑的需求也在增加,面向行业的工业平板电脑已成…

Java设计模式--工厂模式

目录 1.简单工厂模式 1.1类图 1.2 代码示例 2.工厂方法模式 2.1 类图 2.2 代码示例 3.抽象工厂模式 3.1 类图 3.2 代码示例 实际应用: 总结: 1.简单工厂模式 定义了一个创建对象的类,由这个类来封装实力化对象的行为。 1.1类图 1.…

《三体》中罗辑所说的定位行星的位置,是怎样实现的?

最近流浪地球2,三体电视剧火得一塌糊涂,《三体》中罗辑用咒语标记了三体星系位置,利用黑暗森林理论与三体人对峙长达两百年,那么这种定位技术在现实中是否存在呢?咒语标记三体星系位置这件事,听起来很玄乎但…

vite兼容chrome48的方法

chrome48不支持async await语法,但有些桌面客户端的内嵌浏览器就是chrome48,如下操作即可兼容 当前环境:2023-2-3使用npm create vitelatest创建 开始兼容操作 安装vite推荐的 vitejs/plugin-legacy 文档官网 https://github.com/vitejs/vite/tree/m…

【JavaEE】HTTP的方法、报头、状态码

✨哈喽,进来的小伙伴们,你们好耶!✨ 🛰️🛰️系列专栏:【JavaEE】 ✈️✈️本篇内容:http请求的方法、报头;状态码! 🚀🚀代码存放仓库gitee:JavaEE代码&#…

学习QCustomPlot【4】库官方examples之plots解读

文章目录一、前言二、案例解说0:Quadratic Demo【二次曲线demo】1、Simple Demo【简单demo】2、Sinc Scatter Demo【Sinc函数散点demo】3、Scatter Style Demo【散点样式demo】4、Line Style Demo【线型demo】5、Scatter Pixmap Demo【图标散点demo】6、Date Demo【…

RANSAC的实现与应用

一、前言RANSAC(Random Sample Consensus)算法并不陌生,在上一篇博客中(基于SIFT的图像Matlab拼接教程)也提到过,之前代码中也多次用过,其在直(曲)线拟合、特征匹配、过滤外点(Outlier)等领域有着重要的应用。RANSAC出…

线性代数之线性基

在谈论线性基之前,先介绍什么是基向量. 根据高中数学,一个二维直角平面坐标系中的所有向量都可以只用(0, 1)和(1, 0)合成.那么(0, 1)和(1, 0)就是基向量,所有基向量能合成的所有向量被称为基向量的张成空间. 在二维空间中,有没有其他的向量能作为基向量呢?答案是肯定的. 上图…

Oracle事務簡述

簡述本文主要介紹內容有事務的隔離級別,oracle支持的事務隔離級別,事務的提交與回滾,保存點內容事務的ACID特征介紹事務繞不過事務的ACID四個特征,這裡簡單回顧以下原子性(Atomicity)事務的執行要麼全部成功…

广义霍夫变换和模板匹配的不同

简述说到霍夫变换,做图像的知道经典霍夫变换最常用于检测规则曲线,如直线、圆、椭圆等。而广义霍夫变换是为了检出那些无法写出解析式的不规则形状,虽然在深度学习大行其道的时代,霍夫变换也还是有很多应用场景,另外广…

2023年黑马Java入门到精通教程--面向对象

推荐教程:java零基础入门到精通 面向对象编程的例子 设计类,创建对象并使用 1. 类和对象是什么? 类:是共同特征的描述(设计图);对象:是真实存在的具体实例。 2. 如何设计类? 3. 如何创建对象…

CISP-PTE-Windows2003教程

为方便后续操作,建议和kali在同一网段。 获取到靶机IP后,扫描端口,1433是sqlserver的 测出用户名admin,但是密码爆破失败 扫描目录发现配置文件 配置文件中找到数据库的用户名和密码 使用Microsoft SQL Server Studio连接&#x…

MySQL从入门到精通(第0篇):全程有动画演示,适合入门学习

B站地址 文章目录一、MySQL的系统框架1. 连接池1.1 连接模块1.2 连接池2. SQL接口、SQL解析器、SQL优化器3. 存储引擎二、MySQL数据写入原理三、MySQL存储结构1. 使用InnoDB创建表2. 详述ibd文件中的存储结构2.1 页的数据连续存储2.2 行的结构2.3 区的结构2.4 组的结构2.5 段的…

剑指 Offer 33. 二叉搜索树的后序遍历序列

题目 输入一个整数数组&#xff0c;判断该数组是不是某二叉搜索树的后序遍历结果。如果是则返回 true&#xff0c;否则返回 false。假设输入的数组的任意两个数字都互不相同。 思路 二叉搜索树的特点是&#xff1a;左子树的值 < 根节点 < 右子树的值后序遍历的顺序是…

【逐步剖C】第三章-数组

一、一维数组 1. 一维数组的定义与使用 &#xff08;1&#xff09;数组的简单概念&#xff1a;一组具有相同类型的元素的集合 &#xff08;2&#xff09;数组的创建&#xff1a; 格式&#xff1a;类型名数组名[数组大小] 需要注意的是&#xff1a;对多数情况而言&#xff0c;…

# Vue中的Mixin混入

Vue中的Mixin混入 将组件的公共逻辑或者配置提取出来&#xff0c;哪个组件需要用到时&#xff0c;直接将提取的这部分混入到组件内部即可。这样既可以减少代码冗余度&#xff0c;也可以让后期维护起来更加容易。 1. 什么是Mixin&#xff1f; 混入 (mixin) 混入 (mixin) 将组…

数据库分类

关系型与非关系型 关系数据库 MySQL、MariaDB&#xff08;MySQL的代替品&#xff09;、 Percona Server&#xff08;MySQL的代替品&#xff09;、PostgreSQL、 Microsoft Access、Google Fusion Tables、SQLite、DB2、FileMaker、Oracle、SQL Server、INFORMIX、Sybase、dBASE…