Systemd服务配置排坑-TasksMax参数

news2024/10/4 2:25:26

一、背景

        由于产品是Java程序,之前都是通过封装的start.sh运行即可。但是出于架构调整,改换为Ansible进行自动化部署,同时改用Systemd service的方式来对程序进行管理。

        但不知道为啥原因,使用systemctl启动这个程序,就会无脑报错。 报错信息看起来像是我们使用到nacos,一直停留在无法创建新的线程、堆内存溢出:

       晚上申请割接窗口时间进行排查,排查了2天都没排查出个所以然。 更奇怪的是,我们直接使用start.sh的方式能正常启动,但是使用systemctl 启动服务的方式就是死活起不来,这才是最坑的地方。

        从报错信息,我们以为是ulimit设置的文件句柄限制太小,查看了一下ulimit -a, 发现限制量是100w, 应该不是这个问题。

        也看了下nacos的端口可以正常访问,程序给了40G堆内存。并且是服务启动就报错咯,而不是运行起来才报错。  也没有生成dump文件。jstack分析了下线程运行情况,也正常。   百思不得其解。

        最后,我们根据现象大概率判断可能是我们的systemd service哪里出了问题,要不然无法解释为啥同样的程序,通过start.sh启动可以正常,但是通过systemd的方式起不来。

二、排查过程

1、查看service文件,发现参数LimitNOFILE

        刚开始我们发现service文件存在这个参数LimitNOFILE=81920, 以为是这个参数导致的。后面尝试把这个参数注释掉,重新启动发现还是一样起不来。

        那根本原因还是没找到,只能继续排查。

2、TasksMax参数

        后面使用systemctl start service, 直接通过systemcl status service观察服务的运行状态,看下是什么原因挂掉的。 此时发现了一个有趣的现象:

        这里有一个limit的限制,还没修复之前是512, Tasks的数量一直在涨,大于>=limit 512以后,整个service也挂了。

        很符合我们观察到的启动现象。

        查询了一下资料,这个参数的含义:

systemd的TasksMax参数用于限制systemd管理的服务的并发线程数。当服务的线程数达到这个限制时,新线程的创建将会失败,并可能导致服务出现错误或不稳定。

TasksMax参数可以在系统级别或进程级别进行设置。系统级别的设置影响所有systemd管理的服务,而进程级别的设置则只影响特定的服务。

TasksMax参数的作用和设置方法主要包括以下几点:

限制并发线程数:TasksMax参数设定了一个服务可以创建的线程数的上限。这有助于防止因线程过多而导致的资源耗尽和服务崩溃。
系统级别设置:在系统级别,TasksMax参数可以在/etc/systemd/system.conf文件中进行设置。例如,可以将DefaultTasksMax的值修改为5120,以允许服务创建更多的线程。

        原来是systemd限定了进程的并发线程数量, 超过了则这个service会被systemd干掉。  顺藤摸瓜,我们看下这个默认值limit是不是512? 怎么修改参数值?

systemctl show --property=DefaultTasksMax

        还真是512.对应得上了。  那么我们尝试修改下这个service的TaskLimit参数限制,调整到了10000.再尝试启动程序看是否正常,此时发现程序已经正常启动,不会挂了。 

 三、总结

        针对systemd的配置信息,需要我们详细的去了解相关参数,才能写出较少的坑的sevrice文件。 

        我们可以直接通过systemctl --show | grep 的方式来过滤一些关键词,从而学习这些配置项的含义,要不然遇到这种坑真的难以排查。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1793358.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何优雅的解析多层JSON报文数据?什么是Ognl?

在日常项目开发中,经常遇到与其他数据交互就需要进行数据传输处理,那么当对方系统返回的数据报文有多层复杂的json数据时候,如何简单快捷的获取指定节点的数据呢,答案是可以使用Ognl来解决。 1.什么是ognl? OGNL全称…

一位美国的PM分享:AI产品经理的10大技能

从传统角度来看,一款成功的产品需要拥有稳定的功能,至少要满足甚至超出用户的期望,并且能够为业务的增长作出重大贡献。产品经理的主要职责包括设定和管理用户期望,定期收集可量化的反馈信息,严格地与工程师进行沟通&a…

【代码随想录——动态规划——理论基础】

1.理论基础 动态规划,英文:Dynamic Programming,简称DP,如果某一问题有很多重叠子问题,使用动态规划是最有效的。 所以动态规划中每一个状态一定是由上一个状态推导出来的,这一点就区分于贪心&#xff0c…

Jenkins的jdk和maven配置

目录 传送门前言一、概念二、JDK的配置三、Maven配置四、环境变量配置五、坑 传送门 SpringMVC的源码解析(精品) Spring6的源码解析(精品) SpringBoot3框架(精品) MyBatis框架(精品&#xff09…

Java+前端+Vue 后端Spring boot 开发的全套UWB定位方案,0.1米高精度定位系统源码

Java前端Vue 后端Spring boot 开发的全套UWB定位方案,0.1米高精度定位系统源码 UWB定位系统由硬件定位设备、定位引擎和应用软件组成。该定位系统应用软件支持PC端和移动端访问,并提供位置实时显示、历史轨迹回放、人员考勤、电子围栏、行为分析、智能巡检等功能…

基于docker的oracle12.2.0.1部署及oracle使用与docker镜像容器制作迁移方法

基于docker的oracle12.2.0.1部署及oracle使用与docker镜像容器制作迁移方法 本文介绍了基于docker的oracle12.2.0.1部署,包含了oracle基本配置、监听器和实例启动方法、PDB和CDB操作方法、表空间建立和用户数据库建立、常见启动问题解决等,并介绍了镜像制…

resultType的类型错误

resultType的类型错误,不能是List而应该是对应的返回Bean对象的类型,VO 这里是引用 org.mybatis.spring.MyBatisSystemException: nested exception is org.apache.ibatis.exceptions.PersistenceException: Error querying database. Cause: java.lang…

【Python】【PVE】使用PVE-API对虚拟机进行远程关机

源代码 import requests import urllib3 urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)address "填写PVE的域名/IP:端口" path "/api2/json/nodes/填写节点名称/qemu/填写虚拟机VMID/status/shutdown" url "https://&quo…

vs - vs2013中编译sqlite3.44.2

文章目录 vs - vs2013中编译sqlite3.44.2概述笔记工程输出归档END vs - vs2013中编译sqlite3.44.2 概述 以前在vs2019下编译了sqlite3.44.2, 好使。做了笔记(sqlite3.44.2的编译) 现在准备将手头的vs2019工程改为vs2013的,自然要将sqlite也编译为vs2013版本的。 按…

Python for循环 使用两个变量

https://geek-docs.com/python/python-ask-answer/336_python_for_loop_with_two_variables.html 一、使用zip()函数进行迭代 zip()函数可以将两个或多个可迭代对象打包成一个元组序列。 fruits [apple, banana, orange] prices [0.5, 0.3, 0.4]for fruit, price in zip(f…

【C++】C++提供类型转换的机制

目录 前言: 一,static_cast 二,reinterpret_cast 三,const_cast 四,dynamic_cast 前言: 传统的不同类型转换有隐式类型转换(类型不匹配时编译器自动进行的转换,如:i…

记一次安卓.apk加固,加固后安装失败,重新签名也安装失败问题

1、AndroidStudio打包生成.apk文件 2、使用360加固apk(或其他平台) 注意:加固后的apk必须进行重新签名才能安装,否则安装失败。apk签名可以使用jarsigner 和 apksigner,jarsigner 只能进行v1签名;apksigner…

Linux ip命令常用操作

ip 命令来自 iproute2 软件包,在 CentOS 7 中默认已安装(yum install -y iproute)。 iproute2 软件包提供了很多命令(rpm -ql iproute |grep bin),如 ss 命令、bridge,这些命令可以完全替代 if…

【CMake系列】06-项目结构与输出路径管理

为了对大型项目实现更好的管理【模块化协作开发等等】,cmake 提供了很多指令,可以对项目的结构进行调整、管理,便于项目的合理规划。本文我们要学习的就是 项目结构的设置,以及 构建程序等 输出路径的设置 本专栏的实践代码全部放…

【MySQL】Linux安装MySQL

一、center OS环境准备 为了在Linux系统中查看MySQL5.8与8.0版本的区别 我们要准备两个虚拟机,需要的软件:VMware和CentOS7 因为博主之前在学习redis的时候已经安装过一个虚拟机了,所以我就直接克隆了一个CentOS2.0 修改mac地址&#xff0…

mysql8.0中的mysql.ibd

mysql8.0版本中多了一个mysql.ibd的文件。5.7版本则没有这个文件。 MySQL5.7: .frm文件 存放表结构信息 .opt文件,记录了每个库的一些基本 信息,包括库的字符集等信息 .TRN,.TRG文件用于存放触发器的信 息内容。 在MySQL 8.0之前&#xff0…

Windows10系统中安装与配置PyTorch(无GPU版本)

文章目录 1. 什么是PyTorch2. PyTorch的安装与配置(无GPU)2.1 创建环境2.2 安装pytorch库(无GPU)2.3 验证安装结果 1. 什么是PyTorch PyTorch 是一种用于构建深度学习模型且功能完备的开源框架,通常用于处理图像识别和…

计算机网络学习实践:模拟RIP动态路由

计算机网络学习实践:模拟RIP动态路由 模拟动态路由RIP协议 1.实验准备 实验环境:华为模拟器ENSP 实验设备: 3个路由器,3个二层交换机(不是三层的),3个PC机 5个网段 192.168.1.0 255.255.…

【C++】STL:栈和队列模拟实现

💞💞 前言 hello hello~ ,这里是大耳朵土土垚~💖💖 ,欢迎大家点赞🥳🥳关注💥💥收藏🌹🌹🌹 💥个人主页&#x…

spring boot sso

代码:https://gitee.com/forgot940629/ssov2 授权服务 登录成功后,session中会存储UsernamePasswordAuthenticationToken,之后每次请求code时都会用UsernamePasswordAuthenticationToken生成OAuth2Authentication,并将OAuth2Aut…