【总结】yarn ResourceManager 宕机重启总是失败解决排查

news2024/12/28 3:38:54

目录

    • Yarn ResourceManager 莫名奇妙宕机
    • 重启Yarn ResourceManager 报错1
    • 重启Yarn ResourceManager 报错2
    • 成功解决

Yarn ResourceManager 莫名奇妙宕机

接到同事反馈,说yarn RM 端口总是访问超时。但是查看日志,又没有发现任务蛛丝马迹,且RM服务是存活的。很有可能是RM服务已经假死了。
在这里插入图片描述

重启Yarn ResourceManager 报错1

The specific max attemts: 0 for application:24998 is invalid.because it is out of [1,2] ……
在这里插入图片描述
ApplicationNotFoundException: Application with id ‘application_1687657423545_009’ doesn’t exist in RM.Please check that the job submission was successful.
在这里插入图片描述
RM服务重启后,没多久,又自动宕机。反复重启好几次都是一样的情况。于是乎开始,认真排查问题的真实原因。

最后,再out的日志文件里,发现了一些有用的信息。
在这里插入图片描述
看到Out of Memory Error,这下总算是有些眉目了。内存溢出,那就调大RM 得JVM 内存。之前是2G,调大到3G,继续重启。

重启Yarn ResourceManager 报错2

在这里插入图片描述
这一次重启,和之前重启有了不一样的报错,这次是重启了一会之后,日志大量刷之前刷过的日志,然后过一小会就停了。
最终退出前打印以上日志,特意去搜索了下:GC overhead limit exceeded 相关资料。

java.lang.OutOfMemoryError: GC overhead limit exceeded错误。

oracle官方给出了这个错误产生的原因和解决方法:

Exception in thread thread_name: java.lang.OutOfMemoryError: GC Overhead limit 
exceeded Cause: The detail message "GC overhead limit exceeded" indicates that 
the garbage collector is running all the time and Java program is making very slow 
progress. After a garbage collection, if the Java process is spending more than 
approximately 98% of its time doing garbage collection and if it is recovering less 
than 2% of the heap and has been doing so far the last 5 (compile time constant) 
consecutive garbage collections, then a java.lang.OutOfMemoryError is thrown. 
This exception is typically thrown because the amount of live data barely fits into 
the Java heap having little free space for new allocations.

Action: Increase the heap size. The java.lang.OutOfMemoryError exception for GC 
Overhead limit exceeded can be turned off with the command line flag -XX:-
UseGCOverheadLimit.

原因:
JVM花费了大量时间做垃圾回收,使得程序变得很慢,垃圾回收器一直在运行,Java程序运行很慢。如果Java进程花费超过大约98%的时间用于垃圾收集,回收到的只有2%可用的内存,且过去的5次垃圾回收情况都是如此,连续的垃圾收集效率都很低,那就说明Java堆几乎没有可供新分配的可用空间。

调整:看来RM 的JVM 内存调大到3G还是不行,那就继续调大到4G。

成功解决

当RM的JVM 内存调大到4G后,再次重启RM,服务刷了一堆同样的错误和警告日志后,终于停下来了。也没有再次宕机,登录到application scheduler页面,将一些过期的application 手动查杀掉之后,再次提交任务,就正常处理了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/682839.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ChatGPT扇动翅膀后带来的蝴蝶效应

对于蝴蝶效应最常见的阐述是:“一只南美洲亚马逊河流域热带雨林中的蝴蝶,偶尔扇动几下翅膀,可以在两周以后引起美国得克萨斯州的一场龙卷风。” 简介肯尼亚essay 正文论文代写之都为什么是肯尼亚?蝴蝶效应 简介 在印象中贫穷且落后的东非国家…

小航助学2023年6月GESP_C++一级试卷(含题库答题软件账号)

需要在线模拟训练的题库账号请点击 小航助学编程在线模拟试卷系统(含题库答题软件账号)_程序猿下山的博客-CSDN博客 删除编辑附件图文 答案:A 第1题以下不属于计算机输出设备的有( )。 A、麦克风B、音箱C、打印机D、显示器 答…

【Kubernetes部署篇】Kubeadm方式搭建K8s集群 1.27.0版本

文章目录 一、集群规划及架构二、系统初始化准备(所有节点同步操作)三、安装并配置cri-dockerd插件四、安装kubeadm(所有节点同步操作)五、初始化集群六、Node节点添加到集群七、安装网络组件Calico八、测试CoreDNS解析可用性 一、集群规划及架构 官方文档: 二进制…

低代码开发平台魔笔,评测火热征集!

阿里云低代码开发平台魔笔是一款面向全端(Web、H5、全平台小程序、App)场景,模型驱动的低代码开发平台, 具有集成开放、一云多端、多云部署等优势,助力客户在数字化转型进程中真正实现降本增效。 即日起至7月31日&…

自学网络安全遇到问题怎么解决?

趁着今天下班,我花了几个小时整理了下,非常不易,希望大家可以点赞收藏支持一波,谢谢。 我的经历: 我 19 年毕业,大学专业是物联网工程,我相信很多人在象牙塔里都很迷茫,到了大三大…

Xilinx XCZU7EV评估板规格书(四核ARM Cortex-A53 + 双核ARM Cortex-R5 + FPGA,主频1.5GHz)

1 评估板简介 创龙科技TLZU-EVM是一款基于Xilinx UltraScale MPSoC系列XCZU7EV高性能处理器设计的高端异构多核SoC评估板,处理器集成PS端(四核ARM Cortex-A53 双核ARM Cortex-R5) PL端UltraScale架构可编程逻辑资源,支持4K60fp…

Docker学习笔记4

使用docker管理容器: 理解下容器、镜像、仓库、docker daemon和docker client三者之间的关系: 总结: 1)docker客户端下达命令docker daemon。 2)docker daemon 先到本地镜像目录查找容器,如果没有&#…

韶音openfit值得入吗?南卡、韶音、cleer哪家的开放式耳机好呢?

开放式耳机以其独特的音场表现和自然的听觉感受,以及不入耳的舒适佩戴体验而赢得了众多音乐发烧友和运动爱好者的们的青睐。今天,给大家带来了开放式耳机市场中备受关注的三款开放式耳机,分别是NANK南卡OE PRO、韶音OpenFit、和cleer ARC II;…

简易MFC的成绩管理系统

意义 掌握MFC控件的基本使用,结合了面向对象和Window消息机制的知识。 选择做简单的成绩管理系统,该项目切合大学生实际情况。易于更好理解。 项目实现了成绩的增加、修改、删除、存储(文件读写操作)的功能。 创建项目 打开软件…

Bytebase 2.3.0 - Snowflake SQL 审核,Oracle 数据脱敏和数据导出中心

🚀 新功能 支持 Snowflake 的 SQL 审核❄️。 新增数据导出中心。 支持 Oracle 的数据脱敏。 🎄 改进 支持配置外部审批节点,并用于自定义审批流中。 自定义审批流支持「退回」操作。 项目的「租户模式」改名为「批量模式」。 优化了…

GraalVM初体验

本篇文章我会根据自己的本机安装GraalVM,并将一个简单的jar打包成一个可执行文件 机器:mac 处理器2.7 GHz 四核Intel Core i7 (非M1) GraalVM:17 (支持的jdk为8-17),因此不需要找单独…

时速云使用 Higress 替换 Ngnix Ingress + Spring Cloud Gateway 的生产实践

作者:王金山,北京云思畅想科技有限公司技术部微服务架构师,负责公司 API 网关和服务网格等研发工作 时速云介绍 时速云成立于2014年10月,致力于通过云原生技术帮助企业实现数字化转型,拥有云原生应用平台 TCAP 和云原…

php 目录

简介 PHP 是一种创建动态交互性站点的强有力的服务器端脚本语言。 PHP代码的标签 数据类型 String(字符串) Integer(整型) Float(浮点型) Boolean(布尔型) Array(数组&…

knife4j(swagger2)实现spring security或shiro权限注解内容显示

在前后端交互时,某些接口需要指定权限才能访问,虽然可以在ApiOperation注解的notes参数上自己加上,但是每个接口都要手动写,有点儿。。。 基于此需求,我们可以使用swagger提供的OperationBuilderPlugin,通…

档案库房空气质量温湿度一体化平台解决方案

档案馆温湿度十防环境一体化解决平台方案 说明:档案库房温湿度一般要达到如下要求: 在选定温度、湿度后,每昼夜波动幅度温度≦2℃,湿度≦5%RH。 下表是档案库房温湿度要求列表: 档案库房温湿度要求 项 目 温湿度范…

企业给员工内部搭建知识库用什么好?

企业给员工内部搭建知识库是一种有效的知识管理方式,可以帮助企业更好地管理和共享知识资源,提高员工的工作效率和学习能力。本文将介绍企业搭建内部知识库的好处、搭建方法和注意事项等方面的内容,希望对企业进行知识管理的决策者有所帮助。…

青年就业创业数据分析:视频相关就业已成为数字生态就业的主要发展形式

哈喽大家好,随着网络的普及,利用数字科技与互联网技术,以青年群体为主要对象,数字生态行业催生出了一大批新兴的就业岗位。世界范围内,数字生态经济已成为不少国家经济发展的重要支撑,成为解决青年就业问题…

00后腾讯T3-2 晒出工资单:狠补了这个,真香…

最近一哥们跟我聊天装逼,说他最近从腾讯跳槽了,我问他跳出来拿了多少?哥们表示很得意,说跳槽到新公司一个月后发了工资,月入5万多,表示很满足!这样的高薪资着实让人羡慕,我猜这是税后…

采用Prometheus+Grafana+Altermanager搭建部署K8S集群节点可视化监控告警平台

文章目录 1. 实验节点规划表2. 安装Prometheus3. 安装node_exporter4. 配置prometheus.yml文件5. 安装Grafana6. 安装Altermanager监控告警 采用 "PrometheusGrafana"的开源监控系统,安装部署K8S集群监控平台。 并使用Altermanager告警插件,配…

AutoSAR系列讲解(入门篇)1.2-AutoSAR的概述

目录 一、到底什么是AutoSAR 1、大白话来讲 2、架构上来讲 应用软件层(APPL) 实时运行环境(RTE) 基础软件层(BSW) 3、工具链上来讲 二、AutoSAR的目标 一、到底什么是AutoSAR 1、大白话来讲 AUTOSAR 就是AUTomotive Open System ARchitecture的…