背景信息
当您的业务是使用Java开发,且设置的JVM堆空间过小时,程序会出现系统内存不足OOM(Out of Memory)的问题。事件中心的OOM事件是指系统内存不足时,触发了Linux的内存回收(OOM Killer)机制,此时系统会终止内存占用较多的进程以保证系统的正常运行。特别是在容器环境下,不合理的JVM堆参数设置会导致各种异常现象产生,例如应用堆大小还未到达JVM设置的堆阈值或应用的规格限制,就因为OOM导致重启等。
通过-XX:MaxRAMPercentage限制堆大小(推荐)
在容器环境下,Java只能获取服务器的配置,无法感知容器内存限制。您可以通过设置-Xmx来限制JVM堆大小,但该方式存在以下问题:
-
当规格大小调整后,需要重新设置堆大小参数。
-
当参数设置不合理时,会出现应用堆大小未达到阈值但容器OOM被强制关闭的情况。
说明
「应用程序出现OOM问题时,会触发Linux内核的OOM Killer机制。该机制能够监控占用过大内存,尤其是瞬间消耗大量内存的进程,然后它会强制关闭某项进程以腾出内存留给系统,避免系统立刻崩溃。」
推荐的JVM参数设置
-XX:+UseContainerSupport
-XX:InitialRAMPercentage=70.0
-XX:MaxRAMPercentage=70.0
-XX:MinRAMPercentage=70.0
-XX:+PrintGCDetails
-XX:+PrintGCDateStamps
-Xloggc:/home/admin/nas/gc-${POD_IP}-$(date '+%s').log
-XX:+HeapDumpOnOutOfMemoryError
-XX:HeapDumpPath=/home/admin/nas/dump-${POD_IP}-$(date '+%s').hprof
-Xms1g -Xmx1g -XX:+PrintFlagsFinal -XX:+UnlockDiagnosticVMOptions -XX:ParallelGCThreads=4 -XX:CICompilerCount=4 -XX:+UseParNewGC -XX:+UseConcMarkSweepGC -XX:InitialCodeCacheSize=128m -XX:ReservedCodeCacheSize=256m -XX:MetaspaceSize=256m -XX:MaxMetaspaceSize=512m -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -XX:+PrintGCApplicationStoppedTime -XX:+PrintGCApplicationConcurrentTime -Xloggc:/usr/local/gc.txt -XX:+PrintSafepointStatistics -XX:PrintSafepointStatisticsCount=1 -XX:+LogVMOutput -XX:LogFile=/usr/local/vm.txt -XX:-UseBiasedLocking -XX:+LogCompilation
参数 | 说明 |
-XX:+UseContainerSupport | 使用容器内存。允许JVM从主机读取cgroup限制,例如可用的CPU和RAM,并进行相应的配置。当容器超过内存限制时,会抛出OOM异常,而不是强制关闭容器。 |
-XX:InitialRAMPercentage | 设置JVM使用容器内存的初始百分比。建议与-XX:MaxRAMPercentage保持一致,推荐设置为70.0。 |
-XX:MaxRAMPercentage | 设置JVM使用容器内存的最大百分比。由于存在系统组件开销,建议最大不超过75.0,推荐设置为70.0。 |
-XX:+PrintGCDetails | 输出GC详细信息。 |
-XX:+PrintGCDateStamps | 输出GC时间戳。日期形式,例如2019-12-24T21:53:59.234+0800。 |
-Xloggc:/home/admin/nas/gc-${POD_IP}-$(date '+%s').log | GC日志文件路径。需保证Log文件所在容器路径已存在,建议您将该容器路径挂载到NAS目录或收集到SLS,以便自动创建目录以及实现日志的持久化存储。 |
-XX:+HeapDumpOnOutOfMemoryError | JVM发生OOM时,自动生成DUMP文件。 |
-XX:HeapDumpPath=/home/admin/nas/dump-${POD_IP}-$(date '+%s').hprof | DUMP文件路径。需保证DUMP文件所在容器路径已存在,建议您将该容器路径挂载到NAS目录,以便自动创建目录以及实现日志的持久化存储。 |
❝说明
使用-XX:+UseContainerSupport参数需JDK 8u191+、JDK 10及以上版本。JDK 11版本下日志相关的参数-XX:+PrintGCDetails、-XX:+PrintGCDateStamps、-Xloggc:LOG_PATH/gc.log代替。Dragonwell 11暂不支持${POD_IP} 变量。如果您没有将/home/admin/nas容器路径挂载到NAS目录,则必须保证该目录在应用启动前已存在,否则将不会产生日志文件。
❞
常见问题
容器出现137退出码的含义是什么?
当容器使用内存超过限制时,会出现容器OOM,导致容器被强制关闭。此时业务应用内存可能并未达到JVM堆大小上限,所以不会产生dump日志。建议您调小JVM堆大小的上限,为容器内其他系统组件预留足够多的内存空间。
为什么发生OOM却没有生成dump文件?
当发生OOM Killer时,并不一定会发生JVM OOM,所以不会生成dump文件。您可以采取以下方式来避免这种情况。
-
如果是Java应用,可以适当调小JVM的堆内存大小。具体配置,请参见本文。
-
如果是非Java应用,可以调整实例规格,保证充裕的内存资源。
堆大小和规格内存的参数值可以相同吗?
不可以。
因为系统自身组件存在内存开销,所以不能将JVM堆大小设置为和规格内存大小相同的数值,需要为这些系统组件预留足够的内存空间。
在JDK 8版本下设置-XX:MaxRAMPercentage值为整数时报错怎么处理?
这是JDK 8的一个Bug。
具体信息,请参见Java Bug Database。例如,在JDK 8u191版本下,设置-XX:MaxRAMPercentage=70,此时JVM会启动报错。
解决方案如下:
-
方式一:设置-XX:MaxRAMPercentage为70.0。说明 如果您使用了-XX:InitialRAMPercentage或-XX:MinRAMPercentage,参数值同样不可设置为整数。
-
方式二:升级JDK版本至JDK 10及以上版本。
为什么JVM参数设置了6 GB,但是内存使用率却很低?
虽然JVM参数已设置-Xms6g -Xmx6g,但是操作系统不会马上分配6 GB的物理内存,需要实际使用后才分配。因此,内存使用率在应用启动的时候,会相对较低,后续会出现攀爬现象。
调优堆栈内存
表 1. 堆栈大小典型配置参数
调优回收器GC
表 2. 吞吐量优先的GC典型配置参数
表 3. 响应时间优先的GC典型配置参数
表 4. 用于辅助的GC典型配置参数