如何解决 Compute 节点上的内存溢出(OOM)问题

news2024/11/14 16:18:16

内存溢出(Out-of-memory)是数据处理系统中常见的问题,本文将分析 OOM 的各种原因并提供有效的解决方法。

RisingWave 使用像 AWS S3 这样的共享存储,并将 Compute 节点的内存用作缓存以增强流处理性能。缓存以 Least Recently Used (近期最少使用算法,LRU)的方式运作,即当内存不足时,将删除最少使用的条目。

为了获得最佳性能,建议 Compute 节点的最低内存为 8 GB,但生产环境中建议使用 16 GB 及以上。

本文重点解决 Compute 节点上的 OOM 问题。如果在其他节点上遇到 OOM,请首先升级到最新版本。如果问题仍然存在,请联系我们。

1. OOM 判断方法

Kubernetes 显示 Compute 节点 Pod 由于 OOM Killed (137) 而突然重新启动。

Grafana 指标显示内存无限增长,超出了为 Compute 节点设置的 total_memory 限制。内存设置可以在 Compute 节点的启动日志中找到。搜索关键字“Memory outline"以定位特定部分。

内存溢出判断方法

2. 创建物化视图时的 OOM

如果在创建新的物化视图时发生 OOM,可能是由上游系统(如 Kafka)中存在的大量现有数据引起的。这种情况下,在创建或重新创建物化视图之前,可以通过指定每个并行度的速率限制来减少流量:

CREATE MATERIALIZED VIEW mv WITH ( source_rate_limit = 200 ) AS 

参数 source_rate_limit 表示每个并行度在每个源上的每秒最大记录数,其中流作业的默认并行度是集群中所有 CPU 核心的总数。例如,假设一个物化视图有 4 个并行度和 2 个 Source 连接在一起,每个 Source 的吞吐量将被限制为 4 * source_rate_limit 条记录/秒。

或者,您可以使用 risectl 来更改现有物化视图的流速限制,其中 <id> 可以在 RisingWave 看板或 rw_catalog Schema 中找到。

risingwave ctl throttle source/mv <id> <source_rate_limit>

3. 屏障延迟导致的 OOM

屏障在我们的系统中发挥着关键作用,支持内存管理和 LRU 缓存等重要组件的正常运行。

从 Grafana 看板的屏障延迟面板可以观察到屏障延迟,如图所示,延迟曲线异常。
屏障延迟面板

与仅解决内存问题不同,建议关注为何屏障出现问题。可能是由繁重的流作业、输入流量的突然冲击或一些临时问题引起。

以下方法可以帮助解决此问题:

  • 在 Grafana 中,观察片段(actor)之间的背压。两个片段之间的高背压表明下游片段无法足够快地处理数据,从而减慢整个流作业的速度。
  • 在 RisingWave 看板中检查所有 Compute 节点的 Await Tree Dump。如果屏障陷入困境,Await Tree Dump 将显示屏障正在等待特定操作完成。这个片段可能是流作业的瓶颈。

不管是哪种情况,您都可以试着将更多节点添加到集群中,以增加并行度,或检查 SQL 查询语句看看是否有优化的空间。

4. 长时间批量查询时的 OOM

如果在长时间批查询期间发生 OOM,可能是由 Compute 节点上的内存使用过多而引起。在这种情况下,可以通过调整 TOML 文件中的 storage.prefetch_buffer_capacity_mb 参数来减少预取的内存使用。

参数 storage.prefetch_buffer_capacity_mb 定义了预取的最大内存。它通过预读来优化流执行器和批查询性能。此功能允许 hummock(为流计算而生的存储引擎) 在单个 I/O 操作中读取更大的数据块,但这样一来,内存成本更高。当预取操作期间的内存使用达到此限制时,hummock 将恢复到原始读取方法,以 64 KB 块处理数据。如果将参数设置为 0,则将禁用此功能。默认情况下,它设置为总机器内存的 7%。

5. 使用内存分析工具进行故障排除

如果屏障延迟正常,但内存使用仍在增加,可能需要进行内存分析以找出根本原因。

我们在 RisingWave 看板中添加了堆分析工具,以帮助您分析内存使用情况并识别与内存相关的问题。

INFO: 要启用内存分析,请为 Compute 节点设置环境变量 MALLOC_CONF=prof:true

进入 RisingWave 看板,选择 Debug > Heap Profiling。如果您正在本地机器上运行 RisingWave,可以通过 127.0.0.1:5691 访问 RisingWave 看板。

默认情况下,当内存使用达到 90% 时,heap profile 数据将自动转储,也可以选择手动转储。转储数据后,在看板内单击 Analyze,以检查内存使用模式和潜在问题,而无需离开看板界面。

6. 在社群寻求帮助

您可以关注 RisingWave 中文开源社区公众号加入中文社群,与广大用户群体一同参与讨论、寻求帮助、分享经验。

在提交问题时,请包括以下详细信息:

  • 问题摘要;
  • 重现问题的步骤;
  • 相关资源,如日志、截图、指标、堆栈转储等。

7. 关于 RisingWave

RisingWave 是一款开源的分布式流处理数据库,旨在帮助用户降低实时应用的开发成本。RisingWave 采用存算分离架构,提供 Postgres-style 使用体验,具备比 Flink 高出 10 倍的性能以及更低的成本。

👨‍🔬加入 RW 社区,欢迎关注公众号:RisingWave 中文开源社区

🧑‍💻想要了解和探索 RisingWave,欢迎浏览我们的官网:risingwave.com/

🔧快速上手 RisingWave,欢迎体验入门教程:github.com/risingwave

💻深入理解使用 RisingWave,欢迎阅读用户文档:zh-cn.risingwave.com/docs

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2079014.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

最新盘点!推荐10款简单易用的进销存软件!

本文将会盘点10款比较简单的进销存软件&#xff1a; 简道云、秦丝生意通、管家婆、金蝶精斗云、用友 T、百胜软件、速达软件、商陆花、Zoho Inventory、QuickBooks。 进销存软件就如同企业的得力助手。它能把企业的进货、销售和库存管理得妥妥当当&#xff0c;让企业清楚地掌握…

微深节能 堆取料机回转俯仰角度检测系统 格雷母线定位系统

微深节能在堆取料机回转俯仰角度检测系统中引入的格雷母线定位系统&#xff0c;是一项重要的技术创新&#xff0c;显著提升了堆取料作业的自动化水平和精确性。以下是对该系统的详细介绍&#xff1a; 一、系统概述 格雷母线定位系统作为高精度、无磨损的非接触式位置检测系统&a…

uni-app - - - - - 自定义状态栏

uni-app - - - - - 自定义状态栏 1. 效果图 2. pages.json配置 在需要使用自定义状态栏的页面&#xff0c;添加如下配置 {"path": "pages/index/index","style": {"navigationBarTitleText": "",// 使用自定义状态栏"…

apache httpclient速成

目录标题 快速使用连接池参数连接池状态清除闲置连接evictIdleConnections删除过期连接 timeToLive 和evictExpiredConnections 注意释放内存关闭流 http和netty的关系 导入依赖 <dependency><groupId>org.apache.httpcomponents.client5</groupId><artif…

STM32 - 笔记3

1 开发有基于寄存器和HAL库 在开发 STM32 系列微控制器时&#xff0c;你可以选择基于寄存器的开发方法或使用 STM32 HAL&#xff08;硬件抽象层&#xff09;库进行开发。两者各有优缺点&#xff0c;适用于不同的场景和开发需求。下面详细介绍两种方法的特点、使用场景以及示例…

头条/微头条文章采集洗稿发布软件(文字版)说明文档/使用教程

大家好&#xff0c;我是淘小白~ 今天给【头条/微头条文章采集洗稿发布软件】做一个文字版的使用说明文档&#xff01; 旧版说明文档&#xff08;含视频&#xff09;&#xff1a;https://blog.csdn.net/u012917925/article/details/141280090 注意&#xff1a;软件版本一直在…

JS实现不同网页间的数字员工与数据存储

一、目标任务&#xff1a; 要去 https://sjfw.scjs.net.cn:8801/xxgx/Enterprise/eList.aspx 根据企业名称查询到统一社会征信代码。 然后拿统一社会征信代码去 https://rzsc.sczwfw.gov.cn/portal/newOrg/orgRegister.jsp 查询法人信息。 最后两个页面不断跳转进行信息存储…

pythonnet-C#调用python脚本-含matplotlib+biopython

本地环境&#xff1a; win10&#xff0c;.NET Core 6&#xff0c;Python 3.9.13&#xff0c;pythonnet 3.0.3 测试的包&#xff1a;biopython 1.82&#xff0c;matplotlib 3.5.2 参考&#xff1a; GitHub - pythonnet/pythonnet: Python for .NET is a package that gives Py…

FPGA 如何进入 AI 领域的思考

FPGA在AI领域如何发力&#xff0c;如何抢碗饭吃&#xff1f;大多数提到是硬件加速&#xff0c;在AI工程里&#xff0c;完成数据前处理&#xff08;加速&#xff09;。大家很少提到AI模型的本身的推理过程&#xff0c;让FPGA成为AI模型的推理/算力芯片&#xff0c;这自然是 FPGA…

家校互动实现方案

目前&#xff0c;家校互动正成为最重要的校园场景之一。 大家都知道我主要做萤石的二次开发&#xff0c;这边也是给出了一个利用萤石开放平台的解决方案。 主要功能如下&#xff1a; 1.门禁管理&#xff0c;告警推送 2.可多人通过小程序看画面 3.电子班牌-父母微信一键通话…

第二代骁龙8平台手机nubia Z5拆解

这周末&#xff0c;除非外面下钞票&#xff0c;否则谁也拦不住我玩《黑神话悟空》&#xff08;附&#xff1a;两款可以玩转悟空的显卡推荐&#xff09; 天玑助力联发科力压高通~探秘MTK 5G旗舰智能手机SoC芯片——MT6989&#xff08;天玑9300&#xff09; 第二代骁龙8平台手机…

html+css+js网页设计 个人博客10个页面

htmlcssjs网页设计 个人博客10个页面 网页作品代码简单&#xff0c;可使用任意HTML编辑软件&#xff08;如&#xff1a;Dreamweaver、HBuilder、Vscode 、Sublime 、Webstorm、Text 、Notepad 等任意html编辑软件进行运行及修改编辑等操作&#xff09;。 获取源码 1&#xf…

图像基础(2)视频信号和图像数字化的理论

#灵感# 继续读书&#xff0c;主要是视频信号相关。 视频实际上是按时间轴排列的一组图像序列。模拟图像在空间位置上有连续性&#xff0c;每一个位置上光的强度变化也有连续性。 1、视频信号分为3类&#xff1a; 分量视频、复合视频、S-Video. 分量视频是将原始视频信号&am…

无人机的工业应用场景

一、监测与检查 电力巡检&#xff1a;工业无人机在电力巡检中发挥着重要作用&#xff0c;能够替代人工进行高空、高风险作业&#xff0c;提高电网巡视效率&#xff0c;降低运维成本。通过搭载高清相机、红外热成像等设备&#xff0c;无人机可以实时传输电力线路状态&#xff0…

开放式耳机哪个品牌的好用?热榜口碑开放式耳机测评集锦!

现在市面上的开放式耳机真的越来越多&#xff0c;但是开放式耳机哪个品牌好用呢&#xff1f;可能不了解开放式耳机的就会开始犯难了&#xff0c;所以到底该怎么样选择才能选出一款比较适合自己的开放式耳机呢&#xff1f;根据这个问题&#xff0c;我作为一名耳机测评师&#xf…

【操作系统】实验:文件系统

目录 一、实验目的 二、实验要求 三、实验步骤 四、核心代码 五、记录与处理 六、思考 七、完整报告和成果文件提取链接 一、实验目的 1、掌握文件系统的基本结构和文件系统的管理方法 2、加深对两级文件目录认识和理解 3、对文件操作的系统命令实质内容和执行过程深入…

python例子:使用pygame实现五彩烟花

作品介绍 作品名称&#xff1a;使用pygame实现五彩烟花 开发环境&#xff1a;PyCharm 2023.3.4 python3.7 用到的库&#xff1a;pygame、random、sys、math 作品简介&#xff1a;该实例是一个使用 Pygame 库实现的烟花效果模拟程序。 实现过程 一、初始化Pygame pygame.…

如何在没有密码的情况下从 iPad 中删除 MDM?100% 工作

如果您遇到已使用远程管理锁恢复的 iPad 或 iPhone&#xff0c;您将需要远程管理器的登录信息。 从 iPad 中删除 MDM可能很困难&#xff0c;尤其是在您没有正确的权限的情况下。在寻求帮助时&#xff0c;许多客户访问 Apple 的官方论坛&#xff0c;却发现问题并不总是容易解决。…

java中的原子性

在Java中&#xff0c;原子性&#xff08;Atomicity&#xff09;是并发编程中的一个核心概念&#xff0c;指的是一个或多个操作在中间状态对其他线程不可见&#xff0c;且不可被线程调度机制中断的性质。一个原子操作要么全部执行成功&#xff0c;要么完全不执行&#xff0c;不会…

第136天:内网安全-横向移动资源约束委派

利用条件 首先是dc域控主机必须是win2012以上的主机 其次是域内有一个账户&#xff0c;可以同时登录两台主机 利用 jie 可以登录 win2008 也可以登录 win7 资源委派不需要设置委派&#xff0c;默认即可 实验复现 复现环境 通过网盘分享的文件&#xff1a;136-xiaodi.local…