starrcoks内存溢出后重启失败

news2024/9/20 6:11:22
  1. sr版本:version 2.1.12 RELEASE (build 04f2931)

  2. 部署方式:
    FE:10.6.xx.107~10.6.xx.109
    BE:10.6.xx.107~10.6.xx.111

  3. 问题:某天10.6.xx.107机器上的BE提示内存溢出(日志如下),重启后,be却无法正常工作,查看重启后的日志却又无任何报错
    在这里插入图片描述

  4. 重启步骤:sh stop_be.sh、sh start_be.sh --daemon

  5. 查看be进程:
    在这里插入图片描述

  6. fe的8030端口可正常访问,be的8040端口不可访问:
    在这里插入图片描述

在这里插入图片描述

  1. tail -n 200 be.WARNING(重启过程无任何告警日志)
    在这里插入图片描述

  2. 配置文件:/opt/module/starRocks/be/conf

# Licensed to the Apache Software Foundation (ASF) under one
# or more contributor license agreements.  See the NOTICE file
# distributed with this work for additional information
# regarding copyright ownership.  The ASF licenses this file
# to you under the Apache License, Version 2.0 (the
# "License"); you may not use this file except in compliance
# with the License.  You may obtain a copy of the License at
#
#   http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing,
# software distributed under the License is distributed on an
# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
# KIND, either express or implied.  See the License for the
# specific language governing permissions and limitations
# under the License.

# INFO, WARNING, ERROR, FATAL
sys_log_level = INFO

# ports for admin, web, heartbeat service 
be_port = 9060
webserver_port = 8040
heartbeat_service_port = 9050
brpc_port = 8060

# Choose one if there are more than one ip except loopback address. 
# Note that there should at most one ip match this list.
# If no ip match this rule, will choose one randomly.
# use CIDR format, e.g. 10.10.10.0/24
# Default value is empty.
# priority_networks = 10.10.10.0/24;192.168.0.0/16

# data root path, separate by ';'
# you can specify the storage medium of each root path, HDD or SSD, seperate by ','
# eg:
# storage_root_path = /data1,medium:HDD;/data2,medium:SSD;/data3
# /data1, HDD;
# /data2, SSD;
# /data3, HDD(default);
#
# Default value is ${STARROCKS_HOME}/storage, you should create it by hand.
# storage_root_path = ${STARROCKS_HOME}/storage
storage_root_path = /data/startrocks/storage,medium:SSD;

# Advanced configurations
# sys_log_dir = ${STARROCKS_HOME}/log
# sys_log_roll_mode = SIZE-MB-1024
# sys_log_roll_num = 10
# sys_log_verbose_modules = *
# log_buffer_level = -1

default_rowset_type = beta

streaming_load_max_mb = 26000
cumulative_compaction_num_threads_per_disk = 4
base_compaction_num_threads_per_disk = 2
cumulative_compaction_check_interval_seconds = 2

mem_limit=90%
disable_storage_page_cache=false
storage_page_cache_limit=10737418240
load_process_max_memory_limit_bytes=18106127360

与重启BE前的配置相比,修改了以下配置:
mem_limit=65%(前配置)
load_process_max_memory_limit_bytes=10737418240(前配置)

  1. 没有日志,定位不到具体问题。查看github issue发现有类似的问题,可能是元数据损坏导致启动失败。尝试先把这个be节点踢出集群,更改数据文件路径(重新生成元数据文件),让节点重新参与工作;
-- 将该节点踢出集群
ALTER SYSTEM DECOMMISSION backend "be_host:be_heartbeat_service_port";

--更该be配置文件,重新设置storage_root_path
storage_root_path = /data/startrocks/storage_v2,medium:SSD;

-- 重启be
sh stop_be.sh、sh start_be.sh --daemon

-- 重新把该节点加入集群
ALTER SYSTEM DECOMMISSION backend "be_host:be_heartbeat_service_port";

把节点重新加入集群后发现可以正常工作了,只是内存使用只有几十m(经过一个月后再次查询内充使用,发现已经有23G),需要后续SR进行自动数据平衡,把数据分片至该节点,内存使用率才会上来;
经过一个月后再次查询内充使用,发现已经有23G
11. 附排查过程使用的查询命令

--使用Mysql协议接口连接SR: 
mysql -h 127.0.0.1 -P9030 -uroot -p

--查看BE节点情况:
SHOW PROC '/backends';

--查看FE节点情况:
SHOW PROC '/frontends';

--查看FE内存使用
http://10.6.xx.107.:8040/memz

--重启BE:
sh stop_be.sh、sh start_be.sh --daemon

-- 查看be内存使用情况
http://10.6.xx.107:8040/memz

-- 查看fe健康
http://10.6.xx.107:8030/api/health

-- 查看be健康
http://10.6.xx.107:8040/api/health
  1. 建议使用2.5版本以上的SR
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1929238.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Gooxi受邀参加第三届中国数据中心服务器与设备峰会

7月2-3日,第三届中国数据中心服务器与设备峰会在上海召开,作为国内最聚焦在服务器领域的专业峰会,吸引了来自全国的行业专家、服务器与机房设备厂家,企业IT用户,数据中心业主共同探讨AIGC时代下智算中心设备的设计之道…

普通人用AI提升收入的四种途径分享(附教程)

全文干货视频很长,建议先收藏再看。 实操和AI绘画工具可以扫描下方,免费获取 01 提升赚钱效率:拆解主业,让AI为你的主业做乘法 首先我要告诉你的是,用 AI 来提升收入这件事并不难,只不过大多数人用错了方…

文心一言 VS 讯飞星火 VS chatgpt (304)-- 算法导论22.2 2题

二、请计算出在图22-3所示无向图上运行广度优先搜索算法后的 d 值和 π 值。这里假定结点 u 为算法所用的源结点。 文心一言: 为了计算在图22-3所示的无向图上运行广度优先搜索(BFS)算法后的d值和π值,我们首先需要明确图的结构…

【linux】服务器重装系统之系统盘写入准备

【linux】服务器重装系统之系统盘写入准备 【创作不易,求点赞关注收藏】😀 文章目录 【linux】服务器重装系统之系统盘写入准备一、前期准备1、准备一个U盘,并进行格式化2、下载UltralSO工具3、下载对应的Ubuntu版本 二、写入操作教程 一、…

手机和电脑通过TCP传输(一)

一.工具 手机端:网络调试精灵 电脑端:野火网络调试助手 在开始通信之前,千万要查看一下电脑的防火墙是否关闭,否则可能会无法通信 在开始通信之前,千万要查看一下电脑的防火墙是否关闭,否则可能会无法通信…

中仕公考:考公基层工作经历怎么计算?

在国家及省级公务员考试中,可能会有岗位要求“基层工作经历”,很多考生对于这一概念了解的不是很清楚,该经历定义为个人在县级或以下级别的机关、国有企事业单位、以及村(社区)组织或其他经济和社会组织中的工作历程。 须知:应届…

Python与MQTT:构建物联网通信的桥梁

🚀Python与MQTT:构建物联网通信的桥梁🌉 在这个万物互联的时代,物联网(IoT)技术正以前所未有的速度改变着我们的生活。从智能家居到智慧城市,从工业自动化到农业智能化,物联网的触角…

前端开发体系+html文件详解

目录 html骨架 body主体内基本元素 基本元素 超文本(超链接跳转) 锚点 图片标签 列表标签 表格标签 框架标签(窗口标签) 音频标签 视频标签 VScode编译器 输入框 字体样式 实例展示: 首先简要介绍前端的整…

电脑远程开关机

1. 远程开机 参考:https://post.smzdm.com/p/664774/ 1.1 Wake On LAN - 局域网唤醒(需要主板支持,一般都支持) 要使用远程唤醒,有几种方式:使用类似向日葵开机棒(很贵)、公网ip&…

防火墙负载分担,带宽策略

一、实验拓扑图 二、实验要求 12,对现有网络进行改造升级,将当个防火墙组网改成双机热备的组网形式,做负载分担模式,游客区和DMZ区走FW3,生产区和办公区的流量走FW1 13,办公区上网用户限制流量不超过100M&a…

【Python】基础语法(函数、列表和元组、字典、文件)

。一、函数 1、函数是什么 编程中的函数和数学中的函数有一定的相似之处。 数学上的函数,比如 y sin x,x 取不同的值,y 就会得到不同的结果。 编程中的函数是一段可以被重复使用的代码片段。 (1)求数列的和&…

Go语言--广播式并发聊天服务器

实现功能 每个客户端上线,服务端可以向其他客户端广播上线信息;发送的消息可以广播给其他在线的客户支持改名支持客户端主动退出支持通过who查找当前在线的用户超时退出 流程 变量 用户结构体 保存用户的管道,用户名以及网络地址信息 typ…

第二届大数据、计算智能与应用国际会议(BDCIA2024)

会议日期:2024年11月15-17日 会议地点:中国-湖北省-黄冈市 主办单位:黄冈师范学院 【大会主席】 【主讲嘉宾】 大会邀请到来自美国、英国、加拿大、新加坡、意大利、越南等10余位领域内学术大咖作主题报告,并与参会人员互动交…

实战:功能强大齐全BBS论坛项目Echo简介

项目简介 Echo 是一套前后端不分离的开源社区系统,基于目前主流 Java Web 技术栈(SpringBoot MyBatis MySQL Redis Kafka Elasticsearch Spring Security ...),并提供详细的开发文档和配套教程。包含帖子、评论、私信、系…

29.【C语言】自定义函数

1、自定义详解 *提示&#xff1a;先看第12,19篇 例&#xff1a;写一个程序交换两个变量的值 #define _CRT_SECURE_NO_WARNINGS #include <stdio.h> void swap(int x, int y) {int z 0;z x;x y;y z; } int main() {int a 10;int b 20;swap(a, b);printf("%d…

目标检测--X-anylabeling使用自己的模型自动标注

一、x-anylabeling安装教程 x-anylabeling安装教程——软件安装教程——X-AnyLabeling 安装与自动标注 二、x-anylabeling使用自己的模型标注&#xff08;YOLOv5 v6.0&#xff09; 2.1 训练权重.pt转onnx 环境配置 将requiements.txt中export部分的注释恢复 然后pip insta…

《昇思25天学习打卡营第22天|基于MindNLP+MusicGen生成自己的个性化音乐》

学习内容&#xff1a;基于MindSpore的GPT2文本摘要 1.模型简介 MusicGen是来自Meta AI的Jade Copet等人提出的基于单个语言模型&#xff08;LM&#xff09;的音乐生成模型&#xff0c;能够根据文本描述或音频提示生成高质量的音乐样本&#xff0c;相关研究成果参考论文《Simp…

C语言 | Leecode C语言题解之第229题多数元素II

题目&#xff1a; 题解&#xff1a; /*** Note: The returned array must be malloced, assume caller calls free().*//*假定 num1&#xff0c;num2 为出现次数大于 nums.length / 3 的两个数。&#xff08;最多出现两个&#xff09;遍历 nums&#xff0c; 若出现 num1、num2…

论文研读:ViT-V-Net—用于无监督3D医学图像配准的Vision Transformer

目录 摘要 介绍 方法 VIT-V-Net体系结构 损失函数 图像相似性度量 变形场正则化 结果与讨论 摘要 在过去的十年里&#xff0c;卷积神经网络(ConvNets)在各种医学成像应用中占据了主导地位并取得了最先进的性能。然而&#xff0c;由于缺乏对图像中远程空间关系的理解&a…

代码报错:There‘s no Qt version assigned to project Project.vcxproj

错误 Theres no Qt version assigned to project Project.vcxproj for configuration Release/Win32. Please assign a Qt installation in Qt Project Settings. Project C:\Users\FA-02405\AppData\Local\QtMsBuild\qt_vars.targets 68 1.设置qt Versions 选择…