TDengine 资深研发分享解决思路,长查询不再成为系统性能瓶颈!

news2025/1/16 6:44:56

长查询问题指的是在数据库写入和查询并存的日常应用场景中,存在处理数据量大且耗时很长的查询长时间占用系统资源,导致写入可能被阻塞的问题。有时,查询代码对于资源释放函数调用的遗忘也可能以长查询问题的形式表现出来。如何在数据写入不被阻塞同时,保证长查询的正确进行是一个具有挑战性的问题。

尽管在绝大多数时序数据使用场景下,用户不太可能遇到这个问题,但一旦出现,也会让人头疼不已。为了解决这一问题,TDengine 研发团队一直致力于不断优化系统,提高查询性能和响应速度。本文将深入剖析这一挑战,并探讨如何应对和解决长查询问题,以提升 TDengine 在复杂查询场景下的表现。

在分析长查询问题之前,我们首先需要为大家普及一下 TDengine 的写入/查询并发机制。

数据写入/读取机制

Vnode 是 TDengine 中存储和查询数据的基本单元,这里主要介绍 Vnode 的写入/读取及并发机制。

数据写入机制

TDengine 资深研发分享解决思路,长查询不再成为系统性能瓶颈! - TDengine Database 时序数据库

  • 每个 Vnode 在创建时都会根据 DB 参数分配一定数量的内存
  • 这些内存在 Vnode 中被分为三个内存块
  • 每个 Vnode 只有一个线程写入
  • Vnode 在写入时,会从内存块的空闲列表 (free list) 中分配一个内存块(mem),供数据写入使用
  • 当内存块中数据写入超过一定量后,开始落盘(imem),同时分配一个新的内存块供数据写入使用
  • 当内存块全部用完,没有空闲内存块时,写入会被阻塞,一直等待有内存块释放出来
数据查询机制
  • 查询分多批次进行,每次返回部分数据,然后该查询等待下一次拉取数据的请求
  • 查询结果是内存(mem/imem)数据和硬盘数据合并的结果
  • 查询开始时,会先 take snapshot,引用(ref) mem/imem 以及硬盘文件
  • 查询结束时,unref mem/imem,如果内存块的引用计数变为 0,则内存块被回收到空闲链表中

TDengine 资深研发分享解决思路,长查询不再成为系统性能瓶颈! - TDengine Database 时序数据库

长查询问题

时序数据绝大部分查询持续时间都比较短,如查询表/超级表的最后一条记录、做 count 或 sum 类的聚合查询等。这类查询持续时间较短,对于 mem/imem 的占用时间也较短,查询很快会释放 MemTable 供 Vnode 回收再次利用,从而不影响写入的进行。但是,如果存在一个持续时间很长的查询,如超过 1 小时或 1 天的查询,这时候就会出现此类问题。当然,只有一个长查询的情况下,问题也不大,因为 Vnode 的内存池默认被分成了 3 个内存块,一个长查询最多占用两个内存块,还剩余一个内存块可以用来进行持续写入。但是如果存在多个长查询,Vnode 中的所有内存块都可能被长时间占用,无法进行回收,从而导致写入停止的情况。

另外,如果查询部分的代码存在 BUG,忘记关闭查询句柄,也会导致 mem/imem 被长期占用,阻塞写入。这个问题在 TDengine 订阅和流计算功能中曾经就出现过。

TDengine 资深研发分享解决思路,长查询不再成为系统性能瓶颈! - TDengine Database 时序数据库

长查询问题解决方案

我们需要一个方案,可以在长查询大量存在、或用户应用代码有问题没有及时关闭查询句柄、甚至产品代码有问题的情况下,也能达到既不阻塞写入且不让长查询失败。该方案如下:

  1. 查询在获取数据快照时,将查询句柄注册到它所占用的内存块上,同时注册一个 reseek 函数
  2. 当查询结束关闭句柄时,该查询将句柄从它所占用的所有内存块上注销
  3. 当写入发现没有可用内存块时,尝试回收已经 COMMIT 但是仍旧被查询占用的最老的内存块
  4. 写入线程回收内存块时,遍历所有注册在该内存块上的注册句柄,调用 reseek 函数
  5. reseek 函数会尝试锁查询句柄,如果锁句柄成功,则将查询句柄设置为 RESEEK 状态,同时将查询的状态保存下来并 untake snapshot,归还占用的所有内存块
  6. 查询线程在查询活跃周期开始时锁查询句柄,然后检查是否为 RESEEK 状态,如果为 RESEEK 状态,重新 take snapshot,并根据保存的查询状态,恢复各种查询变量,接着进行查询

从上述方案中我们可以看到:

  1. 写入在发现内存不足的条件下,可以主动回收非激活状态的查询占用的内存块,从而不会长时间阻塞写入
  2. 长查询在写入回收其所占用的内存块后,可以根据自己保存的查询状态,重新 take snapshot,继续查询,从而不会让长查询失败

TDengine 资深研发分享解决思路,长查询不再成为系统性能瓶颈! - TDengine Database 时序数据库

TDengine 资深研发分享解决思路,长查询不再成为系统性能瓶颈! - TDengine Database 时序数据库

答疑解惑

Q:如何解决死锁问题?

A:在写入回收内存块时,需要遍历查询句柄注册链表,因此需要对链表进行加锁操作,即需要锁定链表的锁。在调用 reseek 回调时,也需要锁定查询句柄的锁。这样就存在写入线程出现 lock(mutex_list)–>lock(mutex_qhandle) 的情况。而在查询结束时,需要将句柄从注册链表中移除,导致出现 lock(mutex_qhandle)–>lock(mutex_list) 的情况。如果两个线程不按照相同的顺序对两个锁进行加锁,就会产生死锁的问题。

为了解决这个问题,可以采用以下优化方案:

  1. 使用trylock替代lock:对于写入回收调用 reseek 函数的场景,可以尝试使用 trylock 而不是直接使用 lock 来获取查询句柄的控制权。通过 trylock 尝试获取锁,可以避免线程因等待锁而被阻塞,从而减少死锁的风险。
  2. 多次尝试机制:在使用 trylock 的基础上,可以结合多次尝试的机制。如果一次 trylock 未成功获取锁,可以进行多次尝试,直至成功获取锁或达到尝试次数上限为止。这样能够增加获取锁的机会,降低死锁风险。
Q:长查询会不会一直被写入 reseek,从而导致查询一直恢复?

A:不会存在这种情况。查询在每次打开句柄时,会给一个版本号,这个版本号是已经写入 Vnode 中的最新数据的版本号,查询只能看到版本号小于等于该版本号的数据。当 take snapshot 时,会根据 mem/imem 中的数据是否被查询版本号覆盖而决定 mem/imem 是否被该查询引用。随着数据的写入,新的 mem/imem 中的数据肯定都大于该查询创建时给的版本号,因此,新的 mem/imem 不会被长查询引用。这样一来,一个长查询最多会被写入 RESEEK 两次。

TDengine 资深研发分享解决思路,长查询不再成为系统性能瓶颈! - TDengine Database 时序数据库

以上就是 TDengine 资深研发人员对解决长查询问题进行的深入探讨。如果你还有关于查询的更多问题想要讨论或交流,欢迎添加小T vx:tdengine 寻求帮助,也可以在下方留言区进行相关评论,静待回复即可~


了解更多 TDengine Database 的具体细节,可在GitHub上查看相关源代码。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1496903.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SCCM部署时出现的问题(二):找不到数据库路径

场景还原: 在部署SCCM服务器时,客户采用的是分开部署,即一台SCCM服务器和一台SQL Server服务器。 在搭建SCCM服务器时,我们指定了数据库实例,跳转到指定SQL Server数据文件和事务日志文件的位置时,出现了…

大学机器人专业相关课程太难了怎么办

这个问题其实有个更合适的提问角度。 {大学机器人专业相关课程太难了一点兴趣都没有怎么办} 个性化、差异化发展才是主流。 人工智能时代,学生再卷再拼,也干不过机器人啊…… 这个问题反馈非常普遍。 常规解释 大学课程其实想要理解并应用起来&#xff…

Salesforce 2024财年爆发式增长!第一次现金分红

对于Salesforce来说,这是非凡的转型之年,所有的关键指标都表现强劲,现金流和利润增长创下了纪录。截至第四季度末,Salesforce的剩余履约价值(RPO)总额为569亿美元,同比增长17%。 Marc Benioff …

NLP自然语言——基础

一、介绍 1、概念 NLP(Natural Language Processing,自然语言处理)是计算机科学领域以及人工智能领域的一个重要的研究方向,它研究用计算机来处理、理解以及运用人类语言(如中文、英文等),达到…

Error:java:JDK isn‘t specified for module “模块名称“

可能是创建模块后不小心删掉了.idea.或.idea出错 只要删除.idea,close project出去,重新进让idea自动下载

Flyway 9.22.3 + springboot3 + MySQL8.0+,简单使用

文章目录 flyway的依赖配置ieda 启动!!! 关于这篇文章主要是自己在使用flyway时遇到的一些问题以及最终的解决方法 当然包括所有的配置,主要目的是记录一下防止下次使用的时候忘记 flyway的依赖 这里 springboot 3 具体版本不再描…

Day12:信息打点-Web应用源码泄漏开源闭源指纹识别GITSVNDS备份

目录 开源-CMS指纹识别源码获取方式 闭源-习惯&配置&特性等获取方式 闭源-托管资产平台资源搜索监控 思维导图 章节点 Web:语言/CMS/中间件/数据库/系统/WAF等 系统:操作系统/端口服务/网络环境/防火墙等 应用:APP对象/API接口/微…

基于selenium自动化索引点击

小鹅快速刷题,根据selenium和xpath定位题干,使用模糊匹配fuzzywuzzy库查找题目匹配答案,自动点击,完成后更新题库 先导入基本包,准备好题库 from fuzzywuzzy import process from selenium import webdriver import …

Android Split APK是什么

Android Split APK是一项应用程序分发和安装的技术,可以将大型应用程序拆分为多个较小的模块,以便用户可以选择性地下载和安装所需的模块,而无需一次性下载整个应用程序。这种技术旨在提高用户体验、减少下载时间和节省存储空间。 Android S…

什么是红黑树?用一组数据来介绍一下红黑树

上篇博客,我们使用代码完成了一个简单的红黑树功能,这篇,我补充一下,关于红黑树的相关知识点。 红黑树概述 红黑树是一种自平衡的二叉搜索树,它在每个节点上增加了一个存储位来表示节点的颜色,可以是红色…

信息安全与阿里云等保三级方案实践总结

信息安全在当今数字化时代变得至关重要,企业和组织需要采取有效措施来保护其数据和信息资产。阿里云作为中国领先的云服务提供商,提供了等保三级方案,帮助用户满足国家信息安全等级保护的要求。本文将探讨信息安全和阿里云等保三级方案的重要…

多媒体信息处理-重点知识-3. Feature Indexing and Retrieval

Chap 3. Feature Indexing and Retrieval 什么是索引? 为了提高数据集的检索效率而生成的结构化信息 基于特征的相似度匹配是多媒体数据检索方法的基础 从多媒体对象中提取重要特征,将其转化成高维特征向量存储在数据库中 相似性度量: 两种…

数据库|基于TiDB Binlog架构的主备集群切换操作手册

目录 一、具体操作过程 //1、停业务,待drainer追平主、备库数据 //2、使用sync-diff-inspector校验主从库数据是否一致 //3、关停主库到灾备库drainer同步链路后记录当前drainer同步TSO //4、使用dumpling/BR对灾备库进行数据全量备份(备份期间可继…

leetcode——异或运算—— 只出现一次的数字

给你一个 非空 整数数组 nums ,除了某个元素只出现一次以外,其余每个元素均出现两次。找出那个只出现了一次的元素。 你必须设计并实现线性时间复杂度的算法来解决此问题,且该算法只使用常量额外空间。 示例 1 : 输入&#xff…

【Web安全靶场】sqli-labs-master 21-37 Advanced-Injection

sqli-labs-master 21-37 Advanced-Injection 第一关到第二十关请见专栏 文章目录 sqli-labs-master 21-37 Advanced-Injection第二十一关-Cookie注入第二十二关-Cookie注入第二十三关-注释符过滤的报错注入第二十四关-二次注入第二十五关-过滤OR、AND双写绕过第二十五a关-过滤…

关于 Runes 协议及「公开铭刻」发行机制的拓展讨论

撰文:MiX 编辑:Faust,极客 web3 2024 年 3 月 2 日,Runes 生态基础设施项目 Rune alpha 的创始人,在 Github 的公开议题中,与 Runes 协议创始人 Casey 展开了讨论,双方对如何拓展 Runes 协议的…

【QT】事件分发器/事件过滤器/事件处理的介绍和使用

事件分发函数 event() 事件分发器:返回值 bool 如果返回时true,代表用户要处理事件,不再分发事件了。 事件对象创建完毕后,Qt 将这个事件对象传递给QObject的event()函数。event()函数并不直接处理事件,而是将这些事…

PS在图片上直线、虚线、曲线

使用钢笔工具和直线工具都可以画直线,

script的defer和async的理解

场景一 js阻碍了dom元素的渲染 场景二 加了defer,结果跟场景一一样,所以defer对script标签内的代码不期待延迟执行的作用 场景三 script标签没有defer属性,不敢是不是通过src引入代码,结果一样 场景四 加了defer,获…

搭建的svn 1.14.1,拉取代码时候没输入账户密码就报错 auth failed

这边在ubuntu里面搭的svn server,但是拉代码的是否一直报错 auth faield,一开始以为是有auth cache,去设置里面清楚了,windows 里面也清楚了,但是还是报错 问题原因 一直排查才发现,我新增用户的时候&…