tidb之旅——生成列

news2024/9/22 19:39:35

作者: 有猫万事足 原文来源: https://tidb.net/blog/15d0fbf6

新的问题

之前弄好了TiDB集群,也弄好了dm集群,把写入流量整个切入了TiDB集群运行起来了。但是有个别比较大的日志表,OLAP查询的表现还是不太行。正好7.1版本发布了,我看到tiflash支持存算分离且可以把数据放在s3上——没错,这是我当时最关注的特性。

然而和老板沟通了一下,没有得到预算上的支持,上列存的计划泡汤。

在老板看来,已经在一个可以接受的成本下得到了超过预期的成果。某些OLAP查询时间是1分钟还是10s,对他来说都是可以接受的。

然而这对我来说就是一个严重的问题。

metabase对时间戳的处理

在metabase中,给mysql的查询的时间限制是1分钟,如果一个mysql查询1分钟没有结果。metabase就会直接断掉查询,没有任何数据。

也就是说任何一个查询超过1分钟,都可能导致我回到之前的工作流程。需要我定时的把查询的结果放到另一个表里。这是我极力避免的。

我的目标还是不割裂查询结果和原始记录之间的联系。以便对数据有疑问的时候,可以通过去掉聚合维度,快速定位到最细粒度的原始记录。

没有办法,没有列存的支持,那就只能具体问题具体分析。来看看这类查询为啥会慢。

查下来的结果,发现基本都和时间戳有关。

mysql中时间戳运用的是如此广泛,基本上只要用到时间的地方都是时间戳而不是datetime。

当我在metabase中,把timestamp字段映射到datetime之后。

no-alt

no-alt

matebase生成的查询的sql是类似下面这样的:

SELECT FROM_UNIXTIME(`Log`.`Time`) AS `Time`
...
WHERE (FROM_UNIXTIME(`Log`.`Time`) >= DATE(NOW(6)))
   AND (FROM_UNIXTIME(`Log`.`Time`) < DATE(DATE_ADD(NOW(6), INTERVAL 1 day)))

可以看到metabase对时间戳的处理,都是直接用FROM_UNIXTIME把时间戳转成datetime。这当然会导致原来在时间戳上建立的索引失效。这就是查询慢的根源。

对症下药,首先想到的是,需要一个表达式索引。

从表达式索引到存储生成列

本来我打算建立一个表达式索引,这个问题就算解决了。不料在文档的末尾看到这么一段。

https://docs.pingcap.com/zh/tidb/stable/sql-statement-create-index#%E8%A1%A8%E8%BE%BE%E5%BC%8F%E7%B4%A2%E5%BC%95

表达式索引的语法和限制与 MySQL 相同,是通过将索引建立在隐藏的虚拟生成列 (generated virtual column) 上来实现的。因此所支持的表达式继承了虚拟生成列的所有限制。

我才第一次开始关注7.1的新特性——生成列。

https://docs.pingcap.com/zh/tidb/stable/generated-columns#%E7%94%9F%E6%88%90%E5%88%97

固然文档通篇说的都是json,FROM_UNIXTIME也不在推荐使用的表达式的范围内。

但是在反复思考下,我觉得用存储生成列来解决时间戳到datetime的转换会更好。我需要这个特性。至于实验特性有没有什么问题,那也得先用用看才知道。

datetime用来展示还是作为维度聚合都是不可或缺的。如果有一列可以物化这个时间戳的转换结果,应该对整体的性能有很大的提升。无论是对业务人员还是metabase,时间戳的使用都不够友好。有了一列是datetime并和时间戳转换的结果保持一致,那我就再也用不到时间戳了。

有风险的地方是和dm工具的配合:下游的表加了存储生成列,是否会让dm认为下游的表和上游的表结构是不一致的,从而无法进行同步任务。

思考下来概率不大,但文档没有确认这一点,还得试试。另就是存储生成列,不能直接alter table添加,改造表结构需要重新导入数据。

那就开始吧。

设置allow-expression-index=true

首先我要用到的函数不在tidb_allow_function_for_expression_index变量的范围内。所以我需要设置tidb的变量allow-expression-index = true

tiup cluster edit-config <cluster-name>

添加如下配置:

server_configs:
  tidb:
    experimental.allow-expression-index: true

之后重启所有角色为tidb的节点:

tiup cluster reload <cluster-name> -R tidb

建立新表

CREATE TABLE `Log` (
...
  `dt_time` datetime GENERATED ALWAYS AS ((from_unixtime(`Time`))) STORED, -- 创建存储生成列dt_time值是from_unixtime(`Time`)
  PRIMARY KEY (`Id`) /*T![clustered_index] NONCLUSTERED */,
...
  KEY `dt_Time` (`dt_Time`) -- 最后别忘了还要给这个存储生成列添加索引
) ENGINE=InnoDB /*T! SHARD_ROW_ID_BITS=5 PRE_SPLIT_REGIONS=5 */ -- 为了防止写入热点的参数不能忘。

为了验证存储生成列是否会导致dm同步失败,这里不采用 insert into t_new select * from t 的方式回填数据。

用dm重新导入数据

dm篇的时候,我提到过,凡是这种大数据量的日志表都推荐一个task一个表。

所以需要重新导入也很简单,至少要停掉这个表的同步任务再提交一次任务就可以了。

tiup dmctl stop-task <task-name>

注意,要从头做全量导入,用tiup dmctl stop-task删掉了任务,还需要把dm_meta库下,对应的4张表删掉。但是如果你用dm openapi里面的删除同步任务接口来做,就不需要这一步。

https://docs.pingcap.com/zh/tidb/stable/dm-open-api#%E5%88%A0%E9%99%A4%E5%90%8C%E6%AD%A5%E4%BB%BB%E5%8A%A1

这也是之前写过的,dm openapi的行为和tiup dmctl并不是完全一致的。使用过程中需要留意。

重新开始提交任务start-task没有报错就知道应该是稳了,只要dm不认为上下游两个表是异构的,提交任务的时候就通过了检查,那就之后的导入就不太可能会有问题。

结果对比

以同样对比某种游戏内资源各个服务器当日获取和消耗统计为例

metabase使用时间戳字段

-- Metabase:: userID: 1 queryType: MBQL queryHash: e9ba9dd52355d3bef6b3ab4c9303dca1ff7ef2c9b368f7f5a83d1e457272acf8
SELECT
LogAll.server_name AS server_name,
Log_type.isGet AS Log_type__isGet,
SUM( LogAll.Cash ) AS sum
FROM
LogAll
LEFT JOIN Log_type AS Log_type ON LogAll.Type = Log_type.Id
WHERE
(
FROM_UNIXTIME( LogAll.Time ) >= DATE (
NOW( 6 )))
AND (
FROM_UNIXTIME( LogAll.Time ) < DATE (
DATE_ADD( NOW( 6 ), INTERVAL 1 DAY )))
GROUP BY
LogAll.server_name,
Log_type.isGet
ORDER BY
LogAll.server_name ASC,
Log_type.isGet ASC;

基本就是从日志表中获取这个行为的类型,再和类型的字典表做关联,确定这种行为是消耗还是获取资源,然后把数据分别累加。

因为这个LogAll是个视图,union all了一堆日志表。执行计划完整的非常长,只列一部分:

no-alt

就每一个被union all的日志表来说,索引失效了,所以只查一天,也需要全表扫描。

no-alt

整体看我只统计一天,需要在2.4亿的数据量里面扫描一遍。

no-alt

从某种程度上说,TiDB能在1.2分钟的时间内,硬扫2.4亿数据,并返回结果也挺强大。

metabase使用类型为datetime的生成列

改用了datetime的生成列,同样统计一天,已经进不了慢查询了。我给了它更高的挑战,统计上一个月到现在的数据。

-- Metabase:: userID: 1 queryType: MBQL queryHash: c9c9c4d282ef43ff8dc1470351a9abafa7c08ab09ab321ab5ab9fbd6e82408fd
SELECT
LogAll.server_name AS server_name,
Log_type.isGet AS Log_type__isGet,
SUM( LogAll.Cash ) AS sum
FROM
LogAll
LEFT JOIN Log_type AS Log_type ON LogAll.Type = Log_type.Id
WHERE
(
LogAll.dt_Time >= STR_TO_DATE( CONCAT( DATE_FORMAT( DATE_ADD( NOW( 6 ), INTERVAL - 1 MONTH ), '%Y-%m' ), '-01' ), '%Y-%m-%d' ))
AND (
LogAll.dt_Time < STR_TO_DATE( CONCAT( DATE_FORMAT( DATE_ADD( NOW( 6 ), INTERVAL 1 MONTH ), '%Y-%m' ), '-01' ), '%Y-%m-%d' ))
GROUP BY
LogAll.server_name,
Log_type.isGet
ORDER BY
LogAll.server_name ASC,
Log_type.isGet ASC;

和上一个查询相比,我们的时间范围来到了2个月。

no-alt

在每个union all的日志表中,虽然不是全部,但大部分都用上索引。

no-alt

统计一个多月,执行时间也就13s+。

no-alt

扫描的记录量也大幅降低。

结论

存储生成列完美做到了:物化某一列的表达式计算结果,同时不影响dm导入。

再回到metabase,调整时间聚合的字段到添加的存储生成列上,原来这类查询执行速度从平均40s+降到了平均4-5s,提升巨大。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/732797.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Node中的模块引擎EJS

1.安装EJS 2.导入EJS const ejsrequire("ejs") 3.使用ejs渲染 let outer"法外狂徒" let resultejs.render(我是<%outer %>,{outer:outer}) let str我是<%outer %> let resultejs.render(str,{outer:outer}) 说明&#xff1a; 在模板中&#xf…

SpringBoot前后端分离项目,打包、部署到服务器详细图文流程

文章目录 实施步骤一、修改配置文件地址1.修改MySQL配置2.修改Redis配置3.修改日志路径和字符集配置 二、将源码压缩并上传服务器1.上传前端文件2.上传后端文件&#xff08;同上&#xff09; 三、前端项目打包1.安装依赖2.项目打包 四、后端项目打包1.项目打包&#xff08;jar包…

【软件架构设计】支持大规模系统的设计模式和原则

今天&#xff0c;即使是小型初创公司也可能不得不处理数 TB 的数据或构建支持每分钟&#xff08;甚至一秒钟&#xff01;&#xff09;数十万个事件的服务。所谓“规模”&#xff0c;通常是指系统应在短时间内处理的大量请求/数据/事件。 尝试以幼稚的方式实现需要处理大规模的服…

Linux(Ubuntu)+Qt+C++与OpenCV窗体程序使用

程序示例精选 Linux(Ubuntu)QtC与OpenCV窗体程序使用 如需安装运行环境或远程调试&#xff0c;见文章底部个人QQ名片&#xff0c;由专业技术人员远程协助&#xff01; 前言 这篇博客针对<<Linux(Ubuntu)QtC与OpenCV窗体程序使用>>编写代码&#xff0c;代码整洁&am…

ChatGPT实战:短视频文案、脚本创作

你还在拼脑力输出视频脚本吗&#xff1f;AI时代&#xff0c;该提高提高生产力了&#xff0c;机器一天的视频出货量能赶上以往几个月的工作量&#xff0c;人力怎么可能卷的过机器&#xff1f; 使用ChatGPT创作视频脚本可以带来一些好处&#xff1a; 创意激发&#xff1a;ChatGPT…

ChatGPT爆火 但生成式AI并非全新产物

以ChatGPT、Midjourney 为代表的 AIGC 产品横空出世&#xff0c;在全球掀起新一轮的 AI 技术变革新浪潮。近二十年来&#xff0c;我们见证了从「机器学习」算法到「深度学习」&#xff0c;再到「基础模型」的发展。随着数据量大规模膨胀&#xff0c;可扩展的算力&#xff0c;再…

Android Glide预加载RecyclerViewPreloader,ViewPreloadSizeProvider,kotlin

Android Glide预加载RecyclerViewPreloader,ViewPreloadSizeProvider&#xff0c;kotlin implementation com.github.bumptech.glide:glide:4.15.1implementation ("com.github.bumptech.glide:recyclerview-integration:4.14.2") {// Excludes the support library …

Kafka的保姆级简易安装启动、关闭注意事项、简单使用

一.安装&#xff1a; 1.1Windows本机tar包安装 1.下载tar包 地址&#xff1a;Apache Download Mirrors&#xff0c;点击下面的连接先将tar包下载下来 2.解压到任意地址但自己要记得位置 3.进入到config文件找到server.properties更改信息 搜索&#xff0c;然后找到下面的地…

基于Spring Boot的广告公司业务管理平台设计与实现(Java+spring boot+MySQL)

获取源码或者论文请私信博主 演示视频&#xff1a; 基于Spring Boot的广告公司业务管理平台设计与实现&#xff08;Javaspring bootMySQL&#xff09; 使用技术&#xff1a; 前端&#xff1a;html css javascript jQuery ajax thymeleaf 后端&#xff1a;Java springboot框架 …

开放式耳机推荐:开放式耳机是什么意思?开放式耳机的优缺点?开放式哪个品牌更好?韶音、南卡、cleer、索尼、飞利浦等开放式蓝牙耳机大盘点!

前言 要说目前可以让运动、工作变得更加轻松的单品&#xff0c;开放式蓝牙耳机绝对要占一席之地。开放式蓝牙耳机近年来的销量不断攀升&#xff0c;已经超越普通蓝牙耳机成为数码类销量抢手的产品&#xff0c;并且升级迭代速度很快&#xff0c;功能越来越完善&#xff0c;相比…

unity3d 入门1

新建一个3D core项目&#xff1b; 自动新建一个示例场景&#xff0c;仅包含2个对象&#xff0c;一个主摄像机&#xff0c;一个方向光&#xff1b;在Hierarchy层次视图中看到如下&#xff1b;场景使用一个小立方体来表示&#xff0c;下面的对象也使用一个小立方体 表示&#xf…

【通览一百个大模型】UL2(Google)

【通览一百个大模型】UL2&#xff08;Google&#xff09; 作者&#xff1a;王嘉宁&#xff0c;本文章内容为转载或整理&#xff0c;仓库链接&#xff1a;https://github.com/wjn1996/LLMs-NLP-Algo 订阅专栏【大模型&NLP&算法】可获得博主多年积累的全部NLP、大模型和算…

SLAM在ARM上的加速(3)- Neon在SLAM中的应用

SLAM在ARM上的加速&#xff1a; SLAM在ARM上的加速&#xff08;1&#xff09;- ARM加速基础 SLAM在ARM上的加速&#xff08;2&#xff09;- Neon SLAM在ARM上的加速&#xff08;3&#xff09;- Neon在SLAM中的应用 视觉SLAM通常可以分为前端和后端两个部分&#xff1a; (1)…

【深度学习】受限玻尔兹曼机 (RBM) 初学者指南

一、说明 受限玻尔兹曼机&#xff08;Restricted Boltzmann Machine&#xff0c;RBM&#xff09;是一种基于能量模型的人工神经网络。它只有一个隐层&#xff0c;将输入层和隐层中的每个神经元互相连接&#xff0c;但不同层的神经元之间没有连接。RBM是一种无向的概率图模型&am…

09_Linux内核定时器

目录 Linux时间管理和内核定时器简介 内核定时器简介 Linux内核短延时函数 定时器驱动程序编写 编写测试APP 运行测试 Linux时间管理和内核定时器简介 学习过UCOS或FreeRTOS的同学应该知道, UCOS或FreeRTOS是需要一个硬件定时器提供系统时钟,一般使用Systick作为系统时钟…

Vue生态及实践 - 优化实践

目录 目标 keep alive util/vue.js【vue里面常用的函数】 src/components/UKeepAlive.vue 无限加载列表优化的实现方案 src/util/throttle.js src/components/UInfiniteList.vue src/module/topic/views/UTopic.vue 献上一张ai生成图~ 目标 Keep Alive实践长列表优化…

基于pytorch的神经网络与对比学习CL的训练示例实战和代码解析

目录 对比学习原理解析构建一个对比学习模型&#xff08;代码详解&#xff09;导入库构建简单的神经网络构建对比学习的损失函数开始训练 完整代码 对比学习原理解析 对比学习&#xff08;Contrastive Learning&#xff09;是一种无监督学习方法&#xff0c;用于从未标记的数据…

3 STM32标准库函数 之 窗口看门狗(WWDG)所有函数的介绍及使用

3 STM32标准库函数 之 窗口看门狗&#xff08;WWDG&#xff09;所有函数的介绍及使用 1. 图片有格式2 文字无格式三 库函数之窗口看门狗&#xff08;WWDG&#xff09;所有函数的介绍及使用前言一、IWDG库函数固件库函数预览1.1 函 数 IWDG_WriteAccessCmd1.1.1 IWDG_WriteAcces…

string模拟实现

文章目录 1.回顾库函数strcpymemcpystrcmpstrstr 2.回顾类和对象哪些函数里会有this指针&#xff1f;this指针调用方法结论&#xff1a;只要是不修改this指针指向的对象内容的成员函数&#xff0c;都可以加上const自己写了构造函数&#xff0c;编译器不会自动生成默认构造2.1构…

代码随想录第21天 | 回溯理论基础 77. 组合

回溯理论基础 回溯法解决的问题都可以抽象为树形结构&#xff0c;是的&#xff0c;我指的是所有回溯法的问题都可以抽象为树形结构&#xff01; 因为回溯法解决的都是在集合中递归查找子集&#xff0c;集合的大小就构成了树的宽度&#xff0c;递归的深度&#xff0c;都构成的…