【运维 Pro】时序场景实践与原理 - 1. 分布与分区

news2024/11/23 15:28:10

【运维 Pro】: 是由 YMatrix 售前和售后团队负责的栏目。除了介绍日常的数据库运维和使用知识,我们更希望能够通过介绍这些知识背后的原理,让大家和我们一起感知数据库的美妙。

摘要

有别于其它场景,时序场景中的数据、查询都有着更为明显的特征;也因此,YMatrix 可以针对这些特征进行深度优化,最终带来出色的性能表现。

然而在时序场景中使用 YMatrix 时,会发现不同的使用方式有时会带来明显的性能差异;究其原因,只有针对时序场景精心设计,才能最大的发挥 YMatrix 在时序场景的性能优势。

我们会从 YMatrix 在时序场景中的最佳实践出发,深入逻辑和原理,一起讨论我们做什么、如何做、为什么。

作者:徐福贵|YMatrix 售后工程师 & 王任远|YMatrix MXUI 研发工程师

01 准备知识

作为本系列的第一篇文章,我们先简单介绍一些准备知识。

什么是时序数据

简单来说,时序数据就是: 设备标识 + 时间戳 + 指标 * N 。

以一个传感器记录的温度数据作为简单的例子:

  1. 设备标识:1 或多个字段组成的设备唯一标识

  2. 时间戳:指标采集时刻的时间戳

  3. 指标:设备采集到的许多不同的指标值

关于时序场景和时序数据的更多介绍,可以阅读 YMatrix 官方文档。(参考:时序数据模型)

使用 MARS3 存储引擎创建分区表

通常的,在时序场景会使用分区表进行存储。相比较其他数据库,YMatrix 针对时序场景进行了全方位优化,拥有诸多优势。这里我们以最新的 MARS3 存储引擎为例(其他存储类型也可参考),初步介绍如何针对使用场景创建表,以及其背后的基础逻辑。

MARS3 是在 YMatrix 5.1 中发布的最新存储引擎,相比 MARS2, 提供了数据更新与删除功能,并支持增删列,及 MVCC 机制,在 AP 和 TP 场景下都有明显的性能提升。

对应上面的例子,我们可以这样创建表:

CREATE TABLE  ts_demo(     ts timestamp WITH time zone,     device_id varchar(20) ,    temperature float)USING mars3DISTRIBUTED BY (ts, device_id)  -- 分布键:ts + device_idORDER BY (ts,device_id)         -- MARS3 特有排序列PARTITION BY RANGE(ts)          -- 分区键: ts(                               -- 分区策略:每天一个分区 START ('2023-07-01') INCLUSIVE  END ('2023-07-10') EXCLUSIVE  EVERY (interval '1 day'),  DEFAULT PARTITION default_p) ;

复制代码

针对时序场景,在创建表时,除了数据对应的字段类型,我们还需要重点关注和理解两个基础的问题:

02 如何选择分布键

在 YMatrix 中,一张表的数据会根据分布键和分布算法分散在不同节点上。

当执行查询时,如果涉及的数据均匀的分布在所有计算节点上,那么负载就会平均分配到每个节点上,自然能在并行执行时更充分的利用硬件资源,达到最佳性能表现。

反之,如果查询涉及的数据分布不均,那么执行查询时,就会出现数据量大的节点负载大,数据量小的节点负载小的问题;负载分布不均就意味着一些节点的资源未能充分利用,最终性能表现就可能不达预期。

因此,我们选择表的分区键,基本原则是让查询时涉及的数据尽可能均匀分布至各个节点上,数据分布越均匀,查询性能就越好。

要达到这一目的,首先需要理解时序场景查询的特点。

通常来讲,时序场景查询的条件均包含 时间戳(和设备标识 )的限定条件,比如:

1. 某一时刻,所有设备的某个指标的均值 。

--- SQL 1:求某一个时刻("2023/07/01 13:50:00") 所有设备的温度的平均值SELECT AVG(temperature) FROM test_demo WHERE ts = "2023/07/01 13:50:00"

复制代码

2. 指定时间段内,所有设备的某个指标的最大最小值。

--- SQL 2:求指定设备(D0001) 的在指定时间区间( [2023/07/01 13:00 ~ 14:00) )的温度的平均值SELECT AVG(temperature) FROM test_demoWHERE device_id = "D0001"AND ts >= "2023/07/01 13:50:00" AND ts < "2023/07/01 14:00:00";

复制代码

设备标识 + 时间戳

针对这两个典型的时序场景查询,使用 设备标识 + 时间戳 作为分布键,是最佳方案,可以使查询时涉及的数据分布更均匀。

此时,数据分布的情况如下:

扫描命中的数据

下图描述了这两个查询在执行时,命中数据的分布情况。从图中我们看出,命中的数据是在 2 个计算节点上均匀分布的,此时查询性能最佳。

SQL 1

扫描命中的数据

SQL 2

扫描命中的数据

为什么不能只用时间戳?

如果只用时间戳,会导致所有设备在某个时间点采集的数据都落在一个节点上,那么查询时只有一个数据节点的资源能够被充分利用。

扫描命中的数据

为什么不能只用设备标识?

这样的话一个设备的数据都在同一个计算节点上,当查询该设备的历史数据时,又仅有一个节点的资源能够被充分利用。

为什么不能用指标列?

一个指标列通常在一定取值范围内波动,并会有大量重复、空值;当指标列作为分布键,就会有大量同值数据分布在同一个节点上,不仅不能做到查询时涉及的数据均匀分布,连存储时的均匀分布都做不到。

03 如何选择分区键

由于几乎所有时序场景的查询,都包含时间戳作为限定条件,所以将时间戳作为分区键,无论是在插入数据还是在执行查询时,都能保证直接找到对应的分区,因此,将时间戳作为分区键,是最为合理的。

04 如何设计分区策略

简单来说,分区策略就是设置多长时间为一个分区。

分区机制对查询的加速主要在于能够能够减少查询时扫描数据的数量:当查询条件命中表中的某个分区时,数据库仅会对命中分区中的数据进行扫描,因此,查询条件命中的分区越少,其中的存储的数据越少,最终所扫描的数据就越少,执行速度也就越高。

因此,在设计分区策略时,我们的目标是尽可能的让查询条件命中的分区更少。

以两个典型的查询为例,我们来估算不同分区策略带来的查询开销差异:

  1. 指定的某个日期(如 7 月 3 日)的所有设备的平均温度。

  2. 指定的某周(如 7 月 3 日 ~ 7 月 9 日)某个设备的温度最大值/最小值。

假定每天的数据量为 N 条,有两种策略:

  1. 按日分区:每天一个分区,每个分区含 N 条数据

  2. 按周分区:每周一个分区,每个分区含 7N 条数据

对于按日分区策略,查询时扫描的分区和对应的数据量为:

对于按周分区策略,查询时扫描的分区和对应的数据量为:

由此可见,对于给定的查询,相比按周分区,按天分区策略在查询时扫描的数据量要小的多,所以效率要更高;而如果查询 1 被更频繁执行的,业务查询的整体耗时差异会更大。

总之,分区策略需要根据具体查询来设计。比如,当小时粒度的查询更多,那么按小时进行分区就会是更为合理的策略。

冷热数据:实际生产环境中,距离当前时间较远数据(冷数据)更有可能被按照更长的周期进行查询(比如按月),而距离当前时间较近(热数据)则更有可能被按照较短间隔查询(比如按小时)。因此,冷数据适宜设置更长的分区间隔(按月),热数据设置更小的分区间隔(按小时)。在最新的 YMatrix 5.1 中提供了降级存储功能,能够实现数据的全自动冷热分级。

本文为 YMatrix 原创内容,未经允许不得转载。

欲了解更多超融合时序数据库相关信息,请访问 “YMatrix 超融合数据库”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/988923.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

即拼七人拼团系统开发模式具体应该怎么玩?

随着电商市场竞争力的不断加剧&#xff0c;如何提高顾客复购率&#xff0c;成为了每个电商平台都在纠结的难题。针对这种情况&#xff0c;即拼七人拼团模式应运而生&#xff0c;下面就来具体说一下这个模式具体应该怎么玩&#xff1f; 即拼七人拼团其实就是在电商平台上推出的一…

探究SpringWeb对于请求的处理过程

探究目的 在路径归一化被提出后&#xff0c;越来越多的未授权漏洞被爆出&#xff0c;而这些未授权多半跟spring自身对路由分发的处理机制有关。今天就来探究一下到底spring处理了什么导致了才导致鉴权被绕过这样严重的问题。 DispatcherServlet介绍 首先在分析spring对请求处…

【C++】怎么接受未知数量的参数?

2023年9月8日&#xff0c;周五下午 目录 第一种方式&#xff1a;可变参数函数(Variadic Function)头文件使用方法详解va_start宏详解va_arg宏示例程序 第一种方式&#xff1a;可变参数函数(Variadic Function) 可变参数函数(Variadic Function)是一种可以接受不定数量参数的函…

gpt-author v2:一款自动创作小说的AI工具

基本介绍 gpt-author v2 是一个自动创作小说的AI&#xff0c;它可以在几分钟内根据用户提供的初始提示和章节数生成一整本奇幻小说&#xff0c;并自动打包为电子书格式。 该项目利用 GPT-4、Stable Diffusion API 和 Anthropic API 等一系列大模型调用组成的链来生成原创奇幻小…

Python 递归、迷宫问题、八皇后问题

递归应用场景 各种数学问题&#xff0c;如八皇后问题、汉诺塔、阶乘问题、迷宫问题、球和篮子问题等各种算法中也会使用到递归&#xff0c;比如快排、归并排序、二分查找、分治算法等能够用栈解决的问题递归的优点就是代码比较简洁 迷宫问题&#xff08;Python版&#xff09;…

武警三维数字沙盘电子沙盘虚拟现实模拟推演大数据人工智能开发教程第15课

部队三维数字沙盘电子沙盘虚拟现实模拟推演大数据人工智能开发教程第15课 现在不管什么GIS平台首先要解决的就是数据来源问题&#xff0c;因为没有数据的GIS就是一个空壳&#xff0c;下面我就目前一些主流的数据获取 方式了解做如下之我见&#xff08;主要针对互联网上的一些…

阿里云APP备案步骤_完成工信部APP备案

完成工信部APP备案工作&#xff0c;阿小云分享阿里云App备案详细流程&#xff0c;阿里云APP备案流程分为6步&#xff0c;APP备案成功后应用可以上架&#xff0c;登录阿里云账号填写APP信息&#xff0c;等待阿里云初审&#xff0c;初审通过后进行工信部短信核验&#xff0c;管局…

如何修改VS2017、VS2019、VS2022中C++默认版本

首先明确VS各个版本对C标准的支持情况&#xff1a; IC版本 VS版本 支持情况 C11 2015完全支持 &#xff0c;13基本支持&#xff0c;12部分支持&#xff0c;10以及以下不支持 完全支持 C14 2017完全支持 &#xff0c;15基本支持&#xff0c;13部分支持 完全支…

leetcode刷题--数组类

文章目录 1. 485 最大连续1的个数2. 495 提莫攻击3. 414 第三大的数4. 628 三个数的最大乘积5. 645 错误的集合6. 697 数组的度7. 448 找到所有数组中消失的数字9. 41 缺失的第一个正数10. 274 H指数11. 453 最小操作次数使得数组元素相等12. 665 非递减数列13. 283 移动零14. …

Win10下使用vim9

作为一个经常与文字打交道的Writer&#xff0c;你在学会Vim的基本操作之后&#xff0c;就一定会爱上Vim的。 以下是Windows10_64位&#xff08;专业版&#xff09;环境中安装、使用Vim9的全过程&#xff0c;分享一下&#xff1a; 一、下载、安装Vim9 去Vim官网去下载最新的Vi…

后端开发进阶之路:后端开发核心竞争力之一抽象建模能力

0.引言 在互联网行业&#xff0c;软件工程师面对的产品需求大都是以具象的现实世界事物概念来描述的&#xff0c;遵循的是人类世界的自然语言&#xff0c;而软件世界里通行的则是机器语言&#xff0c;两者间跨度太大&#xff0c;需要一座桥梁来联通&#xff0c;抽象建模便是打…

Vue 报错error:0308010C:digital envelope routines::unsupported 解决方案(三种)

新换的电脑&#xff0c;系统装的win11&#xff0c;node也是18的版本。 跑了一下老项目&#xff0c;我用的是HbuilderX&#xff0c;点击运行和发行时&#xff0c;都会报错&#xff1a; Error: error:0308010C:digital envelope routines::unsupported 出现这个错误是因为 node.j…

024 - STM32学习笔记 - 液晶屏控制(一) - LTDC与DMA2D初始

024- STM32学习笔记 - LTDC控制液晶屏 在学习如何控制液晶屏之前&#xff0c;先了解一下显示屏的分类&#xff0c;按照目前市场上存在的各种屏幕材质&#xff0c;主要分为CRT阴极射线管显示屏、LCD液晶显示屏、LED显示屏、OLED显示屏&#xff0c;在F429的开发板上&#xff0c;…

工作流-flowable

1. 工作流概述 1.1 概念 工作流(Workflow)&#xff0c;就是通过计算机对业务流程自动化执行管理。它主要解决的是“使在多个参与者之间按照某种预定义的规则自动进行传递文档、信息或任务的过程&#xff0c;从而实现某个预期的业务目标&#xff0c;或者促使此目标的实现”。 …

图解系列 图解直播推拉流流程

文章目录 流程推流流程扩展 拉流流程 文件加密流程 常用开源流媒体服务器为SRS和MTX 流程 涉及到的组件 主播&#xff08;推流端&#xff09;观众&#xff08;播放器&#xff09;业务服务【持有一些私有Key&#xff0c;如rtmpKey等】流媒体服务器【SRS/MTX】CDN【持有公钥】 …

2023-大数据应用开发-电商可视化结果汇总

电商可视化 任务一&#xff1a;用柱状图展示消费额最高的省份 编写Vue工程代码&#xff0c;根据接口&#xff0c;用柱状图展示2020年消费额最高的5个省份&#xff0c;同时将用于图表展示的数据结构在浏览器的console中进行打印输出&#xff0c;将图表可视化结果和浏览器conso…

JavaWeb_LeadNews_Day11-KafkaStream实现实时计算文章分数

JavaWeb_LeadNews_Day11-KafkaStream实现实时计算文章分数 KafkaStream概述案例-统计单词个数SpringBoot集成 实时计算文章分值来源Gitee KafkaStream 概述 Kafka Stream: 提供了对存储与Kafka内的数据进行流式处理和分析的功能特点: Kafka Stream提供了一个非常简单而轻量的…

使用python爬取网站html代码

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 目录 前言一、Requests是什么&#xff1f;二、使用步骤1.引入库2.创建一个Faker对象&#xff1a;3.设置要访问的目标网站的URL&#xff1a;4.定义HTTP请求头部&#xff1a;6.…

【python手写算法】正则化在线性回归和逻辑回归中的应用

多元线性回归&#xff1a; # codingutf-8 import matplotlib.pyplot as plt import numpy as np from mpl_toolkits.mplot3d import Axes3Dif __name__ __main__:X1 [12.46, 0.25, 5.22, 11.3, 6.81, 4.59, 0.66, 14.53, 15.49, 14.43,2.19, 1.35, 10.02, 12.93, 5.93, 2.92,…

day 51 |● 503.下一个更大元素II ● 42. 接雨水

503.下一个更大元素II 显示的是循环链表&#xff0c;所以需要遍历两遍。 用i%len(nums)保证循环两遍即可。 func nextGreaterElements(nums []int) []int {res : make([]int, len(nums))for i : 0; i < len(nums); i{res[i] -1}stack : make([]int, 0)stack append(stac…