【技术选型】时序数据库选型

news2024/11/26 20:37:30

文章目录

  • 1、前言
  • 2、概述
    • 2.1 时序数据库的定义
    • 2.2 时序数据库的概念
    • 2.3 时序数据库的趋势
  • 3、时序数据库对比
    • 3.1 influxdb
    • 3.2 Prometheus
    • 3.3 TDengine
    • 3.4 DolphinDB
  • 4、选型结论

1、前言

时序数据治理是数据治理领域核心、打通IT与OT域数据链路,是工业物联网基石、大数据价值创造的关键、企业管理提升的发动机、是数字化转型的重要支撑。

工业企业在生产经营过程中,会运用物联网技术,采集大量的数据并进行实时处理,这些数据都是时序的,而且具有显著的特点,比如带有时间戳、结构化、没有更新、数据源唯一等。

时序数据处理应用于智慧城市、物联网、车联网、工业互联网领域的过程数据采集、过程控制,并与过程管理建立一个数据链路,属于工业数据治理的新兴领域。

时序数据库的应用场景在物联网和互联网APM等场景应用比较多,下面是列举了一些时序数据库的应用场景,但不是全部:

  • 公共安全:上网记录、通话记录、个体追踪、区间筛选;
  • 电力行业:智能电表、电网、发电设备的集中监测;
  • 互联网:服务器/应用监测、用户访问日志、广告点击日志;
  • 物联网:电梯、锅炉、机械、水表等各种联网设备;
  • 交通行业:实时路况、路口流量监测、卡口数据;
  • 金融行业:交易记录、存取记录、ATM、POS机监测。

2、概述

2.1 时序数据库的定义

时序数据是随时间不断产生的一系列数据,简单来说,就是带时间戳的数据。时序数据库 (Time Series Database,TSDB) 是优化用于摄取、处理和存储时间戳数据的数据库。此类数据可能包括来自服务器和应用程序的指标、来自物联网传感器的读数、网站或应用程序上的用户交互或金融市场上的交易活动。

其主要数据属性如下:

  • 每个数据点都包含用于索引、聚合和采样的时间戳。该数据也可以是多维的和相关的;
  • 写多读少,需要支持秒级和毫秒级甚至纳秒级高频写入;查询通常是多维聚合查询,对查询的延迟要求比较高
  • 数据的汇总视图(例如,下采样或聚合视图、趋势线)可能比单个数据点提供更多的洞察力。例如,考虑到网络不可靠性或传感器读数异常,我们可能会在一段时间内的某个平均值超过阈值时设置警报,而不是在单个数据点上这样做;
  • 分析数据通常需要在一段时间内访问它(例如,给我过去一周的点击率数据);

虽然其他数据库也可以在数据规模较小时一定程度上处理时间序列数据,但 TSDB可以更有效地处理随时间推移的数据摄取、压缩和聚合。简而言之,时序数据库是专门用于存储和处理时间序列数据的数据库,支持时序数据高效读写、高压缩存储、插值和聚合等功能。

2.2 时序数据库的概念

时序数据库是专门处理时序数据的数据库,因此其相关概念是和时序数据紧密联系的,下面是时序数据库的一些基本概念。

  • 度量 Metric:Metric 类似关系型数据库里的表(Table),代表一系列同类时序数据的集合,例如为空气质量传感器建立一个 Table,存储所有传感器的监测数据。
  • 标签 Tag:Tag 描述数据源的特征,通常不随时间变化,例如传感器设备,包含设备 DeviceId、设备所在的 Region 等 Tag 信息,数据库内部会自动为 Tag 建立索引,支持根据 Tag 来进行多维检索查询;Tag 由 Tag Key、Tag Value 组成,两者均为 String 类型。
  • 时间戳 Timestamp:Timestamp代表数据产生的时间点,可以写入时指定,也可由系统自动生成;
  • 量测值 Field:Field描述数据源的量测指标,通常随着时间不断变化,例如传感器设备包含温度、湿度等Field;
  • 数据点Data Point: 数据源在某个时间产生的某个量测指标值(Field Value)称为一个数据点,数据库查询、写入时按数据点数来作为统计指标;
  • 时间线 Time Series :数据源的某一个指标随时间变化,形成时间线,Metric + Tags + Field 组合确定一条时间线;针对时序数据的计算包括降采样、聚合(sum、count、max、min等)、插值等都基于时间线维度进行;

2.3 时序数据库的趋势

时序数据库的发展趋势,可以从DB-engines(Knowledge Base of Relational and NoSQL Database Management Systems)获取获取到,下图是DB-engines收录的数据库近24个月的发展趋势,其中时序数据库的活跃度最高,且随时间呈现越来越活跃的趋势。

在这里插入图片描述
参考资料:https://db-engines.com/en/ranki…

在这里插入图片描述
在这里插入图片描述

3、时序数据库对比

3.1 influxdb

  • 基本情况

    目前开源排名最高的时序数据库,是单独的数据库,主要就是用来写入和查询数据。数据采集使用push模式(数据源主动将数据写入influxdb)。

  • 优势

    • 高效的时间序列数据写入性能,其性能测试报告:https://www.influxdata.com/blog/influxdb-markedly-elasticsearch-in-time-series-data-metrics-benchmark/
    • 自定义TSM引擎,快速数据写入和高效数据压缩。
    • 无额外存储依赖。
    • 简单,高性能的HTTP查询和写入API。
    • 以插件方式支持许多不同协议的数据摄入,如:graphite,collectd,和openTSDB
    • SQL-like查询语言,简化查询和聚合操作。
    • 索引Tags,支持快速有效的查询时间序列。
    • 保留策略有效去除过期数据。
    • 连续查询自动计算聚合数据,使频繁查询更有效
    • 无schema, 适合多值模式,对复杂业务模型更适合
  • 劣势

    • 目前集群版已经闭源商业化,开源版仅支持单机模式。
    • 单机版性能逊于集群版, 同时没有集群的冗余,当服务器不可用时,写入和查询会立即失败
    • 性能相比新兴的时序数据库要差一些。
  • 总结

    官方给出的单机版的数据要求:

    • 写入:每秒不超过 750,000 次的字段写入
    • 查询:每秒不超过 100 个中等查询( 有多个函数和一两个正则表达式、有group by 或多个星期的时间范围)
    • 数据量: 不超过 10,000,000 个系列的基数

    机器配置,参考官方建议如下,磁盘必须是SSD,否则性能得不到保证。

    在这里插入图片描述

    使用InfluxDB单机社区版来支撑目前的实时异常检测业务,数据存储时间不超过3个月,应该问题不大。需要做好集群状态监控和数据备份,保障单机状态宕机最小损失。

    参考资料:https://docs.influxdata.com/inf

3.2 Prometheus

  • 基本情况

    Prometheus作为一个独立地开源监控系统和告警工具,提供了一整套的监控体系,包括数据的采集存储报警等。

  • 优势与劣势:

    同InfluxDB相比:

    • 在场景方面:PTSDB 适合数值型的时序数据。不适合日志型时序数据和用于计费的指标统计。InfluxDB面向的是通用时序平台,包括日志监控等场景。而Prometheus更侧重于指标方案。两个系统之间有非常多的相似之处,包括采集,存储,报警,展示等等
    • Influxdata的组合有:telegraf+Influxdb+Kapacitor+Chronograf。Promethues的组合有:exporter+prometheus server+AlertManager+Grafana
    • 采集端prometheus主推拉的模式,同时通过push gateway支持推的模式。influxdata的采集工具telegraf则主打推的方式。
    • 存储方面二者在基本思想上相通,关键点上有差异包括:时间线的索引,乱序的处理等等。
    • 数据模型上Influxdb支持多值模型,String类型等,更丰富一些。
    • Kapacitor 是一个混合了 prometheus 的数据处理,存储规则,报警规则以及告警通知功能的工具.而AlertManager进一步提供了分组,去重等等。
    • influxdb之前提供的cluster模式被移除了,现在只保留了基于relay的高可用,集群模式作为商业版本的特性发布。prometheus提供了一种很有特色的cluster模式,通过多层次的proxy来聚合多个prometheus节点实现扩展。同时开放了remote storage,因此二者又相互融合,Influxdb作为prometheus的远端存储。
  • 总结

    Prometheus很强大,广泛用于Kubernetes集群的监控系统。但因为目前监控体系基于zabbix,不便于再部署一套同类型的监控系统,增加运维和管理成本。

3.3 TDengine

  • 基本情况

    TDengine是涛思数据专为物联网、车联网、工业互联网、IT运维等设计和优化的大数据平台。除核心的快10倍以上的时序数据库功能外,还提供缓存、数据订阅、流式计算等功能,最大程度减少研发和运维的复杂度,且核心代码,包括集群功能全部开源。

  • 优势(性能指标)

    • 10倍以上的性能提升:定义了创新的数据存储结构,单核每秒能处理至少2万次请求,插入数百万个数据点,读出一千万以上数据点,比现有通用数据库快十倍以上。完整的性能测试报告:https://www.taosdata.com/downloads/TDengine_Testing_Report_cn.pdf
    • 硬件或云服务成本降至1/5:由于超强性能,计算资源不到通用大数据方案的1/5;通过列式存储和先进的压缩算法,存储空间不到通用数据库的1/10。
    • 全栈时序数据处理引擎:将数据库、消息队列、缓存、流式计算等功能融为一体,应用无需再集成Kafka/Redis/HBase/Spark/HDFS等软件,大幅降低应用开发和维护的复杂度成本。
    • 强大的分析功能:无论是十年前还是一秒钟前的数据,指定时间范围即可查询。数据可在时间轴上或多个设备上进行聚合。即席查询可通过Shell, Python, R, MATLAB随时进行。
    • 与第三方工具无缝连接:不用一行代码,即可与Telegraf, Grafana, EMQ, HiveMQ, Prometheus, MATLAB, R等集成。后续将支持OPC, Hadoop, Spark等,BI工具也将无缝连接。
    • 零运维成本、零学习成本:安装集群简单快捷,无需分库分表,实时备份。类标准SQL,支持RESTful,支持Python/Java/C/C++/C#/Go/Node.js, 与MySQL相似,零学习成本。
      在这里插入图片描述
  • 劣势

    • 比较复杂的sql功能还不支持,超级表等概念在使用时有歧义(反正我有)。
    • 从测试报告的结果看,tdengine的WAL只是写缓存,没有真正刷到磁盘上。
    • TD在快速的版本迭代过程中,难免会有一些问题不能第一时间解决(需要提Issue,社区版的解决速度也会比预期的要慢一些),所以在实际使用中,会频繁的进行版本升级。
    • 轻量级的社区版免费,高可靠和线性扩展的企业版收费。
    • 没有互联网大厂背景。
  • 总结

    从性能上来说,TDengine当属物联网时序数据库领域性能最强。2021年5月其刚完成B轮4700万美元融资,但产品还是处于快速的迭代完善中,目前我们小体量的应用,不便于跟随其一起踩坑发展。本人在使用中节点挂掉过几次,没有查明原因。因此考虑HA、数据可靠性,还得考虑运维难度和成本,否则性能再高,也只是个PPT产物。

    参考资料:https://www.taosdata.com/cn/

3.4 DolphinDB

  • 基本情况

    DolphinDB,读音/ˈdɒlfɪn/DB,是由浙江智臾科技有限公司研发的一款高性能分布式时序数据库,集成了功能强大的编程语言和高容量高速度的流数据分析系统,为海量结构化数据的快速存储、检索、分析及计算提供一站式解决方案,适用于量化金融及工业物联网等领域。

  • 优势

    DolphinDB具有运行快、部署快、开发快、学习快这四大优势,使其适用于大数据分析管理的诸多应用场景,主要可以归纳为以下四类:数据仓库、研发工具、实时数据处理及批处理作业。
    在这里插入图片描述

  • 劣势

    目前Dolphin主要应用在金融领域,大的金融机构比较多,闭源,而且客单价比较高
    2021年1月才完成数千万人民币A轮融资,其产品还在不断地迭代中

  • 总结

    DolphinDB虽然有社区免费版,但会限制CPU数量和内存大小,功能上也有阉割。总的来说其专为有钱的客户定制。针对我们这些小体量的应用,其官方也建议采用其他开源的方案。

    参考资料:https://www.dolphindb.cn/

4、选型结论

基于上述各数据库的特点分析,总结如下:

数据库优势劣势
Influxdb应用最广泛,认可度最高,成功案例丰富集群版收费,单机版适用于小数据集
Prometheus独立地开源监控系统和告警工具,广泛应用于Kubernetes生态前监控体系基于zabbix,不便于再部署一套同类型的监控系统
TDengine性能强悍,国产自主研发,集群版免费,也有附加功能的收费版缺少大厂的最佳实践案例,还在持续迭代开发
DolphinDB高性能、分布式,支持快速存储、检索、分析及计算提供一站式解决方案完全收费,适用于金融领域

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/615899.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Macos中Automator自动操作实现文本加解密、Json格式化、字数统计等操作

文章目录 一、说明打开Automator效果 二、文本加密三、文本解密四、Json格式化五、字数统计 一、说明 在 Automator 的工作流程中,动作是按照从上到下的顺序执行的,每一个动作的输出默认会成为下一个动作的输入。 打开Automator Command 空格 &#…

万万没想到系列,世界上最知名的失败建筑设计合集!

​ 大家好,这里是建模助手。 我们生活在由建筑包围的世界里,生活的面貌造就了建筑的多样性。而矗立的建筑也无言的记录着时代,尤其是一些建筑大师们的作品,可谓是集艺术和美学于一体的一流名作。 但,这不是凡事都有例…

虚拟内存原理介绍

文章目录 1. 虚拟内存介绍2. 虚拟寻址3. 虚拟地址空间3. 页表4. 地址翻译5. TLB加速地址翻译6. 多级页表7. 页面置换算法 1. 虚拟内存介绍 我们知道系统中的所有进程都是共享CPU和主存资源,但这样就会存在一个问题,这么多进程怎么知道主存上的一块内存是…

使用Java语言开发高效易用的--雅书阁商城管理系统

使用Java语言开发雅书阁商城管理系统 如果你正在寻找一种简单而优雅的方式来管理图书,那么使用Java语言开发雅书阁商城管理系统就是一个好选择。下面我们来详细介绍这个系统的开发过程。 效果展示 1.首页 2.注册界面 3.登录成功商城首页 4.购物车 5.电子书…

避开测试开发的常见陷阱:一份实战指南

陷阱一:过度依赖自动化测试 过度依赖自动化测试可能导致对复杂的用户交互和体验不够重视。自动化测试的力量在于它的一致性和覆盖广泛的可能性,但人工测试也同样重要,尤其是对于用户体验和复杂的用户交互。 示例:在一个电商网站…

ROS和ROS2使用

ubuntu20.04下安装qt5.12 https://blog.csdn.net/lj19990824/article/details/121013721 Ubuntu 20.04在桌面左侧边栏添加QT creator快捷图标 https://blog.csdn.net/kavieen/article/details/118695038 Qt和ROS:https://github.com/chengyangkj?tabrepositories…

操作系统原理 —— 内存覆盖与交换(十九)

什么情况下需要覆盖与交换 要弄清楚什么是覆盖与交换的概念,首先我们要知道在什么情况下才会使用到覆盖与交换。 在早期的计算机内存很小的时候,比如 IBM 推出的第一台 PC 机最大只支持 1 MB 大小的内存,因此会经常出现内存大小不够的情况&…

c++函数重载与运算符重载基础

什么是重载 重载,简单说,就是函数或者方法有相同的名称,但是参数列表不相同的情形,这样的同名不同参数的函数或者方法之间,互相称之为重载函数或者方法。 重载的作用:重载函数常用来实现功能类似而所处理的…

【C语言】数组和字符串

目录 数组和字符串 概述 一维数组 一维数组的定义和使用 一维数组的初始化 数组名 二维数组 字符数组与字符串 字符数组与字符串区别 数组和字符串 概述 在程序设计中,为了方便处理数据把具有相同类型的若干变量按有序形式组织起来——称为数组。 数组就…

紧接上文,基于轻量级yolov5s模型开发构建手写甲骨文检测识别系统

在我之前的文章中,关于手写文字、手写数字、手写字母的检测识别相关的项目都有了不少的实践了,这里就不在赘述了,感兴趣的话可以自行移步阅读即可。 《基于轻量级目标检测模型实现手写汉字检测识别计数》 《python开发构建基于机器学习模型…

【ICEM CFD】导入模型后,即使勾选point和curve也看不到几何模型上的点和线

一、问题背景 导入模型后,即使勾选point和curve也看不到几何模型上的点和线。 二、解决办法 原来导入模型后,往往第一步最需要操作的是!!! 构建拓扑!!! Build Diagnostic Topolo…

完美解决safari、微信浏览器下拉回弹效果、包含微信小程序 webview 套H5页面下拉效果。

如题,解决微信小程序、公众号 下拉回弹橡皮筋效果, 屏蔽掉 “此网页由XXXXX提供”; // 禁止页面上下整体滑动 document.body.style.overflow "hidden"

基于Jmeter+ant+Jenkins+钉钉机器人群通知的接口自动化测试

前言 搭建jmeterantjenkins环境有些前提条件,那就是要先配置好java环境,本地java环境至少是JDK8及以上版本,最好是JAVA11或者JAVA17等较高的java环境,像jenkins这种持续构建工具基本都在向上兼容JAVA的环境,以前的JAV…

为什么网络安全人口很稀缺,招聘人数却很少?

2020年我国网络空间安全人才数量缺口超过了140万,就业人数却只有10多万,缺口高达了93%。这里就有人会问了: 1、网络安全行业为什么这么缺人? 2、明明人才那么稀缺,为什么招聘时招安全的人员却没有那么多呢&#xff1…

常见数据库(MSSQL,Mysql,PostgreSQL,Oracle)安装注意事项

常见数据库安装注意事项 (原标题: DataWindowHTTP数据库安装) 转载请保留版权消息勿删除:(谢绝转载到任何文档网站!) blog.csdn.net/chengg0769 http://www.powerbuilder.ltd http://www.haojiaocheng.…

设计模式(行为型模式)之:Observer(观察者模式)

文章目录 动机使用场景代码实现类图结构模式分析: 动机 在软件构建过程中,我们需要为某些对象建立一种“通知依赖关系” - 一个对象(目标对象)的状态改变,所有的依赖对象(观察者对象)都将得到通…

绝不能错过!8款AI文案神器,让你轻松写出优质文案

无论你是否准备好,它们都已经来了。如果你知道如何使用它们,AI文案工具可以成为你的新朋友。 现在AI文案工具无处不在,眼花缭乱,从内容生成器到电子商务聊天机器人。原因很简单:AI可以节省大量时间和金钱。这是我们都喜…

markdown 编辑器使用

在博客开头加上 [TOC](这是你的目录标题)就可以根据博客内容自动生成如下所示的目录: 这是你的目录标题 Markdown 编辑器功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表无序…

智慧城市的建设需要数字孪生技术吗?

智慧城市建设需要依靠多种技术来实现数字化、智能化和可持续发展的目标。其中,数字孪生技术在智慧城市建设中起着重要的作用。 首先,数字孪生技术可以提供高度精确的城市建筑和基础设施的数字模型。通过对城市的建筑、道路、水系等要素进行数字化建模&a…

vue.set this.$set的作用

Vue.set 的作用就是在构造器外部操作构造器内部的数据、属性或者方法 当一个对象在vue中是响应式的,如果仅仅使用普通的方式向这个对象添加或修改这个属性的值,是不会触发视图更新的 但是使用 vue.set 或者 this.$set 的方式可以使得新添加的属性也是响…