演讲干货整理:泛能网能碳产业智能平台基于 TDengine 的升级之路

news2024/9/30 14:56:22

在 7 月 26 日的 TDengine 用户大会上,新奥数能 / 物联和数据技术召集人袁文科进行了题为《基于新一代时序数据库 TDengine 助力泛能网能碳产业智能平台底座升级》的主题演讲。他从泛能网能碳产业智能平台的业务及架构痛点出发,详细分享了在数据库选型、平台架构改造、新旧底座替换以及数据迁移等多个维度的经验,为与会者提供了宝贵的参考。本文据此演讲内容整理而成。

平台痛点及架构痛点

新奥数能科技有限公司成立于 2018 年,隶属于新奥集团。公司基于新奥集团过去 30 多年在能源行业的经验积累,以及 10 多年来对泛能理念的深刻理解,结合物联网、大数据和人工智能技术,打造了一个智能能碳产业平台,我们称之为“泛能网”。

泛能网的核心聚焦于公建、工厂、园区等应用场景。我们的客户,尤其是他们的管理层以及能源部门或运维部门,在日常节能降本、设备运营和运维方面,经常会遇到难以解决的问题。而我们正是围绕这些客户的痛点,提供一体化的智能平台解决方案。

泛能网的建设理念是从底层物联设备中采集客户需要解决的关键设备数据,汇总到平台,经过大规模的数据处理后,生成监控和运维的指标。接着,通过智能算法和仿真能力,我们为客户提供包括实时监控、运营管理,甚至未来的碳交易等一系列应用产品。

自 2018 年平台建设启动以来,至今已经有五六年的发展历程。在这个过程中,我们遇到了一些行业内普遍存在的痛点。第一个痛点是海量物联设备的数据采集问题。以一个简单的例子来说明:我们服务于 5000 多家客户,每个客户有约 50 台设备,每台设备每分钟采集 10 到 20 个数据点,那么每秒的数据处理量(TPS)就达到 9 万左右。如果涉及到电力等领域,数据采集的频率还可能更高,达到秒级甚至毫秒级,数据量会成倍增加。

第二个痛点在于数据查询的多维度要求。客户可能基于时间维度,需要查看最大值、最小值、平均值,甚至差值分析。同时,他们对查询结果的响应速度有很高的要求。此外,数据的长期存储也是一大挑战。有些客户希望保留 5 年甚至 10 年的数据,这对存储空间和查询索引带来了不小的压力。

除了数据采集和查询,另一个挑战是指标的计算。过去我们遇到的两大问题,一是指标计算不准确:典型问题是日、月、年数据不能互相印证,日月不等用电约 7%,用水及蒸汽约 18%,用燃气超过 31%;月年不等超过 50%,是长期以来的全局性问题。另外测点数据延迟、互相依赖的指标执行先后不同等也会使指标计算不准确。

二是指标计算不及时,这主要源于过去采用的计算方式依赖于任务调度和公式计算。这种方式不可避免地会导致计算延迟,因为调度过程本身就存在一定的延时,尤其是当涉及大量历史数据计算时,频繁的调度会造成更显著的延时。此外,某些数据测点如果出现断数或数据丢失,也会进一步影响数据的及时性。

为了解决这些问题,经过分析,我们从两个方面进行了改进。首先,原有的平台架构虽然在当时能够满足需求,但随着客户数量和数据量的增长,现有架构已经无法支撑当前和未来的业务发展。其次,过去选用的一些存储方案已经逐渐过时,不能再满足现有需求。

具体来说,我们曾基于 OpenTSDB 的存储方式,结合任务调度来完成数据处理。这种方式的核心问题是任务调度的不及时性和频率不一致,导致了数据加工的延迟和不准确。此外,数据采集和处理共用同一套存储资源,造成了资源瓶颈。下图展示了我们过去的资源使用情况,尽管我们用了十多台物理服务器,每台服务器拥有 60 多个计算核心,依然无法满足需求。

数据方案选型及落地应用

基于以上所提到的痛点,我们针对性地提出了相应的解决方案。首先,我们需要考虑两个核心问题:一是如何选择新的基础设施,二是未来技术架构的演进方向

关于基础设施选型,我们首先从几个技术维度进行深入考虑,包括技术的适配性、国产化程度、成熟度、社区活跃度以及商业化支持等。经过对 TDengine、OpenTSDB、InfluxDB、Kdb+、TimescaleDB 等多种方案的对比,综合分析发现,TDengine 在满足这些维度需求上具有明显优势,虽然它相对较新,但在各方面的表现十分适合我们的业务需求。

相较于其他解决方案,OpenTSDB 在实际使用中已经暴露出诸多问题,InfluxDB 在开源版本上缺乏集群能力,Kdb+ 并未开源,且商业化过于封闭,TimescaleDB 作为 PostgreSQL 的扩展,其开源版本功能相对单一。因此,综合考虑开源性、商业支持及长远发展,我们最终选择了 TDengine 作为基础设施。

有了底层架构的选型后,我们对技术架构进行了相应的调整。首先,我们将任务调度模式升级为流式计算模式。流式计算在互联网应用中已十分普遍,但在工业互联网中仍较少应用。通过引入流式计算,我们能够将原有的任务调度方式转变为实时流式处理,这有效解决了任务调度中的延迟问题。同时,我们还将数据采集与计算分离,构建了“采算分离”架构:即通过物联网平台实现数据采集,再使用流式处理对采集到的测点数据进行实时加工与计算,进一步提升了数据处理的实时性与准确性。

基于新架构,我们接下来探讨如何具体落地并应用。例如,针对空压机的能耗监测和运行状态管理场景,空压机系统内可能包含多个空压机组,同时配备电能表或流量计作为测点设备。我们需要对这些测点的数据进行一级和二级的指标处理。在 TDengine 中,我们充分利用了超级表和子表的功能,将不同类型的测点归类为超级表,每台设备的实例对应子表。每个子表中的行记录对应设备的数据点,列则代表具体的测点。这一模型为我们提供了高效的测点数据存储方式。

同样地,对于指标计算,我们采用了类似的模型。常见的指标计算中会涉及不同的时间维度,如时、分、秒、日、月、年等。大部分应用场景要求在界面上展示某一分钟的指标曲线或某个时间段的指标趋势。因此,我们基于时间维度构建超级表,不同的时间类型作为分类维度,每个子指标作为子表,记录具体的指标值。这样一来,我们就完成了数据采集和指标计算的存储模型定义。

有了存储模型后,我们还需要解决一些数据处理中的常见问题。首先就是数据延迟问题。并非所有设备都能准时上报数据,有时会出现延迟。为了兼容这些延迟数据,我们在TDengine的流式计算中引入了 Watermark(水位线)机制,通过冗余时间叠加来处理延迟数据,确保计算的准确性。

其次,在高频率上报的场景中,一分钟内可能会收到大量数据点,但我们并不需要每个数据点都进行计算。这时我们采用数据分桶原理,将数据汇总后集中计算,提升了效率。

最后,针对复杂的指标计算,如空压机系统中的单耗指标,它由气量和电量的比值计算得出。这种场景下,我们通过分流每个因子的数据,分别计算后再汇总,解决了复杂指标中多因子并行计算的问题。

此外,数据会延迟,那自然也会有超前的境况出现,部分设备由于时间校准不准确或设备老化,可能会导致数据超前。对于这些情况,我们通过兼容性处理手段,在一定范围内等待数据,然后再进行延迟处理。对于严重超前的数据,我们则通过程序异常判断和设备时间校准来解决,确保数据的准确性。

新旧平台切换、架构迁移及效果

解决了前面提到的计算过程中异常的问题后,我们还需要考虑如何设计我们的底层模型,以及在平台改造完成后,如何进行线上切换。毕竟,我们的产品已经在线上运行了好几年,要进行如此大的底层更换,对我们来说也是一个巨大的挑战。

为了应对这个挑战,我们设计了一种动态切换的机制。我们将所有客户和数据源通过灰度发布或者叫做开关策略进行切换。当某个企业需要走新流程时,我们通过一个开关让它的流量路由到新的平台上。这样我们能够在尽量减少对客户影响的前提下,平稳完成平台的切换。

然而,除了平台切换,我们还面临着一个更大的挑战,那就是历史数据的迁移。我们这里面涉及到大量的历史数据,主要有以下四个方面的难点:

  1. 不能影响老系统的线上查询,且迁移成本需要可控。因为迁移时需要频繁读取旧的指标数据,这会影响线上指标查询的响应时间。

  2. 历史指标需要按企业维度迁移。指标历史结果数据模型不支持一次性读取所有企业的指标实例,需转化获取指标实例的 metric 值。

  3. 历史指标结果数据种类多且复杂,指标配置规则也十分多样,导致每个数据迁移任务都需要个性化处理。

  4. 迁移的历史数据量巨大。我们要迁移的数据量高达千亿级别,仅指标数据就有约 2000 亿条,测点数据更多。迁移的时间范围长,且指标实例量巨大,需要在短时间内迁移千亿级数据。

为了解决这些问题,我们采用了几种方式。首先,我们开发了自定义的数据迁移工具。其次,我们对 OpenTSDB 的历史数据进行了备份,再从备库中提取数据写入 TDengine。在实际操作中,可能我们写入的方法不是很合理,一开始还遇到了写入速度慢的问题。后来通过与 TDengine 的技术专家沟通,我们利用了 TDengine 的高性能写入能力,一次可以写入 50 万条数据,耗时仅为 100 毫秒,这极大地提升了数据迁移的效率。

完成数据迁移后,整个平台的迁移方案就相对完整了。去年,我们顺利完成了大约七八千个客户以及所有相关数据的切换工作。

通过这次平台升级,我们看到了显著的效果。首先,及时性得到了大幅提升。对比以往,我们的计算频率最少提高了 4 倍,最高的时候,例如从年指标计算频率两天一次提高到每分钟一次,时效性提高了 100 倍。计算时长方面,最少也提高了两倍,最高提升了 8 倍。

其次,计算准确度有了很大提升。通过流式处理和层级加工的方式,我们的指标数据能够前后一致地匹配,解决了无序数据带来的准确性问题。同时,延迟数据的处理也更加智能化,可以自动计算延迟测点的数据,并递归修正受影响的所有指标。对于日、月、年指标计算频率不一致的问题,我们也做了统一处理,现在所有计算频率统一为 15 分钟,并使用统一的时间窗口进行计算,确保数据的准确性。最终,客户投诉率几乎降为 0。

经验分享

最后,想跟大家分享一些我们在这个过程中总结出的经验和建议:

  1. 如果项目中需要删除数据,而TDengine 社区版不支持直接删除数据。如果是单独子表,那我们可以整个进行删除操作,如果是子表内数据,那可以通过标识数据来实现删除。

  2. 如果出现未来时间数据不能写入或写入报错的问题,解决办法是在建库时关注两个参数:一个是数据保留天数(keep),另一个是数据存储时间跨度(days)。根据这两个参数,TDengine 允许写入数据的时间范围是:从 now-keepnow+days。因此,如果要写入的数据超出这个范围,就会出现超出范围的错误。在创建数据库时,建议根据具体需求合理设置这两个参数,确保数据可以在预期的时间范围内写入。

  3. 在项目中,如果遇到无法通过时间戳主键更新当前记录的问题,通常是因为在建库时, update 参数的默认值为 0,表示不支持更新操作。为了解决这个问题,需要根据项目需求调整该参数,例如将 update 参数设置为 1,以支持整行更新。在当前项目中,将 update 参数设为1即可实现按时间戳主键更新记录的需求。

结合前面的注意事项,在日常项目中引用或评估使用 TDengine 时,我们需要从多个维度考虑相关参数。接下来,我会为大家详细讲解这些维度和所需考虑的具体因素,并附上一个汇总表格供大家参考。

1.项目基础信息的输入

首先,我们需要输入与项目相关的基本信息。这些信息包括未来需要监控或管理的设备数量、设备参数以及测点的数量。如果项目中涉及指标计算或存储相关的需求,这些也需要作为输入项加以考虑。

2.磁盘评估

在进行项目评估时,磁盘容量是我们需要优先考虑的因素之一。根据设备数量、数据采集频率和存储时长等因素,磁盘容量需求将直接影响项目的实施效果。因此,我们需要对磁盘进行合理的配置,以确保数据的存储和查询性能。

3.内存评估

内存方面,我们需要关注几个关键因素:

  • 节点数量和虚拟分组(vgroups)数量:根据 TDengine 的架构原理,节点数量和 vgroups 的配置对系统的性能和稳定性起到至关重要的作用。

  • 副本(Replica):这是数据库的备份机制,对于任何企业来说,数据的高可用性和存储安全性至关重要。因此,副本数量的设置应与具体项目需求紧密结合。

4.缓存配置

缓存设置也是影响系统性能的重要因素。在数据查询或存储时,我们需要为系统预留足够的缓存空间,以提高数据查询速度和数据读取效率。具体配置项包括 buffer、pages、pagesize、cachesize 等参数。这些参数的设定应结合实际项目需求和数据量进行评估。

5.CPU 评估

最后,CPU 的性能评估主要涉及数据查询和计算的负载。根据数据量的大小、查询频率以及计算需求,合理配置 CPU 资源能够确保系统高效运行。针对不同项目的实际情况,CPU 的需求也会有所差异,因此需要进行更详细的思考和规划。

以上就是我们平台改造过程中的一些重要节点和解决方案,结合这些经验和注意事项,希望能为大家在类似项目中提供一些参考。

结语

回顾我们使用 TDengine 的这段历程,不禁感慨万分。从最初的选择 OpenTSDB,到我们面临种种挑战,决定进行新一轮的数据库选型,这一路走来充满了思考与抉择。2018 年到 2022 年,OpenTSDB 在我们私有化场景中的表现曾一度支撑着我们的系统,但随着业务的不断扩展,问题也接踵而至——高昂的部署成本、复杂的运维难题,让我们不得不寻求新的解决方案。

正是在这个关键时刻,TDengine 走入了我们的视野。初次接触 TDengine 时,我们带着试探的心态,先在私有化场景中做了尝试。出乎意料的是,它不仅帮助我们降低了部署和运维成本,还让我们对未来充满了信心。于是,2023 年 6 月,我们正式启动了平台的全面切换,将 TDengine 应用到核心生产环境。

当然,任何技术变革的路上从不都是一帆风顺。我们也曾在 TDengine 2.6 版本时遇到过一些小问题,但通过与 TDengine 的技术专家密切合作,我们共同修复了这些 bug。随着系统逐步升级到 3.0 版本,我们在不断优化的过程中,也看到了 TDengine 带给我们的稳定性和效率提升。终于,在 2023 年 11 月,我们的整个平台稳定运行,所有的努力和尝试都获得了回报。

从 18 年初次启程到如今,我们不仅见证了 TDengine 的发展,也见证了自己系统的蜕变。这一路的技术革新不仅仅是架构的演进,更是我们对未来的信心所在。正是因为有了这些经历和突破,我们相信,未来无论遇到什么样的挑战,我们都有足够的底气去迎接。而 TDengine,已成为我们坚定的同行者。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2179904.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【多线程奇妙屋】能把进程和线程讲的这么透彻的,没有20年功夫还真不行【0基础也能看懂】

本篇会加入个人的所谓鱼式疯言 ❤️❤️❤️鱼式疯言:❤️❤️❤️此疯言非彼疯言 而是理解过并总结出来通俗易懂的大白话, 小编会尽可能的在每个概念后插入鱼式疯言,帮助大家理解的. 🤭🤭🤭可能说的不是那么严谨.但小编初心是能让更多人…

OpenGL ES 顶点缓冲区和布局(3)

OpenGL ES 顶点缓冲区和布局(3) 简述 顶点缓冲区的本质就是一段GPU上的显存,我们通过绑定顶点缓冲区的方式来将数据从CPU传到GPU。 我们之前在绘制三角形的例子中,我们往顶点缓冲区只传入了坐标,但是其实顶点是可以包含很多数据的&#xff…

指定PDF或图片多个识别区域,识别区域文字,并导出到Excel文件中

常见场景 用户有大量图片/PDF文件,期望能将图片/PDF中的多个区域中的文字批量识别出来,并导入到Excel文件中。期望工具可以批量处理、离线识别(保证数据安全性)。手工操作麻烦。具体场景:用户有工程现场照片&#xff…

xgboost cross validation

在R中使用xgboost 假设X为训练数据,y为label,为0或者1.用xgboost建立分类模型代码如下 调用caret包中的createFolds方法,进行10倍交叉验证 最后画出AUC曲线 library(xgboost) library(caret) library(caTools) library(pROC)set.seed(123) …

【北京迅为】《STM32MP157开发板嵌入式开发指南》- 第十一章 Linux 帮助手册讲解

iTOP-STM32MP157开发板采用ST推出的双核cortex-A7单核cortex-M4异构处理器,既可用Linux、又可以用于STM32单片机开发。开发板采用核心板底板结构,主频650M、1G内存、8G存储,核心板采用工业级板对板连接器,高可靠,牢固耐…

3DGS中Densification梯度累计策略的改进——绝对梯度策略(Gaussian Opacity Fields)

在学习 StreetGS 代码中发现了其中的 Densification 策略与原 3DGS 不太一样,其是使用的 Gaussian Opacity Fields 中的一个的策略 我们先来回忆一下 3DGS 中一个比较重要 contribution:自适应密度控制 1 自适应密度控制 其具体步骤如下: …

概率论——随机分布

离散型——二项分布 X ~ B(n , p) 例题: 例题二: 离散型——泊松分布 例题 注意:记住题二的结论!!! 连续性——均匀分布 例题:求解概率密度(具体方法见随机…

请问PMP英文报名被审查该怎么通过?

审核抽查是随机进行的(一般概率约为30%),并非所有人都会接受资料抽查。如果您报考了机构,他们会协助您解决这个问题。 一、资料审查: 如果被PMI选中进行审查,这是正常情况,不必惊慌。如果你参…

要洞察数字化本质,才能形成破局之道...

在深入探索数字化转型的突破路径之前,首要之务是构筑对数字化及其转型过程的深刻而准确的认知体系。唯有透彻理解数字化的内在本质,精准把握数字化转型的演变规律,方能引领数字化转型的航向,确保数字化工具与策略得以高效、精准地…

(一)万字详解G1垃圾收集器 —G1的设计目标是什么?G1的分区是什么?卡表的作用和工作原理?如何解决漏标问题?

一、G1垃圾收集器简介 G1 GC(Garbage-First Garbage Collector)是一款先进的垃圾收集器,通过 -XX:UseG1GC 参数启用。它首次亮相于JDK 6u14版本,并在JDK 7u4中正式发布。对于熟悉JVM的开发者而言,G1已是一个广为人知的…

测试卡(1)灰卡

#灵感# 灰卡为什么是18%?文章分为三部分,前部分,解释灰卡的定义,后部分是 市场买的18%灰卡的说明书,其中穿插了网络上搜到的灰卡使用案例。 目录 18% 中性灰卡应用说明 1) 曝光水平 例子:用灰…

ppt模板如何制作?建议试试这4招

在追求效率和简洁的现代办公环境中,简约风格的PPT模板因其清晰、直观的特点而备受青睐。制作一个简约的PPT模板不仅能提升演示的专业感,还能帮助观众快速抓住重点。 今天,我来告诉大家:ppt模板简约怎么制作?让你能够利…

Kubernetes 节点何时处于就绪状态?

在 Kubernetes 中,节点(Node)是一个工作负载的基本单元,容器被部署和运行在这些节点上。每个 Kubernetes 节点在加入集群后都需要经过一定的健康检查和状态评估,才能被集群标记为“就绪”状态。这一过程的关键是节点的…

Linux相关概念和重要知识点(9)(父进程、子进程、进程状态)

1.父进程、子进程 (1)父进程 CLI本质上是一款命令行界面的软件,是用户调用接口层面的程序(上层,可以和系统调用接口做沟通),CLI和GUI是同级别的。用户的操作都是建立在CLI和GUI之上的。 但是…

奔三理工男适合转行做AI算法工程师吗?

奔三男生转行可以做什么? 干了几年开发程序员却面临降薪优化? 说实话,如果学历一般技术一般, 无法与时俱进的话,会容易面临尴尬情况…… 就业这件事,选对赛道方向至关重要!! 这…

profinet转ethercat连接伺服在工业现场的配置案例

在工业通信领域,Profinet 转 EtherCAT 网关的应用为实现不同工业网络之间的通信提供了有效的解决方案。以下是一个关于 Profinet 转 EtherCAT 网关链接伺服配置的案例。 首先,我们需要准备好相关的硬件设备,包括 Profinet 转 EtherCAT 网关、…

Docker Desktop 安装Centos 7.9 使用yum install不可用问题

安装centos镜像并run之后,使用yum install 命令安装出现如下错误,可使用此命令替换mirror。 报错信息: Could not retrieve mirrorlist http://mirrorlist.centos.org/?release7&archaarch64&repoos&infracontainer error was…

2024第八届御网杯信息安全网络大赛线上WP详解(misc+cryoto)(详解-思路-脚本)

芜湖~ 首届御网杯线上和ISCC分开进行 但还是用的ISCC的页面差评 嘻嘻 又是玄乎的一天 以下是我自己的一些思路和解析 有什么问题或者建议随时都可以联系我 目录 附件 # Misc ##Notice ##编码转换 Brainfuck编码 jsfuck编码 Ook! 编码 ##bluetooth 导出压缩包 第一…

OpenGL 使用离屏渲染技术进行截图

文章目录 背景第三方库注意参考资料 一、离屏渲染(一)帧缓冲与帧缓冲对象(FBO)(二)附件(Attachment) 二、具体代码(一)主线程创建OpenGL窗口(二&a…

python画图|自制渐变柱状图

在前述学习过程中,我们已经通过官网学习了如何绘制渐变的柱状图及其背景。 掌握一门技能的最佳检验方式就是通过实战,因此,本文尝试做一些渐变设计。 前述学习记录可查看链接: Python画图|渐变背景-CSDN博客 【1】柱状图渐变 …