IoTDB 论文入选三大数据库顶会:ICDE、SIGMOD、VLDB 收录自研成果!

news2024/11/20 17:37:27

2024 三大顶会收录“成就”

随着数据库领域三大国际顶级会议 ICDE、SIGMOD、VLDB 2024 会议落幕,我们骄傲的宣布 Apache IoTDB 团队成员的多篇论文均被收录!其研究成果均已在 IoTDB 实现,或基于 IoTDB 进行了性能评估。

以下整理收录论文名称及摘要,三大顶会的多篇收录进一步证明了 IoTDB 相关技术在工业应用领域的先进性和引领性。产、学、研融合的我们会更努力,实现更多创新性技术突破!

ICDE 2024 & IoTDB

🥳论文名称:On Tuning Raft for IoT Workload in Apache IoTDB

摘要:由于其可以直观的理解和实现,Raft 已被广泛用作各种分布式系统中的共识协议。然而,直接应用 Raft 可能无法完全满足物联网(IoT)场景中的高吞吐量要求。该论文研究揭示了实际物联网应用案例中,数据库系统面对的独特场景特性,例如高并发性、波动的流量、固定大小的请求和可压缩数据。这些特性解释了 Raft 在物联网应用的日志分发、持久性和内存管理方面的瓶颈。

为此,我们建议探索针对特定物联网工作负载调整 Raft 共识协议的可能,包括替代数据结构、实现多类压缩算法、内存回收策略等。本文通过调整上述方面,在开源时序数据库 Apache IoTDB 中对 Raft 进行了系统评估。大量实验表明系统并行性得到改善,信息冗余减少,资源利用率提高。数据库吞吐量提升范围可达到通过替换调度数据结构的 10% 到通过预序列化的近 200%。调整后的整体吞吐量可以达到原始 Raft 实现的 4 倍。

🥳论文名称:REGER: Reordering Time Series Data for Regression Encoding 

摘要:回归模型通过存储每个点的残差,也就是回归编码,用于对时序数据进行无损压缩。由于数值波动,回归残差可能很大,因此将占用巨大的空间。值得注意的是,与波动值相比,时间间隔通常是规则的且易于压缩,尤其在以预设频率收集传感器数据的物联网场景中。从这个意义上讲,需要权衡存储常规时间戳和波动值。直观地说,我们可以交换序列中的数据点,而不是按时间顺序存储,这样相邻的数据点既有更平滑的时间戳,也有更平滑的值,从而降低残差。

在本文中,我们建议对时序数据进行重新排序,以实现更好的回归编码。不是从头开始重新计算,而是在移动一些点后对残差进行有效的更新。对各种真实世界数据集(无论是公开的还是由我们的工业合作伙伴收集的)的实验比较说明了该方法在压缩比方面的优越性。带有重新排序的回归编码(REGER),现在已成为开源时序数据库 Apache IoTDB 中的一种编码方法。

SIGMOD 2024 & IoTDB

🥳论文名称:Time Series Representation for Visualization in Apache IoTDB

摘要:在分析时序数据时(通常是交互分析),分析师经常需要即时可视化数据库中存储的海量数据。M4 可视化选择每个像素列中的第一个、最后一个、底部和顶部数据点,以确保双色折线图可视化的像素完美度。虽然 M4 已经展示了将不同跨度的时序数据封装到固定大小的像素中的精确度,但在原生时序数据库中有效支持 M4 可视化的方法仍然缺失。值得注意的是,为了实现快速写入,商用时序数据库系统(如 Apache IoTDB 或 InfluxDB)采用基于 LSM-Tree 的存储。也就是说,时序数据被分段并存储在多个块中,可能出现时间戳无序到达。

在本研究中,我们提出了一种新颖的无块合并方法,称为 M4-LSM,以加速 M4 可视化实现。具体来说,我们利用块的元数据来精简并避免任何块的昂贵合并。此外,参考时序数据的特殊属性,还启用了块内索引和精简,以高效地访问可视化数据点。值得一提的是,原生时序数据库运算符 M4-LSM 已在开源时序数据库 Apache IoTDB 中实现,并部署在各行业的企业中。在面向真实数据集的实验中,我们提出的 M4-LSM 运算符在不牺牲精度的情况下表现出高效率。

🥳论文名称:Determining Exact Quantiles with Randomized Summaries 

摘要:分位数是各种数据科学任务中的基本统计方法,但因需要将所有数据加载到内存中进行排名,计算成本高昂。由于内存空间有限(在负载较重的终端设备或数据库中很常见),因此需要多次扫描数据。这种方法是希望逐渐缩小查询分位数的范围,直到它小到足以加载到内存以对结果进行排名。现有方法使用确定性草图来确定分位数的精确范围,称为确定性过滤器,但在范围缩小方面效率低下。

在本研究中,我们建议使用随机摘要(例如 KLL 草图)更快速地缩小范围。也就是说,分位数很有可能位于由随机草图确定的较小范围内,称为概率过滤。具体而言,我们估计了使用概率过滤确定的精确分位数的预期通过次数,并选择可以最小化预期通过次数的适当概率。该方法已作为一项功能部署在基于 LSM-Tree 的时序数据库 Apache IoTDB 中。在真实和合成数据集上进行的大量实验证明了我们的建议与现有的确定性过滤方法相比具有优越性。与最先进的确定性草图(GK 草图)相比,我们的方法次数平均减少 0.48 次,耗时减少 18%。

🥳论文名称:Optimizing Time Series Queries with Versions

摘要:我们表明,用于工业物联网数据管理的时序数据库对集成自动版本控制系统具有内在需求,该系统引入了高级数据语义和查询优化。在已部署的物联网数据库实例中,由于网络问题和错误的物联网读数,由 LSM tree 管理的物联网数据是多层次和多版本的。对于数据语义,每个查询根据查询表达式或数据块级别合并版本数据。对于查询优化,我们发现现有的依赖于预写日志的时序数据库由于在合并大量版本数据时的性能瓶颈而无法更好地执行数据查询。

在本文中,由版本运算符组成的代数解决了时序数据应用程序评估和优化物理查询计划的语义。我们提出版本可约性作为执行一致计划的关键特征,并评估推迟数据合并的好处。我们还展示了将版本查询集成到现有关系数据库中的方法,方法是基于关系可约性将它们转换为标准 SQL。最后,我们的扩展实验证明了针对版本化数据优化执行计划的有效性。

VLDB 2024 & IoTDB

🥳论文名称:Apache TsFile: An IoT-native Time Series File Format

摘要:物联网 (IoT) 的普及导致时序数据呈指数级增长,这些数据分布并应用于各种环境,需要专用的存储解决方案。尽管关注度日益增长,但当前的时序数据库系统缺乏标准化的文件格式,现有的开放文件格式无法充分利用物联网时序数据的独特特性。

在本文中,我们介绍了 Apache TsFile,这是一种专门为物联网时序数据量身定制的文件格式。TsFile 按设备组织数据,根据设备相关信息创建索引。我们的实验证明了 TsFile 在实现高数据摄取率、最小化延迟和优化数据紧凑性方面的效率。

🥳论文名称:On Reducing Space Amplification with Multi-Column Compaction in Apache IoTDB

摘要:日志结构合并树 (LSM-tree) 通常用作现代时序数据库(包括 Apache IoTDB)中写入密集型工作负载的存储引擎,但因此会遭受高空间放大 (SA),这个问题在物联网 (IoT) 场景中变得更加复杂。

为了缓解这种情况下的 SA,本文介绍了 Apache IoTDB 中的多列压缩 (MCC) 策略。我们同时考虑了单独插入无序数据和多列数据更新,并分析了在压缩过程中选择合适文件以最大程度减少空间的难度。然后,我们提出了一种启发式方法来改进文件选择,从而减少 SA。为了提高这种方法的效率,我们进一步设计了文件预取器和压缩缓存。所提出的 MCC 已在 Apache IoTDB 中实现。实验结果表明,我们提出的 MCC 在减少空间放大方面取得了更好的性能。

🥳论文名称:Distance-based Outlier Query Optimization in Apache IoTDB

摘要:虽然对流数据的异常值检测已得到广泛研究,但时序数据库中的异常值查询却在很大程度上被忽视了。在本文中,我们专注于优化 Apache IoTDB 中基于距离的异常值查询的效率,并考虑延迟数据的重叠文件。我们建议利用存储在文件中的值的存储桶统计数据。为了实现高效修剪,我们在存储桶和重叠文件中推导出了数据点邻居计数的上限和下限。与现有的为数据流设计的异常值检测方法相比,大量实验证明了我们的方案在基于 LSM 树的时序数据库 Apache IoTDB 中的效率。

扫描下方二维码添加欧欧小助手,并发送“顶会论文”,可免费获得“IoTDB 顶会论文合集”!

规上企业应用实例

能源电力:中核武汉|国网信通产业集团|华润电力|大唐先一|上海电气国轩|清安储能|某储能厂商|太极股份|绍兴安瑞思

航天航空:中航机载共性|北邮一号卫星

钢铁冶炼:宝武钢铁|中冶赛迪

交通运输:中车四方|长安汽车|城建智控|德国铁路

智慧工厂与物联:PCB 龙头企业|博世力士乐|德国宝马|京东|昆仑数据|怡养科技

0b0c5f8611c26f7e43fee7892e925fd3.gif

2d1d230f42579ef7d59e120c47d42f4a.jpeg

d037a62ab0f68af3ac6420e572230855.jpeg

9282c1525921477dd26f8325fe9ec53d.jpeg

a89863687bcdc78da78308237844367c.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2163935.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

过来人谈谈:我是如何师通过软考高级系统架构设计师的?

一丶关于教材内容 虽然系统架构设计师要考的内容远远不止于考试教材,但是熟读教材内容依然有必要的。 2022年,我利用一些碎片时间走马观花式地翻了一遍教材内容(《系统架构设计师教程》和《系统架构设计师考试全程指导》)&#…

网络事件管理

网络事件管理是运行组织 IT 网络不可或缺的一部分,网络事件管理的最终目标很简单:在发生中断时尽快恢复服务或功能。但是为了高效和一致地进行,IT 运营团队需要时刻保持警惕,不断了解网络事件,并且必须系统地遵循一套程…

除氟剂在芯片行业的应用

除氟剂在芯片行业的应用主要体现在对含氟废水的处理上。芯片生产过程中,特别是在湿法工序中,常用氢氟酸或BOE(Buffered Oxide Etch,缓冲氧化物刻蚀液)等化学物质进行刻蚀和清洗,这些过程会产生含有氟离子的…

如何避免U盘重要数据泄露?U盘加密方法推荐

随着科技的不断发展,U盘已经成为我们日常生活中不可或缺的存储工具。然而,由于U盘体积小巧、携带方便,一旦丢失或被他人恶意使用,重要数据泄露的风险极大。为了避免这种情况发生,我们需要对U盘进行加密,确保…

什么是组态、组态的应用场景介绍

随着计算机技术和工业自动化水平迅速提高,而车间现场种类繁杂的控制设备和过程监控装置使得传统的工业控制软件无法满足用户的各种需求。在“组态”概念出现之前,工程技术人员需要通过编写程序来实现某一任务,不但工作量大、周期长&#xff0…

C++之 string(中)

C之 string string类对象的容量操作 resize 将有效字符的个数该成n个,多出的空间用字符c填充 虽然在string里用的不多,但是在vector里面常见 这里有三种情况: 1)resize小于当前的size 2)resize大于当前的size,小于capacity …

自适应企业网站建站系统源码 带完整的安装代码包以及搭建部署教程

系统概述 传统的建站方式往往需要耗费大量的时间和资源,而且对于非专业人士来说,操作难度较大。为了满足企业快速建站的需求,自适应企业网站建站系统源码应运而生。该源码的开发团队致力于打造一款功能齐全、易于操作的建站系统,…

PingCastle:一款针对活动目录AD的安全强化工具

关于PingCastle PingCastle是一款针对活动目录AD的安全强化工具,可以帮助广大研究人员提升活动目录的安全性,该工具甚至可以做到在 20% 的时间内实现 80% 的AD安全性。 Ping Castle 是一种旨在使用基于风险评估和成熟度框架的方法快速评估活动目录AD 安…

power bi制作各季度收入累加柱状图——日期表、calculate、datesytd

一、数据介绍: 2017-2019年订单销售收入数据(订单日期,销售收入) 二、效果展示: 三、操作步骤: 1、建立日期表 (1)建立原因 本次度量值编写需要运用到datesytd这一时间智能函数…

2024 IDEA软件 部署tomcat 十二步 运行web页面(html类似的)(中英文对照版本)新手小白易上手

目录 一、准备工作(三必备): 1、自己的web项目 2、idea软件(我是2023.1.2版本) 3、tomcat X.X版本 二 、正式开始步骤,不废话!! 1、 点击菜单栏中 “File”(文件&…

2024年双十一值得入手的好物有哪些?五大性价比拉满闭眼入好物盘点

随着2024年双十一购物狂欢节的临近,消费者们纷纷开始关注各类好物,期待在这一天能够以最优惠的价格入手心仪的商品,在这个特殊的时刻,我们为大家盘点了五大性价比拉满的闭眼入好物,这些产品不仅品质卓越,而…

geoserver发布shp地图

创建新的 存储仓库 file:///var/lib/tomcat9/webapps/geoserver/shp/shengdao/省道.shp 发布图层后&#xff0c;可以看到这个图层的重要attribute 复制&#xff0c;或者 创建新的样式style 这个属性比较讨厌 是 中文的 省 <sld:TextSymbolizer><sld:Label><og…

尚品汇-H5移动端整合系统(五十五)

目录&#xff1a; &#xff08;1&#xff09;运行前端页面 &#xff08;2&#xff09;启动前端页面 &#xff08;3&#xff09;添加搜索分类接口 &#xff08;4&#xff09;购物车模块修改 &#xff08;5&#xff09;登录模块 &#xff08;6&#xff09;订单模块 &#…

ubuntu安装libtorch

Ubuntu20.04安装libtorch 〇、前期准备1、查看NVIDIA显卡算力和CUDA版本支持的算力2、查看CUDA与显卡驱动的版本对应 一、NVIDIA显卡驱动安装1、下载显卡驱动2、安装驱动A. 安装依赖B. 禁用nouveau驱动C. 显卡驱动安装 3、参考 二、CUDA安装1、下载安装CUDA2、测试CUDA是否安装…

今年双11哪些东西值得买?分享五款实用耐用的好物,不再乱花钱!

随着一年一度的1111购物节脚步渐近&#xff0c;是否还在为挑选商品而犹豫不决&#xff1f;别担心&#xff0c;我们贴心整理了一份双十一必买好物推荐&#xff0c;专为追求品质生活的您量身打造。跟随这份清单&#xff0c;让您的数字生活更加丰富多彩&#xff0c;无需多虑&#…

四川财谷通信息技术有限公司抖音小店领域的新势力

在当今这个数字化浪潮汹涌的时代&#xff0c;电子商务已成为推动经济发展的重要引擎&#xff0c;而短视频平台抖音的崛起&#xff0c;更是为电商行业注入了前所未有的活力与机遇。在这片充满无限可能的蓝海中&#xff0c;四川财谷通信息技术有限公司凭借其敏锐的市场洞察力和强…

zabbix监控某特定进程是否挂掉

我现在已经在被监控机器&#xff08;A&#xff09;上装好了zabbix-agent&#xff0c;同时也在zabbix-server网页端添加了机器A 1&#xff0c;确定好要监控的进程 假如我想监控机器A上面的salt-minion这个进程&#xff0c;首先通过ps -ef 找到这个进程的命令启动行。 2&#x…

828华为云征文 | 云服务器Flexus X实例,Docker集成搭建FC-web模拟器

828华为云征文 | 云服务器Flexus X实例&#xff0c;Docker集成搭建FC-web模拟器 华为云端口放行 服务器放行对应端口9995 Docker安装并配置镜像加速 1、购买华为云 Flexus X 实例 Flexus云服务器X实例-华为云 (huaweicloud.com) 2、docker安装 yum install -y docker-ce3、验证…

vue2+elementUI实现handleSelectionChange批量删除-前后端

功能需求&#xff1a;实现选中一个或多个执行批量删除操作 在elementUI官网选择一个表格样式模板&#xff0c;Element - The worlds most popular Vue UI framework 这里采用的是 将代码复制到前端&#xff0c;这里是index.vue <template><el-button type"dang…

JavaScript类型转换和相等性详解

类型转换 10"objects" //10objects,数字10转换为字符串 "7"*"4" //28&#xff0c;两个字符串均转为数字,只要不是加&#xff0c;其他都按两个数字算 var n 1-"x"// NaN&#xff0c;字符串x无法转化为数字 n"objects"//…