IoTDB 论文入选三大数据库顶会：ICDE、SIGMOD、VLDB 收录自研成果！

2024 三大顶会收录“成就”

随着数据库领域三大国际顶级会议 ICDE、SIGMOD、VLDB 2024 会议落幕，我们骄傲的宣布 Apache IoTDB 团队成员的多篇论文均被收录！其研究成果均已在 IoTDB 实现，或基于 IoTDB 进行了性能评估。

以下整理收录论文名称及摘要，三大顶会的多篇收录进一步证明了 IoTDB 相关技术在工业应用领域的先进性和引领性。产、学、研融合的我们会更努力，实现更多创新性技术突破！

ICDE 2024 & IoTDB

🥳论文名称：On Tuning Raft for IoT Workload in Apache IoTDB

✍摘要：由于其可以直观的理解和实现，Raft 已被广泛用作各种分布式系统中的共识协议。然而，直接应用 Raft 可能无法完全满足物联网（IoT）场景中的高吞吐量要求。该论文研究揭示了实际物联网应用案例中，数据库系统面对的独特场景特性，例如高并发性、波动的流量、固定大小的请求和可压缩数据。这些特性解释了 Raft 在物联网应用的日志分发、持久性和内存管理方面的瓶颈。

为此，我们建议探索针对特定物联网工作负载调整 Raft 共识协议的可能，包括替代数据结构、实现多类压缩算法、内存回收策略等。本文通过调整上述方面，在开源时序数据库 Apache IoTDB 中对 Raft 进行了系统评估。大量实验表明系统并行性得到改善，信息冗余减少，资源利用率提高。数据库吞吐量提升范围可达到通过替换调度数据结构的 10% 到通过预序列化的近 200%。调整后的整体吞吐量可以达到原始 Raft 实现的 4 倍。

🥳论文名称：REGER: Reordering Time Series Data for Regression Encoding

✍摘要：回归模型通过存储每个点的残差，也就是回归编码，用于对时序数据进行无损压缩。由于数值波动，回归残差可能很大，因此将占用巨大的空间。值得注意的是，与波动值相比，时间间隔通常是规则的且易于压缩，尤其在以预设频率收集传感器数据的物联网场景中。从这个意义上讲，需要权衡存储常规时间戳和波动值。直观地说，我们可以交换序列中的数据点，而不是按时间顺序存储，这样相邻的数据点既有更平滑的时间戳，也有更平滑的值，从而降低残差。

在本文中，我们建议对时序数据进行重新排序，以实现更好的回归编码。不是从头开始重新计算，而是在移动一些点后对残差进行有效的更新。对各种真实世界数据集（无论是公开的还是由我们的工业合作伙伴收集的）的实验比较说明了该方法在压缩比方面的优越性。带有重新排序的回归编码（REGER），现在已成为开源时序数据库 Apache IoTDB 中的一种编码方法。

SIGMOD 2024 & IoTDB

🥳论文名称：Time Series Representation for Visualization in Apache IoTDB

✍摘要：在分析时序数据时（通常是交互分析），分析师经常需要即时可视化数据库中存储的海量数据。M4 可视化选择每个像素列中的第一个、最后一个、底部和顶部数据点，以确保双色折线图可视化的像素完美度。虽然 M4 已经展示了将不同跨度的时序数据封装到固定大小的像素中的精确度，但在原生时序数据库中有效支持 M4 可视化的方法仍然缺失。值得注意的是，为了实现快速写入，商用时序数据库系统（如 Apache IoTDB 或 InfluxDB）采用基于 LSM-Tree 的存储。也就是说，时序数据被分段并存储在多个块中，可能出现时间戳无序到达。

在本研究中，我们提出了一种新颖的无块合并方法，称为 M4-LSM，以加速 M4 可视化实现。具体来说，我们利用块的元数据来精简并避免任何块的昂贵合并。此外，参考时序数据的特殊属性，还启用了块内索引和精简，以高效地访问可视化数据点。值得一提的是，原生时序数据库运算符 M4-LSM 已在开源时序数据库 Apache IoTDB 中实现，并部署在各行业的企业中。在面向真实数据集的实验中，我们提出的 M4-LSM 运算符在不牺牲精度的情况下表现出高效率。

🥳论文名称：Determining Exact Quantiles with Randomized Summaries

✍摘要：分位数是各种数据科学任务中的基本统计方法，但因需要将所有数据加载到内存中进行排名，计算成本高昂。由于内存空间有限（在负载较重的终端设备或数据库中很常见），因此需要多次扫描数据。这种方法是希望逐渐缩小查询分位数的范围，直到它小到足以加载到内存以对结果进行排名。现有方法使用确定性草图来确定分位数的精确范围，称为确定性过滤器，但在范围缩小方面效率低下。

在本研究中，我们建议使用随机摘要（例如 KLL 草图）更快速地缩小范围。也就是说，分位数很有可能位于由随机草图确定的较小范围内，称为概率过滤。具体而言，我们估计了使用概率过滤确定的精确分位数的预期通过次数，并选择可以最小化预期通过次数的适当概率。该方法已作为一项功能部署在基于 LSM-Tree 的时序数据库 Apache IoTDB 中。在真实和合成数据集上进行的大量实验证明了我们的建议与现有的确定性过滤方法相比具有优越性。与最先进的确定性草图（GK 草图）相比，我们的方法次数平均减少 0.48 次，耗时减少 18%。

🥳论文名称：Optimizing Time Series Queries with Versions

✍摘要：我们表明，用于工业物联网数据管理的时序数据库对集成自动版本控制系统具有内在需求，该系统引入了高级数据语义和查询优化。在已部署的物联网数据库实例中，由于网络问题和错误的物联网读数，由 LSM tree 管理的物联网数据是多层次和多版本的。对于数据语义，每个查询根据查询表达式或数据块级别合并版本数据。对于查询优化，我们发现现有的依赖于预写日志的时序数据库由于在合并大量版本数据时的性能瓶颈而无法更好地执行数据查询。

在本文中，由版本运算符组成的代数解决了时序数据应用程序评估和优化物理查询计划的语义。我们提出版本可约性作为执行一致计划的关键特征，并评估推迟数据合并的好处。我们还展示了将版本查询集成到现有关系数据库中的方法，方法是基于关系可约性将它们转换为标准 SQL。最后，我们的扩展实验证明了针对版本化数据优化执行计划的有效性。

VLDB 2024 & IoTDB

🥳论文名称：Apache TsFile: An IoT-native Time Series File Format

✍摘要：物联网 (IoT) 的普及导致时序数据呈指数级增长，这些数据分布并应用于各种环境，需要专用的存储解决方案。尽管关注度日益增长，但当前的时序数据库系统缺乏标准化的文件格式，现有的开放文件格式无法充分利用物联网时序数据的独特特性。

在本文中，我们介绍了 Apache TsFile，这是一种专门为物联网时序数据量身定制的文件格式。TsFile 按设备组织数据，根据设备相关信息创建索引。我们的实验证明了 TsFile 在实现高数据摄取率、最小化延迟和优化数据紧凑性方面的效率。

🥳论文名称：On Reducing Space Amplification with Multi-Column Compaction in Apache IoTDB

✍摘要：日志结构合并树 (LSM-tree) 通常用作现代时序数据库（包括 Apache IoTDB）中写入密集型工作负载的存储引擎，但因此会遭受高空间放大 (SA)，这个问题在物联网 (IoT) 场景中变得更加复杂。

为了缓解这种情况下的 SA，本文介绍了 Apache IoTDB 中的多列压缩 (MCC) 策略。我们同时考虑了单独插入无序数据和多列数据更新，并分析了在压缩过程中选择合适文件以最大程度减少空间的难度。然后，我们提出了一种启发式方法来改进文件选择，从而减少 SA。为了提高这种方法的效率，我们进一步设计了文件预取器和压缩缓存。所提出的 MCC 已在 Apache IoTDB 中实现。实验结果表明，我们提出的 MCC 在减少空间放大方面取得了更好的性能。

🥳论文名称：Distance-based Outlier Query Optimization in Apache IoTDB

✍摘要：虽然对流数据的异常值检测已得到广泛研究，但时序数据库中的异常值查询却在很大程度上被忽视了。在本文中，我们专注于优化 Apache IoTDB 中基于距离的异常值查询的效率，并考虑延迟数据的重叠文件。我们建议利用存储在文件中的值的存储桶统计数据。为了实现高效修剪，我们在存储桶和重叠文件中推导出了数据点邻居计数的上限和下限。与现有的为数据流设计的异常值检测方法相比，大量实验证明了我们的方案在基于 LSM 树的时序数据库 Apache IoTDB 中的效率。

扫描下方二维码添加欧欧小助手，并发送“顶会论文”，可免费获得“IoTDB 顶会论文合集”！