首个机器学习实时特征平台测试基准论文被 VLDB 2023 录取

news2026/2/12 11:03:07

国际顶级数据库学术会议 VLDB 2023 将于 2023 年 8 月份在加拿大温哥华举办。近日，由清华大学、新加坡国立大学、以及 OpenMLDB 社区联合完成的科研成果 - 业界第一个严谨的机器学习实时特征平台测试基准，被大会录取并且受邀在现场报告。论文题目为：FEBench: A Benchmark for Real-Time Relational Data Feature Extraction

VLDB（Very Large Data Base）是计算机领域最为重要和知名的学术会议之一，和 SIGMOD 并列为学术界两大影响力最大的数据库会议，专注于讨论和研究大规模数据管理和处理。该会议汇集了世界各地顶尖专家、学者和工程师，旨在分享最新的研究成果、创新技术和最佳实践，以应对处理大规模数据所带来的挑战。VLDB 的成果对于推动数据驱动决策、智能系统的发展和创新应用具有重要意义，对计算机科学和现代社会具有深远影响。

在本次被 VLDB 所入取的工作中，三方联合团队提出了工业界和学术界的第一个面向机器学习实时特征平台的严谨的测试基准，并且进行了开源。今天，基于机器学习的实时决策已经在金融、零售、互联网、媒体、能源、医疗等领域被广泛应用。这一类应用一般会分为实时特征和机器学习模型两部分，其中实时特征往往也是性能和效果的瓶颈。但是业界目前还没有一个被普遍接受的针对实时特征平台的测试基准（类似应用于数据库领域的 TPC-H, TPC-DS 等测试基准）。一个被严谨且被广泛接受的测试基准对于推动软硬件产品迭代、产品技术升级均有重大意义。因此，联合团队的工作弥补了这一空白，推出了业界首个严谨的机器学习实时特征平台测试基准。团队搜集了超过 100 个适用于实时决策应用的数据集，通过聚类、定量分析等方式，最终选择了 6 个代表性数据集以及相应的特征计算逻辑，构成了整个测试基准。团队进一步对于 Flink 和 OpenMLDB 这两款在工业界被普遍使用的实时特征平台进行了测试和比较，分享了相关的发现和洞察。

该论文将会在今年 8 月举行的 VLDB 2023 正式公开，届时我们也将同步发表深度解析文章，敬请关注。目前其第一版的测试基准已经开源，详情访问：https://github.com/decis-bench/febench