Apache Doris 2025 Roadmap:构建 GenAI 时代实时高效统一的数据底座

news2025/4/10 10:37:24

在全球 290 位开发者的协作下,Apache Doris 在 2024 年完成了 7000+ 次代码提交,并发布了 22 个版本,实现在实时分析、湖仓一体和半结构化数据分析等核心场景的技术突破及创新。

2025 年,Apache Doris 社区将秉承“以场景驱动创新” 的核心理念,持续深耕三大核心场景的关键能力,并对大模型 GenAI 场景的融合应用进行重点投入,为智能时代构建实时、高效、统一的数据底座。

全部规划可见:Apache Doris Roadmap 2025

全新架构.jpeg

Apache Doris 2024 Review

回顾 2024 年,Apache Doris 重点聚焦于全面提升实时分析、湖仓融合分析、日志分析在实际应用场景中的效能,可将核心工作归纳为以下五个方面:

查询优化方面

  • 优化器新增了多项优化规则,实现了统计信息的高效自动收集,具备了自适应执行并发度的能力。
  • 在物化视图的构建以及透明改写方面,投入大量精力深入优化,极大提升查询效率。
  • 对 ARM 架构包含 AWS Graviton 处理器、华为鲲鹏处理器进行深入性能优化。

存储优化方面

  • 持续提升导入稳定性,尤其在高并发、小批量以及 Routine Load 的健壮性等方面。
  • 探索更为复杂的数据处理场景,如对多语句事务的支持等。

半结构化分析方面

  • 提升 VARIANT 数据类型成熟度,成为业界最高效的 JSON 格式数据处理方案。
  • 日志存储与分析场景的用户量增长迅猛,有上百家中大型企业用户采用 Doris 替换 Elasticsearch、Clickhouse、Loki 来应对日志场景。

Lakehouse 湖仓分析方面

  • 作为 Doris 重点支持的场景之一,2024 年针对 Hive、Iceberg、Hudi、Paimon 进行了大量兼容和深度优化工作,性能和稳定性有明显提升。
  • 进一步完善 SQL 方言的兼容支持,以便于用户能够实现平滑迁移,在多个大型用户实际场景中,兼容性高达 99%以上。

云原生存算分离方面

  • 在 3.0 版本中,Doris 全面支持了存算分离架构,将云原生理念引入开源社区,进一步增强了无服务化以及按需弹性场景的支持能力 。

2024 年除了新功能的开发和架构性能优化,我们也花费大量时间进行质量保障,包含深入 Reivew 之前的功能设计,以确保稳定性及可扩展性;大量的黑盒、白盒测试;仿生产系统长稳压测;混沌测试等。我们希望在保持 Doris 创新力的同时,依然能够更加聚焦在 Doris 核心功能与稳定性上,确保用户、客户能够获得真正的收益和价值。

Apache Doris 2025 Roadmap

2025 年,社区将秉承“以场景驱动创新” 的核心理念,持续深耕三大核心场景的关键能力,并对大模型 GenAI 场景的融合应用进行重点投入,为智能时代构建更加实时、高效、统一的数据底座,工作重点将围绕以下几个关键方面展开:

  • 深耕三大核心场景: 进一步聚焦实时分析、湖仓分析以及半结构化数据分析三大核心分析场景**,**并在这些方向上持续深耕细作,不断提升性能与应用效果,为用户提供更为优质、高效的分析服务。
  • 大模型 GenAI 场景融合应用: Doris 社区始终坚持创新、拓展技术边界。2025 年将在与生成式人工智能(GenAI)融合应用上进行重点投入,打造适配 GenAI 时代的数据基础设施。本周我们在 Webinar 直播活动中介绍了多款热门 AI 大模型与 Doris 的融合应用。
  • 安全可靠的云原生: 2025 年,云原生方向的工作重点将聚焦于数据安全、ETL 易用性和存算分离关键方面展开。
  • 加强数据处理能力: 加强批量数据处理和增量数据处理能力,为数据加工、ETL 等场景提供更高性价比解决方案,满足用户日益增长的复杂数据处理需求。
  • 进一步提升稳定性: 从技术优化到流程把控,全方位保障 Doris 在运行过程中的稳定性,降低风险,为用户提供更加可靠的产品与服务。
  • 开放的社区生态: 积极开展更多与各方的社区合作,完善社区支持工作,为社区成员提供更加全面的服务,无论是技术支持、经验分享或是资源支持等。

01 深耕三大核心场景

实时分析

实时分析场景是 Doris 的立足之本,致力于打造速度最快且最具成本效益的分析型数据库。2025 年将持续优化 Doris 查询引擎、查询优化器,使其在无论单表查询还是复杂的多表关联查询,均能游刃有余、展现卓越的性能。

在查询引擎方面, 将继续强化 Doris 在自适应能力、通用场景支持以及资源管控等方面的能力。并重点从以下几个方向着手:

  • 在 TopN 加速和延迟物化方面,Doris 目前已初步支持这些功能,但应用范围有限。未来将计划全局泛化,使其在复杂的多表关联场景中也能发挥优化作用,从而进一步提升查询性能。同时将引入用户可管理的全局字典能力,帮助用户在维度关联等场景下显著提升性能。
  • 对 ARM 架构的深度适配将是今年的重点任务之一。2025 年计划为不同型号的 CPU 定制向量化库,以进一步提升 Doris 在各类 ARM 机型上的运行性能。
  • 在资源管理方面, 2025 年将实现管理的统一性和可观测性。目前,Doris 的资源管理主要针对用户请求,如查询和导入。后续计划将把所有内部任务(如 Schema Change、Compaction 和统计信息收集)纳入统一的资源管理框架,并统一管理这些任务在资源受限情况下的行为,包括取消和排队等操作。还将对资源调度机制本身进行优化,包括引入多优先级队列调度等新技术,以提升混合负载场景下各执行任务的可预期性。此外,将增加更丰富的系统表和监控指标,以全面展示 Doris 运行细节,提升 Query Profile 的可视化程度和可理解性。

在查询优化器方面, 查询优化器在数据库技术中占据着重要地位,被誉为数据库领域的“明珠”。2025 年,Doris 的查询优化器将着重于规划性能、质量管理和可观测性这三个关键方面:

  • 规划性能: 规划性能的优劣直接影响到集群的吞吐能力、QPS 以及实际使用体验。

    • 简单查询场景:对“SELECT * FROM table WHERE”这类查询语句,采取特殊优化措施,通过剔除不必要的改写规则、加速分区裁剪等操作,减少查询过程中的迭代次数,以提升系统的响应速度和处理效率。
    • 复杂多表关联场景:在涉及十几张表甚至更多表的关联查询场景中,优化查询规划时间,规划时间缩短至秒级以下,提升复杂查询的执行效率。
  • 规划质量管理:

    • 引入基于历史统计信息的查询规划(HBO)。无论是基于代价的优化器(CBO)还是规则的优化器(RBO),都会遇到信息估算不准确问题。传统的统计信息收集方式虽能解决部分问题,但其收集成本高、覆盖范围和准确性有限。基于历史统计信息的规划方法则具有更强的场景适配性,能根据用户历史查询场景和数据特点准确预测和规划,提升查询规划的质量。
    • 建立完善的 Plan 管理机制。在特定业务场景下,用户可以通过注入 Hint 获取最优查询规划并保存自定义的 Plan 规则,当再遇到类似查询需求时,可直接复用。未来将支持对指定 Plan 进行固化,避免系统升级或者数据变更后出现 Plan 漂移,确保查询规划的稳定可靠。
    • 探索 Plan 候选集自动优化机制。通过让系统不断学习和分析历史查询数据及执行结果,自动调整优化 Plan 候选集,使系统在面对复杂查询场景时能够更智能地选择最优查询规划,持续提升系统整体性能。
  • 规划可观测性:

    • 2025 年将提供丰富机制,如查询规划的回放、在线 Tracing 等功能,帮助用户更好地观察和理解查询规划的迭代过程。用户可清晰了解查询优化器各阶段采取的策略及性能表现。这将有利于及时发现和解决查询过程中出现的问题,提升用户对 Doris 的使用体验。
湖仓一体

在 2025 年,社区将重点推进开放湖仓生态的建设,打造统一的分析入口,以高效便捷地实现湖仓数据处理与分析,全面提升用户体验。今年,我们的重点工作将集中在以下几个方向:

  • 完善开放湖仓生态: 随着 Iceberg 、Paimon 、Hudi 等生态迅猛发展,Doris 现已对接完善。2025 年除持续优化 DDL(数据定义语言)和 DML(数据操作语言)操作外,将密切关注湖格式的最新发展动态及其他主流开放湖格式,及时跟进包括新的数据类型、数据格式更新,并及时对接兼容,为用户提供更加流畅的数据集成能力。
  • 优化物化视图: 物化视图在湖仓融合过程中的重要桥梁,可通过透明改写实现查询加速,也可支持湖上数据加工操作。Doris 现已全面实现对 Hive、Iceberg、Hudi 和 Paimon 的物化视图分区增量更新和改写能力支持。后续将进一步增强物化视图的可操作性,例如实现逻辑视图与物化视图之间的转换及物化视图的智能推荐等。同时,还计划尝试暴露数据血缘相关信息,帮助用户更好地将 Doris 集成到其数据平台中,提升整体的数据处理效率和数据管理水平。

湖仓一体.jpeg

半结构化数据分析

在 2025 年,半结构化数据分析将实现重大突破,从单一日志分析场景全面升级为可观测领域的行业标准。 今年将加大在性能优化、成本控制以及生态建设方面的投入,构建业内领先的可观测性产品基础设施。

  • 在全文索引能力方面,2025 年将支持多语言分词器,如支持 IK 和 Unicode ICU 分词器,并提供用户自定义字典功能,增强分词器的灵活性和适配性。同时,计划在存算分离场景实现索引的增量构建,提升数据处理的效率,并在确保索引性能的前提下,降低存储资源的消耗,以更低的成本实现高效数据分析。
  • 在系统可观测性层面,重点加强对索引相关信息的展示,包括索引的构建过程、命中率、过滤率等关键信息,以此更清晰地展示索引的运行状态,用户可更有效地管理和优化索引,提升系统的整体性能与稳定性。
  • 在 Variant 列类型支持方面,2024 年以来,众多湖格式也开始支持 Variant 列类型,充分证明其在半结构化数据处理中的优势。Doris 作为这一领域的先行者,将进一步拓展 Variant 列类型的能力,例如,支持数万列规模宽表,以应对大规模数据存储和处理;对稀疏列进行优化,提升数据存储和检索的效率;支持更灵活地控制子列的展开范围,能够根据具体需求更精准地操作和管理数据;同时,还将支持对指定子列构建索引,进一步提升数据查询的速度和准确性、降低索引存储的成本。
  • 在生态合作方面, 对接更多的日志传输组件,如 iLogtail、Vector 等。并与相关社区积极联动,共同探索和推出可观测性方面的最佳实践。通过不断优化和完善,提升对日志数据的处理能力和效率。

总体而言,我们的愿景是将 Doris 打造成可观测性领域的行业标准,以更低的成本、更卓越的性能,为广大用户提供更优质、高效的半结构化数据的存储与分析服务。

半结构化数据分析.png

02 GenAI 场景的融合创新

2025年,Apache Doris 将持续增强对 AI 场景的支持能力:

  • Apache Doris 2.1 版本基于 Arrow Flight 实现了高速数据传输通道,使数据科学和机器学习的软件可以直接从 Doris 中高速读取数据进行建模分析。
  • 在湖仓融合分析场景中,Doris 可以作为 Lakehouse 的计算和查询引擎,利用其高效的性能,加速大规模数据的预处理,并将结果写回 Lakehouse,以支持后续的模型训练等 AI 场景使用。
  • Doris 还可以作为特征存储系统,服务于智能推荐、风控系统等场景。
  • 在 GenAI 场景中, RAG 是提升准确性和减少幻觉的关键技术,RAG 通过混合检索来提升效率和准确性,常见方式包含向量检索、全文检索、知识图谱检索等,相比于使用多套系统,如果单一系统能够支持多种检索,将大幅提升效率、简化架构并减少数据冗余。Apache Doris 自 2.0 开始支持完善的全文检索能力,目前正重点支持向量索引的能力,预计 2025 年 2 季度在社区发布(部分互联网大厂已在大规模上线验证中)。 届时,Doris 将从高效分析引擎扩展为高效的分析和混合检索引擎,成为智能时代实时、高效、统一的数据底座。

02 GenAI 场景的融合创新.jpeg

  • 2025 年,Apache Doris 也将加强 NL2SQL、Data Agent、MCP 等应用的布局。近期,我们在 Webinar 直播活动中介绍了多款热门 AI 模型与 Doris 的融合应用,包括利用 DataAgent 实现智能数据代理、通过 RAG 增强知识检索以及结合 ChatBI 打造自然语言交互分析,同时介绍了 Doris MCP Server 的构建及实现。点击查看直播回放及资料

03 安全可靠的云原生

2025 年,云原生方向的工作重点将聚焦于数据安全、ETL 易用性和存算分离等关键方面展开。

  • 在数据安全与集群高可用上
    • 跨集群复制(CCR)功能:增加主动的主备切换等关键能力。同时,我们正在筹备详细的 CCR 实践教程,帮助用户在实际应用中实现跨地域集群的高可用性,有效应对故障和异常,确保数据安全和业务连续性。
    • 数据加密:随着 Doris 在金融、政企等行业的广泛应用,以及海外用户对数据合规性和敏感性要求的提升,透明数据加密(TDE)的需求日益增强,这方面工作很快完成。
  • 在 ETL 易用性上
    • 临时表功能:由腾讯公司贡献的临时表功能,此前已在 GP 数据库中广泛应用。借助临时表,用户可以更便捷地对数据进行临时加工和验证,同时无需担心数据清理等繁琐操作,显著提升数据处理的效率和灵活性。
    • 多语句写入事务功能:该功能允许用户在同一个写入事务内对多张表进行 ETL 操作,并确保这些操作原子生效,从而保障数据的一致性和完整性。这一功能为用户在构建 ETL 作业时提供了更高的灵活性,能够更好地满足不同业务场景下的数据处理需求。
  • 存算分离:
    • 2024 年,Apache Doris 3.0 版本已支持存算分离全新架构,2025 年将对这一场景进行持续优化和打磨,将存储层打造成一个坚实可靠的数据基座,为 Doris 之上的各种功能提供强有力的支撑和保障。具体优化包括冷数据的优化处理、制定更灵活的 Cache(缓存)策略等。例如,在读写分离场景下,支持将写集群中实时写入的数据快速预热到读集群的 Cache 中,从而提高数据的新鲜度和系统整体性能。

04 加强数据处理能力

2025 年,社区将加强批量数据和增量数据处理能力。

  • 在批量数据处理领域, 如何利用有限资源处理更大规模的数据是一个关键问题。据 Snowflake 的统计,其平台上 80% 的任务属于 ELT 任务,而仅有 20%的任务来自在线查询。需要注意的是,这些 ELT 任务所处理的数据规模通常为 TB 级别,而非 Hive 或 Spark 所面对的超大数据场景。因此,通过数据溢写、分批次调度以及资源隔离管控等技术手段,能够在实时数据处理框架下,满足绝大多数用户在 ELT 场景中的需求。因此,批处理领域将成为社区持续探索的重要方向。
  • 在增量数据处理领域, 目前仍然在规划中,包括 Binlog、实时增量物化视图等功能,2025 年也将持续探索创新,以满足用户日益变化的数据处理需求。

05 进一步提升稳定性

2025 年,将从以下三个维度全面提升 Doris 的稳定性:

  • 优化发版规则: 2025 年将继续对 2.1 和 3.0 这 2 个版本持续迭代,上半年将发布 3.1 版本,并预计下半年成为最新稳定版本。今年起,我们优化了三位版本的迭代规则,严格限制新功能和非必要优化,仅允许必要的 Bug 修复。3.1 版本将基于 3.0 稳定版本分支迭代,而非直接从 Master 分支拉取,且仅并入经过全面测试的必要功能和优化,力求缩短 3.1 的稳定周期。此外,今年还会发布 4.0 版本,推出面向 AI 时代的数据基础设施。
  • 强化代码审查: 对 PR 模板进行了调整,要求提交者提供更加详尽的描述,包括是否进行了测试、是否存在行为变更、是否配备了相应的文档等内容。目前,社区正在筹备引入强制单测覆盖率准入机制,以进一步规范开发流程。希望通过这些机制,减少人为疏忽,确保代码质量,从而提升 Doris 的整体稳定性。
  • 加强测试环节: 除社区流水线的基础测试外,还新增了丰富的测试场景,如压力测试、混沌测试以及专项测试,通过全方位、多维度的测试,进一步夯实 Doris 的稳定性基础。

结束语

以上,就是 Apache Doris 2025 年 Roadmap 的完整介绍。在此,感谢每一位支持 Apache Doris 社区的开发者及使用者,感谢你们共建与支持。我们热忱欢迎更多朋友加入社区,共同迎接挑战。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2327985.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

二极管正负极区分

二极管正负极区分 二极管是一种具有单向导电性的半导体器件,正确区分正负极对于其使用非常重要。以下是几种常见的二极管正负极区分方法: 1. 外观标识 有标记的二极管 色环或色点:许多二极管在表面会有一个色环或色点,这个标记…

【c++深入系列】:类与对象详解(中)

🔥 本文专栏:c 🌸作者主页:努力努力再努力wz 💪 今日博客励志语录: 不是因为看到希望才坚持,而是坚持了才能看到希望 那么上一篇博客我讲解了什么是类和对象以及类和对象是怎么定义的&#xff0…

汽车 HMI 设计的发展趋势与设计要点

一、汽车HMI设计的发展历程与现状 汽车人机交互界面(HMI)设计经历了从简单到复杂、从单一到多元的演变过程。2012年以前,汽车HMI主要依赖物理按键进行操作,交互方式较为单一。随着特斯拉Model S的推出,触控屏逐渐成为…

《AI大模型应知应会100篇》第56篇:LangChain快速入门与应用示例

第56篇:LangChain快速入门与应用示例 前言 最近最火的肯定非Manus和OpenManus莫属,因为与传统AI工具仅提供信息不同,Manus能完成端到端的任务闭环。例如用户发送“筛选本月抖音爆款视频”,它会自动完成: 爬取平台数据…

Java 大视界 -- Java 大数据在智能农业无人机植保作业路径规划与药效评估中的应用(165)

💖亲爱的朋友们,热烈欢迎来到 青云交的博客!能与诸位在此相逢,我倍感荣幸。在这飞速更迭的时代,我们都渴望一方心灵净土,而 我的博客 正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识,也…

哈希表系列一>两数之和

目录 题目:方法:暴力代码:优化后代码: 题目: 链接: link 方法: 暴力代码: public int[] twoSum(int[] nums, int target) {解法一:暴力解法:int n nums.length;for(int…

CAD插件实现:自动递增编号(前缀、后缀、位数等)——CADc#实现

cad中大量输入一定格式的递增编号时,可用插件实现,效果如下: ①本插件可指定数字位数、起始号码、加前缀、后缀、文字颜色等(字体样式和文字所在图层为cad当前图层和当前字体样式)。 ②插件采用Jig方式,即…

C语言--回文字符串

输入:字符串,判断是否是回文字符串,例如abcba输出Yes 输出:是否 代码 思路:使用两个指针分别指向头和尾,依次对比第一个元素和最后一个元素,第二个和倒数第二个元素,如果遇到不相同…

Coco-AI 支持嵌入,让你的网站拥有 AI 搜索力

在之前的实践中,我们已经成功地把 Hexo、Hugo 等静态博客和 Coco-AI 检索系统打通了:只要完成向量化索引,就可以通过客户端问答界面实现基于内容的智能检索。 这一层已经很好用了,但总觉得少了点什么—— 比如用户还得专门打开一…

TRDI 公司的RiverPro 和 RioPro ADCP 用户指南

TRDI 公司 RiverPro 和 RioPro ADCP 用户指南 简介第一章 - 概述第二章 - 安装第三章 - 采集数据第四章 - 维护第五章 - 测试RIVERPRO/RIOPRO第六章 - 故障排除第七章 - 将系统返回TRDI进行维修第八章 - 规格第九章 - 命令第十章 - 输出数据格式附录A-合规通知首次完整翻译《Ri…

OpenCV 图形API(11)对图像进行掩码操作的函数mask()

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 描述 对矩阵应用掩码。 该函数mask设置来自给定矩阵的值,如果掩码矩阵中对应的像素值设为true,否则将矩阵的值设为0。 支持的源矩阵…

使用C#写的一个Kafka的使用工具

由于offset不支持通过界面推送数据,所以我写了一个kafka的连接工具,能够直接从界面推送数据,方便使用。由于使用的是C#写的,所以比offset要流畅的多。 1、数据源连接 2、获取集群的topic 3、点击获取数据能够获取最新的100条数…

【通知】STM32MP157驱动开发课程全新升级!零基础入门嵌入式Linux驱动,掌握底层开发核心技能!

在嵌入式Linux系统开发中,驱动程序开发是一项关键技术,它作为硬件与软件之间的桥梁,实现了操作系统对硬件设备的控制。相较于嵌入式Linux应用开发,驱动开发由于涉及底层硬件且抽象程度较高,往往让初学者感到难度较大。…

飞浆PaddlePaddle 猫狗数据大战

猫狗数据大战 1 数据集的准备以及处理操作1.1 数据集1.2 文件解压操作(python) 1.3 数据的分类1.4 创建训练集和测试集 2 网络构建CNN版本--DeepID 人脸识别网络结构DeepID 与 CNN 网络结构的差异 3 深度学习模型训练和推理的核心设置4 制图5 训练6 预测…

使用高德api实现天气查询

创建应用获取 Key 天气查询-基础 API 文档-开发指南-Web服务 API | 高德地图API 代码编写 <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-wid…

Could not find artifact com.microsoft.sqlserver:sqljdbc4:jar:4.0 in central

具体错误 [ERROR] Failed to execute goal on project datalink-resource: Could not resolve dependencies for project com.leon.datalink:datalink-resource:jar:1.0.0: Could not find artifact com.microsoft.sqlserver:sqljdbc4:jar:4.0 in central (https://repo.maven…

Express学习笔记(三)——使用 Express 写接口

目录 1. 创建基本的服务器 2. 创建 API 路由模块 3. 编写 GET 接口 4. 编写 POST 接口 5. CORS 跨域资源共享 5.1 接口的跨域问题 5.2 使用 cors 中间件解决跨域问题 5.3 什么是 CORS 5.4 CORS 的注意事项 5.5 CORS 响应头部 - Access-Control-Allow-Origin 5.6 COR…

【HarmonyOS Next之旅】DevEco Studio使用指南(十)

目录 1 -> Optimize Imports功能 2 -> 父/子类快速跳转 3 -> 查看接口/类的层次结构 4 -> 代码自动补全 1 -> Optimize Imports功能 使用编辑器提供的Optimize Imports&#xff0c;可以快速清除未使用的import&#xff0c;并根据设置的规则对import进行合并…

java并发编程-并发容器

并发容器 CopyOnWriteArrayListCopyOnWriteArraySetConcurrentHashMapConcurrentSkipListMap迭代器的fail-fast与fail-safe机制应用场景 CopyOnWriteArrayList 线程不安全容器&#xff1a;ArrayList代替Vector、synchronizedList适用于读多写少的场景&#xff0c;对读操作不加…

PPT助手:一款集计时、远程控制与多屏切换于一身的PPT辅助工具

PPT助手&#xff1a;一款集计时、远程控制与多屏切换于一身的PPT辅助工具 &#x1f4dd;&#x1f3a4; 在现代化的演讲和演示中&#xff0c;如何高效地控制PPT进程、保证展示的流畅性与精准性&#xff0c;成为了每个演讲者必须面对的挑战。无论是商务汇报、学术演讲&#xff0…