一文让您读懂实时数仓(Apache Doris)

news2025/1/11 14:23:34

引言:

随着大数据时代的来临,实时数据处理与分析成为企业核心竞争力的关键因素之一。在这场数据革命中,SelectDB成为引领者。从百度自研的实时数仓平台 Palo,到开源项目 Apache Doris,再到飞轮科技研发的 SelectDB,这些名字都代表着大数据处理领域的前沿技术和最佳实践,接下来带您深入了解实时数仓及其发展现状。

2013 年百度研发了实时数仓平台 Palo,采用列存和MPP查询引擎,最初应用在百度统计、广告报表分析场景,经过四年的发展与优化,实时数仓已经推广到了百度所有的业务线,正式成为了百度统一的实时数仓;

2018 年,Palo 开源,并成为 Apache 基金会孵化器项目,更名为 ApacheDoris,Apache Doris 被数百家企业应用在生产系统,包含美团、京东、小米、字节、华为、腾讯等公司;

2022年 1 月,Doris 团队创建飞轮科技(SELECTDB),SelectDB 是 Doris 的重要推动力量,大力建设开源社区并提供商业化产品和服务支持;

2022 年 6 月,Apache Doris 孵化毕业,成为 Apache 顶级项目(TLP)。截止 2023 有 2000 多家中大企业使用,9000+ Star,550+ 多开发者,是目前最活跃、最受欢迎的开源大数据项目;

2022年7月,Apache Doris 1.1 版本发布,该版本是全面向量化引擎支持,性能提升3-5倍,内存统计和限制机制,稳定性大幅提升,500+优化和修复:ZSTD压缩算法、Lateral,View语法及 TableFunction 表函数等;

2022年12月,Apache Doris 1.12 版本发布,该版本算子全面优化,宽表性能领先;Clickbench 全球性能第一,领先 Clickhouse;新主键模型(MoW Uniquekey),聚合性能提升5-10倍;嵌套数据类型: Array,JSON;初步完备的LakeHouse,性能比presto快3-5倍;轻量 Schema Change;

2023年7月,Apache Doris 2.0 版本发布 ,该版本复杂查询盲测性能提升近 10倍:

  • 全新的查询优化器,pipeline 执行引擎;

  • 倒排索引,相比 ElasticSearch 10倍性价比的日志存储分析方案;

  • 完善的 Lakehouse (Hive,Iceberg,Hudi,JDBC RDMBS) 和性能提升;

  • 高并发数据服务支持,点查性能单机数万,线性可扩展;

  • MoW Unique Key 稳定支持大批量导入,支持部分列更新,完善的 DML;

  • 资源弹性:冷热数据分层 + 弹性计算节点;

  • 众多企业级特性:跨级群复制 CCR、负载管理和排队、万表库、K8S 对接;

Apache Doris 2.1 版本将会在年前发布,该版本有以下特性:

  • SelectDB Cloud 上完善的存算分离能力开源到社区;

  • 数据科学场景高速读取数据;

  • Varint 数据类型,更灵活的半结构化数据支持;

  • 多表物化视图;

  • Lakehouse 兼容 Trino 语法;

  • PL/SQL 存储过程。

实时数仓(Apache Doris)概念

ApacheDoris 是一个基于MPP架构的高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。基于此,ApacheDoris 能够较好的满足报表分析、即时查询、统一数仓构建、数据湖联邦查询加速等使用场景,用户可以在此之上构建用户行为分析、AB实验平台、日志检索分析、用户画像分析、订单分析等应用。

实时数仓(Apache Doris)主要特性

高效:

  • 极速的分析性能:支持标准的 SQL 并且完全兼容 MySQL 协议,能够提供亚秒级响应时间,在海量数据场景下提供毫秒级查询服务;

  • 高效的数据更新:提供了数据插入、更新、删除等操作的高效实现,支持实时的数据更新;

  • 丰富的数据导入:支持多种数据导入方式,如批量导入、增量导入等,可以满足不同场景的数据导入需求;

  • 极致弹性与存算分离:支持存算分离的架构设计,可以实现计算资源的弹性扩展,同时保证了存储的高可用性;

简单:

  • 高可用与高可靠:采用了高可用和高可靠的设计,保证了数据的可靠性和系统的稳定性;

  • 多租户管理:支持多租户管理,可以满足不同用户或不同应用的数据需求;

  • 易用易管理:提供了一体化的管理界面,方便用户进行数据的管理和查询操作;

统一:

  • 半结构化数据分析:支持半结构化数据分析,可以满足不同类型数据的查询需求。

  • 湖仓一体:可以与数据湖进行集成,实现湖仓一体的数据管理,方便用户进行数据的统一管理和查询操作。

实时数仓(Apache Doris)在数据分析中的定位:

实时数仓(Apache Doris)应用场景:

数据源经过各种数据集成和加工处理后,通常会入库到实时数仓 Doris 和离线湖仓(Hive,Iceberg,Hudi 中),实时数仓(Apache Doris)被广泛应用在以下场景中:

报表分析:面向企业内部分析师和管理者的报表分析,方便他们快速了解情况以及做出决策;

即席查询(AdHoc):是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生成相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的,而即席查询是由用户自定义查询条件的;

统一数仓构建 :一个平台满足统一的数据仓库建设需求,简化繁琐的大数据软件栈。蜀海供应链基于 Doris 构建的统一数仓,替换了原来由 Spark、Hive、Kudu、Hbase、Phoenix 组成的旧架构,架构大大简化;

数据湖联邦查询:通过外表的方式联邦分析位于 Hive、Iceberg、Hudi 中的数据,在避免数据拷贝的前提下,查询性能大幅提升。

原文链接:

一文让您读懂实时数仓(Apache Doris) - SelectDB

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1520136.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

鸿蒙Harmony应用开发—ArkTS声明式开发(容器组件:ListItem)

用来展示列表具体item,必须配合List来使用。 说明: 该组件从API Version 7开始支持。后续版本如有新增内容,则采用上角标单独标记该内容的起始版本。该组件的父组件只能是List或者ListItemGroup。 子组件 可以包含单个子组件。 接口 从API…

19113133262(微信同号)【征稿进行时|见刊、检索快速稳定】2024年区块链、物联网与复合材料与国际学术会议 (ICBITC 2024)

【征稿进行时|见刊、检索快速稳定】2024年区块链、物联网与复合材料与国际学术会议 (ICBITC 2024) 大会主题: (主题包括但不限于, 更多主题请咨询会务组苏老师) 区块链: 区块链技术和系统 分布式一致性算法和协议 块链性能 信息储存系统 区块链可扩展性 区块…

[云原生] Prometheus之部署 Alertmanager 发送告警

一、Alertmanager 发送告警的介绍 Prometheus 对指标的收集、存储与告警能力分属于 Prometheus Server 和 AlertManager 两个独立的组件,前者仅负责定义告警规则生成告警通知, 具体的告警操作则由后者完成。 Alertmanager 负责处理由 Prometheus Serve…

SQLiteC/C++接口详细介绍之sqlite3类(九)

返回目录:SQLite—免费开源数据库系列文章目录 上一篇:SQLiteC/C接口详细介绍之sqlite3类(八) 下一篇:​​SQLiteC/C接口详细介绍之sqlite3类(十)(未发表)​​​​ 27…

机器学习概念(一)

机器学习 是一门使计算机在没有明确编程的情况下具备学习能力的研究领域。 监督学习(Supervised learning) 监督学习算法 通过学习输入(x)到输出(y)的映射关系。在监督学习中,你需要为算法提…

AI日报:欧盟人工智能法案通过后行业面临合规障碍

文章目录 人工智能新规对web爬网的影响对英国的影响。 人工智能新规 立法者已经通过了欧盟人工智能法案。企业现在必须确保其人工智能应用程序符合规则。 全面的新规定对可能影响公民权利的人工智能系统实施制裁,并有可能彻底禁止某些系统。 违反规定的公司可能面…

stable diffusion上安装数字人sadtalker插件

数字人无论是在营销还是品牌推广的作用都非常重要,很多企业和个人都正在使用数字为自己创作财富,市面上的数字人生成网站包括某讯智影、D-ID或者是Heygen收费都比较昂贵。 那么如何才能拥有一个免费的数字人生成工具呢?其实很简单你只需要在…

基于LBP和KNN的人面表情识别,Matlab实现

博主简介: 专注、专一于Matlab图像处理学习、交流,matlab图像代码代做/项目合作可以联系(QQ:3249726188) 个人主页:Matlab_ImagePro-CSDN博客 原则:代码均由本人编写完成,非中介,提供…

Unity类银河恶魔城学习记录10-10 p98 UI health bar源代码

Alex教程每一P的教程原代码加上我自己的理解初步理解写的注释,可供学习Alex教程的人参考 此代码仅为较上一P有所改变的代码 【Unity教程】从0编程制作类银河恶魔城游戏_哔哩哔哩_bilibili HealthBar_UI.cs using System.Collections; using System.Collections.G…

AJAX学习(四)

版权声明 本文章来源于B站上的某马课程,由本人整理,仅供学习交流使用。如涉及侵权问题,请立即与本人联系,本人将积极配合删除相关内容。感谢理解和支持,本人致力于维护原创作品的权益,共同营造一个尊重知识…

NodeJs利用腾讯云实现手机发送验证码

本文介绍如何在nodejs实现短信发送,以腾讯云的短信验证为例。 腾讯云中准备工作 首先需要腾讯云的个人或者企业认证的账号,个人会赠送一百条,企业赠送一千条,可以用于测试,地址:腾讯云短信服务。然后需要…

k8s helm 删除 tiller

kuberneter 上面装了 helm 想卸载还并不是那么简单, 参考 stackoverflow 回复 kubectl get -n kube-system secrets,sa,clusterrolebinding -o name|grep tiller|xargs kubectl -n kube-system delete kubectl get all -n kube-system -l apphelm -o name|xargs kubectl dele…

前端实例:页面布局1(后端数据实现)

效果图 注&#xff1a;这里用到后端语言php&#xff08;页面是.php文件&#xff09;,提取纯html也可以用 inemployee_index.php <?php include(includes/session.inc); $Title _(内部员工首页); $ViewTopic 内部员工首页; $BookMark 内部员工首页; include(includes/…

FFmepg--音频编码流程--pcm编码为aac

文章目录 基本概念流程apicode(核心部分) 基本概念 从本地⽂件读取PCM数据进⾏AAC格式编码&#xff0c;然后将编码后的AAC数据存储到本地⽂件。 PCM样本格式&#xff1a;未经压缩的⾳频采样数据裸流 参数&#xff1a; Sample Rate : 采样频率Sample Size : 量化位数Number o…

14 stack和queue的使用

stack的介绍 stack文档 1.stack是一种容器适配器&#xff0c;专门用在具有后进先出操作的上下文环境中&#xff0c;其删除只能从容器的一端进行元素的插入和提取操作 2.stack是作为容器适配器被实现的&#xff0c;容器适配器是对特定类封装作为其底层的容器&#xff0c;并提供…

C/C++ Socket 获取或设置 TCP MSS 大小

通过 Socket 系统接口&#xff0c;链接到一个TCP服务器&#xff0c;那么在链接成功之后会被配置一个从本地端到目的端最佳的TCP_MSS大小。 我们通过这个特点&#xff0c;即可轻松的实现&#xff0c;链路MTU大小发现功能&#xff0c;在不依赖ROOT管理员权限的情况下&#xff0c;…

Unity AI Navigation插件快速使用方法

AI Navigation插件使您能够创建能够在游戏世界中智能移动的角色。这些角色利用的是根据场景几何结构自动生成的导航网格。障碍物可以让您在运行时改变角色的导航路径。 演示使用的Unity版本为Tuanjie 1.0.0,团结引擎是Unity中国的引擎研发团队基于Unity 2022 LTS版本为中国开发…

第五十九回 公孙胜芒砀山降魔 晁天王曾头市中箭-飞桨自然语言处理套件PaddleNLP初探

公孙胜献出八卦阵&#xff0c;宋江用八员大将守阵。项充李衮进入阵里&#xff0c;被抓住了。宋江说久闻大名&#xff0c;来梁山吧。两人说誓当效力到死&#xff0c;希望能先放我们两个回去把樊瑞带来一起。见到樊瑞后把宋江讲义气一说&#xff0c;樊瑞说不可逆天&#xff0c;于…

人工智能程序使用的编程语言

用C语言可以写人工智能程序吗&#xff1f; 可以用C语言编写具有人工智能功能的程序&#xff0c;但是较为复杂。C语言是一种通用的编程语言&#xff0c;它在执行速度和资源控制方面表现出色&#xff0c;这使得它适合于需要高性能处理的人工智能应用&#xff0c;如游戏AI&#xf…

ES解析word内容为空的问题和直接使用Tika解析文档的方案

导言 在上一篇文章最后&#xff0c;我们虽然跑通了ES文件搜索的全部流程&#xff0c;但是仍然出现了1个大的问题&#xff1a;ES7.3实测无法索引docx和doc文档&#xff0c;content有值但是无法解析到附件成为可读的可搜索的内容&#xff0c;附件内容为空&#xff08;附件中根本…