DORIS - DORIS简介

news2024/11/15 13:41:59

前言

本博文基于DORIS的2.1.5版本。apache-doris-2.1.5-bin-x64.tar.gz

是什么?

DORIS官网
Apache Doris 是一款基于 MPP 架构的高性能、实时的分析型数据库,以高效、简单、统一的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。

发展历程

  • Apache Doris 最早是诞生于百度广告报表业务的 Palo 项目,2017 年正式对外开源;
  • 2018 年 7 月,由百度捐赠给Apache 基金会进行孵化;
  • 2022 年 6 月,Apache Doris 成功从 Apache 孵化器毕业,正式成为 Apache顶级项目(Top-Level Project,TLP)。

使用场景

Apache Doris 能够较好的满足报表分析、即席查询、统一数仓构建、湖仓一体等使用场景。
用户可以在此之上构建大屏看板、用户行为分析、AB 实验平台、日志检索分析、用户画像分析、订单分析等应用。
在这里插入图片描述

整体架构

Apache Doris 的整体架构非常简单,如下图所示,只有两类进程:

  • Frontend(FE):主要负责用户请求的接入、查询解析规划、元数据的管理、节点管理相关工作。
  • Backend(BE):主要负责数据存储、查询计划的执行。

这两类进程都是可以横向扩展的,单集群可以支持到数百台机器,数十 PB 的存储容量,这两类进程通过一致性协议来保证服务的高可用和数据的高可靠。
在这里插入图片描述

技术特点

1. 接口协议

Apache Doris 采用 MySQL 协议,高度兼容 MySQL 语法,支持标准 SQL,用户可以通过各类支持MySQL的客户端工具来访问 Apache Doris,并支持与 BI 工具的无缝对接。

2. 存储引擎

Apache Doris 采用列式存储,按列进行数据的编码压缩和读取,能够实现极高的压缩比,同时减少大量非相关数据的扫描,从而更加有效利用 IO 和 CPU 资源。

3. 存储模型

A. 聚合模型(Aggregate Key Model):相同 KEY 的 Value 列会合并,通过提前聚合大幅提升性能;
B. 主键模型(Unique Key Model):KEY 唯一,相同 KEY 的数据会覆盖,实现行级别数据更新;
C. 明细模型(Duplicate Key Model):明细数据模型,满足事实表的明细存储。

4. 索引模型

A. Sorted Compound Key Index,可以最多指定三个列组成复合排序键,通过该索引,能够有效进行数据裁剪,从而能够更好支持高并发的报表场景;
B. Min/Max Index:有效过滤数值类型的等值和范围查询;
C. BloomFilter Index:对高基数列的等值过滤裁剪非常有效;
D. Inverted Index:能够对任意字段实现快速检索。

5. 查询模型

Apache Doris 采用 MPP 的模型,节点间和节点内都并行执行,支持多个大表的分布式 Shuffle Join,从而能够更好应对复杂查询。采用向量化的查询引擎,所有的内存结构能够按照列式布局,能够达到大幅减少虚函数调用、提升 Cache 命中率,高效利用 SIMD 指令的效果,在宽表聚合场景下性能是非向量化引擎的 5-10 倍。
Apache Doris 采用了自适应查询执行(Adaptive Query Execution)技术,可以根据 Runtime Statistics 来动态调整执行计划,比如通过 Runtime Filter 技术能够在运行时生成 Filter 推到 Probe 侧,并且能够将 Filter 自动穿透到 Probe 侧最底层的 Scan 节点,从而大幅减少 Probe 的数据量,加速 Join 性能。Apache Doris 的 Runtime Filter 支持 In/Min/Max/Bloom Filter。
在优化器方面,Apache Doris 使用 CBO 和 RBO 结合的优化策略,RBO 支持常量折叠、子查询改写、谓词下推等,CBO 支持 Join Reorder。

版本选择

版本发布列表
版本下载地址
apache-doris-2.1.5-bin-x64.tar.gz

安装部署

官方手册
严格按照官方手册执行即可,以下为重要事宜。

1. 检查机器是否支持 AVX2 指令集,有输出则说明支持:
cat /proc/cpuinfo | grep avx2


2. 确定JDK版本:
在 2.1(含)版本之前,请使用 Java 8,推荐版本:openjdk-8u352-b08-linux-x64。
从 3.0(含)版本之后,请使用 Java 17,推荐版本:jdk-17.0.10_linux-x64_bin.tar.gz。


3. 关闭 swap 分区:
A. 临时关闭
swapoff -a 
B. 永久关闭
先: vi /etc/fstab
然后:如下注释掉最后一行:
UUID=e9ce9a98-3038-4f0d-b295-090406d3a24b /                       xfs     defaults        0 0
UUID=876e07af-677b-49a2-8658-6f64ff5809f9 /boot                   xfs     defaults        0 0
#UUID=2beabaa6-3a45-45ea-98ac-7498368abf20 swap                    swap    defaults        0 0


4. 关闭系统防火墙:
sudo systemctl stop firewalld.service
sudo systemctl disable firewalld.service


5. 配置 NTP 服务
6. 设置文件句柄数:
先:vi /etc/security/limits.conf
然后:将如下指令复制到文件底部
* soft nofile 1000000
* hard nofile 1000000


7. 修改虚拟内存区域:
sysctl -w vm.max_map_count=2000000


8. 关闭透明大页:
echo never > /sys/kernel/mm/transparent_hugepage/enabled
echo never > /sys/kernel/mm/transparent_hugepage/defrag


9. 先配置再启动FE-MASTER,如果是多个FE,新的FE配置好以后启动以前,需要将新的FE注册到FE-MASTER中
10. 配置BE,需要将BE注册到FE-MASTER中,然后再启动BE
11. 查看WEB-UI:http://192.168.174.88:8030/home , root/密码为空
12. 修改 Root 用户和 Admin 用户的密码:
mysql> SET PASSWORD FOR 'root' = PASSWORD('123456');                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               
mysql> SET PASSWORD FOR 'admin' = PASSWORD('123456');                                                                                                                                                                                 
13. 再登录WEB-UI时就需要使用: root/123456 或者 admin/123456

查看状态

1. FE的状态:
+-----------------------------------------+---------------+-------------+----------+-----------+---------+--------------------+----------+----------+-----------+------+-------+-------------------+---------------------+---------------------+----------+--------+-----------------------------+------------------+
| Name                                    | Host          | EditLogPort | HttpPort | QueryPort | RpcPort | ArrowFlightSqlPort | Role     | IsMaster | ClusterId | Join | Alive | ReplayedJournalId | LastStartTime       | LastHeartbeat       | IsHelper | ErrMsg | Version                     | CurrentConnected |
+-----------------------------------------+---------------+-------------+----------+-----------+---------+--------------------+----------+----------+-----------+------+-------+-------------------+---------------------+---------------------+----------+--------+-----------------------------+------------------+
| fe_ae692d73_7c0d_447b_aa84_1f1333a7daa1 | 192.168.122.1 | 9010        | 8030     | 9030      | 9020    | -1                 | FOLLOWER | true     | 305254781 | true | true  | 1891              | 2024-08-30 07:28:58 | 2024-08-31 17:47:16 | true     |        | doris-2.1.5-rc02-d5a02e095d | Yes              |
+-----------------------------------------+---------------+-------------+----------+-----------+---------+--------------------+----------+----------+-----------+------+-------+-------------------+---------------------+---------------------+----------+--------+-----------------------------+------------------+

2. BE的状态:
+-----------+----------------+---------------+--------+----------+----------+--------------------+---------------------+---------------------+-------+----------------------+-----------+------------------+-------------------+---------------+---------------+---------+----------------+--------------------+--------------------------+--------+-----------------------------+-------------------------------------------------------------------------------------------------------------------------------+-------------------------+----------+
| BackendId | Host           | HeartbeatPort | BePort | HttpPort | BrpcPort | ArrowFlightSqlPort | LastStartTime       | LastHeartbeat       | Alive | SystemDecommissioned | TabletNum | DataUsedCapacity | TrashUsedCapacity | AvailCapacity | TotalCapacity | UsedPct | MaxDiskUsedPct | RemoteUsedCapacity | Tag                      | ErrMsg | Version                     | Status                                                                                                                        | HeartbeatFailureCounter | NodeRole |
+-----------+----------------+---------------+--------+----------+----------+--------------------+---------------------+---------------------+-------+----------------------+-----------+------------------+-------------------+---------------+---------------+---------+----------------+--------------------+--------------------------+--------+-----------------------------+-------------------------------------------------------------------------------------------------------------------------------+-------------------------+----------+
| 11775     | 192.168.174.88 | 9050          | 9060   | 8040     | 8060     | -1                 | 2024-08-30 18:29:12 | 2024-08-31 17:42:16 | true  | false                | 25        | 32.433 KB        | 0.000             | 18.969 GB     | 35.813 GB     | 47.03 % | 47.03 %        | 0.000              | {"location" : "default"} |        | doris-2.1.5-rc02-d5a02e095d | {"lastSuccessReportTabletsTime":"2024-08-31 17:42:02","lastStreamLoadTime":-1,"isQueryDisabled":false,"isLoadDisabled":false} | 0                       | mix      |
+-----------+----------------+---------------+--------+----------+----------+--------------------+---------------------+---------------------+-------+----------------------+-----------+------------------+-------------------+---------------+---------------+---------+----------------+--------------------+--------------------------+--------+-----------------------------+-------------------------------------------------------------------------------------------------------------------------------+-------------------------+----------+

常见问题

1. fe的日志报错: System has no available disk capacity or no available BE nodes,由于be为启动导致,可以先忽略。
2. 查看fe的状态: curl http://127.0.0.1:8030/api/bootstrap,为了使得返回结果可读性更好,可以使用下面的格式化命令:
                 curl http://127.0.0.1:8030/api/bootstrap | python -m json.tool
3. DORIS的可视化: http://FE所在机器的IP:8030/home,默认安装后 root账户密码为空
4. 查看fe的状态: 先 mysql -uroot -P9030 -h 127.0.0.1  然后执行:show frontends; 
5. 查看be的状态: 先 mysql -uroot -P9030 -h 127.0.0.1  然后执行:show backends;
6. 密码修改:通过WEB-UI无法修改root和admin的密码,需要通过MySQL的客户端来修改

什么是 priority_networks?

Doris 进程监听 IP 的 CIDR 格式表示的网段。如果部署的机器只有一个网段,可以不用配置。如果有两个或多个网段,务必做配置。
这个参数主要用于帮助系统选择正确的网卡 IP 作为自己的监听 IP。比如需要监听的 IP 为 192.168.0.1,则可以设置 priority_networks=192.168.0.0/24,系统会自动扫描机器上的所有 IP,只有匹配上 192.168.0.0/24 这个网段的才会去作为服务监听地址,这个参数也可以配置多个CIDR 网段,比如 priority_networks = 10.10.0.0/16; 192.168.0.0/24。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2093329.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

迅为2K1000开发板流畅运行Busybox、Buildroot、Loognix、QT5.12 系统

硬件配置 国产龙芯处理器,双核64位系统,板载2G DDR3内存,流畅运行Busybox、Buildroot、Loognix、QT5.12 系统! 接口全板载4路USB HOST、2路千兆以太网、2路UART、2路CAN总线、Mini PCIE、SATA固态盘接口、4G接口、GPS接口WIF1、蓝牙、Mini HD…

leetcode72. 编辑距离,二维动态规划

leetcode72. 编辑距离 给你两个单词 word1 和 word2, 请返回将 word1 转换成 word2 所使用的最少操作数 。 你可以对一个单词进行如下三种操作: 1.插入一个字符 2.删除一个字符 3.替换一个字符 示例 1: 输入:word1 “horse”,…

nvm使用详解

在开发时采用nodejs环境的时候有时会遇见版本过新项目不匹配的情况这时的话重新下载过于麻烦,一个项目一个开发环境肯定不现实 这时我推荐一款nodejs管理器nvm 官网如下nvm文档手册 - nvm是一个nodejs版本管理工具 - nvm中文网NVM中文网:nvm一个nodejs的版本管理工具,为wind…

使用docker file创建镜像(thirty-seven day)

回顾:根据镜像创建容器 docker -it --name c0 centos:latest /bin/bash安装应用ctrlpqdocker export -o centos.tar c0docker import -m "山不像我走来,我便向山走去" centos.tar centos:httpddocker commit c0 centos:v2 一、docker file应…

Oracle 客户端 PL/SQL Developer 15.0.4 安装与使用

目录 官网下载与安装 切换中文与注册 连接Oracle数据库 tnsnames.ora 文件使用 Oracle 客户端 PL/SQL Developer 12.0.7 安装、数据导出、Oracle 执行/解释计划、for update。 官网下载与安装 1、官网:https://www.allroundautomations.com/products/pl-sql-d…

uni-app 微信小程序开发安装配置 HbuilderX 微信小程序开发工具

安装HbuilderX 官网下载: https://www.dcloud.io/hbuilderx.html 编译器用来编写小程序代码 微信小程序开发工具 官网下载:https://developers.weixin.qq.com/miniprogram/dev/devtools/stable.html 用于小程序的页面调试 创建项目 HbuilderX创建项目…

找单身狗(c语言)

1./找单身狗 //在一个数组中只有两个数字出现一次,其他所以数字都出现了两次 //编写一个函数找出这两个只出现一次的数字 2.方法一:暴力求解,我们用冒泡函数,进行比较如果ij,那么n,如果n1,那么我们将他存储在arr2[]&a…

C++编程语言——基础设施:指针,数组和引用

指针,数组和引用 (Pointers, Arrays, and References) 目录 7.1 引言 7.2 指针 7.2.1 void* 指针 7.2.2 nullptr 指针 7.3 数组 7.3.1 数组初始化 7.3.2 字符串文字量 7.3.2.1 原字符串(Raw Character Strings) 7.3.2.2 大字符集(Larger Charac…

Multi-UAV|多无人机、多场景路径规划MATLAB

无人机(Unmanned Aerial Vehicle,UAV) 是一种无需机载驾驶员的半自主飞行器,由于其灵活度高、机动性强等特点,目前已广泛应用于民用和军用领域,如救援、农业、 输电线路巡检等。但在实际应用中,单个UAV难以应对任务点分…

看github源码必备的chrome插件

Web Activity Time Tracker 一个记录github等各个网站的阅读时长 长这样 GitHub Web IDE 一个方便打开github的各种web IDE,最后一个选项Clone in VScode 一键克隆到本地并打开非常省事 Elmo Chat - Your AI Web Copilot 一键总结项目内容,打开web i…

Datawhale X 李宏毅苹果书 AI夏令营 入门 Task2-了解线性模型

目录 线性模型分段线性曲线模型变形 线性模型 输入的特征 x 乘上一个权重,再加上一个偏置就得到预测的结果,这样的模型称为线性模型。 分段线性曲线 线性模型有很大的限制,这一种来自于模型的限制称为模型的偏差,无法模拟真实的…

网络压缩之参数量化(parameter quantization)

参数量化(parameter quantization)。参数量化是说能否只 用比较少的空间来储存一个参数。举个例子,现在存一个参数的时候可能是用64位或32位。 可能不需要这么高的精度,用16或8位就够了。所以参数量化最简单的做法就是&#xff0c…

智慧党建解决方案

1. 新时代党建工作背景 报告强调了新时代党建工作的重要性,提出要利用互联网、大数据等新兴技术推进智慧党建,提高党的执政能力和领导水平。 2. 基层党组织建设挑战 基层党组织在日常工作中面临组织管理难、过程监管难、宣传教育难等问题,…

基于yolov8的人头计数检测系统python源码+onnx模型+评估指标曲线+精美GUI界面

【算法介绍】 基于YOLOv8的人头计数检测系统是一种利用深度学习技术的先进解决方案,旨在实现高效、准确的人头计数功能。该系统以YOLOv8为核心算法,该算法是YOLO系列中的最新迭代,以其卓越的实时检测性能和准确性著称。 该系统通过复杂的网…

pip+代理

在cmd中使用代理时执行pip指令下载包时, 会报错 WARNING: Retrying (Retry(total4, connectNone, readNone, redirectNone, statusNone)) after connection broken by SSLError(SSLEOFError(8, EOF occurred in violation of protocol (_ssl.c:1131))): /simple/op…

day-45 全排列 II

思路 与上一题思路相同,代码也基本一致,只是需要全排列不重复 解题过程 可以利用Arrays.sort()函数将nums数组进行排序,这样相同的全排列数字的位置也会相同,可以利用List的contains()函数进行判断,如果不重复则加入答…

【CSS】border-image 样式不生效 - 和谷歌浏览器版本有关系 - 谷歌 80 版本边框图片样式失效问题

目录 问题解决 问题 使用边框图片时,部分谷歌浏览器版本中边框图片不生效 边框图片样式代码 border-image-source: url(img/dialog-bg.40ddf10d.png); border-image-slice: var(--topSlice) 50 var(--bottomSlice) 330; border-image-repeat: stretch; border-im…

Vulnhub靶场 | DC系列 - DC7

文章目录 DC-7环境搭建渗透测试 DC-7 环境搭建 靶机镜像下载地址:https://vulnhub.com/entry/dc-6,315/需要将靶机和 kali 攻击机放在同一个局域网里;本实验kali 的 IP 地址:192.168.10.146。 渗透测试 使用 nmap 扫描 192.168.10.0/24 网…

直播商城小程序开发指南:基于多商户商城系统源码的实现

本篇文章,小编将以多商户商城系统源码为基础,详细介绍如何开发一款高效、稳定的直播商城小程序。 一、直播商城小程序的市场需求与发展前景 直播商城小程序作为一种轻量级的应用形式,用户无需下载安装即可通过微信等社交平台直接访问&#…

学习计算机网络

a类0~127,b类128~191,c类192~223 网络地址:看子网掩码,分网络位和主机位,后面是主机位,主机位全部为0,网络地址。 直接广播地址:看子网掩码,分网络位和主机位&#xff…