【Apache Doris】周FAQ集锦:第 29 期

news2025/1/17 3:15:02

引言

欢迎查阅本周的 Apache Doris 社区 FAQ 栏目!
在这里插入图片描述

在这个栏目中,每周将筛选社区反馈的热门问题和话题,重点回答并进行深入探讨。旨在为广大用户和开发者分享有关 Apache Doris 的常见问题。

通过这个每周 FAQ 栏目,希望帮助社区小伙伴更好地了解和应用 Apache Doris,促进经验交流和技术共享。

SQL问题

Q1 dori建完倒排索引后,如何判断sql是否走了索引

A1 可以通过 Query Profile 中的下面几个指标分析倒排索引的加速效果:

  1. RowsInvertedIndexFiltered 倒排过滤掉的行数,可以与其他几个 Rows 值对比分析索引过滤效果
  2. InvertedIndexFilterTime 倒排索引消耗的时间
  3. InvertedIndexSearcherOpenTime 倒排索引打开索引的时间
  4. InvertedIndexSearcherSearchTime 倒排索引内部查询的时间
    倒排索引内容可查阅:
    https://doris.apache.org/zh-CN/docs/dev/table-design/index/inverted-index
Q2 doris动态分区的修改有什么注意事项

A2 注意数据不要出现分区交集,要注意历史数据的保留时间,如果分区的区间设置不对可能出现历史分区被删除的情况:

ALTER TABLE example_db.my_table set (
"dynamic_partition.enable" = "true", 
"dynamic_partition.time_unit" = "DAY", 
   -- 注意区间start
   "dynamic_partition.start " = "",
   -- 注意区间history
   "dynamic_partition.history_partition_num " = "",
   -- 注意区间end
"dynamic_partition.end" = "3", 
"dynamic_partition.prefix" = "p", 
"dynamic_partition.buckets" = "32"
);

分区修改内容可查阅

Q3 doris查询时报runtime filter如何处理

A3 如下:

  1. 适当调大Session 变量:runtime_filter_wait_time_ms
  2. 后续Doris会发布一个更智能的等待策略
    Runtime Filter内容可查阅

数据操作问题

Q4 JDBC 连接2.1.x 版本的Power BI报:Character set ‘utf8mb3’ is not supported by .Net.Framework

A4 该问题易在2.1.x 版本容易遇到,如果遇到该问题则需要把 JDBC Driver 升级到8.0.32。

Q5 Tableau连接Doris时报:SSL connection error:protocol version mismatch 无法连接到 MySQL 服务器

A5 该报错原因是 Doris 开启了 SSL 验证,但是连接过程中未使用 SSL 连接,需要在 fe.conf 里面关闭 enable_ssl 变量。

Q6 连接 Hive Catalog 报:Caused by: java.lang.NullPointerException

如 fe.log 中有如下堆栈:

Caused by: java.lang.NullPointerException
    at org.apache.hadoop.hive.ql.security.authorization.plugin.AuthorizationMetaStoreFilterHook.getFilteredObjects(AuthorizationMetaStoreFilterHook.java:78) ~[hive-exec-3.1.3-core.jar:3.1.3]
    at org.apache.hadoop.hive.ql.security.authorization.plugin.AuthorizationMetaStoreFilterHook.filterDatabases(AuthorizationMetaStoreFilterHook.java:55) ~[hive-exec-3.1.3-core.jar:3.1.3]
    at org.apache.hadoop.hive.metastore.HiveMetaStoreClient.getAllDatabases(HiveMetaStoreClient.java:1548) ~[doris-fe.jar:3.1.3]
    at org.apache.hadoop.hive.metastore.HiveMetaStoreClient.getAllDatabases(HiveMetaStoreClient.java:1542) ~[doris-fe.jar:3.1.3]
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) ~[?:1.8.0_181]

A6 可以尝试在 create catalog 语句中添加 如下参数 解决:

"metastore.filter.hook" = 
"org.apache.hadoop.hive.metastore.DefaultMetaStoreFilterHookImpl"

Hive Catalog可查阅

Q7 使用 Stream Load 访问 FE 的公网地址导入数据,被redirect重定向到内网 IP?

A7 当 stream load 的连接目标为 FE 的 http 端口时,FE 仅会随机选择一台 BE 节点做 http 307 redirect 操作,因此用户的请求实际是发送给 FE 指派的某一个 BE 的。
而 redirect 返回的是 BE 的 ip,也即内网 IP。所以如果你是通过 FE 的公网 IP 发送的请求,很有可能因为 redirect 到内网地址而无法连接。
通常的做法,一种是确保自己能够访问内网 IP 地址,或者是给所有 BE 上层架设一个负载均衡,然后直接将 stream load 请求发送到负载均衡器上,由负载均衡将请求透传到 BE 节点。

运维常见问题

Q8 doris表drop后,如何让对应的tablet快速清理掉

A8 如下:

-- 先设置回收站时间为0
ADMIN SET FRONTEND CONFIG ("catalog_trash_expire_second" = "0");
-- 再清空回收站
ADMIN CLEAN TRASH              
-- 再恢复回收站时间
ADMIN SET FRONTEND CONFIG ("catalog_trash_expire_second" = "86400");
-- 查看回收站中可回收的库,表或分区元数据信息
SHOW CATALOG RECYCLE BIN;
Q9 通过 DECOMMISSION 下线 BE 节点时,为什么总会有部分 tablet 残留?

A9 在下线过程中,通过 show backends 查看下线节点的 tabletNum,会观察到 tabletNum 数量在减少,说明数据分片正在从这个节点迁移走。当数量减到 0 时,系统会自动删除这个节点。
但某些情况下,tabletNum 下降到一定数值后就不变化。这通常可能有以下两种原因:

1. 这些 tablet 属于刚被删除的表、分区或物化视图。
而刚被删除的对象会保留在回收站中。而下线逻辑不会处理这些分片。
可以通过修改 FE 的配置参数 catalog_trash_expire_second 来修改对象在回收站中驻留的时间。
当对象从回收站中被删除后,这些 tablet 就会被处理了。

2. 这些 tablet 的迁移任务出现了问题。
此时需要通过 show proc "/cluster_balance" 来查看具体任务的错误了。

对于以上情况,可以先通过
show proc “/cluster_health/tablet_health”;
查看集群是否还有 unhealthy 的分片,如果为 0,
则可以直接通过 drop backend 语句删除这个 BE。
否则,还需要具体查看不健康分片的副本情况。
Doris BE节点下线卡住?快速排障技巧全攻略!

其它问题

Q10 初识Doris,有什么方式可以快速体验下Doris实时数仓的链路?

A10 基于Docker搭建一套演示环境,分钟级快速体验Doris实时数仓的"采-存-用"链路:Doris之旅基础篇|Docker快速体验(二)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2277828.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

TensorFlow DAY3: 高阶 API(Keras,Estimator)(完)

TensorFlow 作为深度学习框架,当然是为了帮助我们更便捷地构建神经网络。所以,本次实验将会了解如何使用 TensorFlow 来构建神经网络,并学会 TensorFlow 构建神经网络的重要函数和方法。 知识点 Keras 顺序模型Keras 函数模型Keras 模型存储…

【React】脚手架进阶

目录 暴露webpack配置package.json的变化修改webpack.config.js配置less修改域名、端口号浏览器兼容处理处理跨域 暴露webpack配置 react-scripts对脚手架中的打包命令进行封装,如何暴露这些打包配置呢?上篇写到在package.json中的scripts配置项中有eje…

Thrustmaster Hotas Warthog飞行操作杆开发

目录 0 摘 要 :简单说一下这篇文章在搞啥 1 背 景 :什么需求以及对开发的背景调查 2 环境配置 :具体需要什么环境,对软件层面的需求 3 硬件测试 :测试遥感器…

OpenCV基于均值漂移算法(pyrMeanShiftFiltering)的水彩画特效

1、均值漂移算法原理 pyrMeanShiftFiltering算法结合了均值迁移(Mean Shift)算法和图像金字塔(Image Pyramid)的概念,用于图像分割和平滑处理。以下是该算法的详细原理: 1.1 、均值迁移(Mean …

1.15学习

web ctfhub-网站源码 打开环境,查看源代码无任何作用,但是其提醒就在表面暗示我们用dirsearch进行目录扫描,登录kali的root端,利用终端输入dirsearch -u 网址的命令扫描该网址目录,扫描成功后获得信息,在…

Three.js+Vue3+Vite应用lil-GUI调试开发3D效果(三)

前期文章中我们完成了创建第一个场景、添加轨道控制器的功能,接下来我们继续阐述其他的功能,本篇文章中主要讲述如何应用lil-GUI调试开发3D效果,在开始具体流程和步骤之前,请先查看之前的内容,因为该功能必须在前期内容…

鸿蒙报错Init keystore failed: keystore password was incorrect

报错如下: > hvigor ERROR: Failed :entry:defaultSignHap... > hvigor ERROR: Tools execution failed. 01-13 16:35:55 ERROR - hap-sign-tool: error: Init keystore failed: keystore password was incorrect * Try the following: > The key stor…

Jmeter配置服务代理器 Proxy(二)

1.创建脚本记录器 2.配置:Jmeter代理、端口、记录目标等 3.配置谷歌浏览器代理 浏览器配置代理的详细教程可参考:使用whistle代理-CSDN博客 4.启动Jmeter记录器 点击ok后弹出这个界面,生成了证书: 5.给浏览器安装Jmeter代理的证书…

3.Qt Quick-QML地图引擎之v4.3版本(新增动态轨迹线/海图/天地图街道/天地图卫星)

在上个版本Qt Quick-QML地图引擎之v4版本(新增多模型切换/3D模型欧拉角模拟)_qt加载3d地图-CSDN博客更新了3D模拟功能,在4.3版本增加动态轨迹线、三个地图(海图/天地图街道/天地图卫星)。 4.3版本已经支持qt6 cmake版本,而4.3版本以下支持qt5版本&#x…

我国无人机新增实名登记110.3 万架,累计完成飞行2666万小时

据央视新闻从中国民航局了解到,2024 年我国全年新增通航企业 145 家、通用机场 26 个,颁发无人驾驶航空器型号合格证 6 个、新增实名登记无人机 110.3 万架,无人机运营单位总数超过 2 万家,累计完成无人机飞行 2666 万小时&#x…

hadoop3.3和hive4.0安装——单节点

hadoop3.3x和hive4.0安装部署 为什么我要安装hive4.0,因为阿里云镜像只有hive4.0 软件相互兼容性版本 系统centos7 uname -a如果内核3.0以上可以用 安装jdk1.8以上的版本(配置好环境变量) hadoop3.3.x与hive4.0.x 创建目录 mkdir -p /us…

基于Springboot的社区医院管理系统【附源码】

基于Springboot的社区医院管理系统 效果如下: 系统登陆页面 病例信息页面 家庭医生管理页面 健康档案管理页面 就诊信息管理页面 药品管理页面 个人信息管理页面 用户管理页面 研究背景 随着医疗行业的快速发展和信息化建设的不断推进,社区医院作为基…

爬虫后的数据处理与使用(使用篇--实现分类预测)

()紧接上文,在完成基本的数据处理后,接下来就是正常的使用了。当然怎么用,确实需要好好思考一下~ 上文:爬虫后的数据处理与使用(处理篇) 前言: 一般来说,我…

springMVC---常用注解

目录 一、创建项目 1.依赖 2.web.xml 3.spring-mvc.xml 二、RequestParam注解 1.作用 2.属性 3.代码 DeptController类 启动tomcat 三、RequestBody注解 1.作用 2.属性 3.代码 (1)DeptController类 (2)index.jsp (3)启动tomcat 四、P…

持续集成 01|Gitee介绍、Pycharm使用Gitee

目录 一、理论 二、 git的简介与安装 三、Gitee 1、注册网易163邮箱 2、注册Gitee账号 3、git和gitee管理代码工作原理 三、PyCharm安装配置Gitee 四、Pycharm使用Gitee插件的五种场景 1、将 Gitee的新仓库 Checkout(检出)到 Pycharm中 2、推送…

深入了解生成对抗网络(GAN):原理、实现及应用

生成对抗网络(GAN, Generative Adversarial Networks)是由Ian Goodfellow等人于2014年提出的一种深度学习模型,旨在通过对抗训练生成与真实样本相似的数据。GAN在图像生成、图像修复、超分辨率等领域取得了显著的成果。本文将深入探讨GAN的基…

云服务信息安全管理体系认证,守护云端安全

在数据驱动的时代,云计算已成为企业业务的超级引擎,推动着企业飞速发展。然而,随着云计算的广泛应用,信息安全问题也日益凸显,如同暗流涌动下的礁石,时刻威胁着企业的航行安全。这时,云服务信息…

正泰电工携手图扑:变电站数字孪生巡检平台

随着电力行业的快速发展与智能化转型,传统的人工巡检方式难以匹配现代电网对于效率、安全和精细化管理的高标准要求。在此背景下,构建智慧变电站巡检系统已成为推动变电站智能化进程、实现高效运营和保障电网可靠性的重要战略。 图扑软件与正泰电工联合…

加强金融数据治理,推进金融科技变革!

​ 近年来,随着大数据、人工智能等新一代信息技术的高速发展,数字化浪潮席卷全球,金融业作为数据密集型行业,以数据支撑决策、以数据防范风险、以数据驱动创新、以数据优化业务已成为金融业的共识,如何加强金融数据治理…

【数据结构】快排之三路划分+文件归并排序

排序 一.快排1.快排性能分析2.快排之三路划分3.快排之内省排序 二.归并1.外排序2.文件归并排序 一.快排 1.快排性能分析 决定快排性能的关键点是每次单趟排序后,key对数组的分割,如果每次选key基本二分居中,那么快排的递归树就是颗均匀的满…