Apache Zeppelin系列教程第九篇——Zeppelin NoteBook数据缓存

news2025/10/29 4:18:55

背景

在使用Zeppelin JDBC Intercepter 对于Hive 数据进行查询过程中，如果遇到非常复杂的sql，查询效率是非常慢

比如：

select dt,count(*) from table group by dt

做过数据开发的同学都知道，在hive sql查询过程中，hive 会被转换为MapReduce，但是对于不是所有sql 都会有mapper和reducer 的过程，如果只是简单的查询不会涉及reducer，只有统计相关的查询会涉及到reducer，而其中的shuffle 和 reducer 是非常耗时

如果有有这样一些sql

sql1:
select * from ( select name,count(*) from table0 group name ) t where name=’xiaohong’

sql2:
select * from ( select name,count(*) from table0 group name ) t where name=’xiaoli’

我们能看到sql1 和sql2 只是修改了一下查询条件，但是如果是单独执行，则需要对进行两次完整的查询，比如说：sql1需要花费10分钟，同样sql2也需要再花费10分钟

而adhoc 场景中，这种场景非常常见，只是简单修改一个sql 的查询条件就需要走多次一模一样的流程。

那我们有没有什么办法去优化下？

优化思路分析

无论是hive sql 还是spark sql，只要是复杂的sql，难免会涉及到shuffle或者reducer 过程，这两个过程恰恰是整个过程中非常耗时的过程。那我们现在分析哪些大数据的查询sql会导致查询非常慢呢？

(1)sql 里面含有group by、distinct

(2)sql含有order by，order by 是要根据数据全局排序

(3)含有count、join 这种需要统计和关联其他表数据的sql

上述sql 在大数据查询是都是比较慢的，相教育一些只是简单的过滤查询场景

优化思路流程：

(1)1

当然最后每天晚上要清除一下当天产生的所有临时表，避免表数据过多

非常遗憾的是Zeppelin Committer 认为这个功能可能会影响到项目的整体架构，而不进行合并，所以我在此进行阐述，详细设计和pr参考：https://github.com/apache/zeppelin/pull/4611

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/647449.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

MySQL - 第1节 - MySQL数据库基础

MySQL - 第1节 - MySQL数据库基础

1.数据库的概念数据库是按照数据结构来组织、存储和管理数据的仓库，是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。虽然单纯的使用文件也可以存储数据，但会存在如下缺点： • 安全性问题：数据误操…

阅读更多...

深搜-选数类问题

深搜-选数类问题

目录 1.问题引入 2.知识讲解 3.例题解析【例题1】全排列。【例题2】素数环Ⅱ。【样例3】素数分解。 1.问题引入上一节探讨了迷宫类问题，和平时遇到的迷宫小游戏类似，可以使用搜索程序求得迷宫的路径和最短路。本小节继续研究深搜的另一类问…

阅读更多...

MySQL数据库的认识及基础命令操作

MySQL数据库的认识及基础命令操作

目录一、数据库的基本概念 1、数据库定义 （1） 数据 （2）表 （3） 数据库 2、数据库管理系统（DBMS） 3、数据库系统（DBS） 二、数据库系统发展史 1、第一…

阅读更多...

【RabbitMQ教程】第五章 —— RabbitMQ - 死信队列

【RabbitMQ教程】第五章 —— RabbitMQ - 死信队列

💧 【 R a b b i t M Q 教程】第五章—— R a b b i t M Q − 死信队列 \color{#FF1493}{【RabbitMQ教程】第五章 —— RabbitMQ - 死信队列} 【RabbitMQ教程】第五章——RabbitMQ−死信队列💧 🌷 仰望天空，妳我亦是行人…

阅读更多...

SpringCloud：分布式事务Seata

SpringCloud：分布式事务Seata

1.什么是分布式事务分布式事务就是指事务的参与者、支持事务的服务器、资源服务器以及事务管理器分别位于不同的分布式系统的不同节点之上，简单的说，就是一次大的操作由不同的小操作组成，这些小的操作分布在不同的服务器上，且属…

阅读更多...

【Flutter】Flutter 创建每个页面公用的底部框

【Flutter】Flutter 创建每个页面公用的底部框

文章目录一、前言二、创建公用底部框的步骤1. 创建一个公用的底部框 Widget2. 在页面中使用公用的底部框 Widget 三、示例：电商应用中的公用底部框1. 创建电商应用的底部框 Widget2. 在电商应用的各个页面中使用底部框 Widget 四、完整代码示例五、一些注意事…

阅读更多...

第一次ubuntu wsl ssh远程登录各种报错+解决

第一次ubuntu wsl ssh远程登录各种报错+解决

第一次ubuntu wsl ssh远程登录各种报错+解决最新推荐文章于 2023-04-13 20:23:43 发布 kh3064 于 2020-11-03 15:12:16 发布 1869 收藏 5 文章标签： ubuntu

阅读更多...

计算理论导引实验三：构造图灵机

计算理论导引实验三：构造图灵机

计算理论导引实验三：构造图灵机实验描述形式化定义图灵机M的状态图算法设计与描述状态转移关系类键盘输入及逻辑处理类编码实现测试运行实验描述要求构造一个能够识别语言L的图灵机。语言L的描述和实验内容如下图所示形式化定义根据实验描述，可…

阅读更多...

【批量修改后缀名】如何批量去修改文件后缀名（亲测图文结合）

【批量修改后缀名】如何批量去修改文件后缀名（亲测图文结合）

【写在前面】前段时间，因为素材需要，就去之前我制作相册的一个网站上下载了一批照片，但是照片下载下来的格式居然是.png!600*0，这种格式的也打不开，于是乎我自己就吭哧吭哧的去一个个的修改，然后我一想他娘…

阅读更多...

EBU5476 Microprocessor System Design 知识点总结_5 GPIO

EBU5476 Microprocessor System Design 知识点总结_5 GPIO

GPIO General Purpose Input Output, Memory-Mapped IO 把设备，控制等寄存器映射到内存里。好处就是访问设备方式和内存一样，也不用设计复杂的IO电路，便捷；缺点在于占用了内存空间。 Peripheral-Mapped IO IO有一块专门的存储…

阅读更多...

Vue｜单文件组件与脚手架安装

Vue｜单文件组件与脚手架安装

一、单文件组件1.1 介绍1.2 文件组成1.3 加深认知二、脚手架安装2.1 什么是脚手架?2.2 使用镜像2.3 全局安装vue/cli2.4 创建并启动项目一、单文件组件 1.1 介绍 [.vue]文件，称为单文件组件，是Vue.js自定义的一种文件格式，一个.vue文件就…

阅读更多...

AST使用（二）

AST使用（二）

//在此之前，先了解下path和node/*path指的是路径其常用的方法当前路径所对应的源代码 : path.toString判断path是什么type，使用path.isXXX 这个方法 : if(path.isStringLiteral()){}获取path的上一级路径 : let parent path.parentPath;获取path的子…

阅读更多...

nginx的安装及代理和负载均衡设置

nginx的安装及代理和负载均衡设置

一、通过yum方式进行安装官网参考地址：https://nginx.org/en/linux_packages.html#RHEL 1.1 安装好依赖执行下面的命令安装 sudo yum install yum-utils1.2、先配置好yum源新建文件/etc/yum.repos.d/nginx.repo，文件内容： [nginx-s…

阅读更多...

一个成熟的软件测试工程师应该具备那些“技能”

一个成熟的软件测试工程师应该具备那些“技能”

1、良好的沟通相信大家都在网上看到过各种吐槽程序员不解风情的段子，开怀大笑之余深思，作为一个测试工程师又何尝不是如此？通常沟通技能成为横亘在测试工程师与其他合作部门之间的万丈鸿沟，也成为测试工程师成长的最大瓶颈。下面…

阅读更多...

Vector-常用CAN工具 - 以太网报文收发方向

Vector-常用CAN工具 - 以太网报文收发方向

目录 Rx 和 Tx 标记 Example：从 CANoe 向 ECU 发送以太网数据包用例 2：从 ECU 接收以太网数据包如何仅显示物理或虚拟通信如何仅显示 Rx 或 Tx 以太网数据包 VN5000以太网包过滤 1、什么是硬件过滤？ 2、什么时候使用硬件过滤&…

阅读更多...

useEffect，useLayoutEffect的基础知识和底层机制

useEffect，useLayoutEffect的基础知识和底层机制

useEffect 是 React 中一个重要的 Hook，用来处理组件的副作用操作。它的基础知识包括两个方面：执行时机和参数。执行时机： useEff ect 的执行时机包括两种情况： 组件挂载时，即第一次渲染之后。组件更新时&#xff…

阅读更多...

智能垃圾分类小程序，流量主变现，外卖cps权益变现，uniCloud云开发无需购买服务器和域名，助力每一位创业者。

智能垃圾分类小程序，流量主变现，外卖cps权益变现，uniCloud云开发无需购买服务器和域名，助力每一位创业者。

技术优势基于 uniapp uniCloud 研发，无需购买服务器和域名，uniCloud 是 DCloud 联合阿里云、腾讯云 serverless 构建。从此不用关心服务器运维、弹性扩容、大并发承载、防DDoS攻击等，轻松应对高并发应用， 传统小程序开通流量主…

阅读更多...

Qt 多语言实现

Qt 多语言实现

简介 Qt Linguist 提供了一套加速应用程序翻译和国际化的工具。Qt 使用单一的源码树和单一的应用程序二进制包就可同时支持多个语言和书写系统。使用 QTranslator 来加载生成的 qm 文件，就可以让程序显示指定的语言。 // 国际化翻译 QString language "CH…

阅读更多...

项目Es、kafka、mysql容量评估方案和服务器资源预估方案

项目Es、kafka、mysql容量评估方案和服务器资源预估方案

目录 1、Es 评估计划一个接口jmeter压测qps 1万, logstash 读取日志文件写入es Logstash配置 Es容量变化前后差值/1万 * 1.67 * （1副本数） ~ 次接口es 容量 （日志数据30kb） 影响es存储的主要原因通过 kibana 查看堆栈》索…

阅读更多...

管理类联考——英语——技巧篇——阅读理解

管理类联考——英语——技巧篇——阅读理解

一、阅读理解A节选项的点 1.正确答案的五大特征 (1)“主题为王”原则：即正确答案通常与文章的中心思想、主旨大意有关。 (2)正确答案的特点：语言简化、反话正说、正话反说、关键词替换。 (3)正确答案要选相对的，不选绝对的。正确答案通常含有…

阅读更多...

推荐文章

最新文章