锁屏面试题百日百刷-Hive篇(十一)

锁屏面试题百日百刷-Hive篇(十一)

news2026/2/13 4:42:49

锁屏面试题百日百刷，每个工作日坚持更新面试题。锁屏面试题app、小程序现已上线，官网地址：https://www.demosoftware.cn。已收录了每日更新的面试题的所有内容，还包含特色的解锁屏幕复习面试题、每日编程题目邮件推送等功能。让你在面试中先人一步!接下来的是今日的面试题：

1.如何理解SMB Join

全称Sort Merge Bucket Join。

作用

大表对小表应该使用MapJoin来进行优化，但是如果是大表对大表，如果进行shuffle，那就非常可怕，第一个慢不用说，第二个容易出异常，此时就可以使用SMB Join来提高性能。SMB Join

基于bucket-mapjoin的有序bucket，可实现在map端完成join操作，可以有效地减少或避免shuffle的数据量。SMB join的条件和Map join类似但又不同。

条件

注意事项

hive并不检查两个join的表是否已经做好bucket且sorted，需要用户自己去保证join的表数据sorted，否则可能数据不正确。

有两个办法：

1）hive.enforce.sorting 设置为 true。开启强制排序时，插数据到表中会进行强制排序，默认false。

2）插入数据时通过在sql中用distributed c1 sort by c1 或者 cluster by c1

另外，表创建时必须是CLUSTERED且SORTED，如下：

create table test_smb_2(mid string,age_id string)

CLUSTERED BY(mid) SORTED BY(mid) INTO 500 BUCKETS;

综上，涉及到分桶表操作的齐全配置为：

--写入数据强制分桶

set hive.enforce.bucketing=true; --写入数据强制排序

set hive.enforce.sorting=true; --开启bucketmapjoin

set hive.optimize.bucketmapjoin = true; --开启SMB Join

set hive.auto.convert.sortmerge.join=true;

set hive.auto.convert.sortmerge.join.noconditionaltask=true;

开启MapJoin的配置

（hive.auto.convert.join和hive.auto.convert.join.noconditionaltask.size），

还有限制对桶表进行load操作（hive.strict.checks.bucketing）可以直接设置在hive的配置项中，无需在sql中声明。

自动尝试SMB联接（hive.optimize.bucketmapjoin.sortedmerge）也可以在设置中进行提前配置。

2.讲一讲Hive索引

Hive支持索引，但是Hive的索引与关系型数据库中的索引并不相同，比如，Hive不支持主键或者外键。

Hive索引可以建立在表中的某些列上，以提升一些操作的效率，例如减少MapReduce任务中需要读取的数据块的数量。

在可以预见到分区数据非常庞大的情况下，分桶和索引常常是优于分区的。而分桶由于SMB

Join对关联键要求严格，所以并不是总能生效。

Hive的索引目的是提高Hive表指定列的查询速度。

没有索引时，类似'WHERE tab1.col1 = 10' 的查询，Hive会加载整张表或分区，然后处理所有的rows，但是如果在字段col1上面存在索引时，那么只会加载和处理文件的一部分。

在每次建立、更新数据后，Hive索引不会自动更新，需要手动进行更新（重建索引以构建索引表），会触发一个mr job。

Hive索引使用过程繁杂，而且性能一般，在Hive3.0中已被删除，在工作环境中不推荐优先使用，在分区数量过多或查询字段不是分区字段时，索引可以作为补充方案同时使用。推荐使用ORC文件格式的索引类型进行查询。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/392975.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

大坝安全监测和水雨情测报系统-智慧水利

大坝安全监测和水雨情测报系统-智慧水利

政策背景2021年3月23日《国务院办公厅关于切实加强水库除险加固和运行管护工作的通知》（国办发〔2021〕8号）和2021年9月22日国务院常务会议均明确要求，加快推进水库除险加固，加强雨水情和安全监测预警设施建设，健全常态…

阅读更多...

23种Java设计模式

23种Java设计模式

目录 🧡 Java 设计模式六大原则创建型模式工厂模式 (Factory Pattern) 抽象工厂模式 (Abstract Factory Pattern) 单例模式 (Singleton Pattern) 建造者模式 (BuilderPattern) 原型模式 (Prototype Pattern) 结构型模式适配器模式 (Adapter Pattern) …

阅读更多...

vmware 虚拟机创建 LVM

vmware 虚拟机创建 LVM

LVM 原理 LVM (Logical volume Manager): 虚拟设备驱动，是在内核中块设备和物理设备之间添加的一个新的抽象层次, LVM 可以弹性的调整文件系统的容量 LVM的实现原理：LVM 将几个实体的 partitions/disk 通过软件组合成一块独立的大磁盘VG，之…

阅读更多...

中职网络空间安全B-windows渗透

中职网络空间安全B-windows渗透

Windows渗透目录 Windows渗透要点 cev2017-7269 ms14-064 pr.exe 提权 3389.bat 打开连接破解hash 总体是众多小点的结合 1.通过本地pc中的渗透平台kali对服务器场景进行服务及版本扫描渗透测试，并将该操作显示结果中445端口对应的服务版本信息字符串作为fla…

阅读更多...

Django实践-03模型-02基于admin管理表

Django实践-03模型-02基于admin管理表

文章目录Django实践-03模型利用Django后台管理模型1. 将admin应用所需的表迁移到数据库中。2. 创建访问admin应用的超级用户账号，3. 运行项目4.注册模型类5.对模型进行CRUD操作。6.实现学科页和老师页效果1. 修改polls/views.py文件。2.修改templates/polls/subject…

阅读更多...

THUPC-2023 游记

THUPC-2023 游记

清华校赛，战火重燃原文链接宣传图上周四同学在洛谷无意间看到了宣传图，当时很有感触。不知觉间，又是一年春，又是一场触动心弦的 THUPC 了。周五的团建过于有趣，致使我完全将 THUPC 抛之脑后了。周日上午被省选…

阅读更多...

原型链(回顾)

原型链(回顾)

概念prototype__proto__原型链查找机制万物皆对象判断私有/共有属性方法Object.prototype.prototype nullObject.create(proto, [propertiesObject])给类的原型上扩展属性方法的4种方法Fn.prototype.xxx xxxObject.prototype.xxx xxxf1.proto.xxx xxx原型重定向概念原型…

阅读更多...

虚拟相机 Cinemachine Virtual Camera

虚拟相机 Cinemachine Virtual Camera

一.简介本质上,虚拟相机应该是相机行为的配置文件,虚拟相机之间的切换实际上就是在进行相机行为之间的切换; 虚拟相机并不会创建任何摄像机,他只会创建虚拟节点,实际上操作的是Cinemachine Brain 虚拟相机属性设置完毕后,应尽量避免在游戏中对齐进行修改, 如有需要可以多创建…

阅读更多...

RocketMQ-03

RocketMQ-03

1. 高级功能 1.1 消息存储分布式队列因为有高可靠性的要求，所以数据要进行持久化存储。消息生成者发送消息MQ收到消息，将消息进行持久化，在存储中新增一条记录返回ACK给生产者MQ push 消息给对应的消费者，然后等待消费者返回A…

阅读更多...

Ubuntu 搭建文件服务器（Nginx）

Ubuntu 搭建文件服务器（Nginx）

1，下载Nginx 2，安装Nginx 3，Nginx指令及脚本使用 4，配置Nginx 1，下载Nginx ①去官网下载对应的Nginx版本 nginx: download ②直接在ubuntu使用指令下载 wget http://nginx.org/download/nginx-1.23.3.tar.gz 2…

阅读更多...

网上赚钱的兼职有哪些，互联网兼职什么挣钱多？

网上赚钱的兼职有哪些，互联网兼职什么挣钱多？

2023年，大投资的创业并不适合普通人，而小投资的创业形式，轻资产创业也需要资金，所以，很多人考虑到了兼职赚钱，那么，网上赚钱的兼职有哪些，互联网兼职做什么挣钱比较多呢？…

阅读更多...

DHCP Snooping讲解

DHCP Snooping讲解

DHCP Snooping时DHCP的一种安全特性，用于保证DHCP客户端从合法的DHCP服务器获取IP地址，并记录DHCP客户端IP地址与MAC地址等参数的对应关系，防止网络上针对DHCP攻击通过配置信任端口和非信任端口来实现安全防护信任接口正常接收DHCP服务器响…

阅读更多...

网络安全之暴力破解介绍及暴力破解Tomcat

网络安全之暴力破解介绍及暴力破解Tomcat

网络安全之暴力破解介绍及应用场景一、暴力破解介绍1.1 暴力破解介绍1.2 暴力破解应用场景一、暴力破解Tomcat一、暴力破解介绍 1.1 暴力破解介绍暴力破解字典：https://github.com/k8gege/PasswordDic 1.2 暴力破解应用场景一、暴力破解Tomcat 登录Tomcat后台&a…

阅读更多...

重磅通知！OpenAI又放大招：官宣开放API接口-3.5版本需求大涨，机遇与挑战并存，谁能拔得头筹？

重磅通知！OpenAI又放大招：官宣开放API接口-3.5版本需求大涨，机遇与挑战并存，谁能拔得头筹？

3月2日，在各大论坛网站霸榜了一个多月，ChatGPT相关话题的热度仍高居不下。这边热度未歇，那边研发ChatGPT的人工智能公司又在互联网上投下一颗重磅“炸弹”：OpenAI在其官方博客宣布，将开放ChatGPT和Whisper的模型API。 …

阅读更多...

代码分享：面波数据快速成图

代码分享：面波数据快速成图

代码分享：面波数据快速成图前言目前，物探数据主要用surfer软件成图，surfer软件具有强大的插值和绘图功能，成图比较美观。但是，生产过程中大量的物探数据，依靠excel和surfer来成图耗费人力时间成本。本博…

阅读更多...

UML视图—用例图、顺序图、状态图、类图、包图、协作图

UML视图—用例图、顺序图、状态图、类图、包图、协作图

大家好，欢迎来到Doker，这是一篇架构设计的基础文章。面向对象的问题的处理的关键是建模问题。建模可以把在复杂世界的许多重要的细节给抽象出。许多建模工具封装了UML（也就是Unified Modeling Language™），这篇课程的目…

阅读更多...

Linux25 -- 监听队列链接上限测试、命令uname、ulimit

Linux25 -- 监听队列链接上限测试、命令uname、ulimit

一、监听队列链接上限测试 1、res listen(sockfd,5); //创建监听队列res listen(sockfd,5);不懂版本有不同的限制，2.6早期版本有限制为128，超过默认为128，可使用uname -a 查看版本 2、测试将链接数到达上限， 方法&#xff1…

阅读更多...

【安卓开发】探究服务

【安卓开发】探究服务

10.2 Android多线程编程定义一个线程只需要新建一个类继承自Thread，然后重写父类的run方法，在里面编写耗时逻辑即可 class MyThread extends Thread{Overridepublic void run(){// 处理具体的逻辑} }那么如何启动呢 new Mythread().start() 这样继承的…

阅读更多...

Hive拉链表

Hive拉链表

概述拉链表：维护历史状态以及最新状态数据的表作用场景 1. 数据量比较大。 2. 表中的部分字段会被更新，比如用户的地址，银行利率，订单的状态等。 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，…

阅读更多...

Linux GCC 编译详解

Linux GCC 编译详解

文章目录一、GCC 编译器简介二、GCC 工作流编程语言的发展GCC 工作流程gcc 和 g 的区别三、使用 GCC 编译GCC 编译格式GCC 编译流程多个源文件编译一、GCC 编译器简介首先，什么是编译器呢？ 我们可以使用编辑器（如 linux 下的 vi、windows 下…

阅读更多...

推荐文章

最新文章