Hive3面试基础

news2024/9/27 21:19:49

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • 前言
  • 一、基本知识Hive3
    • 1.表的类型和表的存储格式
      • a)
      • b)
      • c)创建表
        • i)
        • ii)
    • 2.表
  • 二、使用步骤
    • 1.引入库
    • 2.读入数据
  • 总结


前言

面试准备之Hive

回顾
基本知识
效率优化


提示:以下是本篇文章正文内容,下面案例可供参考

一、基本知识Hive3

1.表的类型和表的存储格式

整理来自:https://developer.aliyun.com/article/786518
四种表的有四种表的格式

思sizhong

a)

目前用的比较多是manager /external 表
创建表的时候如果没有指定则默认创建的是Hive 的事务表并且存放在/warehouses/tablespace/managered
外部表默认存放在/warehouses/tablespace/external
但是创建的时候也可以指定外部表在其他hdfs的路径

b)

表的存储类型有以下几种:
TEXTFILE 、SEQUENCEFILE、RCFILE、ORCFILE(默认格式)、PARQUET
目前我只用了textfile/orc 格式其他的做过调研但是忘记了
orc parquet 都是一种表的格式,都可以采用压缩的方式
具体参考下面的文章,但是要注意的是,orc支持事务,parquet不支持
所以hive3默认表为orc snappy压缩
“”"
因为Hive 的SQL会转化为MR任务,如果该文件是用ORC存储,Snappy压缩的,因为Snappy不支持文件分割操作,所以压缩文件「只会被一个任务所读取」,如果该压缩文件很大,那么处理该文件的Map需要花费的时间会远多于读取普通文件的Map时间,这就是常说的「Map读取文件的数据倾斜」
“”"

c)创建表

i)

create external table test1
(
name string,
age int,
buy_date date
)
row format serde
‘org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe’
with serderproperties
(
‘field.delim’ =‘\8’,
‘line.delim’ =‘\n’,
‘serialization.null.format’=‘<NUL>’
)

stored as textfile
location ‘/apps/xig/test1’
tabpropeties(‘external.table.purge’=‘true’)

row format serde : hive读写都是进入HDFS拿,那么读和写需要反序列化hdfs中的文件,让它成为table的格式,写入hdfs需要序列化让它成为HDFS格式。不同的存储格式就有不同的序列化和反序列化器来实现,如果不定义,默认就用LazySimpleSerDe
with serderproperties: 搭配上面row format serde 来用,设置序列化的时候怎么处理字段间隔行间隔,空值
**‘external.table.purge’=‘true’**因为是外部表,所以至托管了metadata,设置了这个选项,drop table test1 会把 表数据也drop掉否则就是只有删除metadata

ii)

create external table test1
(
name string,
age int,
buy_date date
)
row format delimited
fields terminated by ‘\8’
lines teminate by ‘\n’
null defined as ‘<NUL>’

stored as textfile
location ‘/apps/xig/test1’
tabpropeties(‘external.table.purge’=‘true’)
斜体加粗的作用和i)完全相同因为没有指定序列化工具所以默认用了lazySimpleSerde

2.表

二、使用步骤

1.引入库

代码如下(示例):

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import  ssl
ssl._create_default_https_context = ssl._create_unverified_context

2.读入数据

代码如下(示例):

data = pd.read_csv(
    'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())

该处使用的url网络请求的数据。


总结

提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/487414.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

个人代码管理

项目描述&#xff1a; 在公司使用软件大家会经常使用GitLab进行代码管理&#xff0c;但是GitLab对于个人使用会有&#xff0c;操作相对复杂&#xff0c;且需要收费。GitHub的代码又都是开放的。经过上网查找和尝试&#xff0c;找到了一个可以日常用来保存自己代码的工具。&…

吴恩达和OpenAI的《面向开发者的ChatGPT提示工程》精华笔记

《ChatGPT Prompt Engineering for Developers》 面向开发者的ChatGPT提示工程 shadow 趁着假期&#xff0c;学习了prompt课程&#xff0c;做了一些精简和关键知识点的梳理&#xff0c;分享给大家。 LLM 可完成的任务 包括: 总结&#xff08;如总结用户评论&#xff09; 推断&a…

streamlit+pywebview,纯python以前后端形式写桌面应用

1、VSCode VSCode VSCode扩展&#xff1a;Python 2、配置PowerShell执行策略 以管理员身份运行PowerShell&#xff0c;运行Set-ExecutionPolicy RemoteSigned&#xff0c;并输入Y&#xff0c;回车确认 3、配置Python环境 只安装Python&#xff1a;华为镜像、阿里镜像、new…

DC-DC直流隔离升压高压输出电源模块12v24v48v转50V110V200V250V350V400V500V600V800V1000V微功率

特点 效率高达 80%以上1*2英寸标准封装单电压输出价格低稳压输出工作温度: -40℃~85℃阻燃封装&#xff0c;满足UL94-V0 要求温度特性好可直接焊在PCB 上 应用 HRB W2~40W 系列模块电源是一种DC-DC升压变换器。该模块电源的输入电压分为&#xff1a;4.5~9V、9~18V、及18~36V、…

Android 编译模块 (小记)

1.整编 source build/envbuild.sh lunch xxx make 2.单独编译模块 2.1 去Android.bp 中找模块名 比如我想编译system/core/fastboot&#xff0c;那么我就去找这个路径下的Android.bp/ Android.mk Android.bp 中找每个模块的那么就行 然后直接make这个name make fastboot_…

通过【Stable-Diffusion WEBUI】复刻属于你的女神:再谈模型与参数

文章目录 &#xff08;零&#xff09;前言&#xff08;一&#xff09;复刻优秀的作品&#xff08;1.1&#xff09;模型&#xff08;1.1.1&#xff09;Model Hash &#xff08;1.2&#xff09;提示词&#xff08;1.2.1&#xff09;反推提示词 &#xff08;1.3&#xff09;参数 &…

GaussDB数据库基础函数介绍-上

目录 一、函数在数据库中的作用 二、GaussDB常用基础函数介绍与示例 1、数字操作函数 2、时间和日期处理函数 3、类型转换函数 4、数组函数 5、范围函数 6、窗口函数 7、聚集函数 8、安全函数 9、系统信息函数 10、动态脱敏函数. Tip&#xff1a;由于篇幅缘故&…

shell脚本的条件判断式

文章目录 shell脚本的条件判断式利用 if...then单层、简单条件判断式多重、复杂条件判断式例题1例题2 利用case...esac判断例题1 利用function功能例题1 shell脚本的条件判断式 很多时候我们必须要根据某些数来判断程序该如何举例来说&#xff0c;我们在之前的练习中让用户输入…

jsp网上拍卖管理系统统Myeclipse开发mysql数据库web结构jsp编程计算机网页项目

一、源码特点 jsp网上拍卖管理系统是一套完善的java web信息管理系统&#xff0c;对理解JSP java编程开发语言有帮助&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统主要采用B/S模式开发。开发环境为 TOMCAT7.0,Myeclipse8.5开发&#xff0c;数据库为Mysql5.0&a…

AWS Lambda - 第一部分

Hello大家好&#xff0c;我们今天开始讨论AWS Lambda的内容。 SAP认证考试会涉及到很多Lambda的内容&#xff0c;想要通过认证考试虽然不一定非要精通开发&#xff0c;但需要知道Lambda的一些功能和特性、适用场景以及Lambda是如何工作的。 我们开始吧&#xff01; Lambda与…

数据结构刷题(三十):96不同的二叉搜索树、01背包问题理论、416分割等和子集

一、96. 不同的二叉搜索树 1.这个题比较难想递推公式&#xff0c; dp[3]&#xff0c;就是元素1为头结点搜索树的数量 元素2为头结点BFS的数量 元素3为头结点BFS的数量 元素1为头结点搜索树的数量 右子树有2个元素的搜索树数量 * 左子树有0个元素的搜索树数量 元素2为头结…

AWS Lambda - 第二部分

Hello大家好&#xff0c;我们今天继续讨论AWS Lambda的内容。 Lambda的网络 首先&#xff0c;我们来讨论一下Lambda的网络&#xff0c;联网相关的内容。 在部署Lambda时&#xff0c;在默认情况下&#xff0c;Lambda函数是部署和运行在AWS的一个安全的VPC中&#xff0c;是在您…

“大运”有我丨智安网络护航大运,荣获成都市公安局感谢信!

近日&#xff0c;深圳市智安网络有限公司四川分公司&#xff08;以下简称“智安网络”&#xff09;荣幸受邀参与第31届世界大学生夏季运动会网络安全检查工作&#xff0c;对中和体育中心场馆安全漏洞检测进行现场技术支撑。 智安网络对此次网络安全检查工作高度重视&#xff0…

PySpark基础入门(2):RDD及其常用算子

更好的阅读体验&#xff1a;PySpark基础入门&#xff08;2&#xff09;&#xff1a;RDD及其常用算子 - 掘金 (juejin.cn) 目录 RDD简介 RDD Coding RDD简介 RDD&#xff08;Resilient Distributed Dataset&#xff09;&#xff0c;是一个弹性分布式数据集&#xff0c;是Sp…

带你快速入门光模块行业

一、行业介绍 光纤通信&#xff08;简称光通信&#xff09;是利用光导纤维传输光波信号的一种通信方式&#xff0c;于上世纪六七十年代由华裔科学家高锟博士等人率先提出。 光通信是以激光作为信息载体&#xff0c;以光纤作为传输媒介的通信方式&#xff0c;现已取代电通信成…

if __name__ == “__main__“: 理解

if __name__ "__main__": 是 Python 中常用的一种条件判断语句&#xff0c;主要作用是在当前模块作为程序入口时执行一些特定的代码&#xff0c;而在被其它模块引入时不执行这些特定的代码。 具体来说&#xff0c;当一个 Python 模块被导入时&#xff0c;Python 解…

关注度拉满,RSAC 2023 热门安全工具速览

RSAConference2023于当地时间4月24日在旧金山正式拉开帷幕。自上届RSAC以来&#xff0c;网络安全行业发生了巨大的变化&#xff0c;尤其是以OpenAI聊天机器人为代表的内容生成型AI的兴起&#xff0c;对网络防御和攻击的影响比以往任何时候都更加明显。 今年&#xff0c;与RSAC相…

数据结构之第十章、Java对象的比较

目录 一、PriorityQueue&#xff08;堆&#xff09;中插入对象 二、元素的比较 2.1基本类型的比较 2.2对象比较的问题 三、对象的比较 3.1覆写基类的equals 3.2基于Comparble接口类的比较 3.3基于比较器比较 3.4三种方式对比 3.5代码实现 四、集合框架中PriorityQu…

大型医院影像PACS系统三维重建技术(获取数据、预处理、配准、重建和可视化)

PACS&#xff08;Picture Archiving and Communication System&#xff09;系统作为医学图像的存储和传输平台&#xff0c;为医生和患者提供了便捷高效的诊疗服务支持。近年来&#xff0c;三维重建技术在PACS系统中的应用越来越广泛。 一、三维重建技术的基本原理 在PACS系统…

JS 中的 performance,测量web应用性能

文章目录 属性和方法performance.memory 内存performance.navigation 页面的来源信息performance.timing 时间消耗相关时间计算Performance.mark()performance.now() Web Performance API 允许网页访问某些函数来测量网页和 Web 应用程序的性能 performance 包含如下属性和方法…