Python大数据之Hadoop学习——day05_hive基本操作

news2024/9/23 19:21:04

一.SQL,Hive和MapReduce的关系

用户在hive上编写sql语句,hive把sql语句转为mapreduce程序去执行

二.Hive的架构映射流程

三.MetaStore元数据管理三种模式

metastore服务配置有3种:

内嵌模式、本地模式、远程模式(推荐)

内嵌模式本地模式远程模式
Metastore单独配置、启动
Metadata存储介质DerbyMysqlMysql

内嵌模式:

        优点:配置简单,hive命令直接可以使用

        缺点:不适用于生产环境,derby和metastore服务都嵌入在主Hive Server进程中一个客户端连接(如果用两个客户端以上就非常浪费资源),且元数据不能共享

本地模式:

        优点:可以单独使用外部的数据库(mysql),元数据共享

        缺点:相对浪费资源,metastore嵌入到了hive进程中,每启动一次hive服务,都内置启动了一个metastore。

远程模式:

        优点:可以单独使用外部库(mysql),可以共享元数据,本地可以连接metastore服务也可以连接hiveserver2服务,增加了扩展性(其他依赖hive的软件都可以通过Metastore访问hive)

        缺点:需要注意的是如果想要启动hiveserver2服务需要先启动metastore服务

        

四.hive服务操作【重点】

启动hive服务

# nohup hive --service metastore &

# nohup hive --service hiveserver2 &

# jps

# lsof -i:10000

关闭hive服务

# jps

# kill -9 进程号

# jps

五.数据仓库和数据库

1.数据仓库和数据库的区别

实际是讲是OLTP和OLAP的区别

数据仓库基础三层架构

源数据层(ODS) :存储数据源未经过清洗、转换、加载的数据

数据仓库层(DW):对源数据进行清洗后的数据

数据应用层(APP):前端应用直接读取数据源

2. ETL和ELT

数据仓库从各数据源获取数据以及对数据进行清洗、转换、加载的过程都可以叫做ETL(抽取Extract, 转化Transform , 装载Load)

六.hive数据库的操作

1. 基本操作

知识点:

创建数据库:create database [if not exists] 库名 [location '路径'];

使用数据库:use 库名;

注意:location路径默认是:hdfs://node1:8020/user/hive/warehouse/库名。db

删除数据库: drop database 数据库名 [cascade];

-- hive库的核心操作
-- 创建数据库
-- 注意:默认location路径是/user/hive/warehouse/库名.db
-- 库路径: /user/hive/warehouse/hive1.db
create database hive1;
-- 库路径: /user/hive/warehouse/test.db
create database test;
-- 使用库
use hive1;
-- 注意: 建库的时候可以使用location修改数据库路径
-- 库路径: /test1
create database test1 location '/test1';


-- 为了方便演示location效果,可以先去分别创建一个简单的表
-- 表路径:/user/hive/warehouse/hive1.db/stu
create table hive1.stu(id int,name string);
-- 表路径:/test1/stu
create table test1.stu(id int,name string);

-- 演示删除空数据库
drop database test;
-- 演示删除非空数据库
drop database test1;  --报错,hive比较特殊,drop不可以直接删除有表的库
-- drop+cascade能够删除有表的库
drop database test1 cascade;
2. 其他操作[了解]

知识点:

创建数据库:create database [if not exists] 库名 [comment '注释'] [location '路径'] [with dbproperties ('k'='v')];

修改数据库路径:alter database 库名 set location 'hdfs://node1.itcast.cn:8020/路径'

修改数据库属性:alter database 库名 set dbproperties ('k'='v')

查看所有的数据库:show databases;

查看某库建库语句:show  create database 库名;

查看指定数据库信息:desc database 库名;

查看指定数据库扩展信息:desc database extended 库名;

查看当前使用的数据库:select current_database();

七.Hive表概述

1. 建表语法

create [external] table [if not exists] 表名(字段名 字段类型,字段名 字段类型,...)

partitioned by (分区字段名 分区字段类型)]                # 分区表固定格式

[clustered by (分桶字段名) into 桶个数 buckets]        # 分桶表固定格式 注意:可以排序[sorted by (排序字段名 asc|desc)]

[row format delimited fields terminated by '字段分隔符']        # 自定义字段分隔符固定格式

[stored as textfile]        # 默认即可

[location 'hdfs://node1:8020/user/hive/warehouse/库名.db/表名']        # 默认即可

;         # 注意: 最后一定加分号结尾

 2. 数据类型

基本数据类型:

整数        int

小数        float double

字符串        string varchar(长度)

日期        date timestamp

3. 表分类

Hive中可以创建的表有好几种类型,分别是:

内部表(管理表):MANAGED_TABLE

外部表(非管理表):EXTERNAL_TABLE

内部表和外部表区别?

内部表:未被external关键字修饰的即是内部表,即普通表。

内部表又称管理表,还可以叫托管表

删除内部表:直接删除元数据(metadata)和存储数据本身

外部表:被external关键字修饰的即是外部表,及关联表。还可以叫非管理或非拖管表

删除外部表:仅仅是删除元数据(metadata),不会删除存储数据本身

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2081383.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【一文读懂】基于Havenask向量检索+大模型,构建可靠的智能问答服务

Havenask是阿里巴巴智能引擎事业部自研的开源高性能搜索引擎,深度支持了包括淘宝、天猫、菜鸟、高德、饿了么在内的几乎整个阿里的搜索业务。本文针对性介绍了Havenask作为一款高性能的召回搜索引擎,应用在向量检索和LLM智能问答场景的解决方案和核心优势…

泰山派小手机---ubuntu 环境的搭建

问题: 本来我的 泰山派的 ubuntu 虚拟机环境已经搭建好了,但是由于一直到捣鼓 neovim ,把虚拟机 内核搞崩溃,所以从新安装一下 虚拟机。 过程: 1 首先是 安装虚拟机。 下载镜像。 https://mirrors.ustc.edu.cn/ubu…

密码强度验证——js基础积累

//密码强度等级 getPwdLevel:function (pwd,minLength8) {var level 0;if (pwd.length < minLength) return level;if (/\d/.test(pwd)) level; //数字if (/[a-z]/.test(pwd)) level; //小写if (/[A-Z]/.test(pwd)) level; //大写if (/\W/.test(pwd)) level; //特殊字符ret…

安卓好软-----手机端提取apk的小工具 方便简单 无需root权限

apk提取工具 工具小巧。可以提取手机上面当前安装的apk和系统应用apk。而且无需root权限即可正常使用。 效果非常不错。比其他工具提取系统app方便好使。 下载&#xff1a;https://download.csdn.net/download/mg668/89683199?spm1001.2014.3001.5503

副业赚钱新玩法:大模型也能月入过万?

在这个多元化的时代&#xff0c;副业已经成为了越来越多人的选择。无论是为了实现个人兴趣&#xff0c;还是为了增加收入来源&#xff0c;副业都为我们提供了无限可能。而随着人工智能技术的飞速发展&#xff0c;利用大模型来开展副业也成为了一种新兴的方式。今天&#xff0c;…

日常避坑指南:如何正确使用 aiohttp 上传文件,避免文件被提前关闭

在日常开发中,我们经常会遇到需要上传文件到服务器的场景。如果你选择使用 aiohttp 进行异步请求,上传文件的方式需要特别注意,否则可能会遇到一些令人头疼的问题——比如文件被提前关闭,导致上传失败。这篇文章将为你详细解析这个问题,并提供有效的解决方案,帮助你在开发…

Mysql基础练习题 181.找到收入比经理高的员工 (力扣)

181.找到收入比经理高的员工 建表插入数据&#xff1a; Create table If Not Exists Employee (id int, name varchar(255), salary int, managerId varchar(10)); Truncate table Employee insert into Employee (id, name, salary, managerId) values (1, Joe, 70000, 3); …

/lib64/libm.so.6: version `GLIBC_2.27‘ not found 如何解决?

安装GLIBC_2.27 wget http://ftp.gnu.org/gnu/glibc/glibc-2.27.tar.gz tar xf glibc-2.27.tar.gz cd glibc-2.27/ && mkdir build && cd build ../configure --prefix/usr --disable-profile --enable-add-ons --with-headers/usr/include --with-binutils…

聚观早报 | 智界R7亮相;问界新M7 Pro正式上市

聚观早报每日整理最值得关注的行业重点事件&#xff0c;帮助大家及时了解最新行业动态&#xff0c;每日读报&#xff0c;就读聚观365资讯简报。 整理丨Cutie 8月28日消息 智界R7亮相 问界新M7 Pro正式上市 《全职高手3》动画热播 苹果2024秋季发布会官宣 一加Ace 5 Pro设…

火语言RPA流程组件介绍--播放声音

&#x1f6a9;【组件功能】&#xff1a;播放系统声音或指定的Wav格式声音文件 配置预览 配置说明 来源 系统&#xff1a;播放Windows系统内置声音。 自定义Wav文件&#xff1a;播放本地路径下指定声音文件。 Wav文件 支持T或# 默认FLOW输入项 选择Wav声音文件的本地路径。…

35岁零基础转战AI领域:实现AI大模型开发者职业转型的可能性与路径

以下从3个方面帮大家分析&#xff1a; 35岁转行会不会太晚&#xff1f;零基础学习AI大模型开发能不能学会&#xff1f;AI大模型开发行业前景如何&#xff0c;学完后能不能找到好工作&#xff1f; 一、35岁转行会不会太晚&#xff1f; 35岁正处于人生的黄金时期&#xff0c;拥…

灵魂 20 问帮你彻底搞定Transformer

1.Transformer为何使用多头注意力机制&#xff1f;&#xff08;为什么不使用一个头&#xff09; 捕捉多种依赖关系&#xff1a; 多头注意力机制允许模型同时关注输入数据的不同部分和特征。每个“头”都能够学习输入序列的不同表示子空间&#xff0c;从而捕捉到不同类型的依赖关…

大模型落地难点之结构化输出

应用至上 2023年的世界人工智能大会&#xff08;WAIC&#xff09;是“百模大战”&#xff0c;今年WAIC的关键词是“应用至上”。纵观今年论坛热点话题&#xff0c;无论是具身智能还是AI Agent&#xff08;智能体&#xff09;&#xff0c;都指向以大模型为代表的AI技术在不同场…

一文道尽 RAG,为大模型提供你的私有知识

什么是 RAG&#xff1f;先说一个你可能不相信的事实&#xff1a;RAG 是2005年提出的古老技术&#xff08;论文在此 https://arxiv.org/pdf/2005.11401&#xff09;。然后我们先看一个学术定义&#xff1a;“检索增强生成&#xff08;Retrieval-augmented Generation&#xff09…

【MATLAB源码-第198期】基于simulink的三相光伏并网仿真模拟。

操作环境&#xff1a; MATLAB 2022a 1、算法描述 三相光伏并网系统是一种将太阳能转换为电能并将其馈入电网的系统。这个系统通常包括光伏阵列、逆变器&#xff08;包括其控制算法&#xff09;、滤波器、电网连接和监控系统。从上载的框图中可以看出&#xff0c;该系统的设计…

最佳外推发帖器推荐

最佳外推发帖器推荐 外推发帖神器&#xff0c;节省90%发帖时间&#xff01;#搜索留痕运营#百度留痕工具#灰色词排名代发#外推软件推广#B站专栏文章代发 推荐阅读&#xff1a; 哔哩哔哩b站文章专栏发布软件用真实信息注册域名的利弊https://www.bsw80.com/post/2314.html 今…

算法-有效的字母异位词

这道题很简单&#xff0c;就不做过多的解释&#xff0c;只需要创建一个哈希表统计s中出现的次数&#xff0c;然后遍历t&#xff0c;如果没找到&#xff0c;或者找到了但是次数为0则返回错误&#xff0c;否则返回true。代码如下&#xff1a; class Solution { public:bool isAn…

ADW300W/4G 配电改造智能电力仪表

安科瑞徐赟杰 近年来&#xff0c;随着工业和农业用电负荷的不断增加&#xff0c;现有的配电系统逐渐面临着供电效率低下、能源浪费严重等问题。然而&#xff0c;ADW300W/4G 配电改造智能电力仪表的问世&#xff0c;为解决这些问题提供了的解决方案。18&#xff08;706165*067 …

vCenter 7 8 Unable to push signed certificate to host IP

报错 解决方式 选择主机和集群>选中最上面的vcenter>配置>设置>高级设置>点击编辑设置中通过过滤器搜索到vpxd.certmgmt.mode将值从默认的vmca更改为thumbprint保存官方更改证书模式

专业智慧厕所解决方案,智慧公厕厂家@卓振思众

在快节奏的城市生活中&#xff0c;公共设施的便捷性和舒适度成为了市民日常体验的重要组成部分。作为公共设施中的关键一环&#xff0c;厕所的智能化升级正在成为提升城市公共服务质量的重要趋势。智慧厕所&#xff0c;正以其先进的技术和人性化的设计&#xff0c;重新定义我们…