大数据Hadoop入门2

news2025/1/30 14:40:48

目录

第三部分(Hadoop MapReduce和Hadoop YARN)

1.课程内容-大纲-学习目标

2.理解先分再合、分而治之的思想

3.hadoop团队针对MapReduce的设计构思

4.Hadoop MapReduce介绍、阶级划分和进程组成

5.Hadoop MapReduce官方示例-圆周率PI评估

6.Hadoop MapReduce官方示例-wordCount单词统计

7.Hadoop MapReduce--map阶段执行过程

8.Hadoop MapReduce--reduce阶段执行过程

9.Hadoop MapReduce--shuffle机制

10.Hadoop YARN--功能介绍--资源管理、任务调度

11.Hadoop YARN--架构图、3大组件介绍

12.Hadoop YARN--程序提交YARN集群交互流程

13.Hadoop YARN--资源调度器schedule和调度策略

第四部分(数据仓库基础和Hadoop Hive入门)

1.课程内容大纲和学习目标

2.数据仓库概念和起源发展由来

3.数据仓库主要特征

4.数据仓库主流开发语言--SQL

5.Hadoop Hive入门

6.场景设计--Hive功能模拟实现底层猜想

7.Hadoop Hive--架构图、各组件功能​编辑

8.Hadoop Hive安装部署--metadata与metastore、远程模式介绍

9.Hadoop Hive安装部署--与hadoop整合、MySQL安装

10.Hadoop Hive安装部署--配置文件修改编辑

11.Hadoop Hive安装部署--metastore服务启动方式

12.Apache hive--新老客户端使用hiveserver2服务

13.Apache hive--Datagrip连接HiveServer2

14.Apache hive--数据库与建库、切换库操作

15.Apache hive--表与建表SQL语句--数据类型、分隔符制定语法

16.Apache hive--表与建表SQL语句--默认分隔符使用

17.Apache hive--常见的show语法

18.Apache hive--注释comment中文乱码解决


第三部分(Hadoop MapReduce和Hadoop YARN)

1.课程内容-大纲-学习目标

2.理解先分再合、分而治之的思想

3.hadoop团队针对MapReduce的设计构思

map这里不能翻译成地图,翻译为mapping比较好一点

4.Hadoop MapReduce介绍、阶级划分和进程组成

 

5.Hadoop MapReduce官方示例-圆周率PI评估

首先验证一下我们的hadoop集群有没有启动

发现没有启动,下面我们启动一下

启动时,我们看一下示例

先进入hadoop安装包

安装包中有一个share目录

然后再cd到hadoop中

然后再cd到MapReduce中

我们就要使用其中的example jar包来评估圆周率PI值

我们的yarn页面也正有一个程序在运行

6.Hadoop MapReduce官方示例-wordCount单词统计

这里上传可以使用web页面上传

新建一个input

然后点击上传

我们可以浏览一下这个文件

在当前路径下使用这个示例

看一下输出的output中的结果

结果有两个

第一个没东西,表示执行成功

第二个是结果

7.Hadoop MapReduce--map阶段执行过程

红线左边就是map阶段

8.Hadoop MapReduce--reduce阶段执行过程

9.Hadoop MapReduce--shuffle机制

10.Hadoop YARN--功能介绍--资源管理、任务调度

但yarn不仅支持MapReduce,还支持spark、flink等

11.Hadoop YARN--架构图、3大组件介绍

12.Hadoop YARN--程序提交YARN集群交互流程

下面以MR(MapReduce)程序为例

13.Hadoop YARN--资源调度器schedule和调度策略

第四部分(数据仓库基础和Hadoop Hive入门)

1.课程内容大纲和学习目标

2.数据仓库概念和起源发展由来

比如CRM就是客户关系管理

3.数据仓库主要特征

4.数据仓库主流开发语言--SQL

5.Hadoop Hive入门

6.场景设计--Hive功能模拟实现底层猜想

7.Hadoop Hive--架构图、各组件功能

8.Hadoop Hive安装部署--metadata与metastore、远程模式介绍

9.Hadoop Hive安装部署--与hadoop整合、MySQL安装

下面我们看一下配置

拖拽过去

下面做一个解压

然后安装

继续安装

没有报错,上面就是安装成功了

下面进行初始化设置

因为是初次启动,不知道密码

下面我们查看一下临时密码

登录成功

下面修改密码

授权

授权结束点击ctrl+d退出MySQL

如果MySQL安装错误

下面是卸载

10.Hadoop Hive安装部署--配置文件修改编辑

hive不需要每台机器都安装,只要安装一台机器即可

还有另外一个配置文件

红框中的是MySQL的用户名和密码

红框就是元数据服务的地址

将上面的内容复制粘贴

首先打开红框中的lib地址

将资料中的驱动拖拽到lib文件夹中

这里就成功了

没有就去创建

11.Hadoop Hive安装部署--metastore服务启动方式

因为我们使用的是远程模式

所以要单独启动

点击ctrl+c服务就关闭了

后台启动就是将服务当做一个进程,挂在后台去运行

使用jsp查看一下

多了runjar进程,就是我们上面的hive进程

后台启动的日记在nohup.out中

后台启动想要关闭

使用kill杀死进程

12.Apache hive--新老客户端使用hiveserver2服务

图中可以发现

老客户端可以直接访问metastore

新客户端是先访问另外一个服务hiveserver2,然后访问metastore

所以使用新客户端需要启动两个服务

上面我们已经启动了metastore

我们在启动hiveserver2,两个启动命令十分相似

多了新的runjar,启动成功

==================================================================================================================================================

上面的情况是

服务在node1机器上,客户端也在node1机器上

没有远程访问的感觉

我们使用scp将hive安装包拷贝给其它机器node3

启动hive

启动成功

这样我们的第一代客户端就成功连接到hive服务上

我们可以查看一下当前有哪些数据库和表

第一代客户端官方不推荐

还是使用第二代客户端

但第二代客户端想要我们手动输入地址,连接到我们的hive服务的地址(我们的hive服务在node1机器上)

这里需要我们记住

我们在企业中干活,别人让我们去访问hive,就需要怎么一个hive地址

这个地址就告诉我们。我们的hiveserver2服务运行在哪个机器上,端口是多少

继续输入用户,没有密码

下面就已经成功连接到hiveserver2服务上

我们同样可以查看数据库和表

上面就是使用beeline客户端连接到hive上

13.Apache hive--Datagrip连接HiveServer2

建好后选择关联本地目录到工程中

下面就要配置连接

连接到hive上

首先要解决驱动问题

系统自带的驱动并不友好,我们将其删除

使用课程提供的驱动

这里变白就解析成功了

返回进行其它配置

主要是URL地址

就是beeline连接的地址

测试连接

14.Apache hive--数据库与建库、切换库操作

默认使用我们的default数据库

如果使用其它数据库

15.Apache hive--表与建表SQL语句--数据类型、分隔符制定语法

下面我们看一个练习,如何将我们应该结构化文件映射成表

我们可以使用beeline客户端进行操作

但操作不方便

还是使用datagrip进行操作

首先查看集群是否启动成功

在datagrip中选中,然后点击F4打开我们的控制台

在控制台中输入一句查询,成功

下面我们开始写SQL文件

选中运行

建完表

我们就可以上传数据了

我们可以在hdfs中上传

16.Apache hive--表与建表SQL语句--默认分隔符使用

我们发现不写分隔符语法并没有报错,它有默认分隔符

17.Apache hive--常见的show语法

我们直接写show table是当前库下的所有表

如果换一个数据库

也可以指定数据库

18.Apache hive--注释comment中文乱码解决

我们之前建了一个表

但在查看表的原信息时

这里的原因的hive底层的元数据是将我们的元数据保存在MySQL中的

MySQL的编码不支持中文,主要支持latin1的编码

上面的修改都是在MySQL中进行的

其中的hive3就是hive保存元数据的地方

其中有很多张表,就是保存的hive元数据

我们直接执行SQL语句修改hive的元数据信息

执行完,ctrl+d结束

但乱码还是存在

因为我们的修改完后

要将表删除,重新创建才行

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2284761.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

21.Word:小赵-毕业论文排版❗【39】

目录 题目​ NO1.2 NO3.4 NO5.6 NO7.8.9 NO10.11.12 题目 NO1.2 自己的论文当中接收老师的修改:审阅→比较→源文档:考生文件夹:Word.docx→修订的文档:考生文件夹:教师修改→确定→接收→接收所有修订将合并之…

【go语言】并发编程

一、协程、线程、进程 在计算机编程中,进程、线程和协程都是用于并发执行任务的不同概念。他们的区别主要体现在创建、管理和调度的复杂度上,特别是在不同的编程语言中有不同的实现方式。下面是他们的详细区别和在 go 语言中的实现方式。 1.1 进程 定义…

算法1-1 模拟与高精度

目录 一 阶乘数码 二 麦森数 三 模拟题 一 阶乘数码 本题中n<1000,1000的阶乘为以下这么大&#xff0c;远超long的范围 402387260077093773543702433923003985719374864210714632543799910429938512398629020592044208486969404800479988610197196058631666872994808558901…

公式与函数的应用

一 相邻表格相乘 1 也可以复制 打印标题

ShenNiusModularity项目源码学习(7:数据库结构)

ShenNiusModularity项目默认使用mysql数据库&#xff0c;数据库连接字符串放到了ShenNius.Admin. Mvc、ShenNius.Admin.Hosting的appsettings.json文件内。   ShenNiusModularity项目为自媒体内容管理系统&#xff0c;支持常规管理、CMS管理、商城管理等功能&#xff0c;其数…

手撕Diffusion系列 - 第九期 - 改进为Stable Diffusion(原理介绍)

手撕Diffusion系列 - 第九期 - 改进为Stable Diffusion&#xff08;原理介绍&#xff09; 目录 手撕Diffusion系列 - 第九期 - 改进为Stable Diffusion&#xff08;原理介绍&#xff09;DDPM 原理图Stable Diffusion 原理Stable Diffusion的原理解释Stable Diffusion 和 Diffus…

论文笔记(六十三)Understanding Diffusion Models: A Unified Perspective(三)

Understanding Diffusion Models: A Unified Perspective&#xff08;三&#xff09; 文章概括 文章概括 引用&#xff1a; article{luo2022understanding,title{Understanding diffusion models: A unified perspective},author{Luo, Calvin},journal{arXiv preprint arXiv:…

修改maven的编码格式为utf-8

1.maven默认编码为GBK 注:配好MAVEN_HOME的环境变量后,在运行cmd. 打开cmd 运行mvn -v命令即可. 2.修改UTF-8为默认编码. 设置环境变量 变量名 MAVEN_OPTS 变量值 -Xms256m -Xmx512m -Dfile.encodingUTF-8 3.保存,退出cmd.重新打开cmd 运行mvn -v命令即可. 源码获取&…

从AD的原理图自动提取引脚网络的小工具

这里跟大家分享一个我自己写的小软件&#xff0c;实现从AD的原理图里自动找出网络名称和引脚的对应。存成文本方便后续做表格或是使用简单行列编辑生成引脚约束文件&#xff08;如.XDC .UCF .TCL等&#xff09;。 我们在FPGA设计中需要引脚锁定文件&#xff0c;就是指示TOP层…

【数据结构】(1)集合类的认识

一、什么是数据结构 1、数据结构的定义 数据结构就是存储、组织数据的方式&#xff0c;即相互之间存在一种或多种关系的数据元素的集合。 2、学习数据结构的目的 在实际开发中&#xff0c;我们需要使用大量的数据。为了高效地管理这些数据&#xff0c;实现增删改查等操作&…

解决使用Selenium时ChromeDriver版本不匹配问题

在学习Python爬虫过程中如果使用Selenium的时候遇到报错如下session not created: This version of ChromeDriver only supports Chrome version 99… 这说明当前你的chrome驱动版本和浏览器版本不匹配。 例如 SessionNotCreatedException: Message: session not created: This…

CAN波特率匹配

STM32 LinuxIMX6ull&#xff08;Linux&#xff09;基于can-utils测试

JavaScript中的相等运算符:`==`与`===`

&#x1f90d; 前端开发工程师、技术日更博主、已过CET6 &#x1f368; 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 &#x1f560; 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 &#x1f35a; 蓝桥云课签约作者、上架课程《Vue.js 和 E…

A7. Jenkins Pipeline自动化构建过程,可灵活配置多项目、多模块服务实战

服务容器化构建的环境配置构建前需要解决什么下面我们带着问题分析构建的过程:1. 如何解决jenkins执行环境与shell脚本执行环境不一致问题?2. 构建之前动态修改项目的环境变量3. 在通过容器打包时避免不了会产生比较多的不可用的镜像资源,这些资源要是不及时删除掉时会导致服…

66-《虞美人》

虞美人 虞美人&#xff08;学名&#xff1a;Papaver rhoeas L.&#xff09;&#xff1a;一年生草本植物&#xff0c;全体被伸展的刚毛&#xff0c;稀无毛。茎直立&#xff0c;高25-90厘米&#xff0c;具分枝。叶片轮廓披针形或狭卵形&#xff0c;羽状分裂&#xff0c;裂片披针形…

obsidian插件——Metadata Hider

原本是要找导出图片时显示属性的插件&#xff0c;奈何还没找到&#xff0c;反而找到了可以隐藏属性的插件。唉&#xff0c;人生不如意&#xff0c;十之八九。 说一下功能&#xff1a; 这个插件可以把obsidian的文档属性放在右侧显示&#xff0c;或者决定只显示具体几项属性&a…

特种作业操作之低压电工考试真题

1.下面&#xff08; &#xff09;属于顺磁性材料。 A. 铜 B. 水 C. 空气 答案&#xff1a;C 2.事故照明一般采用&#xff08; &#xff09;。 A. 日光灯 B. 白炽灯 C. 压汞灯 答案&#xff1a;B 3.人体同时接触带电设备或线路中的两相导体时&#xff0c;电流从一相通过人体流…

[免费]基于Python的Django博客系统【论文+源码+SQL脚本】

大家好&#xff0c;我是java1234_小锋老师&#xff0c;看到一个不错的基于Python的Django博客系统&#xff0c;分享下哈。 项目视频演示 【免费】基于Python的Django博客系统 Python毕业设计_哔哩哔哩_bilibili 项目介绍 随着互联网技术的飞速发展&#xff0c;信息的传播与…

进程池的制作(linux进程间通信,匿名管道... ...)

目录 一、进程间通信的理解 1.为什么进程间要通信 2.如何进行通信 二、匿名管道 1.管道的理解 2.匿名管道的使用 3.管道的五种特性 4.管道的四种通信情况 5.管道缓冲区容量 三、进程池 1.进程池的理解 2.进程池的制作 四、源码 1.ProcessPool.hpp 2.Task.hpp 3…

Gurobi 基础语法之 tupledict 和 tuplelist

Python中的字典&#xff1a;dict 我们先来介绍一下Python语法中的 dict 类型, 字典中可以通过任意键值来对数据进行映射&#xff0c;任何无法修改的python对象都可以当作键值来使用&#xff0c;这些无法修改的Python对象包括&#xff1a;整数(比如&#xff1a;1)&#xff0c;浮…