基于hive数据库的泰坦尼克号幸存者数据分析

news2024/9/20 6:17:43

进入

./beeline -u jdbc:hive2://node2:10000 -n root -p

查询

SHOW TABLES;

删除

DROP TABLE IF EXISTS tidanic;

上传数据

hdfs dfs -put train.csv /user/hive/warehouse/mytrain.db/tidanic

《泰坦尼克号幸存者数据分析》

1、原始数据介绍

泰坦尼克号是当时世界上体积最庞大、内部设施最豪华的客运轮船,有“永不沉没”的美誉。然而不幸的是,在它的处女航中,泰坦尼克号便遭厄运——它从英国南安普敦出发驶向美国纽约。

(1)列名介绍

PassengerID->乘客ID
Survived->是否生还
Pclass->船舱级别
Name->姓名
Sex->性别
Age->年龄
SibSp->兄弟姐妹与配偶的总数
Parch->父母和孩子的总数
Ticket->船票ID
Fare->票价
Cabin->舱室
Embarked->出发港口

(2)经过数据清洗后字段之间分隔符为‘\t’, 集合之间分隔符为‘,’ 数据数目:891 条 创建原始表 tidanic

2、 创建数据库并进入数据库

create database if not exists mytrain;

use mytrain;

3、创建源表

create table tidanic(
passengerid int,
survived int,
pclass int,
name string,
sex string,
age int,
sibsp int,
parch int,
ticket string,
fare double,
cabin String,
embarked String)

row format delimited fields terminated by ',';

在这里插入图片描述

在这里插入图片描述

(1)通过HDFS命令导入数据到指定路径。

hdfs dfs -put train.csv   /user/hive/warehouse/mytrain.db/tidanic

在这里插入图片描述

(2)查看前5行,检查是否导入成功。

select * from tidanic limit 5;

在这里插入图片描述

4、静态分区表

(1)创建静态分区表tidanic_part,字段为passengerid,survived,pclass,name,

分区字段为gender,按照性别字段sex分区。

  create table tidanic_part(
  passengerid int,
  survived int,
  pclass int,
  name string)
  partitioned by(gender string)
  row format delimited fields terminated by ',';

在这里插入图片描述

(2)导入数据到静态分区表tidanic_part

  insert overwrite table tidanic_part partition(gender='female')
  select passengerid,survived,pclass,name from tidanic where sex='female';

  insert overwrite table tidanic_part partition(gender='male')
  select passengerid,survived,pclass,name from tidanic where sex='male';

在这里插入图片描述
在这里插入图片描述

5、动态分区表

(1)创建动态分区表tidanic_dynamic_part,字段为passengerid,survived,name,

分区字段为passengerclass,按照pclass值进行分区。

  create table tidanic_dynamic_part(
   passengerid int,
   survived int,
   name string)
   partitioned by(passengerclass string)
   row format delimited fields terminated by ',';

在这里插入图片描述

(2)设置动态分区配置

   set  hive.exec.dynamic.partition=true;
   set  hive.exec.dynamic.partition.mode=nostrict;

在这里插入图片描述

(3)往动态分区表中插入数据

  insert overwrite table tidanic_dynamic_part partition(passengerclass)
  select passengerid,survived,name,pclass from tidanic;

在这里插入图片描述

在这里插入图片描述

6、分桶表

(1)创建桶表,按年龄将数据分到4个桶,抽取两个桶的数据创建一个新表tidannic_sample。

  create table tidanic_bucket(
  passengerid int,
  name string,
  age int)
  clustered by (age) into 4 buckets
  row format delimited fields terminated by ',';

在这里插入图片描述在这里插入图片描述

(2)修改桶表配置

set hive.enforce.bucketing=true;

在这里插入图片描述

(3)往桶表中插入数据

   insert overwrite table tidanic_bucket 
   select passengerid,name,age from tidanic;

在这里插入图片描述

(4)抽取桶1开始两个桶的数据到抽样表tidanic_sample中,

   create table tidanic_sample as 
   select * from tidanic_bucket tablesample(bucket 1 out of 2 on age);

在这里插入图片描述在这里插入图片描述

7、数据导出

将分区标数据导出到文件夹‘/export_dir2’

export table tidanic_dynamic_part to '/user/hive/export_dir2';

在这里插入图片描述在这里插入图片描述

8、外部表

(1)创建外部表,位置位于’/user/hive/warehouse/titanic_external’,字符之间’,'隔开

CREATE EXTERNAL TABLE titanic_external (
passengerid int,
survived int,
pclass int,
name string,
sex string,
age int,
sibsp int,
parch int,
ticket string,
fare double,
cabin String,
embarked String
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LOCATION '/user/hive/warehouse/titanic_external';

在这里插入图片描述

(2)载入数据

LOAD DATA INPATH '/train.csv' INTO TABLE titanic_external;

在这里插入图片描述

(3)查看表的结构

DESCRIBE FORMATTED titanic_external;

在这里插入图片描述

9、DDL操作

①显示表名t的数据表

在这里插入图片描述

②将数据库中titanic_external表的名字改为titanic_ex;

在这里插入图片描述在这里插入图片描述

③删除数据表titanic_ex;

DROP TABLE titanic_ex;

在这里插入图片描述

10、查询插入

所有年龄大于等于 20 岁的乘客数据插入到另一个表 titanic_cc中

INSERT INTO TABLE titanic_cc
SELECT *
FROM titanic_external
WHERE Age >= 20;

在这里插入图片描述
在这里插入图片描述

11、分组过滤排序查询

(1)过滤查询(WHERE):查询所有幸存下来的男性乘客。

SELECT *   FROM tidanic   WHERE sex = 'male' AND survived = 1;

在这里插入图片描述
在这里插入图片描述

(2)分组查询(GROUP BY):按船票等级(pclass)统计乘客数。

SELECT pclass, COUNT(*) AS num_passengers   FROM tidanic   GROUP BY pclass;

在这里插入图片描述

在这里插入图片描述

(3)排序查询(ORDER BY):按船票费用(fare)从高到低排序乘客。

SELECT *   FROM tidanic   ORDER BY fare DESC;

在这里插入图片描述在这里插入图片描述

(4)组合过滤、分组和排序:查询所有幸存下来的女性乘客,并按年龄(age)从低到高排序。

SELECT *   FROM tidanic   WHERE sex = 'female' AND survived = 1   ORDER BY age ASC;

在这里插入图片描述
在这里插入图片描述

(5)内置函数 - 数学函数:计算乘客年龄的标准差。

SELECT STDDEV(Age) AS age_stddev
FROM tidanic;

在这里插入图片描述
在这里插入图片描述

(6)内置函数 - 条件函数: 使用CASE语句将乘客分为成年人和未成年人,并计算各自的数量。

SELECT
    SUM(CASE WHEN Age >= 18 THEN 1 ELSE 0 END) AS adult_count,
    SUM(CASE WHEN Age < 18 THEN 1 ELSE 0 END) AS minor_count
FROM tidanic;

在这里插入图片描述在这里插入图片描述

12、抽样查询

从tidanic中随机选择大约10%的行

SELECT *  

FROM tidanic  

TABLESAMPLE(BUCKET 1 OUT OF 10 ON RAND()) s;

在这里插入图片描述
在这里插入图片描述

13、事务表

开启事务

set hive.support.concurrency = true; 
set hive.enforce.bucketing = true;
set hive.exec.dynamic.partition.mode = nonstrict; 
set hive.txn.manager = org.apache.hadoop.hive.ql.lockmgr.DbTxnManager; 
set hive.compactor.initiator.on = true; 
set hive.compactor.worker.threads = 1; 

在这里插入图片描述

创建表

CREATE TABLE titanic_transactional (  

passengerid int,
survived int,
pclass int,
name string,
sex string,
age int,
sibsp int,
parch int,
ticket string,
fare double,
cabin String,
embarked String

)  

STORED AS ORC  

TBLPROPERTIES ('transactional'='true');

在这里插入图片描述

从原表把数据插入事务表

INSERT INTO TABLE titanic_transactional  

SELECT * FROM  tidanic;

在这里插入图片描述在这里插入图片描述

更新所有年龄大于60的乘客的survived字段为0(表示未幸存)

UPDATE titanic_transactional   SET survived = 0   WHERE age > 60;

在这里插入图片描述

SELECT * FROM titanic_transactional WHERE age < 20;

在这里插入图片描述

删除所有年龄小于20的乘客记录

DELETE FROM titanic_transactional WHERE age < 20;

在这里插入图片描述

SELECT * FROM titanic_transactional WHERE age < 20;

在这里插入图片描述

分析与总结:

使用python把筛选出的数据进行数据分析可得到如下
在这里插入图片描述在这里插入图片描述

在这里插入图片描述

  • 女性幸存率约为75%,远高于男性的20%左右。这表明在紧急情况下,女性更容易得到救援。
  • 头等舱乘客的幸存率最高,达到了63%,而三等舱乘客的幸存率最低,仅为24%。这表明社会地位和经济条件对幸存率有显著影响。
  • 在各个船舱等级中,女性的幸存率均高于男性。然而,头等舱男性的幸存率仍然高于三等舱女性的幸存率,这进一步强调了社会地位对幸存率的重要性。
  • 与家人同行的乘客往往更容易幸存,因为他们可以相互帮助和照顾。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1928192.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python PDF文件的加密和水印处理使用详解

概要 在日常工作中,处理PDF文件是非常常见的需求。为了保护PDF文件的内容,我们可能需要对其进行加密。同时,为了防止文件被未经授权的复制和使用,添加水印也是一种有效的方法。本文将详细介绍如何使用Python对PDF文件进行加密和添加水印的操作,包含详细的示例代码,帮助全…

Hadoop-30 ZooKeeper集群 JavaAPI 客户端 POM Java操作ZK 监听节点 监听数据变化 创建节点 删除节点

章节内容 上节我们完成了如下的内容&#xff1a; ZK创建节点&#xff1a;永久、顺序、临时ZK读取节点&#xff1a;列出、查看、更新ZK删除节点 背景介绍 这里是三台公网云服务器&#xff0c;每台 2C4G&#xff0c;搭建一个Hadoop的学习环境&#xff0c;供我学习。 之前已经…

Ti_MSPM0开发环境搭建(keil版本)

一&#xff1a;基础软件下载 开发MSPM0的软件组合方式有很多&#xff0c;但是最常见的就是keilsysSDK或者CCSsysSDK,这里先明确一下几个软件是干什么的&#xff0c;SDK文件里面提供了Ti的案例&#xff0c;驱动等我们可以理解为他的开发环境都是基于SDK的所以这个SDK是必须要下载…

图像边缘检测中Sobel算子的原理,并附OpenCV和Matlab的示例代码

Sobel算子是一种用于图像边缘检测的离散微分算子。它结合了图像的平滑处理和微分计算&#xff0c;旨在强调图像中强度变化显著的区域&#xff0c;即边缘。Sobel算子在图像处理中被广泛使用&#xff0c;特别是在计算机视觉和图像分析领域。 Sobel算子的原理 Sobel算子主要用于计…

R包:TreeAndLeaf二分类树构建R包

介绍 树形图显示了二叉树&#xff0c;重点是表示树元素之间的层次关系。树状图包含节点、分支(边)、根和叶。根是分支和节点的来源&#xff0c;指示到叶的方向&#xff0c;即终端节点。 树形图布局的大部分空间用于排列分支和内部节点&#xff0c;留给叶子的空间有限。对于大…

macOS 安装软件提示 “已损坏,无法打开。 您应该将推出磁盘映像” 或 “已损坏,无法打开。 您应该将它移到废纸篓”,解决办法

本文以 Pulsar Assistant 软件为例进行介绍&#xff0c;Redisant 系列的其他软件同理&#xff0c;只需要根据不同软件修改下面命令中的软件名即可。 在 macOS 系统上安装 下载最新的.dmg包&#xff0c;双击打开安装程序&#xff0c;将软件拖动到下方的程序目录即可。 安装时报…

【问题记录】配置mongodb副本集实现数据流实时获取

配置mongodb副本集实现数据流实时获取 前言操作步骤1. docker拉取mongodb镜像2. 连接mongo1镜像的mongosh3. 在mongosh中初始化副本集 前言 由于想用nodejs实现实时获取Mongodb数据流&#xff0c;但是报错显示需要有副本集的mongodb才能实现实时获取信息流&#xff0c;因此特此…

矿产资源潜力预测不确定性评价

研究目的&#xff1a; 不确定性评估&#xff1a; 到底什么叫不确定性&#xff0c;简单来说就是某区域内的矿产资源量&#xff0c;并不确定到底有多少&#xff0c;你需要给出一个评估或者分布。 研究方法&#xff1a; 1.以模糊集来表示某些量&#xff1a; 关于什么是模糊集&am…

ElementUIV12相关使用方法

今日内容 零、 复习昨日 零、 复习昨日 一、Element UI Element&#xff0c;一套为开发者、设计师和产品经理准备的基于 Vue 2.0 的桌面端组件库 官网&#xff1a; https://element.eleme.cn/#/zh-CN Element Plus,基于 Vue 3&#xff0c;面向设计师和开发者的组件库 官网: htt…

MySQL-高可用

目录 高可用 Mysql的主从复制的过程是怎样的&#xff1f; MySQL提供了几种复制模式? 默认的复制模式是什么? 主从同步延迟的原因 MySQL主从复制的数据延迟怎么解决? MySQL主从架构中&#xff0c;读写分离怎么实现? MySQL主库挂了怎么办? 什么是分库分表? 什么时候…

CentOS 7 Web面板的文件管理器说明

在使用CentOS 7 Web Panel&#xff08;CWP7&#xff09;时&#xff0c;偶尔要求在服务器曲面上修改&#xff0c;创建&#xff0c;编辑或删除文件。 最简单&#xff0c;最直接的方式是通过利用CWP7的内置文件管理器。 本文将详细介绍如何启动它&#xff0c;使用它&#xff0c;以…

CentOS安装双版本MySQL

CentOS安装双版本MySQL 一、下载mysql二、检查服务器是否安装过mysql三、卸载CentOS7自带的mariadb四、创建mysql用户和用户组五、安装mysql57 (第一个)六、安装mysql8 (第二个) 一、下载mysql 本文以5.7.31和8.0.38为例 去官网下载 压缩包 https://dev.mysql.com/downloads/my…

uniapp 微信小程序根据后端返回的文件链接打开并保存到手机文件夹中【支持doc、docx、txt、xlsx等类型的文件】

项目场景&#xff1a; 我们在使用uniapp官方提供的uni.downloadFile以及uni.saveFile时&#xff0c;会发现这个文件下载的默认保存位置和我们预想的不太一样&#xff0c;容易找不到&#xff0c;而且没有提示&#xff0c;那么我们就需要把文件打开自己保存并且有提示保存到哪个…

如何构建全生命周期的安全体系架构来确保容器的安全?

容器技术在云原生应用和微服务架构中得到了广泛应用&#xff0c;其轻量、灵活和高效的特点使其成为现代IT环境中的重要工具。然而&#xff0c;尽管容器带来了许多优势&#xff0c;但其安全性问题也不容忽视。接下来跟随博主一起探索如何构建全生命周期的安全体系架构以确保容器…

<数据集>钢索缺陷检测数据集<目标检测>

数据集格式&#xff1a;VOCYOLO格式 图片数量&#xff1a;1318张 标注数量(xml文件个数)&#xff1a;1318 标注数量(txt文件个数)&#xff1a;1318 标注类别数&#xff1a;3 标注类别名称&#xff1a;[break, thunderbolt] 序号类别名称图片数框数1break7678222thunderbo…

【HarmonyOS】HarmonyOS NEXT学习日记:一、创建和运行一个页面

【HarmonyOS】HarmonyOS NEXT学习日记&#xff1a;一 DevEco Studio下载与安装 直接到官网的下载地址下载即可 正常下载、解压、安装完成后 正常来说不会有项目&#xff0c;并且是英文界面。 需要汉化的话可以按照下面的步骤设置插件 选择customize里的 all setting 进入…

在 electron+vite+vue3+express 项目中使用better-sqlite3

文章目录 一、安装 electron-rebuild 和 better-sqlite3二、使用 electron-rebuild 重建 Node.js 模块三、better-sqlite3 的基本使用四、打包五、参考资料 一、安装 electron-rebuild 和 better-sqlite3 yarn add -D electron-rebuild yarn add better-sqlite3Electron 内置的…

【Android安全】Ubuntu 下载、编译 、刷入Android-8.1.0_r1

0. 环境准备 Ubuntu 16.04 LTS&#xff08;预留至少95GB磁盘空间&#xff0c;实测占94.2GB&#xff09; Pixel 2 XL 要买欧版的&#xff0c;不要美版的。 欧版能解锁BootLoader、能刷机。 美版IMEI里一般带“v”或者"version"&#xff0c;这样不能解锁BootLoader、…

Pycharm与Gitlab交互

环境准备 1、下载配置好本地Git 2、配置Pycharm上的Git 3、gitlab账号 Gitlab配置 Gitlab配置中文 账号》设置》偏好设置》简体中文 创建项目 命令行操作 打开项目会展示以下步骤 在pycharm克隆gitlab的项目 通过菜单栏 1、在PyCharm的顶部菜单栏中&#xff0c;选择“V…

uniapp字符串转base64,无需导入依赖(多端支持)

使用示例 import { Base64Encode, Base64Decode } from "@/utils/base64.js" base64.js const _keyStr = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/=";export const Base64Encode = (text)