Hadoop综合项目——二手房统计分析(Hive篇)

news2024/11/18 5:26:51

Hadoop综合项目——二手房统计分析(Hive篇)

文章目录

  • Hadoop综合项目——二手房统计分析(Hive篇)
    • 0、 写在前面
    • 1、Hive统计分析
      • 1.1 本地数据/HDFS数据导入到Hive
      • 1.2 楼龄超过20年的二手房比例
      • 1.3 四大一线城市各楼层地段的平均价格
      • 1.4 采光较好的二手房比例
      • 1.5 二手房面积大小各个区间的比例
      • 1.6 各大宣传标签的二手房占比
      • 1.7 统计四大一线城市二手房关注人数
      • 1.8 四大一线城市二手房规格比例
    • 2、数据及源代码
    • 3、总结


在这里插入图片描述


0、 写在前面

  • Windows版本:Windows10
  • Linux版本:Ubuntu Kylin 16.04
  • JDK版本:Java8
  • Hadoop版本:Hadoop-2.7.1
  • Hive版本:Hive1.2.2
  • IDE:IDEA 2020.2.3
  • IDE:Pycharm 2021.1.3
  • IDE:Eclipse3.8

1、Hive统计分析

使用Hive做了7个不同的统计分析,更好地展示二手房的情况

1.1 本地数据/HDFS数据导入到Hive

先创建数据库db_ke_house以及表tb_ke_house,再从HDFS导入数据

hive> create database if not exists db_ke_house;
OK
Time taken: 0.163 seconds
hive> use db_ke_house;
OK
hive> create table if not exists tb_ke_house (
    > id int,
    > city string,
    > title string,
    > houseInfo array<string>,
    > followInfo array<string>,
    > positionInfo string,
    > total int,
    > unitPrice double,
    > tag string,
    > crawler_time timestamp
    > )
    > row format delimited fields terminated by '\t'
    > collection items terminated by '|';
OK
Time taken: 0.061 seconds
hive> load data inpath '/Ke_House/tb_house.txt' into table tb_ke_house;
Loading data to table db_ke_house.tb_ke_house
Table db_ke_house.tb_ke_house stats: [numFiles=1, totalSize=3385429]
OK
Time taken: 0.223 seconds

查看表数据

hive> select * from tb_ke_house limit 5;

tp

1.2 楼龄超过20年的二手房比例

  • 分析目的:

楼龄的长短是顾客是否购买房子的决定因素之一,楼龄越短,房子越新,顾客购买的欲望也越大。

  • 代码:
with t1 as (
select city, count(city) totalcnt from tb_ke_house where array_contains(houseinfo, "未透露年份建") = false group by city
), t2 as (
select city, 2022 - cast(substring(houseinfo[2],0,length(houseinfo[2])-2) as int) as ycnt 
from tb_ke_house where houseinfo[2] != "未透露年份建"
), t3 as (
select city, count(ycnt) as cnt from t2 where ycnt >= 20 group by city
)
select t1.city, cnt / totalcnt rate from t1 join t3 on t1.city = t3.city group by t1.city, cnt, totalcnt;
  • 运行情况:

tp1

在这里插入图片描述

  • 结果:

在这里插入图片描述

1.3 四大一线城市各楼层地段的平均价格

  • 分析目的:

价格是顾客心中最重要的一个因素,也是顾客是否购买房子的决定因素之一,性价比好的房子,顾客购买欲望可能更大。

  • 代码:
select city,layer, avg(total/size) from (
select city,houseinfo[0] layer,cast(substring(houseinfo[4],0,length(houseinfo[4])-2) as int) as size, total from tb_ke_house 
) t
group by city,layer;
  • 运行情况:

    在这里插入图片描述

  • 结果:

tp

1.4 采光较好的二手房比例

  • 分析目的:

阳光是否充同样是顾客心中最重要的一个因素,采光好的房源,顾客更倾向于购买。

  • 代码:
with t1 as 
select city, sum(if (title regexp('.*采光.*') = true, 1, 0)) cnt1 from tb_ke_house group by city
), t2 as (
select city, count(city) totalcnt from tb_ke_house group by city
)
select t1.city, cnt1/totalcnt rate1 from t1 join t2 on t1.city = t2.city roup by t1.city, cnt1, totalcnt;
  • 运行情况:
    在这里插入图片描述

tp2

  • 结果:

tp

1.5 二手房面积大小各个区间的比例

  • 分析目的:

顾客对于房子的大小各有不同,为了更好满足顾客要求,面积大小的统计展示是必不可少的。

  • 代码:
with t2 as (
select city, size,
case when size < 100 then '<100'
when size < 200 then '100~200'
when size < 300 then '200~300'
when size < 500 then '300~500'
else 'other' 
end sizerange
from (
select id, city, substring(houseInfo[4], 0, length(houseinfo[4]) - 2) as size from tb_ke_house
) t1
), t3 as (
select city, count(city) totalcnt from tb_ke_house group by city
)
select t2.city, sizerange, count(sizerange)/totalcnt as rate from t2 join t3 on t2.city = t3.city
group by t2.city, sizerange,totalcnt
  • 运行情况:
    tp1

    tp2

  • 结果:

    tp

1.6 各大宣传标签的二手房占比

  • 分析目的:

吸引顾客购买的一大来源便是房子的优势,好的宣传标签可以促进房子的销量。

  • 代码:
with t1 as (
select city, count(city) totalcnt from tb_ke_house group by city
), t2 as (
select city, count(tag) cnt, if(tag != '', tag, "未知标签") as newTag
from tb_ke_house group by city, tag
)
select t2.city, newTag, cnt / totalcnt as rate from t2 join t1 on t2.city = t1.city
group by t2.city, newTag,cnt, totalcnt
  • 运行情况:

在这里插入图片描述

在这里插入图片描述

  • 结果:

在这里插入图片描述

1.7 统计四大一线城市二手房关注人数

  • 分析目的:

房子的关注数可以体现出顾客此段房源的热爱程度,有利于开发商合理规划房源。

  • 代码:
select city, sum(size) from (
select city, cast(substring(followinfo[0], 0, length(followinfo[0]) - 3) as int) as size
from tb_ke_house
)t
group by city
  • 运行情况:

在这里插入图片描述

  • 结果:

tp

1.8 四大一线城市二手房规格比例

  • 分析目的:

房子规格大小直接影响到顾客对于房源的好感度,合理的规格可以促进顾客的购买欲望。

  • 代码:
with t1 as (
select city, count(city) totalcnt from tb_ke_house group by city
), t2 as (
select city, houseinfo[3] as scale, count(houseinfo[3]) as size
from tb_ke_house group by city, houseinfo[3]
)
select t2.city, scale, size / totalcnt as rate from t1 join t2 on t1.city = t2.city
group by t2.city, scale, size, totalcnt
  • 运行情况:

    tp1

    tp2

  • 结果:

在这里插入图片描述

在这里插入图片描述

tp3

在这里插入图片描述

2、数据及源代码

  • Github

  • Gitee

3、总结

Hive统计分析过程最主要是HQL语句的正确编写,HQL语法和SQL语法不太一样,需要注意两者之间的差别,总体来说,难度并不高,一步一步来是可以顺利实现的。

结束!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/111361.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

没有基础转行学编程,靠谱吗?能找到工作吗?

在日常生活中&#xff0c;以及在知乎上&#xff0c;有很多人咨询职业生涯的抉择。他们大都对自己的职业现状不满意&#xff0c;打算学习编程成为一名程序员。 为什么想要做程序员&#xff1f; 答案五花八门&#xff0c;其中「工资高」「好找工作」「有职业发展」是很常见的理由…

代码质量管理平台实战| SonarQube 安装、配置及 JaCoCo、Maven 集成

SonarQube 是一个用于代码质量管理的开源平台&#xff0c;用于管理源代码的质量。同时 SonarQube 还对大量的持续集成工具提供了接口支持&#xff0c;可以很方便地在持续集成中使用 SonarQube。此外&#xff0c; SonarQube 的插件还可以对 Java 以外的其他编程语言提供支持&…

请求量太大扛不住怎么办?进来学一招

hello&#xff0c;大家好呀&#xff0c;我是小楼。 上篇文章《一言不合就重构》 说了我最近重构的一个系统&#xff0c;虽然重构完了&#xff0c;但还在灰度&#xff0c;这不&#xff0c;在灰度过程中又发现了一个问题。 背景 这个问题简单说一下背景&#xff0c;如果不明白…

数据结构之排序【直接插入排序和希尔排序的实现及分析】

引言&#xff1a; 今天天气还是依然的冷&#xff0c;码字越来越不容易了&#xff0c;本来上次写了一个比较好的引言&#xff0c;但是因为电脑第二天没电&#xff0c;并且我没有保存&#xff0c;现在找不到了&#xff0c;所以今天我们的引言就这样吧&#xff01;今天给大家介绍…

Zookeeper 4 Zookeeper JavaAPI 操作 4.3 Curator API 常用操作【添加节点】

Zookeeper 【黑马程序员Zookeeper视频教程&#xff0c;快速入门zookeeper技术】 文章目录Zookeeper4 Zookeeper JavaAPI 操作4.3 Curator API 常用操作4.3.1 添加节点4 Zookeeper JavaAPI 操作 4.3 Curator API 常用操作 4.3.1 添加节点 直接开始编写 测试方法 先写一下&a…

Web入门开发【五】- 线上部署

欢迎来到霍大侠的小院&#xff0c;我们来学习Web入门开发的系列课程。 首先我们来了解下这个课程能学到什么&#xff1f; 1、你将可以掌握Web网站的开发全过程。 2、了解基础的HTML&#xff0c;CSS&#xff0c;JavaScript语言。 3、开发自己的第一个网站。 4、认识很多对编…

南卡与JBL蓝牙耳机哪款比较好?数码资深玩家带你深度评测了解

马上到来2023新的一年&#xff0c;不会还有人使用传统有线耳机吧&#xff1f;那你就属最落后的那位了&#xff0c;随着生活水平的提高&#xff0c;科技的快速发展&#xff0c;有线耳机逐渐被真无线蓝牙耳机所取代。现在走在马路上都能看见许多人佩戴着耳机&#xff0c;然而&…

机器学习 | 朴素贝叶斯

一.基本原理 基于条件独立的假设&#xff0c;先计算输入和输出的联合概率密度&#xff0c;然后根据所输入的x计算y的概率&#xff0c;然后选择具有最大后验概率的类作为它的类别 二.优缺点 优点 小规模数据集表现好&#xff0c;适合多分类对于在小数据集上有显著特征的相关对…

Scikit-network-02:载图

载图 在Scikit网络中&#xff0c;图形由其scipy的压缩稀疏行格式中的邻接矩阵&#xff08;或二部图矩阵&#xff09;表示。在本教程中&#xff0c;我们提供了一些方法来实例化此格式的图。 from IPython.display import SVGimport numpy as np from scipy import sparse impo…

SQL注入渗透与攻防(九)之布尔盲注

目录 1.什么是布尔盲注&#xff1f; 2.如何进行布尔盲注&#xff1f; 案列演示&#xff1a; 1.什么是布尔盲注&#xff1f; Web的页面的仅仅会返回True和False。那么布尔盲注就是进行SQL注入之后然后根据页面返回的True或者是False来得到数据库中的相关信息。 我们这里拿sql…

15Python文件操作

文件处理 01. 文件的概念 1.1 文件的概念和作用 计算机的 文件&#xff0c;就是存储在某种 长期储存设备 上的一段 数据长期存储设备包括&#xff1a;硬盘、U 盘、移动硬盘、光盘… 1.2 文件的存储方式 在计算机中&#xff0c;文件是以 二进制 的方式保存在磁盘上的 文本…

论文理解--DEEP COMPRESSION

原文链接&#xff1a; https://github.com/mit-han-lab/amc/security https://zhuanlan.zhihu.com/p/108096347 https://zhuanlan.zhihu.com/p/510905067 摘要 结论&#xff1a; 1、deep compression:由三阶段pipeline组成&#xff1a;pruning(剪枝)、 trained quantilization…

452页24万字智慧城市顶层设计及智慧应用解决方案

智慧城市总体设计 2.1 智慧城市核心技术 2.1.1 物联网 智慧城市是一个有机结合的大系统&#xff0c;涵盖了更透切的感知、更全面的互连&#xff0c;更深入的智能。物联网是智慧城市中非常重要的元素&#xff0c;它侧重于底层感知信息的采集与传输&#xff0c;城市范围内泛在网方…

无需调用Tecplot,PFC后处理技巧为你plot精美科研图

导读&#xff1a;PFC提供了非常美观的可视化处理的窗口—plot&#xff0c;用户可以在这里对模型的运行状态进行检查&#xff0c;也可以将Plot中的视图输出进行处理。一般来说plot中的图片质量足够用于常规的论文配图&#xff0c;当然用户也可以导出数据到tecplot中进行后处理&a…

【UE4 第一人称射击游戏】08-使用“AK47”发射子弹

上一篇&#xff1a; 【UE4 第一人称射击游戏】07-添加“AK47”武器 本节效果&#xff1a; 步骤&#xff1a; 1.在“Blueprints”文件夹内添加一个Actor蓝图&#xff0c;命名为“Projectile_Base”&#xff0c;该蓝图用于表示子弹 双击打开“Projectile_Base”&#xff0c;添加…

期货开户的身份识别验证

无论你是开通商品期货、原油期货还是股指期货以及期权&#xff0c;现在都支持网上办理&#xff01;原油期货和股指期货以及期权品种都是在商品期货账户的基础上满足条件后再另外开通交易权限。叁格期权小编在这里为各位投资者详细介绍商品期货网上开户流程。 一、开户前准备 …

文件透明加密,保护重要数据的安全性

各种泄露事件使人们对信息安全问题的高度关注&#xff0c;随着加密技术的不断完善&#xff0c;主流透明加密技术被广泛应用于企业加密软件中。那么&#xff0c;这个技术如何保护电脑&#xff1f;有什么优点&#xff1f; 文件透明加密是最近几年发展出来的一种文件加解密技术。所…

RK3568平台开发系列讲解(工具命令篇)vim 编辑器的使用

🚀返回专栏总目录 文章目录 一、vim 编辑器有三种模式二、vim 编辑器移动光标三、vim 编辑器支持快速定位四、vim 编辑器的文本的复制和粘贴五、vim 编辑器使用快捷键来复制六、vim 编辑器的删除七、vim 编辑器的撤销八、vim 编辑器的查找九、vim 编辑器的替换十、vim 编辑器…

四、GradCAM可解释性分析——可解释性机器学习(DataWhale组队学习)

目录CAM算法回顾CAM算法流程CAM算法的精妙之处CAM算法的缺点GradCAMGrad-CAM算法的优点&#xff1a;Grad-CAM算法的缺点&#xff1a;Grad-CAM算法的改进Grad-CAM算法Score-CAM算法LayerCAM算法总结CAM算法回顾 CAM算法流程 输入原始图像&#xff0c;经过多层无池化的全卷积神经…

23种设计模式:单例设计模式(饿汉式 VS 懒汉式)

23种设计模式&#xff1a;单例设计模式&#xff08;饿汉式 VS 懒汉式&#xff09; 每博一文案 世事浮沉&#xff0c;有太多的责任需要我们担当&#xff0c;生活中总有些挫折和磨难&#xff0c;让我们觉得快要杠不住了。 但当我们咬牙坚持过那段难熬的时光后&#xff0c;发现并…