【大数据实训】基于赶集网租房信息的数据分析与可视化(七)

news2025/1/16 17:54:33

温馨提示:文末有 CSDN 平台官方提供的博主 的联系方式,有偿帮忙部署

基于赶集网租房信息的数据分析与可视化

一、实验环境

(1)Linux: Ubuntu 16.04
(2)Python: 3.6
(3)Hadoop:3.1.3(4)Spark: 2.4.0(5)Web框架:flask 1.0.3
(6)可视化工具:Echarts
(7)开发工具:Visual Studio Code

二、小组成员及分工

(1)成员:林xx,xxx,xxx

(2)分工:xxx负责xxxx部分,xxx负责xxxx部分,xxx负责xxxx部分。

三、数据采集

3.1数据集说明

爬取网站:http://xm.ganji.com/zufang/pn1/。是赶集网的厦门房产的租房信息网站。数据文件:ganji_rent1.csv。其中包含了1504条与租房信息有关的数据。

数据格式为:

img

图 3. 1 采集数据格式

数据中包含的内容如下:
(1)name: 房源的标题
(2)house_type: 房源的类型

(3)Area: 房源的面积(m²)
(4)direction: 房源的朝向
(5)renovation: 房源的装修程度
(6)price: 房源的月租(元/月)

(7)location:: 房源所处位置

3.2.爬取数据集以及将其保存到本地E盘文件中的流程

(1)选取所需要爬取的页面进行遍历爬取

(2)通过正则表达式抓取所需要的数据

(3)将爬取出的数据转化为dataframe格式并保存为csv文件存放在E盘

四、数据清洗与预处理

五、spark数据分析

5.1 数据分析目标

本文对音乐专辑数据集ganji_rent1.csv进行了一系列的分析,包括:
(1)房源的房租分布情况。(观察月租价格大体集中在哪个分段,得出月租趋势)
(2)房源的朝向分布情况。(观察房源的基本朝向,得出最佳朝向)
(3)房源的区域分布情况。(观察哪些区域房源多)

(4)房源的房型分布情况。(观察哪种房型数量最多)

(5)房源的面积分布情况。(观察面积大体集中在哪个分段)

(6)房源的装修程度分布情况。(观察房源最基本装修程度)

(7)不同区域的租价分布情况。(观察月租价格大体集中在哪个分段)

(8)热门房源标题词云展示。(观察最热门的标题,得出标题最好应具备的元素)

六、数据可视化

本实验的可视化基于Echarts实现。

6.1.可视化环境

利用和鲸社区虚拟环境进行可视化操作,最后的代码结构如下。

6.2 图表展示与结论分析

(1)通过统计房源的房租分布情况进行数据可视化图表分析

img

图 6.2.1 房租分布情况

分析结论:通过这个图可以看出月租大体集中在3004500这里,这也说明大部分租房的人租房都会租相对便宜的,比如3002300这里,所以相对的月租便宜的房源也就多,而月租4500以上的房源因为租的人少,所以相对的房源也就少了。虽然数据量很少,但从这也可看300~4500的房源数量有1290,而4500以上的房源只有214,前者时后者的6倍有余,从这我们也可大胆推测,我国中底层收入人数,是中高层收入的6倍左右。

(2)通过统计房源的朝向分布情况进行数据可视化图表分析

img

图 6.2.2 朝向分布情况

分析结论:通过这个图我们可以看出朝向绝大部分都是南向或者南北向,或者是跟南、北有关的,这也反映了我国房子基本都是“坐北朝南”的。因为我国地处北温带,这样以便于采光通风。这也就是所谓的“南北通透”。

所以:①如果你是租房人想要房间采光透气好,就租南北向的房子,这种房源也比较多也好租到;②如果你是出租房源的人,你的房源最好是要南北向的,这样你的价格也可以租的相比于其他方向的房源的价格高。

(3)通过统计房源的区域分布情况进行数据可视化图表分析

img

图 6.2.3_1 区域分布情况

img

图 6.2.3_2 区域分布情况

分析结论:通过这两个图我们可以看出大部分房源都集中在县后,滨海社区,孙板路,高新技术园,软件园等,这些地方都有一些共同的特征,如:附近交通便利,靠近工作区,离相对的市中心有点距离等等。而环岛路等地的房源就相对较少,这也说明虽然那附近的风景优美,但是交通不够便利,只有享受生活的人才会租这些地方,而享受生活的人,大部分也都是有钱了,他们也不会租,他们是直接就买了住了,所以这些地方的房源就相对较少。

所以:①如果你是租房人,你想要租房就可以结合自己工作的地方然后多往县后,滨海社区,孙板路,高新技术园,软件园等这几个地点考虑,这些地点房源多,出行也便利;②如果你是出租房源的人,你就可以多购进这县后,滨海社区,孙板路,高新技术园,软件园等几个地点的房源,这样也会相对其他地方比较好出售。

(4)通过统计房源的房型分布情况进行数据可视化图表分析

img

图 6.2.4 房型分布情况

分析结论:通过这个图我们可以看出大部分房源都是1室的,这也说明现在租房的人大部分都是打工人,他们基本都是独自一人出来工作,就算是两三人结伴,也基本会一室的房子挤一挤就好,他们在考虑价格方面都会多于房子环境。

所以:①如果你是租房人,你经济不允许的话租一室的就好了,这样也能让你省下不少的房租费,绝大部分人都是如此过来的。②如果你是出租房源的人,在相对靠近集中的工作区的地方,你就可以多购进一室的房源,因为这些地方对于一室的房源需求量大。而在相对靠近市中心的地方,你就可以多购进2室或以上的房源,因为在这些地方租房的人会比较在意房源的环境跟户型。

(5)通过统计房源的面积分布情况进行数据可视化图表分析

img

图 6.2.5 面积分布情况

分析结论:通过这个图我们可以看出50%左右的房源的面积都是在45m²以下,这就跟上面4)的房型分布相呼应了。也侧面说明了50%左右的租房人是比较不在意房子环境,而比较在意价格的。

(6)通过统计房源的装修程度分布情况进行数据可视化图表分析

img

图 6.2.6 装修程度分布

分析结论:通过这个图我们可以看出房源的装修程度几乎都是精装修。而毛胚房只有个位数。所以:如果你是出租房源的人,你就应该至少把你的房源简单装修,最好是精装修,虽然这样要花钱,但是你的竞争力也会更大,回本也会更快。

(7)通过统计不同区域的租价分布情况进行数据可视化图表分析

img

图 6.2.7 不同区域的租价分布

分析结论:因为是经过排序的原因,所以数量基本上分布在左边,所以热力图的左边颜色较深,这也说明了我本身获取的数据量不足,才会导致热力图大部分颜色都很淡。通过图7.1我们可以看出县后、软件园、高新技术产业园,高崎的房源月租集中在3001300、13002300、2300~4500(因为区域过多,所以很多区域需要在可视化出来的图上用鼠标放在热力图上才可以显示位置。),这也说明了在这些地方附近普通打工人居多,而4500以上的房源集中在滨海社区、环东海域、马銮湾新城、瑞景等,这也说明了这些地方附近相对繁荣热闹、或者环境相对优美。

所以:①你想找简单的工作话可以在县后、软件园、高新技术产业园等附近找,这些地方附近月租便宜,而且房源多,也就说明了这些地方附近工作多。而想在比较热闹的地方租房的话可在马銮湾新城、瑞景、滨海社区等地租房,当然月租也很贵。②如果你是租房人话,你可以多在县后、软件园、高新技术产业园等地购进300~2300的房源,这些地方相对低价月租的房源需求量大,而在滨海社区、环东海域、马銮湾新城、瑞景等地就应该购进环境好的房型大的房源。

(8)通过统计热门房源标题进行数据可视化图表分析

img

图 6.2.8 热门房源标题词云展示

分析结论:通过这个图我们可以看出几乎所有房源标题都会把他们的卖点贴出来,比如几室几厅,位于的地点,装修程度等,这就跟我们日常看到新闻一样,他们都会把比较吸引眼球的点贴出来。

所以:①如果你是租房人,就算它的标题写的再好,你点进去后一定要仔细看一下其他具体的内容,不要盲目就下单,不然很容易被坑。②如果你是出租房源的人,你一定要把你的优势,比如装修程度,位于的地点贴出来,还有可以贴上低价,豪华装修等字眼吸引租房人,这样你的租房信息的浏览量就会往上增,看的人多了,自然把房子租出去的机会也就大了。

七、心得体会

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1107925.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【算法训练-回溯算法 二】【子集组合问题】子集、组合、子集II、组合总和

废话不多说,喊一句号子鼓励自己:程序员永不失业,程序员走向架构!本篇Blog的主题是【回溯算法】,使用【数组】这个基本的数据结构来实现,这个高频题的站点是:CodeTop,筛选条件为&…

【APP源码】基于Typecho博客程序开发的博客社区资讯APP源码

全新博客社区资讯APP源码 Typecho后端 一款功能全面,用户交互良好,数据本地缓存,集成邮箱验证,在线投稿,(内置Mardown编辑器), 快捷评论的的博客资讯APP。同时兼容H5和微信小程序。 …

基于nodejs+vue学生论坛设计与实现

目 录 摘 要 I ABSTRACT II 目 录 II 第1章 绪论 1 1.1背景及意义 1 1.2 国内外研究概况 1 1.3 研究的内容 1 第2章 相关技术 3 2.1 nodejs简介 4 2.2 express框架介绍 6 2.4 MySQL数据库 4 第3章 系统分析 5 3.1 需求分析 5 3.2 系统可行性分析 5 3.2.1技术可行性:…

python二次开发CATIA:CATIA Automation

CATIA 软件中有一套逻辑与关系都十分严谨的自动化对象,它们从CATIA(Application)向下分支。每个自动化对象(Automation Object,以下简称Object)都有各自的属性与方法。我们通过程序语言调用这些 Object 的属性与方法,便…

spring 资源操作:Resources

文章目录 Spring Resources概述Resource接口Resource的实现类UrlResource访问网络资源ClassPathResource 访问类路径下资源FileSystemResource 访问文件系统资源ServletContextResourceInputStreamResourceByteArrayResource Resource类图ResourceLoader 接口ResourceLoader 概…

【数之道 08】走进“卷积神经网络“,了解图像识别背后的原理

卷积神经网络 CNN模型的架构Cnn 的流程第一步 提取图片特征提取特征的计算规则 第二步 最大池化第三步 扁平化处理第四步 数据条录入全连接隐藏层 b站视频 CNN模型的架构 图片由像素点组成,最终成像效果由背后像素的颜色数值所决定的 有这样的一个66的区域&#x…

数字货币和区块链:跨境电商的未来之革命

随着全球数字化浪潮的不断涌现,跨境电商正经历着前所未有的革命。其中,数字货币和区块链技术被认为是这场革命的关键驱动力。 它们不仅改变了支付方式,还提供了更安全、高效的交易体验,同时也为跨境电商开启了新的商业模式和机会…

nodejs基于vue 学生论坛设计与实现

随着网络技术的不断成熟,带动了学生论坛,它彻底改变了过去传统的管理方式,不仅使服务管理难度变低了,还提升了管理的灵活性。 是本系统的开发平台 系统中管理员主要是为了安全有效地存储和管理各类信息, 这种个性化的平…

static关键字总结-C/C++

引言&#xff1a;由于怕忘记static的一些区别&#xff0c;今天来写一篇文章尽可能的覆盖到static在C/C中的用法和易错点。 第一部分 C中的static 1. static修饰变量 被修饰的变量只能被定义一次&#xff0c;如下代码&#xff0c;n经过循环后仍然还是10。 #include <stdio…

springMVC中统一异常处理@ControllerAdvice

1.在DispatcherServlet中初始化HandlerExceptionResolver 2.controller执行完成后执行processDispatchResult(processedRequest,response,mappedHandler,mv,dispatchException),有异常则处理异常 3.ExcepitonHandlerExceptionResolver中执行方法doResolveHandlerMethodExceptio…

数据结构复盘——第八章:排序

文章目录 第一部分&#xff1a;各种排序方法的比较第二部分&#xff1a;插入排序1、直接插入排序2、折半插入排序3、希尔排序 第三部分&#xff1a;交换排序1、冒泡排序2、快速排序 第四部分&#xff1a;选择排序1、简单选择排序2、堆排序2.1 堆的概念2.2 堆的调整算法2.3 堆的…

计算机网络-计算机网络体系结构-网络层

目录 一、IPV4 IP数据报格式 *IP 数据报分片 *IPV4地址 分类 网络地址转换(NAT) 二、子网划分与子网掩码 *CIDR *超网 协议 ARP协议 DHCP协议 ICMP协议 三、IPV6 格式 IPV4和IPV6区别 地址表示形式 四、路由选择协议 RIP(路由信息协议) OPSF(开发最短路径优…

为什么高精度机器人普遍使用谐波减速器而不是普通减速器?

机器人作为一种能够代替人类完成各种工作的智能设备&#xff0c;已经广泛应用于工业生产、医疗卫生、军事防卫等领域。其中&#xff0c;机器人的关节传动系统是机器人运动的核心&#xff0c;而减速器作为关节传动系统中的重要组成部分部分&#xff0c;对机器人的性能和技术水平…

volatile-两大特性(可见性、有序性)、内存屏障

6.1 被volatile修饰的变量有两大特点 ● 特点&#xff1a;○ 可见性○ 有序性&#xff1a;有排序要求&#xff0c;有时需要禁重排● 内存语义&#xff1a;○ 当写一个volatile变量时&#xff0c;JMM会把该线程对应的本地内存中的共享变量值立即刷新回主内存中○ 当读一个vola…

Zabbix“专家坐诊”第207期问答汇总

问题一 Q&#xff1a;不小心把host表删除了&#xff0c;怎么处理&#xff1f;现在使用的zabbix 4.0.3的server&#xff0c;agent是4.2.1&#xff0c;能不能不动agent的情况下升级server版本&#xff0c;重新部署&#xff1f; A&#xff1a;数据库有备份话恢复即可&#xff0c;…

当下流行的编程语言

在任何时候&#xff0c;一些编程语言都会把大量的开发人员变成热情的布道者&#xff0c;试图说服世界其他地方的人相信它的伟大。 当热起来的时候&#xff0c;这种语言可能会成为行业标准&#xff0c;但其他时候&#xff0c;这种受欢迎程度就会消失。 1、数据的由来 每年Stack…

关于vue2回显表格数据忽略中间空格补全

关于vue2回显表格数据忽略中间空格补全 发现问题解决 发现问题 发现回显数据中间空格忽略 解决 在全局中修改在页面内修改 主要案例主要是在页面内修改 ::v-deep .cell{white-space: pre; }

COMSOL超声换能器聚焦声场仿真

超声聚焦 超声聚焦广泛应用于各类工业设备与技术中&#xff0c;例如我们熟悉的无损检测&#xff08;NDT&#xff09;和医学成像。高强度聚焦超声&#xff08;HIFU&#xff09;是此技术的一项临床应用&#xff0c;它利用探头将大部分能量集中到目标组织区域&#xff0c;使组织发…

uniapp实现简单的九宫格抽奖(附源码)

效果展示 uniapp实现大转盘抽奖 实现步骤&#xff1a; 1.该页面可设置8个奖品&#xff0c;每个奖品可设置中奖机会的权重&#xff0c;如下chance越大&#xff0c;中奖概率越高&#xff08;大于0&#xff09; // 示例代码 prizeList: [{id: 1,image: "https://img.alicdn…

【好书推荐】深入理解现代JavaScript

作者介绍 T. J. Crowder是一位拥有30年经验的软件工程师。在他的整个职业生涯中&#xff0c;他至少有一半时间是在使用JavaScript从事开发工作。他经营着软件承包和产品公司Farsight Software。他经常在Stack Overflow上为人们提供帮助&#xff0c;他是十大贡献者之一和JavaScr…