【优秀python案例】基于python爬虫的深圳房价数据分析与可视化实现

news2024/11/25 0:28:51

现如今,房价问题一直处于风口浪尖,房价的上涨抑或下跌都牵动着整个社会的利益,即便是政府出台各种政策方针也只能是暂时抑制楼市的涨势,对于需要买房的人来说,除了关注这些变化和政策外,还有一个非常头疼的问题,在哪里买房,房价怎样。一般的人会不停花大量精力逛链家、安居客等房地产网站,借助他们展示的内容进行筛选,但因地区众多,各个地段、房价差异的对比以及入手时机的把握,都得自己去一个个查阅与分析,非常麻烦。倘若可以通过数据的爬取,再按照自己希望的维度统计、分析与展示,会让数据变得清晰明了。本项目旨在提取并展示数据,为刚需购房者提供有用信息。

1爬取房价数据

1.1 网页数据爬取

爬取某个网页的房价要查看那个网页的信息,我们爬取链家网站上的深圳二手房,打开链家网页:深圳深圳二手房房源_深圳深圳二手房出售|买卖|交易信息(深圳链家)用F12以页面中元素进行检查

分析html代码,了解页面结构,然后获取你需要爬取内容在html代码中的路径,再稍微做些整理,就可以得到你想要爬取的内容,主要用的是beautifulsoup。我们要爬取深圳各行政区的房价数据,首先在Python里面编辑行政列表。

 

在爬取数据之前,我们需要设置请求头headers信息。包括User-Agent和Cookie。有些网站设置了反爬,因此我们需要让爬虫更好的模仿人类的操作。设置User-Agent可以让网站确定是人们在操作,设置Cookie是为了让浏览器保留我们操作后的信息,增加爬虫几率。具体的爬虫代码如下:

1.2 数据展示与处理

爬取网页中每个房价的字段信息包括位置,总价,每平米价格,面积,几室几厅等等。

爬取的数据,保存在python文件,然后对数据进行展示

因为直接爬取的数据,不能用来分析,还需要对数据进行简单处理,比如,具体信息这个字段包含很多详细的信息,所以要对这个数据信息进行提取,处理后的数据如下图所示。

2. 数据分析与可视化

2.1数据变量

查看数据中每个变量的类型,如下图所示。

查看是否有缺失值,代码如下图所示,可以看到数据中存在缺失数据,我们对缺失的数据用0值填充。

2.2 变量分析与可视化

 在数据分析之前,我们导入必要的库函数,如pandas numpy和matplotlib等工具。

接下来对变量进行查看,对部分数值数据进行展示。

对爬取的数据部分特征进行分析,首先对房子每平米的价格分析,可以看到

均价是在59598元每平方米,最小的价格是10000每平米

   对这个数据画图展示,如下图所示,大部分房子的均价在60000元每平米左右。

对每个行政区的房子均价进行分析,可以看到,福田区的房价是在最高的,南山是第二高,盐田区是第三高的

对每套房屋的总价进行分析,代码如下图所示,可以看到深圳市每套房的均价是626万,最高可达6800多万,通过绘图可以看到,每套房均价在600万和700万附近。

对每个地区的房屋总价进行分析,可以看到南山区的每套房子是最高的,盐田区靠近郊区,所以房价排名最后。

对房屋的建筑时间进行分析,可以看到最早的房子是1981年建造的,最晚是今年2022年建筑的。绝大部分房子基本在2005年建成。

对房屋的面积进行分析,全市的房子的面积在100平方左右。

  对深圳市各个位置的房子出售量进行分析,可以看到南山中心的出售房子是最多的,其次是沙头角、莲塘、蛇口等等地区,如果需要看房可以多去这些地方。

对房子的样式进行分析,绝大部分是塔楼结合或者是塔楼的样式,个别还有别墅出售的,但是数量很少。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1986287.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

工具|阅读PDF时鼠标显示为小手中有向下箭头解决方法

由于工作中,会大量阅读PDF文档,如手册,规格书,各种图纸等,因此好用的PDF工具必不可少。我主要习惯用福昕阅读器,标注比较方便。 所以,本文主要以福昕阅读器为主,当然也适用于其他的阅…

linux文本处理命令:文本搜索工具grep详解

目录 一、概述 二、基本语法 1、语法 2、常用选项 3、获取帮助 三、示例 1. 搜索文件中的字符串 2. 忽略大小写搜索 3. 显示匹配行的行号 4. 反向搜索 5. 递归搜索 6. 使用扩展正则表达式 7. 列出包含匹配项的文件 8. 显示匹配行的上下文 9. 使用正则…

从2013数学建模B题碎纸片拼接问题看递归和迭代思想

目录 1.递归实例说明 2.迭代实例说明 3.迭代思想在碎纸片拼接赛题的运用 1.递归实例说明 斐波那契数列可以使用递归,也可以使用数列的通项公式,但是这个地方建议使用数列的通项公式,因为这个递归的深度过大这个结果很难运行出来&#xff1…

使用WebDAV共享本地文件,轻量易用

特征: 使用 Golang 实现,性能极高。 最终编译成单个二进制文件,不需要 Apache 或类似的环境,依赖性很少。 支持浏览器访问。 可以在同一个端口上启用多个 WebDAV 服务,每个服务具有不同的挂载目录、用户名和密码。 良好…

嵌入式day20

feof: 检测文件是否到达结尾 ferroe: 检测文件是否发生错误 标准IO之文件定位 fseek() SEEK_END 指向最后一个字节的后一个,继续加,写文件,会将文件扩大 ftell() 获取…

STM32学习笔记1---LED,蜂鸣器

目录 GPIO LED 蜂鸣器 RCC外设 GPIO外设 总概 操作STM32的GPIO 代码 LED闪烁 LED流水灯 蜂鸣器! 连接方式 GPIO GPIO输出:向外驱动控制 GPIO输入:读取,捕获(信息)(控制&#xff09…

状压DP,abc359_d - Avoid K Palindrome

一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 D - Avoid K Palindrome 二、解题报告 1、思路分析 数据量:N:1000,K:10 提示我们状态压缩 我们发现长度为K的字符串,我们可以用0表示A&#xff…

vue2项目如何引入element组件库以及如何使用element组件库

目录 一、创建项目二、进入项目1、先进入项目,![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/a1ce9d928fdb4b5d85e6612f458a33db.png)2、路径栏输入cmd,然后回车3、输入code . ,然后回车 三、项目启动1、查看启动指令2、启动项目 …

VMwave安装Ubuntu20.04超详细图文教程(附VMwave17.5安装包)

VMwave安装 Ubuntu20.04 超详细图文教程 一、VMwave安装 官网下载 网盘下载 二、Ubuntu下载 三、Ubuntu20.04安装 四、安装VMwave tools 五、更改Ubuntu软件源 注:写教程的时候博主用的是VMware Workstation pro 17(VM17.5) 一、VMwave安装 以下我提供两…

常见中间件漏洞(一、Tomcat合集)

目录 一.Tomcat Tomcat介绍 1.1 CVE-2017-12615 影响范围 环境搭建 漏洞复现 1.2 后台弱口令部署war包 漏洞原理 影响版本 环境搭建 1.3 CVE-2020-1938 漏洞原理 影响版本 环境搭建 漏洞复现 一.Tomcat Tomcat介绍 tomcat是一个开源而且…

clion开发stm32f4系列(一)————移植rt-thread os系统

前言 本次使用的rt-thread的版本为5.0.2基于rt-thread sudio生成的源码进行拷贝和修改工程基于上次创建工程的项目进行修改。本次工程只是用了serial和pin组件,其他后面用到再进行添加 拷贝rt-thread源码库 通过CMakeLists来进行管理 顶级(rt-thread目录) cmake_minimum_req…

Tomcat常见漏洞复现

Tomcat介绍 tomcat是一个开源而且免费的jsp服务器,默认端口:8080,属于轻量级应用服务器。它可以实现JavaWeb程序的装载,是配置JSP(Java Server Page)和JAVA系统必备的一款环境。在历史上也披露出来了很多的漏洞,这里我们讲几个经典…

中国区域创新能力评价报告数据(2001-2023年)

《中国区城创新能力评价报告》是以中国区域创新体系建设为主题的综合性、连续性的年度研究报告。以区域创新体系理论为指导,利用大量的统计数据,综合、客观及动态地给出各省市创新能力的排名与分析。 一、数据介绍 数据名称:中国区域创新能力…

文件夹内鼠标右键没有git bash here?

文件夹内鼠标右键没有git bash here? 如何解决,只需要三步 1、window 搜索git 2、进入git bash 3、输入文件路径,(路径为反斜杠/) 例如: D:/Desktop/photo

设计模式的概念

设计模式主要分为三类:创建类的设计模式、结构型设计模式、行为型设计模式。 创建类的设计模式:简单工厂,工厂模式,抽象工厂,建造者,单例,原型 结构型设计模式:代理模式、享元模式 行…

国密SM4算法进行数据的加密、签名和验签、解密

文章目录 前言一、SM4算法介绍二、生成128位密钥工具类三、SM4Util工具类四、测试示例 前言 本文介绍了SM4算法的基本概念、安全性以及在Java中的应用,包括生成16字节密钥、加密、解密、签名和验签的过程,展示了如何在实际开发中使用SM4算法进行信息安全…

enq: HW - contention事件来啦

业务系统反应数据库慢,根据时间查看awr报告。 先看一眼事件名称 HW enqueue 用于序列化超出段高水位线的空间分配。如果同时向对象添加大量数据,则多个进程可能同时尝试在高水位线上方分配空间,从而导致争用。 既然是控制资源并发的enq&…

WiFi Analyzer:你的开源WIFI管家!【送源码】

无论是在家里还是在公司,手机连接 WiFi 时,总是会出现 WiFi 信号比较弱,网速变慢的情况。如何检测 WiFi 信号的情况呢?今天给大家推荐一个开源项目——WiFi Analyzer。 项目简介 WiFi Analyzer 是一个开源的 Android 应用程序&a…

母带混音插件-Musik Hack Master Plan 1.59 WiN-MAC,长期更新持续有效

Musik Hack Master Plan 1.59 WiN-MAC 一款专业的音频母带制作流程,只需简单的控制就能制作出适合发布的母带: 水晶般清晰的响度、丰富的模拟饱和度、相位一致的成像、物理磁带模拟,以及修复和监听混音的额外工具。 一。Musik Hack Master P…

在 PhpStorm 中为 .java 文件启用语法高亮,需要正确配置文件类型和关联语言。

点击访问我的技术博客https://ai.weoknow.comhttps://ai.weoknow.com 因为我同时使用java和php混编所以在一个项目中如果同时打开IntelliJ IDEA和PhpStorm不符合我完美主义的本性。 捣鼓了一下搞定了 1. 添加文件类型关联 将 .java 文件与 Java 语言支持关联: …