机器学习--房屋销售的探索性数据分析

news2024/9/28 11:15:15

目录

一、导入相关包

二、读取数据

 三、做简单的处理  

总结


一、导入相关包

numpy:python中做数据分析常用的包;

pandas:也是用于数据分析,擅长处理表,数据没那么大要放入内存中,这将是首选;

matplotlib.pyplot:源自matlab的画图工具;

seaborn:基于matplotlib,提供更多的画法  

剩下两行用于将图片设成svg文件(画起来分辨率相对高一点)

# !pip install seaborn pandas matplotlib numpy
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from IPython import display
display.set_matplotlib_formats('svg')
# Alternative to set svg for newer versions
# import matplotlib_inline
# matplotlib_inline.backend_inline.set_matplotlib_formats('svg')

二、读取数据

!wget https://c.d2l.ai/stanford-cs329p/_static/house_sales.ftr
data = pd.read_feather('house_sales.ftr')
data = pd.read_csv('house_sales.zip') # csv文件这样读取

csv文件存下来相对比较大,可以先压缩成一个zip或一个tar,主流的读取文件都可以从压缩文件中读取。建议存成压缩文件,在传输存储都会比较好,甚至还会比直接读取还要好(这个方法可用于文本)

data.head() 把前面几行信息打出来

 将列中30%缺失的列删去,以此来简化数据

inplace的作用是,直接将要去掉的列给改写掉(直接对数进行修改),可以省些内存,但是这个只能跑一次 

检查数据类型

处理错误的数据类型

  最后用data.describe()看看处理完的数据的特征 

可以通过这里初步判断是否有噪音

 三、做简单的处理  

查看卖的价格的分布 

在这里用log10可以让分布均匀点  

查看房子的种类

 查看不同类别的房子是什么价格

 查看一平米可以卖多少钱 

不同颜色是不同类别,那条横线表示的是均值,boxplot可以比较直观的看到不同分布之间的对比

查看每个邮政编码的房价 

热力图

查看每个特征之间的关系(协方差) 

可以直观的看出, 跟我要预测的东西关联度最高 

总结

本笔记本演示了EDA的基本技术,包括

理解列数据类型、值和分布
理解列之间的相互作用

参考代码 eda slides


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/130669.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

client-go源码学习(二):Reflector、DeltaFIFO

本文基于Kubernetes v1.22.4版本进行源码学习,对应的client-go版本为v0.22.4 3、Informer机制 在Kubernetes系统中,组件之间通过HTTP协议进行通信,在不依赖任何中间件的情况下需要保证消息的实时性、可靠性、顺序性等。那么Kubernetes是如何…

重装操作系统win10+重装sqlserver+数据库可视化工具

sqlserver安装以及使用 一、重装操作系统 操作系统win10镜像 原因:sqlserver无数次失败让我放弃原来操作系统。 重装操作系统三步骤 1>下载大白菜一键装机工具 2>有一个u盘,8G以上存储空间 3>win10系统镜像 详细讲解: win10系统镜…

管道和重定向

1.重定向 1.输出重定向 > 一般用于在控制台上为了避免看到过多冗余的代码代码操作,所以将正确和错误的结果信息写到文件夹中 标准输出 1> 1>> [rootiZ2zef4rb5ixg6sieztgsdZ /]# cat /etc/passwd > file.txt //将/etc/passwd中输出的结果打印…

ElasticSearch6.x版本概念介绍及Kibana操作的增删改查常用API

文章目录一、概念介绍1.接近实时(NRT Near Real Time )2.索引(index)3.类型(type)4.映射(mapping)5.文档(document)6.概念关系图二、Kibana的基本操作1.创建dangdang索引并创建product类型2.删除dangdang索引3.创建id为1的文档记录4.查询id为1的文档记录5.删除id为1的文档记录6…

【2022年终总结】:小伙子还需努力呀~

文章目录前言第一次遇见CSDN我的收获我的迷茫我的展望前言 有一段时间没写博客了,具体什么原因呢?先买个关子,埋在下面的文字里。 眨眼时间,在CSDN待了快一年了,这一年的时间里有收获有感动,当然&#xff0…

IO多路复用【学习笔记】

1.用户空间和内核空间 虚拟内存被操作系统划分成两块:内核空间和用户空间,内核空间是内核代码运行的地方,用户空间是用户程序代码运行的地方。当进程运行在内核空间时就处于内核态,当进程运行在用户空间时就处于用户态。 为了安全…

elasticsearch在linux环境安装使用过程遇到的问题

es在linux环境安装遇到问题 1、启动失败日志 ERROR: [1] bootstrap checks failed [1]: the default discovery settings are unsuitable for production use; at least one of [discovery.seed_hosts, discovery.seed_providers, cluster.initial_master_nodes] must be con…

MCU-51:单片机之AT24C02学习

目录一、存储器介绍1.1 RAM1.2 ROM二、AT24C022.1 AT24C02介绍2.2 引脚及应用电路2.3 内部结构框图三、I2C总线3.1 I2C总线介绍3.2 I2C电路规范3.3 I2C时序结构3.4 I2C数据帧3.5 AT24C02数据帧四、代码演示4.1 AT24C02数据存储4.2 秒表(定时器扫描按键数码管)注意:一…

ECG信号处理——包括基本波检测、信号去噪、信号重建度量(Matlab代码实现)

目录 💥1 概述 📚2 运行结果 🎉3 参考文献 👨‍💻4 Matlab代码 💥1 概述 心电图(ECG)信号自动分析与诊断是目前信号处理领域中的研究热点之一,其真正实现将有力地促进医疗事业的…

集合引用类型——对象

介绍: 依据变量分类:ECMAScript变量包括两种不同类型的值:原始值和引用值。 依据类型分类:ECMAScript类型包括两种不同类型的值:基本数据类型和集合数据类型。 原始值和引用值: 原始值就是最简单的数据&am…

网络层IP

文章目录网络层基本概念IP报头分片和组装如何分片如何组合16位标识符13位片偏移3位标志网段划分IP地址的分类CIDRIP地址数量限制私有IP和公网IP运营商路由网络层 http和tcp只考虑了两端的问题,并没有考虑路途中的事情。路由查找 IP的构成:32位网络号主…

【Ctfer训练计划】——(八)

作者名:Demo不是emo 主页面链接:主页传送门 创作初心:舞台再大,你不上台,永远是观众,没人会关心你努不努力,摔的痛不痛,他们只会看你最后站在什么位置,然后羡慕或鄙夷座…

fx5u 脉冲输出指令PLSY(DPLSY)4种写法

本文描述三菱FX5U的 脉冲输出指令PLSY(DPLSY),4种写法,都有效。 第一行:设置脉冲输出频率 第二行:DPLSY D0 K0 K1,FX5U ,第二个参数是脉冲数量,设置为K0表示一值输出脉冲。 第三个参数是轴号K1,表示Y0脉冲…

2023跨年倒计时2023最炫烟花秀烟花代码

📋 前言 🖱 博客主页:在下马农的碎碎念✍ 本文由在下马农原创,首发于CSDN📆 首发时间:2022/12/30📅 最近更新时间:2022/12/30🤵 此马非凡马,房星本是星。向前…

c#入门-补码

补码 明明我们用正数用的更多,如果把0归到负数里面,那么正数就是整的2n次方了。 为什么不这么做呢? 如果你的手表快了20分钟,你可以: 1.把他调慢20分钟 2.再调快11小时40分钟 其实负数就是一个特别大的正数。CPU没有…

Unity 基于法线和深度实现完美描边,可独立控制物体描边

目录前言自定义PostProcessOutlineShader关键代码说明1 使用深度绘制描边1.1 获得斜四方形UV坐标:1.2 采样四方向深度2 使用法线绘制描边3 解决倾斜表面白块问题3.1 计算视方向3.2 使用视方向修正阈值4 单独控制物体是否显示描边OutlineShader完整代码前言 最近项目…

github上传代码(亲测实用)

又被github上传代码折腾了我3个小时,各种问题都遇到过,最后写篇博客记录一下,方便后续上传。 github创建项目完成后,就会出现上传指令,如下图所示: 现在只需要按着命令的提示一步步执行; 1.点…

一文读懂HTTPS

大家第一次接触 HTTPS 协议的时候是不是和我一样,非常困惑。 这玩意概念又多又繁琐。尤其是里面的公钥私钥啥的。 当时就特别想知道,为什么用公钥加密却不能用公钥解密? 看完这篇文章你会弄明白,同时还会解锁很多HTTPS里的细节…

ansible的安装

自定义环境 1.操作环境 角色主机名IP地址组名 控制主机 server.example.com 192.168.90.134 server 受控主机 node1.example.com 192.168.90.135 node1 受控主机 node2.example.com 192.168.90.133 node2 需要保准三台主机能够互相通信。设置同一种网络模式&#xff0…

Tic-Tac-Toe可能棋局搜索的实现(python)

目录 1. 前言 2. 算法流程 3. 代码实现 3.1 终局及胜负判定方法 3.2 搜索邻节点 3.3 打印棋盘状态 3.4 代码 4. 小结 1. 前言 Tic-Tac-Toe中文常译作井字棋,即在3 x 3的棋盘上,双方轮流落子,先将3枚棋子连成一线的一方获得胜利。Tic-…