动手学深度学习(pytorch版)第二章-2.2数据预处理Note-pandas

news2025/1/8 3:44:36

1. 创建 

import os

os.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n')  # 列名
    f.write('NA,Pave,127500\n')  # 每行表示一个数据样本
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

os.makedirs(): 创建一个文件夹, 括号里是路径
os.path.join('..', 'data'): 把括号里的路径组合起来, '..'指的是本代码文件的上一级目录, data即为要创建的文件夹
exist_ok=True: 意思是即使data文件夹已经存在了也不会报错

尽管文件夹里还没有csv文件, 但是我们可以先创建一个指向csv文件的路径
os.path.join可以把路径和文件名组合在一起
csv文件指的是只用逗号分隔的文件

with open(路径+文件名, 模式) as 变量: 以某种方式打开该文件, 模式 r表示只读模式, w表示写入模式, a表示追加模式(都是写内容, w是覆盖, a是添加)
变量会接收文件这个对象, 在后续操作用变量名代替即可
如果该文件不存在并且模式是w或者a, 那么with open函数会在该路径下自动创建该文件, 如果是r则会报错
NA在pandas里面表示缺失值, 对于数值数据pandas也会用浮点值NaN表示缺失值; None是python内置的缺失值

pd.read_csv(): 读取一个csv文件并将其转换为一个Pandas数据框的函数
数据框可以看作是一个二维的数组或矩阵

csv文件的可视化: 

 

2.读入

import pandas as pd

data = pd.read_csv(data_file)
print(data)
/*
output:
   NumRooms Alley   Price
0       NaN  Pave  127500
1       2.0   NaN  106000
2       4.0   NaN  178100
3       NaN   NaN  140000
*/

3.处理缺失值

  “NAN”项代表缺失值。处理缺失数据的典型方法包括插值法和删除法,其中插值法用一个替代值弥补缺失值,删除法则直接忽略缺失值。这里使用插值法。

  通过位置索引iloc,将data分成inputs和outputs,其中前者为data的前两列,后者为data最后一列。对于inputs中缺少的数值,用同一列的均值替换“NAN”项。这里的2替换成-1也可以。通过.fillna()填充空值。.mean()求平均值,inputs只有第一列可求平均值,所以不写。

  对于inputs中的类别值或离散值,将“NAN”视为一个类别。由于“巷子类型”(“Alley”)列只接受两种类型的类别值"Pave"和“NaN",pandas可以自动将此列转换为两列”Alley_Pave"和“Alley_nan"。巷子类型为"Pave"的行会将”Alley_Pave"的值设置为1,“Alley_nan”的值设置为0。缺少巷子类型的行会将“Alley_Pave”和“Alley_nan”分别设置为0和1。用.get_dummies()来生成两列one-hot,保留分类变量中的缺失值,将其单独作为一列,加dummy_na= True,处理过后就会分为两列,由值0,1来表示类型。
 

inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = inputs.fillna(inputs.mean())
print(inputs)
/*
output:
   NumRooms Alley
0       3.0  Pave
1       2.0   NaN
2       4.0   NaN
3       3.0   NaN
*/
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)
/*
   NumRooms  Alley_Pave  Alley_nan
0       3.0           1          0
1       2.0           0          1
2       4.0           0          1
3       3.0           0          1
*/

4 .转换为张量格式

X, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
X, y
/*
output:
(tensor([[3., 1., 0.],
         [2., 0., 1.],
         [4., 0., 1.],
         [3., 0., 1.]], dtype=torch.float64),
 tensor([127500, 106000, 178100, 140000]))
*/

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1033782.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

平板用的触控笔什么牌子好?性价比高的触控笔推荐

随着平板电脑的普及,越来越多用户为了方便都选择了电容笔,电容笔已经完全代替了我们的手指,并且使我们的书写速度得到了极大的提升。然而,因为其的独特的重力压感功能与芯片技术,导致了原装笔的售价一直居高不下&#…

深入探析NCV7356D1R2G 单线CAN收发器各项参数

NCV7356D1R2G深力科是一款用于单线数据链路的物理层器件,能够使用多种具碰撞分解的载波感测多重存取 (CSMA/CR) 协议运行,如博世控制器区域网络 (CAN) 2.0 版。此串行数据链路网络适用于不需要高速数据的应用,低速数据可在物理介质部件和微处…

用selenium和xpath定位元素并获取属性值以及str字符型转json型

页面html如图所示: 要使用xpath定位这个div元素,并且获取其属性data-config的内容值。 from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.chrome.options import Optionshost127.0.0.1 port10808 …

线程安全,与多线程的应用

一、线程安全 1.什么是线程安全 2.用程序模拟线程安全问题 public class Account {private double money;//余额private String cardId;//卡号public Account() {}public Account(double money, String cardId) {this.money money;this.cardId cardId;}public void drawMone…

LeetCode 1993. 树上的操作:大模拟

【LetMeFly】1993.树上的操作:大模拟 力扣题目链接:https://leetcode.cn/problems/operations-on-tree/ 给你一棵 n 个节点的树,编号从 0 到 n - 1 ,以父节点数组 parent 的形式给出,其中 parent[i] 是第 i 个节点的…

基于微信小程序的健康评估系统设计与实现(源码+lw+部署文档+讲解等)

文章目录 前言运行环境说明用户微信端的主要功能有:医生微信端的主要功能有:管理员的主要功能有:具体实现截图详细视频演示为什么选择我自己的网站自己的小程序(小蔡coding)有保障的售后福利 代码参考论文参考源码获取…

iOS17正式版BUG汇总:无法正常拨打电话、小组件不可用、无线充电不可用等问题

今天凌晨 iOS 17 正式版发布,相信不少尝鲜派已经更新体验了iOS17的新功能了,但还有很多用户选择观望看是否要升级,小编汇总了目前已更新的用户反馈的已知BUG,供大家查看是否要更新iOS17正式版! 目前已知BUG&#xff1…

【LeetCode75】第六十二题 多米诺和托米诺平铺

目录 题目: 示例: 分析: 代码: 题目: 示例: 分析: 题目给我一个数字n,表示我们有2*n大小的地板需要铺。 我们拥有两种瓷砖,一种的长度为2的多米诺,另一…

Jetpack Compose干货,如何让Compose Dialog从屏幕任意方向进入

一、前言 来个效果图,基于Compose Dialog,最终要实现的库能力如下: 这里使用的是这个包下面的: androidx.compose.ui.window.Dialog androidx.compose.material3.AlertDialog它内部调用的也是androidx.compose.ui.window.Dialog …

Centos7 安装部署 Kubernetes(k8s) 高可用集群

1:基础环境准备 宿主机系统集群角色服务器IP主机名称容器centos7.6master192.168.2.150ks-m1dockercentos7.6master192.168.2.151ks-n1dockercentos7.6master192.168.2.152ks-n2docker 1.1 服务器初始化及网络配置 VMware安装Centos7并初始化网络使外部可以访问*…

No2.详解【2023年全国大学生数学建模竞赛】C题——蔬菜类商品的自动定价与补货决策(代码 + 详细输出 + 数据集代码 下载)

只有不回避痛苦和迷茫的人,才有资格去谈乐观和坚定。命运不会厚待谁,悲喜也不会单为你准备。 🎯作者主页: 追光者♂🔥 🌸个人简介: 💖[1] 计算机专业硕士研究生💖 🌿[2] 2023年城市之星领跑者TOP1(哈尔滨)🌿 🌟[3] 2022年度博客之星人工智能…

爬虫获取接口数据

上一讲讲的是获取静态网页数据的教程,适用于我们要爬取的数据在网页源代码中出现,但是还是有很多的数据是源代码中没有的,需要通过接口访问服务器来获得,下面我就来讲讲如何爬取这类数据。 以巨潮资讯网爬取比亚迪企业年报为例。…

解决windows端口占用

WINR打开cmd窗口;输入命令查看哪个进程占用,8848为要查询占用的端口号:netstat -ano | findstr 8848; 3.杀死进程,输入taskkill /f /t /im 10672 其中10672为上面命令查出来的进程号。

24. 图论 - 图的表示种类

Hi,你好。我是茶桁。 之前的一节课中,我们了解了图的来由和构成,简单的理解了一下图的一些相关概念。那么这节课,我们要了解一下图的表示,种类。相应的,我们中间需要穿插一些新的知识点用于更好的去理解图…

Python异步编程并发执行爬虫任务,用回调函数解析响应

一、问题:当发送API请求,读写数据库任务较重时,程序运行效率急剧下降。 异步技术是Python编程中对提升性能非常重要的一项技术。在实际应用,经常面临对外发送网络请求,调用外部接口,或者不断更新数据库或文…

漏刻有时数据可视化Echarts组件开发(31):geomap伪3D配置示例

echarts.registerMap("丹东", getData());let data = getData().features.map((item) => {return {name: item.properties.name,};});const points = [[116.289929,40.265374],[116.754101,40.063877],[116.229504,39.764735],[115.883434,39.899721]]let option …

Unity的AB包相关

1、打包 在这个界面左边右键,CreateNewBundle 将要打包的模型制作成预设体 在下面勾选 选好平台路径,点击Build 2、加载AB包 public class ABTest : MonoBehaviour {// Start is called before the first frame updatevoid Start(){//加载AB包AssetB…

pymysql调用存储过程

视频版教程 Python操作Mysql数据库之pymysql模块技术 我们首先创建一个简单的存储过程 DELIMITER //CREATE PROCEDURE test_add(m INT,n INT, OUT result INT) BEGIN SET resultmn;END; //测试: SET s0; CALL test_add(1,2,s); SELECT sPymysql调用存储过程实现&…

从植隆业务中台到金蝶云星空通过接口配置打通数据

从植隆业务中台到金蝶云星空通过接口配置打通数据 数据源系统:植隆业务中台 核心能力以数字化形式沉淀为各种服务中心,其目的是“提供企业能够快速,低成本创新的能力”。业务中台的核心是“构建企业共享服务中心”,其过程是通过业务板块之间的…

代码随想录算法训练营第57天| 647. 回文子串,516.最长回文子序列,动态规划总结

链接: 647. 回文子串 链接: 516.最长回文子序列 链接: 动态规划总结 647. 回文子串 理解dp数组的含义很重 class Solution {public int countSubstrings(String s) {char[] chars s.toCharArray();boolean[][] dp new boolean[s.length()][s.length()];int res 0;// 遍…