【动手学深度学习】课程笔记 04 数据操作和数据预处理

news2025/1/23 7:21:01

目录

数据操作

N维数组样例

访问元素

数据操作实现

入门

运算符

广播机制

节省内存

转换为其他Python对象

数据预处理实现


数据操作

N维数组是机器学习和神经网路的主要数据结构。

N维数组样例

访问元素

数据操作实现

下面介绍一下本课程中需要用到的PyTorch相关操作。

入门

import torch # 导入PyTorch库

x = torch.arange(12)# 创建一个长度为12的一维张量,元素从0到11

x.shape # 访问张量沿每个轴的长度,注意这里没有()

x.numel() # 张量的大小,也就是所有元素的数量

X = x.reshape(a, b) # 将张量的形状改为(a, b),其中a和b为整数,注意只是改变形状,不改变地址

torch.zeros((a, b, c)) # 创建一个形状为(a, b, c)的张量,所有元素都设置为0

torch.ones((a, b, c)) # 所有元素都设置为1

torch.randn(a, b) # 元素从均值为0、标准差为1的正态分布中随机采样

运算符

import torch # 导入PyTorch库

x = torch.tensor([1.0, 2, 4, 8])
y = torch.tensor([2, 2, 2, 2])
x + y, x - y, x * y, x / y, x ** y  # **运算符是求幂运算

torch.exp(x) # 所有元素求对数

X = torch.arange(12, dtype=torch.float32).reshape((3,4)) # 所有元素设置为浮点数
Y = torch.tensor([[2.0, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])
torch.cat((X, Y), dim=0), torch.cat((X, Y), dim=1) # 将两个矩阵在一维上连接起来

广播机制

当两个大小形状不同的矩阵做运算时,由于元素不能直接一一对应,所以会使用广播机制,通过适当复制元素来扩展一个或两个数组,以便在转换之后,两个张量具有相同的形状。

当然,触发广播机制是需要条件的:

  1. 两个张量必须不为空;
  2. 两个张量从最后一个维度比较,必须每个维度都满足这三个条件之一:两个相同,其中一个为1,其中一个为空。
import torch # 导入PyTorch库

a = torch.arange(3).reshape((3, 1))
b = torch.arange(2).reshape((1, 2))

a + b

# tensor([[0, 1],
#        [1, 2],
#        [2, 3]])

节省内存

import torch # 导入PyTorch库

X = torch.tensor([[1, 2, 3], [4, 5, 6]])
Y = torch.tensor([[7, 8, 9], [3, 2, 1]])

before = id(Y)
Y = Y + X
id(Y) == before

# false
# 输出结果表明,这个加法操作改变了Y的指向,也就指向了新的内存地址

Z = torch.zeros_like(Y)
print('id(Z):', id(Z))
Z[:] = X + Y
print('id(Z):', id(Z))

# id(Z): 2219878943616
# id(Z): 2219878943616
# 将两个矩阵相加后赋值给同样大小的全零矩阵,内存地址就不会变了
# 这样就可以节省内存开销

转换为其他Python对象

不同库里的张量的数据类型也不同,但是可以把表示张量的字符看作指针,不同库的指针可以指向同一个张量,也就是共享底层内存,因此,改变一个张量也可能同时改变另一个。

import torch # 导入PyTorch库
import numpy # 导入numpy库

X = torch.tensor([1, 2, 3])
A = X.numpy()
B = torch.tensor(A)
type(A), type(B)

# (numpy.ndarray, torch.Tensor)

a = torch.tensor([3.5])
a, a.item(), float(a), int(a) 

# (tensor([3.5000]), 3.5, 3.5, 3)
# 用item函数可以将张量转换为python标量

数据预处理实现

import os

os.makedirs(os.path.join('..', 'data'), exist_ok = True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
# 创建一个人工数据集,并存储在csv文件中
# csv文件是以逗号分隔值的表格文件
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n') # 列名:房间数,是否有路,价格
    f.write('NA,Pave,127500\n') 
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

import pandas as pd

data = pd.read_csv(data_file) # 使用pandas里的pd函数读取数据
data

#    NumRooms Alley   Price
#0       NaN  Pave  127500
#1       2.0   NaN  106000
#2       4.0   NaN  178100
#3       NaN   NaN  140000

# 下面是处理缺失的插值法
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2] # inputs为data的前两列,outputs为最后一列
inputs = inputs.fillna(inputs.mean()) # 对于inputs中缺失的数据,用同一列的均值替换“NaN”
print(inputs)

# 因为inputs中的离散值只有两个:Pave和NaN,所以可以把它们标准化为1和0
inputs = pd.get_dummies(inputs,dummy_na = True)
print(inputs)

import torch

X = torch.tensor(inputs.to_numpy(dtype=float)) # 将数据转换为张量格式
y = torch.tensor(outputs.to_numpy(dtype=float))
X, y

以上是数据预处理的基本操作,还有很多进阶操作需要进一步学习,比如作业中的删除NaN值最多的列等,这些只是基础中的基础。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1068844.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【jvm--堆】

文章目录 1. 堆(Heap)的核心概述2. 图解对象分配过程2.1 Minor GC,MajorGC、Full GC 1. 堆(Heap)的核心概述 堆针对一个 JVM 进程来说是唯一的,也就是一个进程只有一个 JVM,但是进程包含多个线程…

Leetcode hot 100之回溯O(N!):选择/DFS

目录 框架:排列/组合/子集 元素无重不可复选 全排列 子集 组合:[1, n] 中的 k 个数 分割成回文串 元素无重不可复选:排序,多条值相同的只遍历第一条 子集/组合 先进行排序,让相同的元素靠在一起,如…

玩重生奇迹MU如何搭配武器装备

在游戏里面怎么搭配装备呢,玩家是否在思考这个问题呢,肯定要不断的了解所玩的职业,必须要懂得掌握不一样的装备搭配方法,这样才可以更好的发挥所玩职业最强大的伤害输出。 一、武器装备搭配技巧 在游戏中需要懂得搭配装备的技巧…

2023年中国互联网本地生活服务行业发展历程及趋势分析:国内市场仍有增长潜力[图]

我国本地生活进入4.0时代,“附近消费”场景迭代、渠道多元;更多玩家涌入本地生活赛道,本地消费场景分散到多平台、多模式,线下门店短视频直播运营组合蔚然成风。 本地生活行业发展历程 资料来源:共研产业咨询&#xf…

阿里云轻量应用服务器月流量限制说明(部分套餐不限流量)

阿里云轻量应用服务器部分套餐限制月流量,轻量应用服务器按照套餐售卖,有的套餐限制月流量,有的不限制流量。像阿里云轻量2核2G3M带宽轻量服务器一年108元和轻量2核4G4M带宽一年297.98元12个月,这两款是不限制月流量的。阿里云百科…

前端TypeScript学习day02-TS常用类型

(创作不易,感谢有你,你的支持,就是我前行的最大动力,如果看完对你有帮助,请留下您的足迹) 目录 TypeScript 常用类型 接口 元组 类型推论 类型断言 字面量类型 枚举 any 类型 typeof TypeScrip…

yolov5及yolov7实战之剪枝

之前有讲过一次yolov5的剪枝:yolov5实战之模型剪枝_yolov5模型剪枝-CSDN博客 当时基于的是比较老的yolov5版本,剪枝对整个训练代码的改动也比较多。最近发现一个比较好用的剪枝库,可以在不怎么改动原有训练代码的情况下,实现剪枝的…

c#学生管理系统

一、系统概述 学生管理系统是一个旨在帮助学校、教育机构和教育者有效管理学生信息、课程安排和成绩记录的应用程序。该系统旨在简化学生管理的各个方面,提供高效的解决方案,以满足教育机构的需求。 二、功能模块 1. 学生信息管理 添加学生:录入学生…

HashMapConcurrentHashMap

文章目录 1、HashMap基础类属性node容量负载因子hash算法 2、数组链表/树为什么引入链表为什么jdk1.8会引入红黑树为什么一开始不就使用红黑树?HashMap的底层数组取值的时候,为什么不用取模,而是&数组的长度为什么是2的次幂如果指定数组的…

数据结构--》数组和广义表:从基础到应用的全面剖析

数据结构为我们提供了组织和处理数据的基本工具。而在这个广袤的数据结构领域中,数组和广义表是两个不可或缺的重要概念。它们作为线性结构的代表,在算法与应用中扮演着重要的角色。 无论你是初学者还是进阶者,本文将为你提供简单易懂、实用可…

青少年近视问题不容小觑,蔡司用专业技术助力孩子视力健康发展

根据国家卫健委公布的数据显示,2022年全国儿童青少年近视率达到53.6%,青少年近视已成为社会普遍的眼健康问题。对家长来说,也需要提高对孩子眼视光健康重要性的认知,日常培养青少年良好的用眼习惯,并通过矫正视力的方式…

如何使用 Tensor.art 实现文生图

摘要:Tensor.art 是一个基于 AI 的文本生成图像工具。本文介绍了如何使用 Tensor.art 来实现文生图的功能。 正文: 文生图是指将文本转换为图像的技术。它具有广泛的应用,例如在广告、教育和娱乐等领域。 Tensor.art 是一个基于 AI 的文本…

外汇天眼:真实记录,投资者在盗版MT4平台SCE Group上做交易的经历!

外汇市场是全球最大的金融市场,比起其他市场有着更多天然的优势,但也因为资讯的不对等,导致很多人上当受骗。而在外汇市场上最常见的骗局之一,就是黑平台使用盗版MT4/5交易软件,因为截至目前MT4/5仍是外汇市场交易使用…

汽车电子中的安森美深力科分享一款高性能车规级芯片NCV7520MWTXG

安森美深力科NCV7520MWTXG可编程六沟道低压侧 MOSFET 预驱动器,是一个 FLEXMOS™ 汽车级产品系列,用于驱动逻辑电平 MOSFET。该产品可通过串行 SPI 和并行输入组合控制。该器件提供可兼容 3.3 V/5 V 的输入,串行输出驱动器可基于 3.3 V 或 5 …

在模拟器上安装magisk实现Charles抓https包(三)

经过前两篇的内容,链接如下: 在模拟器上安装magisk实现Charles抓https包(一)_小小爬虾的博客-CSDN博客 在模拟器上安装magisk实现Charles抓https包(二)_小小爬虾的博客-CSDN博客 电脑端的Charles就可以抓…

VS2022 17.8 功能更新:现已支持 C11 线程

早在 VS2022 17.5 版本,Microsoft Visual C 库已经初步支持了 C11 atomics。今天,我们很高兴地宣布,在最新版本 VS2022 17.8 预览版 2 中已正式支持 C11 线程。开发者可以更轻松地将跨平台 C 应用程序移植到 Windows,而无需开发线…

华为OD机试 - 最小步骤数(Java 2023 B卷 100分)

目录 专栏导读一、题目描述二、输入描述三、输出描述四、解题思路五、Java算法源码六、效果展示1、输入:4 8 7 5 2 3 6 4 8 12、输出:23、说明:4、思路分析 华为OD机试 2023B卷题库疯狂收录中,刷题点这里 专栏导读 本专栏收录于《…

网络安全总结

前言 本文内容主要摘抄网络规划设计师的教材和腾讯-SUMMER课堂,主要对网络安全进行简单梳理和总结 OSI安全体系 X轴表示8种安全机制,Y轴表示OSI7层模型,Z轴表示5种安全服务,图中X是水平,Y轴竖直,Z轴向外…

2023年中国喷头受益于技术创新,功能不断提升[图]

喷头行业是一个专注于生产和供应各种类型喷头的产业。喷头是一种用于将液体、气体或粉末等物质喷射或喷洒的装置,广泛应用于不同领域,包括工业、农业、家用、医疗等。 喷头行业分类 资料来源:共研产业咨询(共研网) 随…

Redis 获取、设置配置文件

以Ubuntu 为例 redis配置文件 cd /etc/redis sudo vim redis.conf 获取配置文件、修改配置文件