【李沐】3.5、softmax回归的从0开始实现

news2024/7/31 8:35:28

注意:
把每个像素位置看作⼀个特征

# 导入PyTorch库
import torch
# 从IPython库中导入display模块,用于在交互式环境中显示内容
from IPython import display
# 从d2l.torch模块中导入torch作为d2l的别名,方便后续使用d2l库中的功能
from d2l import torch as d2l

# 定义批次大小
batch_size = 256
# 使用d2l库中的load_data_fashion_mnist函数加载Fashion-MNIST数据集
# 并将返回的训练数据迭代器和测试数据迭代器分别赋值给train_iter和test_iter
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)

1、初始化模型参数
分析:前面弄成只有两层,第一层是特征,第二程是输出的类别,前面移动有10类,所以输出层弄成了10,按照这样的道理请问现在对于该任务的网络层数该如何设置呢?
答:现在图像是28*28,每一个像素看做一个特征,那么第一层就是28乘以28,第二层是10个种类,所以为10

# 定义输入特征的维度
num_inputs = 784
# 定义输出类别的数量
num_outputs = 10

# 使用torch.normal函数创建一个大小为(num_inputs, num_outputs)的张量W
# 张量的值从均值为0,标准差为0.01的正态分布中随机采样,并且需要计算梯度
W = torch.normal(0, 0.01, size=(num_inputs, num_outputs), requires_grad=True)

# 使用torch.zeros函数创建一个大小为num_outputs的张量b
# 张量的值全部初始化为0,并且需要计算梯度
b = torch.zeros(num_outputs, requires_grad=True)

def softmax(X):
    """
    执行softmax操作,将输入张量X的每个元素进行指数运算并进行归一化
    参数:
        X: 输入张量
    返回:
        归一化后的张量,与输入X的形状相同
    """
    # 使用torch.exp函数计算输入张量X的每个元素的指数值
    X_exp = torch.exp(X)
    # 使用.sum函数计算每行元素的和,并保持维度
    partition = X_exp.sum(1, keepdim=True)
    # 将每个元素的指数值除以对应行的和,实现归一化操作
    # 通过广播机制,使得每一行的元素都除以对应行的和
    return X_exp / partition

2、定义softmax—没看懂

def softmax(X):
    """
    执行softmax操作,将输入张量X的每个元素进行指数运算并进行归一化
    参数:
        X: 输入张量
    返回:
        归一化后的张量,与输入X的形状相同
    """
    # 使用torch.exp函数计算输入张量X的每个元素的指数值
    X_exp = torch.exp(X)
    # 使用.sum函数计算每行元素的和,并保持维度
    partition = X_exp.sum(1, keepdim=True)
    # 将每个元素的指数值除以对应行的和,实现归一化操作
    # 通过广播机制,使得每一行的元素都除以对应行的和
    return X_exp / partition

# 使用torch.normal函数创建一个大小为(2, 5)的张量X
# 张量的值从均值为0,标准差为1的正态分布中随机采样
X = torch.normal(0, 1, (2, 5))

# 使用定义的softmax函数对张量X进行softmax操作
X_prob = softmax(X)

# 输出经过softmax操作后的张量X_prob,以及每行元素的和(归一化后的概率之和)
X_prob, X_prob.sum(1)

3、定义模型

**def net(X):
    """
    定义一个简单的神经网络模型,接受输入X并输出预测结果
    参数:
        X: 输入特征张量
    返回:
        经过模型处理后的预测结果
    """
    # 将输入特征X进行形状变换,展平并与权重矩阵W相乘,然后加上偏置向量b
    linear_output = torch.matmul(X.reshape((-1, W.shape[0])), W) + b
    # 使用之前定义的softmax函数对线性输出进行softmax操作,得到最终的预测结果
    return softmax(linear_output)
**

4、定义损失函数
交叉熵损失函数

# 创建一个张量y,包含真实标签
y = torch.tensor([0, 2])

# 创建一个张量y_hat,表示模型的预测概率分布
y_hat = torch.tensor([[0.1, 0.3, 0.6], [0.3, 0.2, 0.5]])

# 使用切片操作选择y_hat中对应真实标签的预测概率
selected_probs = y_hat[[0, 1], y]

# 定义交叉熵损失函数,接受预测概率分布y_hat和真实标签y作为输入
def cross_entropy(y_hat, y):
    """
    计算交叉熵损失
    参数:
        y_hat: 模型的预测概率分布张量
        y: 真实标签张量
    返回:
        计算得到的交叉熵损失张量
    """
    # 使用索引操作从y_hat中选择对应真实标签的预测概率
    selected_probs = y_hat[range(len(y_hat)), y]
    # 使用torch.log计算对数,然后使用负号得到交叉熵损失
    return -torch.log(selected_probs)

# 使用定义的交叉熵损失函数计算损失
loss = cross_entropy(y_hat, y)

6、分类精度

def accuracy(y_hat, y): #@save
    """
    计算预测正确的数量
    参数:
        y_hat: 模型的预测概率分布张量
        y: 真实标签张量
    返回:
        预测正确的样本数量
    """
    # 检查预测概率分布张量的形状,如果有多个预测类别,则选择预测概率最高的类别
    if len(y_hat.shape) > 1 and y_hat.shape[1] > 1:
        y_hat = y_hat.argmax(axis=1)
    
    # 将预测类别与真实标签进行比较,得到一个布尔张量cmp
    cmp = y_hat.type(y.dtype) == y
    
    # 使用sum函数统计布尔张量cmp中值为True的数量,即预测正确的样本数量
    # 最后将结果转换为浮点数并返回
    return float(cmp.type(y.dtype).sum())

下面这张图是分类精度
在这里插入图片描述

上面是测试单个数据,这个是测试数据集,也就是多个数据

def evaluate_accuracy(net, data_iter): #@save
    """
    计算在指定数据集上模型的精度
    参数:
        net: 需要评估的模型
        data_iter: 数据迭代器,包含输入特征和真实标签
    返回:
        计算得到的模型精度
    """
    # 如果net是torch.nn.Module的实例,将其设置为评估模式
    if isinstance(net, torch.nn.Module):
        net.eval()
    
    # 创建累加器metric,用于记录正确预测数和总样本数
    metric = Accumulator(2)
    
    # 使用torch.no_grad()上下文管理器,关闭梯度计算
    with torch.no_grad():
        # 遍历数据迭代器中的每个批次
        for X, y in data_iter:
            # 对模型net进行预测,计算预测精度并累加到metric中
            metric.add(accuracy(net(X), y), y.numel())
    
    # 计算模型在数据集上的精度,即正确预测数除以总样本数
    return metric[0] / metric[1]

这个代码是别⽤于存储正确预测的数量和预测的总数量。

class Accumulator: #@save
    """
    在n个变量上进行累加的累加器类
    """
    def __init__(self, n):
        """
        初始化累加器,创建n个初始值为0.0的变量
        参数:
            n: 需要累加的变量个数
        """
        self.data = [0.0] * n
    
    def add(self, *args):
        """
        将传入的参数与已有变量逐元素相加
        参数:
            *args: 可变数量的参数,需要与已有变量个数相匹配
        """
        self.data = [a + float(b) for a, b in zip(self.data, args)]
    
    def reset(self):
        """重置累加器,将所有变量的值重置为0.0"""
        self.data = [0.0] * len(self.data)
    
    def __getitem__(self, idx):
        """
        获取指定索引处的变量值
        参数:
            idx: 索引
        返回:
            指定索引处的变量值
        """
        return self.data[idx]

3.6.6、训练

def train_epoch_ch3(net, train_iter, loss, updater): #@save
    """
    训练模型一个迭代周期
    参数:
        net: 需要训练的模型
        train_iter: 训练数据迭代器,包含输入特征和真实标签
        loss: 损失函数,用于计算模型预测与真实标签之间的损失
        updater: 更新参数的方法,可以是PyTorch内置的优化器或定制的优化器
    返回:
        训练损失和训练精度的平均值
    """
    # 如果net是torch.nn.Module的实例,将其设置为训练模式
    if isinstance(net, torch.nn.Module):
        net.train()
    
    # 创建累加器metric,用于记录训练损失总和、训练准确度总和、样本数
    metric = Accumulator(3)
    
    # 遍历训练数据迭代器中的每个批次
    for X, y in train_iter:
        # 使用模型net对输入特征X进行预测,得到预测结果y_hat
        y_hat = net(X)
        
        # 使用损失函数loss计算预测结果y_hat与真实标签y之间的损失
        l = loss(y_hat, y)
        
        # 根据updater的类型选择不同的优化策略
        if isinstance(updater, torch.optim.Optimizer):
            # 如果updater是PyTorch内置的优化器
            updater.zero_grad() # 清除梯度
            l.mean().backward() # 计算损失的均值并计算梯度
            updater.step() # 更新参数
        else:
            # 如果updater是定制的优化器
            l.sum().backward() # 计算损失的总和并计算梯度
            updater(X.shape[0]) # 更新参数
        
        # 将当前批次的损失值、预测精度和样本数累加到metric中
        metric.add(float(l.sum()), accuracy(y_hat, y), y.numel())
    
    # 计算训练损失和训练精度的平均值,并返回
    return metric[0] / metric[2], metric[1] / metric[2]

画图的代码,每个批次都更新图片,训练图片

class Animator: #@save
    """在动画中绘制数据的动画类"""

    def __init__(self, xlabel=None, ylabel=None, legend=None, xlim=None,
                 ylim=None, xscale='linear', yscale='linear',
                 fmts=('-', 'm--', 'g-.', 'r:'), nrows=1, ncols=1,
                 figsize=(3.5, 2.5)):
        """
        初始化动画对象,配置绘图参数
        参数:
            xlabel: x轴标签
            ylabel: y轴标签
            legend: 图例标签
            xlim: x轴范围
            ylim: y轴范围
            xscale: x轴的刻度类型
            yscale: y轴的刻度类型
            fmts: 绘制线条的格式
            nrows: 子图的行数
            ncols: 子图的列数
            figsize: 图像的大小
        """
        if legend is None:
            legend = []  # 如果没有图例标签,默认为空列表
        d2l.use_svg_display()  # 设置使用SVG格式显示图像
        # 创建图像和子图对象,配置绘图参数
        self.fig, self.axes = d2l.plt.subplots(nrows, ncols, figsize=figsize)
        if nrows * ncols == 1:
            self.axes = [self.axes, ]  # 如果只有一个子图,将子图对象放入列表
        # 使用lambda函数捕获参数,用于设置子图的各种属性
        self.config_axes = lambda: d2l.set_axes(
            self.axes[0], xlabel, ylabel, xlim, ylim, xscale, yscale, legend)
        self.X, self.Y, self.fmts = None, None, fmts  # 初始化存储数据的变量

    def add(self, x, y):
        """向动画中添加数据点"""
        # 如果y不是可迭代对象,将其转换为单元素的可迭代列表
        if not hasattr(y, "__len__"):
            y = [y]
        n = len(y)  # 获取y的长度
        # 如果x不是可迭代对象,将其复制为与y长度相同的可迭代列表
        if not hasattr(x, "__len__"):
            x = [x] * n
        # 如果self.X为空,创建一个空列表,用于存储x轴坐标
        if not self.X:
            self.X = [[] for _ in range(n)]
        # 如果self.Y为空,创建一个空列表,用于存储y轴坐标
        if not self.Y:
            self.Y = [[] for _ in range(n)]
        # 遍历x轴坐标和y轴坐标,将数据点添加到相应的列表中
        for i, (a, b) in enumerate(zip(x, y)):
            if a is not None and b is not None:
                self.X[i].append(a)
                self.Y[i].append(b)
        self.axes[0].cla()  # 清空子图内容,以便绘制新的数据
        # 使用fmts列表中的格式绘制各个数据序列的线条
        for x, y, fmt in zip(self.X, self.Y, self.fmts):
            self.axes[0].plot(x, y, fmt)
        self.config_axes()  # 配置子图的属性
        display.display(self.fig)  # 在输出区域显示图像
        display.clear_output(wait=True)  # 清空输出区域,以便更新图像

def train_ch3(net, train_iter, test_iter, loss, num_epochs, updater): #@save
    """
    训练模型(定义⻅第3章)
    
    参数:
        net: 需要训练的模型
        train_iter: 训练数据迭代器
        test_iter: 测试数据迭代器
        loss: 损失函数
        num_epochs: 训练的迭代周期数
        updater: 更新参数的方法
    """
    # 创建动画对象,用于绘制训练过程中的变化
    animator = Animator(xlabel='epoch', xlim=[1, num_epochs], ylim=[0.3, 0.9],
                        legend=['train loss', 'train acc', 'test acc'])
    
    # 遍历迭代周期
    for epoch in range(num_epochs):
        # 调用train_epoch_ch3函数训练一个迭代周期,获取训练损失和训练精度
        train_metrics = train_epoch_ch3(net, train_iter, loss, updater)
        
        # 在测试数据上计算模型精度
        test_acc = evaluate_accuracy(net, test_iter)
        
        # 将训练损失、训练精度和测试精度添加到动画对象中,以更新绘制的图像
        animator.add(epoch + 1, train_metrics + (test_acc,))
        
        # 检查训练损失、训练精度和测试精度是否在合理范围内
        train_loss, train_acc = train_metrics
        assert train_loss < 0.5, train_loss
        assert train_acc <= 1 and train_acc > 0.7, train_acc
        assert test_acc <= 1 and test_acc > 0.7, test_acc

7、预测

def predict_ch3(net, test_iter, n=6): #@save
    """
    预测标签(定义⻅第3章)
    
    参数:
        net: 训练好的模型
        test_iter: 测试数据迭代器
        n: 需要展示的图像数量(默认为6)
    """
    for X, y in test_iter:
        break  # 获取一个批次的测试数据
    trues = d2l.get_fashion_mnist_labels(y)  # 获取真实标签
    preds = d2l.get_fashion_mnist_labels(net(X).argmax(axis=1))  # 使用模型预测标签
    titles = [true + '\n' + pred for true, pred in zip(trues, preds)]  # 将真实标签和预测标签合并
    d2l.show_images(
        X[0:n].reshape((n, 28, 28)), 1, n, titles=titles[0:n])  # 展示图像和对应的标签

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/903236.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

阿里云轻量应用服务器和云服务器有什么区别?2023更新

阿里云轻量应用服务器和云服务器ECS有什么区别&#xff1f;ECS是专业级云服务器&#xff0c;轻量应用服务器是轻量级服务器&#xff0c;轻量服务器使用门槛更低&#xff0c;适合个人开发者或中小企业新手使用&#xff0c;可视化运维&#xff0c;云服务器ECS适合集群类、高可用、…

ForkJoin框架

1. ForkJoin框架概述 ForkJoin模式先把一个大任务分解成许多个独立的子任务&#xff0c;然后开启多个线程并行去处理这些子任务。有可能子任务还是很大而需要进一步分解&#xff0c;最终得到足够小的任务。ForkJoin模式的任务分解和执行过程大致如下图所示。 ForkJoin模式借助…

NSS [CISCN 2019初赛]Love Math

NSS [CISCN 2019初赛]Love Math 开题直接给源码 <?php error_reporting(0); //听说你很喜欢数学&#xff0c;不知道你是否爱它胜过爱flag if(!isset($_GET[c])){show_source(__FILE__); }else{//例子 c20-1$content $_GET[c];if (strlen($content) > 80) {die("…

差值结构的复合底部

( A, B )---3*30*2---( 1, 0 )( 0, 1 ) 让网络的输入只有3个节点&#xff0c;AB训练集各由6张二值化的图片组成&#xff0c;让A 中有3个点&#xff0c;B中有1个点&#xff0c;且不重合&#xff0c;统计迭代次数并排序。 其中有20组数据 让迭代次数与排斥能成反比&#xff0c;排…

1、Spring_IOC

IOC 1.概述 IOC&#xff1a;Inversion of Control 控制反转&#xff0c;可以让容器负责对象的创建以及销毁操作&#xff0c;对象在容器中叫 bean 2.回顾问题 问题&#xff1a;写了太多与业务无关的代码 耦合度非常高&#xff0c;写了很多和业务无关的代码不利于项目的升级迭…

分类预测 | MATLAB实现S4VM半监督支持向量机二分类预测

分类预测 | MATLAB实现S4VM半监督支持向量机二分类预测 目录 分类预测 | MATLAB实现S4VM半监督支持向量机二分类预测分类效果基本介绍程序设计参考资料 分类效果 基本介绍 分类预测 | MATLAB实现S4VM半监督支持向量机二分类预测 程序设计 完整源码和数据获取方式&#xff1a; …

高级产品经理如何以不同的方式应对挑战

我经常被问到产品经理如何晋升到更高级别。事实上&#xff0c;获得晋升往往是一场复杂的游戏。是的&#xff0c;你的技能和成就很重要&#xff0c;但其他因素也很重要&#xff0c;比如你的经理对人才培养的关心程度、你的同事有多优秀、任期有多长、公司的政治氛围如何等等。 所…

TCP编程流程(补充)

目录 1、listen&#xff1a; 2、listen、tcp三次握手 3、 发送缓冲区和接收缓冲区&#xff1a; 4、tcp编程启用多线程 1、listen&#xff1a; 执行listen会创建一个监听队列 listen(sockfd,5) 2、listen、tcp三次握手 三次握手 3、 发送缓冲区和接收缓冲区&#xff1a;…

【深入探究人工智能】:常见机器学习算法总结

文章目录 1、前言1.1 机器学习算法的两步骤1.2 机器学习算法分类 2、逻辑回归算法2.1 逻辑函数2.2 逻辑回归可以用于多类分类2.3 逻辑回归中的系数 3、线性回归算法3.1 线性回归的假设3.2 确定线性回归模型的拟合优度3.3线性回归中的异常值处理 4、支持向量机&#xff08;SVM&a…

Linux的热拔插UDEV机制

文章目录 UDEV简介守护进程基本特点 守护进程和后台进程的区别开发守护进程结束 UDEV简介 udev是一个设备管理工具&#xff0c;udev以守护进程的形式运行&#xff0c;通过侦听内核发出来的uevent来管理/dev目录下的设备文件。 udev在用户空间运行&#xff0c;而不在内核空间 …

⛳ Java 网络编程

目录 ⛳ Java 网络编程&#x1f3a8; 一、TCP / IP 协议&#x1f463; 二、IP 和 端口号&#x1f381; 三、TCP 网络层编程&#x1f3a8; 3.1、Socket⭐ 3.2、基于Socket的TCP编程 &#x1f3ed; 四、UDP网络编程&#x1f43e; 五、URL编程 ⛳ Java 网络编程 &#x1f3a8; 一…

语法篇--XML数据传输格式

一、XML概述 1.1简介 XML&#xff0c;全称为Extensible Markup Language&#xff0c;即可扩展标记语言&#xff0c;是一种用于存储和传输数据的文本格式。它是由W3C&#xff08;万维网联盟&#xff09;推荐的标准&#xff0c;广泛应用于各种系统中&#xff0c;如Web服务、数据…

Handler机制(二)

在上一篇文章中&#xff0c;我们分析了Handler基本流程&#xff0c;下面分析一些上层开发很少接触的部分。 IdleHandler 从命名可以看出IdleHandler 是Handler出现空闲时的一种机制&#xff0c;IdleHandler是一种只有当消息队列没有消息时或者当前队列中的消息还没有到执行时…

linux 上安装es

首先 到官网 https://www.elastic.co/cn/downloads/elasticsearch 下载对应的安装包&#xff0c;我这里下载的是 https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-8.9.1-linux-x86_64.tar.gz 然后讲该压缩包上传到 linux 的/usr/local 目录下执行 tar -z…

Go语言入门指南:基础语法和常用特性解析(上)

一、Go语言前言 Go是一种静态类型的编译语言&#xff0c;常常被称作是21世纪的C语言。Go语言是一个开源项目&#xff0c;可以免费获取编译器、库、配套工具的源代码&#xff0c;也是高性能服务器和应用程序的热门选择。 Go语言可以运行在类UNIX系统——比如Linux、OpenBSD、M…

基于ChatYuan-large-v2 微调训练 医疗问答 任务

一、ChatYuan-large-v2 上篇基于ChatYuan-large-v2 语言模型 Fine-tuning 微调训练了广告生成任务&#xff0c;总体生成效果还可以&#xff0c;但上篇文章的训练是微调的模型全部的参数&#xff0c;本篇文章还是以 ChatYuan-large-v2 作为基础模型&#xff0c;继续探索仅训练解…

【100天精通python】Day38:GUI界面编程_PyQt 从入门到实战(中)_数据库操作与多线程编程

目录 专栏导读 4 数据库操作 4.1 连接数据库 4.2 执行 SQL 查询和更新&#xff1a; 4.3 使用模型和视图显示数据 5 多线程编程 5.1 多线程编程的概念和优势 5.2 在 PyQt 中使用多线程 5.3 处理多线程间的同步和通信问题 5.3.1 信号槽机制 5.3.2 线程安全的数据访问 Q…

Spring Boot整合RabbitMQ之发布与订阅模式

RabbitMQ的模式中&#xff0c;常用的模式有&#xff1a;简单模式&#xff0c;发布与订阅模式&#xff0c;工作模式&#xff0c;路由模式&#xff0c;主题模式。简单模式不太会运用到工作中&#xff0c;我们可以使用 RabbitMQ 的发布订阅模式&#xff0c;实现&#xff1a; 用户…

KUST_LI计算机视觉实验室服务器安装与管理

第一步&#xff1a;安装 Linux-Ubuntu系统 系统语言设置为英文 ENGLISH&#xff0c;防止系统 BUG&#xff1b;选择-清除整个磁盘并安装系统&#xff1b;设置用户名和密码&#xff0c;实验室统一其余全部默认设置 开机后设置磁盘挂载 在系统设置中找到 desk 打开&#xff0c;…