深度学习(十三)——损失函数与反向传播

news2025/1/4 17:09:30

一、损失函数:Loss Function

官网文档:torch.nn — PyTorch 2.0 documentation

1. Loss Function的作用

  • 每次训练神经网络的时候都会有一个目标,也会有一个输出。目标和输出之间的误差,就是用\(Loss\) \(Function\)来衡量的。所以,误差\(Loss\)是越小越好的。

  • 此外,我们可以根据误差\(Loss\),指导输出\(output\)接近目标\(target\)。即我们可以以\(Loss\)为依据,不断训练神经网络,优化神经网络中各个模块,从而优化\(output\)。

\(Loss\) \(Function\)的作用:

(1)计算实际输出和目标之间的差距

(2)为我们更新输出提供一定的依据,这个提供依据的过程也叫反向传播

2. Loss Function中的函数介绍

(1)nn.L1Loss

计算\(MAE\) (mean absolute error),即假设输入为\(x_i\),目标为\(y_i\),特征数量为\(n\)。在默认情况下,\(nn.L1Loss\)通过下面公式计算误差:

\[\frac{\sum^{n}_{i=1}{|x_i-y_i|}}{n} \]

class torch.nn.L1Loss(size_average=None, reduce=None, reduction='mean')

参数说明:

  • reduction:默认为 ‘mean’ ,可选_mean_和_sum_。

    • reduction='mean'时,计算误差采用公式:

      \[\frac{\sum^{n}_{i=1}{|x_i-y_i|}}{n} \]

    • reduction='sum'时,计算误差采用公式:

      \[\sum^{n}_{i=1}{|x_i-y_i|} \]

  • 需要注意的是,计算的数据必须为浮点数

代码栗子:

import torch
from torch.nn import L1Loss

input=torch.tensor([1,2,3],dtype=torch.float32)
target=torch.tensor([1,2,5],dtype=torch.float32)

input=torch.reshape(input,(1,1,1,3))
target=torch.reshape(target,(1,1,1,3))

loss1=L1Loss()  #reduction='mean'
loss2=L1Loss(reduction='sum')  #reduction='mean'
result1=loss1(input,target)
result2=loss2(input,target)

print(result1,result2)

(2)nn.MSELoss

计算\(MSE\) (mean squared error),即假设输入为\(x_i\),目标为\(y_i\),特征数量为\(n\)。在默认情况下,\(nn.MSELoss\)通过下面公式计算误差:

\[\frac{\sum{n}_{i=1}{(x_i-y_i)2}}{n} \]

class torch.nn.MSELoss(size_average=None, reduce=None, reduction='mean')

参数说明:

  • reduction:默认为 ‘mean’ ,可选_mean_和_sum_。

    • reduction='mean'时,计算误差采用公式:

      \[\frac{\sum{n}_{i=1}{(x_i-y_i)2}}{n} \]

    • reduction='sum'时,计算误差采用公式:

      \[\sum{n}_{i=1}{(x_i-y_i)2} \]

代码栗子:

import torch
from torch.nn import L1Loss,MSELoss

input=torch.tensor([1,2,3],dtype=torch.float32)
target=torch.tensor([1,2,5],dtype=torch.float32)

input=torch.reshape(input,(1,1,1,3))
target=torch.reshape(target,(1,1,1,3))

loss_mse1=MSELoss()  #reduction='mean'
loss_mse2=MSELoss(reduction='sum')  #reduction='mean'
result_mse1=loss_mse1(input,target)
result_mse2=loss_mse2(input,target)

print(result_mse1,result_mse2)

(3)nn.CrossEntropyLoss(交叉熵)

当训练一个分类问题的时候,假设这个分类问题有\(C\)个类别,那么有:

\[loss(x,class)=-log(\frac{exp(x[class])}{\sum_{j}exp(x[j])})=-x[class]+log(\sum_{j}exp(x[j]) \]

*注意:其中的\(log\)在数学中表示的是\(ln\),即以10为底的对数函数

举个栗子:

  • 我们对包含了_人、狗、猫_的图片进行分类,其标签的索引分别为_0、1、2_。这时候将一张_狗_的图片输入神经网络,即目标(\(target\))为\(1\)(对应_狗_的标签索引)。输出结果为\([0.1,0.2,0.3]\),该列表中的数字分别代表分类标签对应的概率。

  • 根据上述分类结果,图片为_人_的概率更大,即\(0.3\)。对于该分类的\(Loss\) \(Function\),我们可以通过交叉熵去计算,即:

    \[x=[0.1,0.2,0.3];x[class]=x[1]=0.2 \]

    \[loss(x,class)=-0.2+log[exp(0.1)+exp(0.2)+exp(0.3)] \]

那么如何验证这个公式的合理性呢?根据上面的栗子,分类结果越准确,\(Loss\)应该越小。这条公式由两个部分组成:

  • \(log(\sum_{j}exp(x[j])\):主要作用是控制或限制预测结果的概率分布。比如说,预测出来的_人、狗、猫_的概率均为_0.9_,每个结果概率都很高,这显然是不合理的。此时\(log(\sum_{j}exp(x[j])\)的值会变大,误差\(loss(x,class)\)也会随之变大。同时该指标也可以作为分类器性能评判标准。

  • \(-x[class]\):在已知图片类别的情况下,预测出来对应该类别的概率\(x[class]\)越高,其预测结果误差越小。

参数说明:

  • Input: \((N,C)\),其中\(N\)代表_batch_size_,\(C\)代表分类的数量(或者叫标签数量),即数据要分成几类(或有几个标签)。

  • Target: \((N)\),对于每个数据:\(0\leq{target[i]}\leq{C-1}\)

代码栗子:

  • 仍然以上面图片分类栗子的结果为例,编写程序
import torch
from torch.nn import L1Loss,MSELoss,CrossEntropyLoss

x=torch.tensor([0.1,0.2,0.3])
y=torch.tensor([1])

x=torch.reshape(x,(1,3))

loss_cross=CrossEntropyLoss()
result_cross=loss_cross(x,y)
print(result_cross)

  • 直接用_CIFAR 10_数据进行实战分类:
import torchvision
from torch import nn
from torch.nn import Conv2d, MaxPool2d, Flatten, Linear, Sequential
from torch.utils.data import DataLoader

dataset=torchvision.datasets.CIFAR10("./dataset",train=False,download=True,transform=torchvision.transforms.ToTensor())
dataloder=DataLoader(dataset,batch_size=1)

class Demo(nn.Module):
    def __init__(self):
        super(Demo,self).__init__()

        self.model1=Sequential(
            Conv2d(3,32,5,padding=2),
            MaxPool2d(2),
            Conv2d(32, 32, 5, padding=2),
            MaxPool2d(2),
            Conv2d(32, 64, 5, padding=2),
            MaxPool2d(2),
            Flatten(),
            Linear(1024, 64),
            Linear(64, 10)
        )

    def forward(self,x):
        x=self.model1(x)
        return x

demo=Demo()
loss=nn.CrossEntropyLoss()
for data in dataloder:
    imgs,targets=data
    output=demo(imgs)

    # print(output)
    #[Run] 一共输出10个数据,分别代表该图像为各个标签的概率.具体如下:
    # tensor([[-0.0151, -0.0990, 0.0908, 0.0354, 0.0731, -0.0313, -0.0329, 0.1006,
    #          -0.0953, 0.0449]], grad_fn= < AddmmBackward0 >)

    # print(targets)
    #[Run] 输出该图像真实的标签,具体如下:
    # tensor([7])

    result_loss=loss(output,targets)
    print(result_loss)

二、反向传播

如何根据\(Loss\) \(Function\)为更新神经网络数据提供依据?

  • 对于每个卷积核当中的参数,设置一个\(grad\)(梯度)。

  • 当我们进行反向传播的时候,对每一个节点的参数都会求出一个对应的梯度。之后我们根据梯度对每一个参数进行优化,最终达到降低\(Loss\)的一个目的。比较典型的一个方法——梯度下降法

代码举例:

  • 在上面的代码for循环的最后,加上:
result_loss.backward()

  • 上面就是反向传播的使用方法,它的主要作用是计算一个\(grad\)。使用debug功能并删掉上面这行代码,会发现单纯由result_loss=loss(output,targets)计算出来的结果,是没有\(grad\)这个参数的。

最后的最后

感谢你们的阅读和喜欢,我收藏了很多技术干货,可以共享给喜欢我文章的朋友们,如果你肯花时间沉下心去学习,它们一定能帮到你。

因为这个行业不同于其他行业,知识体系实在是过于庞大,知识更新也非常快。作为一个普通人,无法全部学完,所以我们在提升技术的时候,首先需要明确一个目标,然后制定好完整的计划,同时找到好的学习方法,这样才能更快的提升自己。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

五、面试资料

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下。
在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1840188.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++跨平台socket编程

C跨平台socket编程 一、概述1.1 TCP协议1.1 TCP 的主要特性1.2 TCP报文格式 UDP报文格式IP协议使用windows编辑工具直接编辑Linux上代码 二、系统socket库1.windows上加载socket库2.创建socket2.1 windows下2.2 linux下 3.网络字节序4.bind端口5.listen监听并设置最大连接数6.a…

【Linux】环境基础开发工具使用(yum、vim、gcc/g++、gdb、make/Makefile)

文章目录 Linux 软件包管理器 yumLinux开发工具Linux编辑器-vim使用vim的基本概念vim下各模式的切换vim命令模式各命令汇总vim底行模式各命令汇总批量化注释和批量化去注释vim简单的配置解决一个小问题 Linux编译器-gcc/g作用gcc/g 语法预处理编译汇编链接什么是函数库 Linux调…

vscode + CMake编译(opencv显示图片工程)

1.opencv 2.Cmake 2.1 简介 CMake是一个跨平台的安装&#xff08;编译&#xff09;工具&#xff0c;可以用简单的语句来描述所有平台的安装(编译过程)。他能够输出各种各样的makefile或者project文件&#xff1b;Cmake 并不直接建构出最终的软件&#xff0c;而是产生标准的建…

mfc140.dll电脑文件丢失的处理方法,这4种方法能快速修复mfc140.dll

mfc140.dll文件是一个非常重要的dll文件&#xff0c;如果它丢失了&#xff0c;那么会严重的影响程序的运行&#xff0c;这时候我们要找方法去修复mfc140.dll这个文件&#xff0c;那么你知道怎么修复么&#xff1f;如果不知道&#xff0c;那么不妨看看下面的mfc140.dll文件丢失的…

1980python个性化电影推荐管理系统mysql数据库Django结构layUI布局elasticsearch存储计算机软件工程网页

一、源码特点 python Django个性化电影推荐管理系统是一套完善的web设计系统mysql数据库 利用elasticsearch存储浏览数据 &#xff0c;对理解python编程开发语言有帮助&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统主要采用B/S模式开发。 开发环境pycharm…

Java面试八股之myBatis中#{}和${}标识的区别是什么

myBatis中#{}和${}标识的区别是什么 MyBatis中的#{}和${}都是用来动态地向SQL语句中插入参数的&#xff0c;但它们之间存在几个关键的区别&#xff1a; 预编译与字符串替换&#xff1a; #{}是预编译处理的参数占位符。MyBatis会将#{}中的内容替换为一个预编译语句的参数标记…

全民拼购:引领商业新潮流,共创共赢新篇章

在当下的商业格局中&#xff0c;一种曾被忽视但实则具有颠覆性价值的商业理念正在逐步显露其锋芒。与传统的交易方式相悖&#xff0c;这一模式在我近期接触到的某个实例中&#xff0c;即便在用户基数尚未突破二十万之际&#xff0c;也能实现日均销售额逼近五千万的辉煌成绩&…

2024青海三支一扶招1910人7月6日笔试

&#x1f4e2;2024年青海省三支一扶计划招募1910人公告已发布&#xff01; 小&#x1f004;️帮大家整理好了考试关键时间点&#xff1a; ★ 报名时间&#xff1a;6月20日至6月25日 ★ 报名网站&#xff1a;青海省人事考试信息网&#xff08;www.qhpta.com&#xff09; ★ 网上…

停止 Windows 更新

首先按住 win r&#xff0c;输入 regedit&#xff1a; 点击确认&#xff0c;进入注册表页面&#xff1a; 依次点击右侧&#xff1a;HKEY_LOCAL_MACHINE -> SOFTWARE -> Microsoft -> WindowsUpdate -> UX -> Settings&#xff1a; 进入编辑器后&#xff0c;右键…

亲测:无影云电脑免费三个月已经缩短为1个月

亲测&#xff1a;无影云电脑免费三个月已经缩短为1个月&#xff0c;大家不要再找3个月的无影云电脑&#xff0c;已经没有了&#xff0c;目前最新消息是1个月。以前可以领3个月&#xff0c;现在只能领1个月&#xff0c;在阿里云免费中心 https://free.aliyun.com/ 大家自己看吧&…

实验室自用LabVIEW软件与商用软件价格差异分析

实验室自用LabVIEW软件与商用软件在价格上的差异源于功能与扩展包、技术支持与服务、使用场景与合规性、更新与维护、市场与定价策略、培训与教育资源及许可证管理与合规审计等方面的不同。商用软件提供更全面的功能和支持&#xff0c;确保高可靠性和合规性&#xff0c;因此价格…

Golang的Gin框架

目录 功能以及简单使用 gin.Engine数据结构 RouterGroup methodTrees gin.context 功能以及简单使用 功能: • 支持中间件操作&#xff08; handlersChain 机制 &#xff09; • 更方便的使用&#xff08; gin.Context &#xff09; • 更强大的路由解析能力&#xff08…

系统状态检测命令

1.ifconfig用于获取网卡配置与网络状态等信息 [rootlinuxprobe Desktop]# ifconfig eno16780032: flags4099<UP,BROADCAST,MULTICAST> mtu 1500 ether 00:0c:29:90:17:bb txqueuelen 1000 (Ethernet) RX packets 0 bytes 0 (0.0 B) RX errors 0 dropped 0 overruns 0 fra…

2024年了,C++还值得学吗?6个C++的就业方向打消你的疑虑

C语言是一种广泛应用于计算机编程的高级编程语言&#xff0c;自从其首次问世以来&#xff0c;就在软件开发领域取得了广泛的应用和成功。作为一种强大的编程语言&#xff0c;C语言不断发展和改进&#xff0c;也在不断地适应新的技术和需求。在未来几年&#xff0c;C语言将继续保…

移植案例与原理 - HDF驱动框架-驱动配置(1)

HCS(HDF Configuration Source)是HDF驱动框架的配置描述源码&#xff0c;内容以Key-Value为主要形式。它实现了配置代码与驱动代码解耦&#xff0c;便于开发者进行配置管理。应该&#xff0c;类似Linux DTS(Device Tree Source)设备树。 HC-GEN(HDF Configuration Generator)是…

网络中数据链路层详解

数据链路层其实我们这里了解即可&#xff0c;因为做交换机开发的是主要学习这方面的知识。 这里我们主要了解以太网协议。 以太网是物理学的概念。以太网横跨数据链路层和物理层&#xff0c;平时咱们使用有线网就是以太网络。 如图以太网协议的报文格式&#xff1a; 上述的目…

python 微信群发工具

效果如下 python 微信消息群发工具 1、环境安装依据python手机app自动化测试环境搭建-CSDN博客 2、元素获取 启动uiautomatorviewer.bat工具,如下图 点击获取手机界面,如下图 3、根据获取的界面元素id或class名称编写代码 python简易代码如下 from appium import webdrive…

LangChain入门学习笔记(五)—— Model I/O之Chat Models

在LangChain的组件当中&#xff0c;Chat Models可以说跟LLMs占据着相同的“生态位”&#xff0c;它也是根据用户输入的提示内容&#xff0c;调用底层的大模型产生内容。与LLMs不同的是&#xff0c;LangChain的Chat Models主要有如下一些不同&#xff1a; 输入输出格式不同&…

aminer挖矿木马活动分析

1. aminer挖矿木马概览 近期&#xff0c;安天CERT通过捕风蜜罐系统[1]捕获了一批活跃的挖矿木马样本&#xff0c;该挖矿木马主要利用SSH和Redis弱口令暴力破解对Linux平台进行攻击。由于其初始脚本中下载挖矿文件的名称为“aminer.gz”&#xff0c;因此安天CERT将该挖矿木马命…

leetcode刷题(46-50)

算法是码农的基本功&#xff0c;也是各个大厂必考察的重点&#xff0c;让我们一起坚持写题吧。 遇事不决&#xff0c;可问春风&#xff0c;春风不语&#xff0c;即是本心。 我们在我们能力范围内&#xff0c;做好我们该做的事&#xff0c;然后相信一切都事最好的安排就可以啦…