大模型中常见 loss 函数

大模型中常见 loss 函数

news2025/7/13 18:59:51

loss 函数

首先，Loss 是允许不降到 0 的，模型计算的 loss 最终结果可以接近 0。

可以成为 loss 函数的条件## 常用 loss

以下函数调用基于 Pytorch，头文件导入：
import torch.nn as nn

均方差（MSE）
nn.functional.mse_loss
定义
预测值与真实值之差的平方的平均值
应用场景
主要用于回归问题
交叉熵（Cross Entropy）
nn.functional.cross_entropy 要求二维的输入，一维的输出
nn.CrossEntropyLoss 中已经实现了softmax功能
对于 y_pred 的要求是：n * class_num，对于 y 的要求是 n
交叉熵计算逻辑的例子
定义
衡量概率分布之间的差异
应用场景
- 主要用于分类问题，尤其是二分类和多分类问题
- 适用于输出层使用 sigmoid 或 softmax 激活函数的情况，因为这些函数的输出可以解释为概率分布
- 计算逻辑
  -log(预测值与正确标签对位相乘，再相加)
- 使用前提
  1. 交叉熵的输入是一个概率值
  2. 预测场景概率空间和结果为1（log函数在x小于0时无定义）
    特点
  3. 目前，在分类问题上，基本都采用交叉熵。
  4. 使模型输出易于比较（通过交叉熵损失）
  5. 通过归一化（指将模型输出转换为概率分布）来评估模型性能

记录应用不多的其他 loss（以下 loss 有使用心得之后再做记录）

0/1损失（BCELoss）
通常与 sigmoid 函数一起使用
指数损失
对数损失
Hinge损失

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2151863.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

基于微信小程序的剧本杀游玩一体化平台

基于微信小程序的剧本杀游玩一体化平台

作者：计算机学姐开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等，“文末源码”。专栏推荐：前后端分离项目源码、SpringBoot项目源码、SSM项目源码系统展示基于微信小程序JavaSpringBootVueMySQL的剧…

阅读更多...

详细分析Java中的ObjectMapper基本知识（附Demo）

详细分析Java中的ObjectMapper基本知识（附Demo）

目录 1. 基本知识2. 基本操作2.1 转换Java对象为JSON2.2 转换JSON为Java对象 3. 拓展 1. 基本知识 ObjectMapper 是 Jackson 数据处理库中的核心类之一，主要用于将 Java 对象转换为 JSON 和将 JSON 转换为 Java 对象 Jackson 是当前最流行的 JSON 处理库之一&…

阅读更多...

秒懂Linux之消息队列与信号量（了解）

秒懂Linux之消息队列与信号量（了解）

目录前言消息队列原理信号量理论信号量原理 IPC资源前言消息队列与信息量目前已经不常用了，大家也可以参考共享内存去了解基本原理即可。消息队列原理消息队列提供了一个从一个进程向另外一个进程发送一块数据的方法每个数据块都被认为是有一个类型&…

阅读更多...

ArcGIS10.2/10.6安装包下载与安装（附详细安装步骤）

ArcGIS10.2/10.6安装包下载与安装（附详细安装步骤）

相信从事地理专业的小伙伴来说，应该对今天的标题不会陌生。Arcgis是一款很常用的地理信息系统软件，主要用于地理数据的采集、管理、分析和展示。目前比较常见的版本有ArcGIS 10.2和ArcGIS 10.6。不可否认，Arcgis具有强大的地图制作、空间分…

阅读更多...

Linux环境Docker安装Mongodb

Linux环境Docker安装Mongodb

Linux环境Docker安装Mongodb 环境要求拉取指定版本镜像创建映射目录（相当于数据存放于容器外，容器被删除不会影响数据）启动容器进入mongo命令行为指定db创建新用户查看mongodb的容器id进入命令行查看所有db切换db为指定db创建新用户使用新账…

阅读更多...

5、论文阅读：深水下的图像增强

5、论文阅读：深水下的图像增强

深水下的图像增强前言介绍贡献UWCNN介绍网络架构残差Residuals块 Blocks网络层密集串联网络深度减少边界伪影网络损失Loss后处理前言水下场景中，与波长相关的光吸收和散射会降低图像的可见度，导致对比度低和色偏失真。为了解决这个问题，我们提出了一种基于卷积神经网络的…

阅读更多...

【JavaEE】线程创建和终止，Thread类方法，变量捕获（7000字长文）

【JavaEE】线程创建和终止，Thread类方法，变量捕获（7000字长文）

阿华代码，不是逆风，就是我疯，你们的点赞收藏是我前进最大的动力！！7000字长文，希望本文内容能够帮助到你！ 目录一：创建线程五种方式方式一：继承Thread类，…

阅读更多...

服务器非法关闭后MySQL服务启动失败

服务器非法关闭后MySQL服务启动失败

在写这篇文章前，我弄好了，写完之后把成功安装的几个MySQL都删除了，只留了最后测试成功的服务“mysql-test” ,然后点击运行，发现又出现上图的错误。心态炸了。本以为定位到问题了，但是这个错误让我迷茫了。我只能临时…

阅读更多...

缓存技巧 · Spring Cache Caffeine 高性能缓存库

缓存技巧 · Spring Cache Caffeine 高性能缓存库

Caffeine 背景 Caffeine是一个高性能的Java缓存库，它基于Guava Cache进行了增强，提供了更加出色的缓存体验。Caffeine的主要特点包括： 高性能：Caffeine使用了Java 8最新的StampedLock乐观锁技术，极大地提高了缓存的并…

阅读更多...

VisionPro - 基础 - 00 模板匹配技术和在VP中的使用 - PMAlign - PatMax - （3）

VisionPro - 基础 - 00 模板匹配技术和在VP中的使用 - PMAlign - PatMax - （3）

前言： 针对PatMax 的高级应用和原理，在这一节继续进行说明：这一节主要考虑的是PatMax模板匹配的原理： How PatMax Finds Patterns in an Image PatMax 模板匹配原理 1 Run-time Space When you search for a PatMax pattern in …

阅读更多...

World of Warcraft [CLASSIC] International translation bug

World of Warcraft [CLASSIC] International translation bug

internationalization i18n_getinternationalizationjs-CSDN博客 1）国际化翻译不完整 Chance on melee and ranged critical strike to increase your attack power by 1262 for 10s. 2）更新美酒节，服务器并发太高，被提出副本 Wo…

阅读更多...

DataFrame生成excel后为什么多了一行数字

DataFrame生成excel后为什么多了一行数字

问题描述 python查询数据生成excel文件，生成的excel多了第一行数字索引，1,2,3,4,5...... 代码： df pd.DataFrame(data)df.to_excel(filename, sheet_name用户信息表, indexFalse) 解决： 原理也很简单，就是设置个参…

阅读更多...

Java对象一口气讲完！φ(*￣0￣)

Java对象一口气讲完！φ(*￣0￣)

Java Object类 Java面向对象设计 - Java Object类 Java在java.lang包中有一个Object类。所有Java类都直接或间接扩展Object类。所有Java类都是Object类的子类Object类是所有类的超类。 Object类本身没有超类。 Object类的引用变量可以保存任何类的对象的引用。以下代…

阅读更多...

python中ocr图片文字识别样例（一）

python中ocr图片文字识别样例（一）

一、使用easyocr安装依赖 pip install easyocr pip install opencv-python-headless # 处理图像二、具体实现，此处有个缺陷，大家可以尝试解决下，识别的文字打印结果没问题，但是图片识别出现乱码： 2.1 具体识别的图片…

阅读更多...

Springboot 文件上传下载相关问题

Springboot 文件上传下载相关问题

文章目录关于Springboot 文件上传下载问题解决方案注意事项文件上传文件下载文件删除文件在线打开在写练习的时候，发现了一些小小的问题，已经在上述代码中体现。① 代码路径碰到中文的时候，会有乱码，需要转换（内容中…

阅读更多...

【全网首发】2024华为杯数学建模ABCDEF选题方向+完整思路代码+数据集处理+可视化结果

【全网首发】2024华为杯数学建模ABCDEF选题方向+完整思路代码+数据集处理+可视化结果

2024华为杯研究生数学建模比赛ABCDEF选题分析建议选哪道题？ 点击链接加入群聊【2024华为杯数学建模助攻资料】：http://qm.qq.com/cgi-bin/qm/qr?_wv1027&kxtS4vwn3gcv8oCYYyrqd0BvFc7tNfhV7&authKeyedQFZne%2BzvEfLEVg2v8FOm%2BWNg1V%2Fiv3H…

阅读更多...

$KMP算法的实现$

KMP算法的实现

这是C算法基础-数据结构专栏的第二十六篇文章，专栏详情请见此处。引入 KMP算法是一种可以快速查找某一字符串在一个文本中的所有出现的算法。下面我们就来讲KMP算法的实现。定义 Knuth–Morris–Pratt 算法，简称KMP算法，是由Knuth、Pratt…

阅读更多...

2024华为杯数学建模竞赛E题

2024华为杯数学建模竞赛E题

2024年中国研究生数学建模竞赛E题高速公路应急车道紧急启用模型高速公路拥堵现象的原因众多，除了交通事故外，最典型的就是部分路段出现瓶颈现象，主要原因是车辆汇聚，而拥堵后又容易蔓延。高速公路一些特定的路段容易形成堵点&…

阅读更多...

云手机的便捷性和安全性体现在哪？

云手机的便捷性和安全性体现在哪？

随着5G技术的迅速发展，云手机在游戏、电商以及新媒体营销等领域中的应用日益广泛。它不仅能够显著降低成本、提升效率，还随着边缘计算和云技术的进步，展现出无限的增长潜力。云手机的便捷性体现在哪里？ 云手机的便捷性毋庸置疑。…

阅读更多...

煤矿智慧矿井数据集（1.煤矿采掘工作面智能分析数据集2.煤矿井下钻场智能分析数据集）

煤矿智慧矿井数据集（1.煤矿采掘工作面智能分析数据集2.煤矿井下钻场智能分析数据集）

智慧矿井智能分析数据集数据1：数据1包含煤矿采掘工作面工人安全帽检测，工人行为检测（行走，站立，坐，操作，弯腰，靠，摔，爬），液压支撑防护…

阅读更多...

推荐文章

最新文章