【LLM学习之路】9月16日 第六天

news2025/1/15 23:31:40

【LLM学习之路】9月16日 第六天

损失函数

L1Loss

可以取平均也可以求和

参数解析

input (N,*) N是batchsize,星号代表可以是任意维度 不是输入的参数,只是描述数据

target 形状要同上

MSELoss平方差

CrossEntropyLoss交叉熵

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

inputs的形状要是(N, C) N是批次大小

x = torch.tensor([0.1,0.2,0.3]) #形状为 (3,) 的 1D 张量
y = torch.tensor([1])
x = torch.reshape(x,(1,3)) #inputs 的形状要是 (N, C)
loss_cross = nn.CrossEntropyLoss()
result_cross = loss_cross(x,y)

反向传播

result_loss.backward()

优化器

套路是这样的

optim = torch.optim.SGD(tudui.parameters(),loss=0.01)
optim.zero_grad() 进行梯度清零
result_loss.backward() 反向传播计算梯度
optim.step() 对模型参数进行调优

后面自己添加了如何使用显卡

import torch
import torchvision.datasets
from torch import nn
from torch.nn import Conv2d, MaxPool2d, Flatten, Linear, Sequential
from torch.utils.data import DataLoader
# 检查是否有 GPU 可用
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")

dataset = torchvision.datasets.CIFAR10("./data",train = False,download=True,transform=torchvision.transforms.ToTensor())
dataloader = DataLoader(dataset,batch_size=1)
class Tudui(nn.Module):
    def __init__(self):
        super(Tudui,self).__init__()
        self.conv1 = Conv2d(3,32,5,padding=2)
        self.maxpool1 = MaxPool2d(2)
        self.conv2 = Conv2d(32,32,5,padding=2)
        self.maxpool2 = MaxPool2d(2)
        self.conv3 = Conv2d(32,64,5,padding=2)
        self.maxpool3 = MaxPool2d(2)
        self.flatten = Flatten()
        self.linear1 = Linear(1024,64)
        self.linear2 = Linear(64,10)

        self.model1 = Sequential(
            Conv2d(3, 32, 5, padding=2),
            MaxPool2d(2),
            Conv2d(32, 32, 5, padding=2),
            MaxPool2d(2),
            Conv2d(32, 64, 5, padding=2),
            MaxPool2d(2),
            Flatten(),
            Linear(1024, 64),
            Linear(64, 10)
        )

    def forward(self,x):
        x = self.model1(x)
        return x
loss = nn.CrossEntropyLoss()
tudui = Tudui().to(device)
optim = torch.optim.SGD(tudui.parameters(),lr=0.01)

for epoch in range(20):
    running_loss = 0.0
    for data in dataloader:
        imgs,targets = data
        imgs,targets = imgs.to(device), targets.to(device)
        outputs = tudui(imgs)
        # print(outputs)
        # print(targets)
        result_loss = loss(outputs,targets)
        optim.zero_grad()
        result_loss.backward()
        optim.step()
        # print("ok")
        running_loss = result_loss + running_loss

    print(running_loss)

完整的模型验证套路

利用已经训练好的模型,然后给它提供输入

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2154741.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

物理学基础精解【7】

文章目录 平面方程直角坐标及基本运算 参考文献 平面方程 直角坐标及基本运算 向量的四则运算 下面由文心一言自动生成 向量的四则运算主要包括加法、减法、数乘(标量乘法)和数量积(点积或内积),但通常不直接称为“除…

python sql中带引号字符串(单双引号)转义处理

描述: 最近在爬取数据保存到数据库时,遇到有引号的字符串插入MySQL报错:1064, "You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 转义字符串…

线程(三) 线程的互斥

文章目录 线程线程的同步和互斥线程同步线程互斥为什么要使用线程互斥什么是线程同步示例--线程操作共享资源引发问题 线程互斥--互斥锁示例--使用互斥锁来保证取款操作 互斥锁的属性示例--创建不同的属性的互斥锁后进行加锁操作 线程互斥--读写锁示例--对读写锁进行使用以观察…

鸿蒙【项目打包】- .hap 和 .app;(测试如何安装发的hap包)(应用上架流程)

#打包成.hap需要用到真机 原因是:只有用上了真机才能在项目中配置 自动签名 #步骤: ##第一步:选择真机->选择项目结构->点Sigining Configs(签名配置) ##第二步:勾选Automatically generate signature(自动签名)->点击ok ##第三步:点击构建->点击 …

伊犁云计算22-1 rhel8 dhcp 配置

1 局域网搭建 2 yum 配置 这个参考前面 不说 3 dnf 安装dhcp 好我们废话不说开始安装。理论看书去 进入 dhcp.conf 配置 重启dhcpd 不能报错!!!! 我们在客户机上做测试 全局的dhcp关闭 很明显我们的客户机获取到192.16…

Why Is Prompt Tuning for Vision-Language Models Robust to Noisy Labels?

文章汇总 本文的作者针对了提示学习的结构设计进行了分析,发现了一些规律: 1)固定的类名令牌为模型的优化提供了强正则化,减少了由噪声样本引起的梯度。 2)从多样化和通用的web数据中学习到的强大的预训练图像文本嵌入为图像分类提供了强大…

李宏毅机器学习2023-HW11-Domain Adaptation

文章目录 TaskLinkBaselineSimple BaselineMedium BaselineStrong BaselineBoss Baseline Task Domain Adaptation 通过训练真实图片得到分类模型,并将其应用到涂鸦图片上进行分类,来获得更高的精准度。 Link kaggle colab Baseline Simple Baseli…

JVM(HotSpot):JVM简单介绍

文章目录 一、什么是JVM二、优点三、比较四、学习路线 一、什么是JVM 定义:java程序的运行环境 首先,我们要知道,JVM是一套规范,运行java程序的一套规范。 那么,我们学习过java的人都知道,接口规范的实现类…

软考高级:数据库关系模式推理规则 AI 解读

你提出的是关系模式中的一些经典推理规则,这些规则在数据库理论、函数依赖和范式相关的讨论中经常出现。我们可以通过以下方式深入理解这些规则,并且对其中的推理逻辑进行分解。 生活化例子 想象你在管理一家快递公司,货物需要从仓库&#…

24年研赛-华为杯数模竞赛D题论文首发+代码分享

本届研赛助攻题目 C D F三题论文均已经全部完成。后更新计划 如图所示。 免费给大家分享 三个问题的论文部分代码 2024年华为杯-研赛分享资料(论文部分代码)(已更新部分代码): 链接:https://pan.baidu.com…

数据结构哈希(hash)

个人主页:C忠实粉丝 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 C忠实粉丝 原创 数据结构哈希(hash) 收录于专栏 [C进阶学习] 本专栏旨在分享学习C的一点学习笔记,欢迎大家在评论区交流讨论💌 目录 1. 哈希的概念 2.…

Linux:进程(四)

目录 一、进程优先级 二、Linux调度与切换 1.背景 2.进程切换 一、进程优先级 背景:在计算机中,软硬件资源是有限的,而进程想要访问某一种资源,就得通过排队来保证访问资源的过程是有条不紊的。 Linux下对优先级的定义。执行命…

MAE 模型

masked autoencoders (MAE) 论文地址:https://arxiv.org/abs/2111.06377 代码地址:https://github.com/facebookresearch/mae 模型结构图: 思想:自监督学习(Self-Supervised Learning),遮住大部分&…

【BEV 视图变换】Fast-Ray(2): 代码复现+画图解释 基于查找表LUT、多视角到单个三维体素转换

paper:Fast-BEV: A Fast and Strong Bird’s-Eye View Perception Baseline code:https://github.com/Sense-GVT/Fast-BEV 致谢: 感谢我司傅同学提供的复现源码 一、完整复现代码(可一键运行)和效果图 Fast-Ray pipeline: 1.创建uv coord se…

PHP项目中Vendor错误导致项目失败的解决方案

在PHP项目中,vendor目录通常用于存放通过Composer安装的依赖库。虽然这些依赖极大地提高了开发效率,但它们也可能成为项目失败的隐患。本文将探讨常见的Vendor错误及其解决方案。 #### 1. 常见的Vendor错误 ##### 1.1 版本不兼容 不同的依赖可能对PHP…

微软AI核电计划

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

如何养成好习惯

最近一直在玩黑神话悟空,加上有录制实况视频,还是花了快一个月才通关,现在可以回到正常的文章更新节奏了。 上次我们学习了读书笔记-《习惯的力量》,不过那毕竟是国外的、十多年前的书籍了。如今,我们的生活又发生了不…

如何在银河麒麟操作系统中关闭IPv6

如何在银河麒麟操作系统中关闭IPv6 1、临时关闭IPv62、永久关闭IPv6方法一:通过sysctl.conf方法二:通过GRUB配置 1、3、 验证IPv6是否已关闭 💖The Begin💖点点关注,收藏不迷路💖 在当前的网络环境中&#…

MVC、MVP和MVVM三种设计模式之间的区别是什么

区别: mvc表示“模型-视图-控制器”,mvp表示“模型-视图-演示者”,mvvm表示“模型-视图-视图模型”; mvp、mvvm都是由mvc衍生出的。mvc中,view会直接从model中读取数据;mvp中,view并不直接使用m…

如何使用智能代码编辑器改变编程体验

你是否曾经在深夜加班时,望着屏幕上密密麻麻的代码,感到无比疲惫?或者在处理复杂项目时,被繁琐的代码管理和调试过程折磨得头痛不已?如果是这样,那么你可能还没有发现编程世界中的一个秘密武器——智能代码…