《昇思25天学习打卡营第2天|02快速入门》

《昇思25天学习打卡营第2天|02快速入门》

news2025/4/12 14:48:05

课程目标

这节课准备再学习下训练模型的基本流程，因此还是选择快速入门课程。

整体流程

整体介绍下流程：

数据处理
构建网络模型
训练模型
保存模型
加载模型
思路是比较清晰的，看来文档写的是比较连贯合理的。

数据处理

看数据也是手写体数据集的例子。
他们把数据都放存储了一份，可以通过设置获取到训练集合和测试集合。
构建了一个以64为一批的包：在这里插入图片描述
可以迭代获取到数据：

整体来说获取数据的部分还是比较清晰的。

网络构建

构建网络的方法和pytorch是比较接近的：
在这里插入图片描述
可以看出来，将数据先打平，然后放到全链接层，之后经过relu，再经过两个循环就构建好了网络。
模型的样子差不多是：

模型训练

在这里插入图片描述
通过截图可以看出来，损失函数和优化器都依次进行定义。注意这里使用的是交叉熵损失函数，所以要求的label是[batch_size]，logits是[batch_size, num_class]。
损失函数的实现逻辑：

import numpy as np

def softmax(logits):
    exp_logits = np.exp(logits - np.max(logits, axis=-1, keepdims=True))
    probs = exp_logits / np.sum(exp_logits, axis=-1, keepdims=True)
    return probs

def cross_entropy_loss(logits, labels):
    probs = softmax(logits)
    batch_size = logits.shape[0]
    
    # 取出正确类别的概率
    correct_log_probs = -np.log(probs[np.arange(batch_size), labels])
    
    # 计算平均损失
    loss = np.sum(correct_log_probs) / batch_size
    return loss

# 示例
logits = np.array([[2.0, 1.0, 0.1], [1.2, 0.9, 3.2], [0.5, 2.1, 0.3]])
labels = np.array([0, 2, 1])

loss = cross_entropy_loss(logits, labels)
print(f'Loss: {loss}')

在这个实现中：

softmax 函数对 logits 进行 softmax 操作。
cross_entropy_loss 函数计算交叉熵损失。
np.log 计算负对数概率。
np.arange(batch_size) 创建一个数组 [0, 1, 2, …, batch_size-1] 用于选择正确类别的概率。

通过最上面训练的代码也可以看出来，每一个step会进行一次计算优化器，获得loss。然后每100个step输出一次数据。
在整体的更上层，执行了3个epoch。
在这里插入图片描述

保存模型

在这里插入图片描述

加载模型

整体看着也挺简单的：
在这里插入图片描述

打卡

完结撒花，打卡。
在这里插入图片描述

总结

今天又过了一次，从构建数据到构建模型，和训练的整体过程都介绍完毕了。这里的模型很简单，所以训练的时候也很简单。如果是大语言模型的训练过程，需要使用到更复杂的处理逻辑，可能会依赖DeepSpeed进行并行训练。希望在接下来的学习中有机会接触到。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1924441.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【算法】平衡二叉树

【算法】平衡二叉树

难度：简单题目给定一个二叉树，判断它是否是平衡二叉树示例： 示例1： 输入：root [3,9,20,null,null,15,7] 输出：true 示例2： 输入：root [1,2,2,3,3,null,null,4,4] 输出&…

阅读更多...

炒鸡清晰的防御综合实验（内含区域划分，安全策略，用户认证，NAT认证，智能选路，域名访问）

炒鸡清晰的防御综合实验（内含区域划分，安全策略，用户认证，NAT认证，智能选路，域名访问）

实验拓扑图如下： 前面六个条件在之间的实验中做过了，详细步骤可以去之前的文章看这里简写一下大致步骤第一步： 先将防火墙之外的配置给配置好，比如，PC的IP,交换上的Vlan划分。第二步： 在浏览器上登…

阅读更多...

用SurfaceView实现落花动画效果

用SurfaceView实现落花动画效果

上篇文章 Android子线程真的不能刷新UI吗？(一）复现异常中可以看出子线程更新main线程创建的View，会抛出异常。SurfaceView不依赖main线程，可以直接使用自己的线程控制绘制逻辑。具体代码怎么实现了？ 这篇文章用Surfa…

阅读更多...

【算法专题】快速排序

【算法专题】快速排序

1. 颜色分类 75. 颜色分类 - 力扣（LeetCode） 依据题意，我们需要把只包含0、1、2的数组划分为三个部分，事实上，在我们前面学习过的【算法专题】双指针算法-CSDN博客中，有一道题叫做移动零，题目要…

阅读更多...

小公司的Git工作流程

小公司的Git工作流程

项目初始化 git init并添加.gitignore文件 Git使用通过git add . 把代码推到暂存区通过git commit -m “你的说明”，将暂存区的代码推到本地仓库将本地仓库的代码通过git push 推到远程仓库远程仓库(gitee/gitlab/github)同事就可以通过命令git pull将你推上去的…

阅读更多...

信息学奥赛初赛天天练-46-CSP-J2020阅读程序2-进制转换、十进制转k进制、等比数列通项公式、等比数列求和公式应用

信息学奥赛初赛天天练-46-CSP-J2020阅读程序2-进制转换、十进制转k进制、等比数列通项公式、等比数列求和公式应用

PDF文档公众号回复关键字:20240713 2020 CSP-J 阅读程序2 1阅读程序(程序输入不超过数组或字符串定义的范围；判断题正确填 √，错误填。除特殊说明外，判断题 1.5 分，选择题 3 分，共计 40 分) 01 #include <iostre…

阅读更多...

java各种锁介绍

java各种锁介绍

在 Java 中，锁是用来控制多个线程对共享资源进行访问的机制。主要有以下几种类型的锁： 1.互斥锁（Mutex Lock)：最简单的锁，一次只允许一个线程访问共享资源。如果一个线程获得了锁，其他线程必须等待锁被释放…

阅读更多...

DEBUG:jeston卡远程ssh编程

DEBUG:jeston卡远程ssh编程

问题 jeston 打开网页 gpt都不方便而且只需要敲命令就行解决下载MobaXterm(window执行) liunx需要虚拟机软件远程快速复制命令

阅读更多...

【kubernetes】Helm包管理器基本概念与Chart实战

【kubernetes】Helm包管理器基本概念与Chart实战

概念：基础架构与常用命令三个重要概念： 1.chart 创建Kukernetes应用程序所必需的一组信息。 2.config 包含了可以合并到打包的chart中的配置信息，用于创建一个可发布的对象。 3.release 是一个与特走配置相结合的chart的运行实例。常用命…

阅读更多...

聊点基础---Java和.NET开发技术异同全方位分析

聊点基础---Java和.NET开发技术异同全方位分析

1. C#语言基础 1.1 C#语法概览欢迎来到C#的世界！对于刚从Java转过来的开发者来说，你会发现C#和Java有很多相似之处，但C#也有其独特的魅力和强大之处。让我们一起来探索C#的基本语法，并比较一下与Java的异同。程序结构 C#程序…

阅读更多...

数学建模·非线性规划

数学建模·非线性规划

整型规划适用于一个变量或多个变量的值只能是整型的情况整形规划的分类 0-1背包问题对于一个物品来说，只有选和不选两种情况表现为单下标，单变量问题例：建设学校问题对于每个学校来说只有选和不选两种情况，在数学上我们用…

阅读更多...

O型密封圈橡胶制品外观视觉检测解决方案

O型密封圈橡胶制品外观视觉检测解决方案

一;O型密封圈橡胶制品行业背景调查 O型密封圈橡胶制品的外观视觉检测是一个确保产品质量和性能的关键步骤。以下是对该检测过程的详细分析和归纳： 一：检测目的确保O型密封圈橡胶制品在生产过程中无缺陷，如杂质、毛刺、尺寸不符等。满足不同…

阅读更多...

Vue.js学习笔记（五）抽奖组件封装——转盘抽奖

Vue.js学习笔记（五）抽奖组件封装——转盘抽奖

基于VUE2转盘组件的开发文章目录基于VUE2转盘组件的开发前言一、开发步骤1.组件布局2.布局样式3.数据准备二、最后效果总结前言因为之前的转盘功能是图片做的，每次活动更新都要重做UI和前端，为了解决这一问题进行动态配置转盘组件开发，…

阅读更多...

【Linux】多线程_3

【Linux】多线程_3

文章目录九、多线程3. C11中的多线程4. 线程的简单封装未完待续九、多线程 3. C11中的多线程 Linux中是根据多线程库来实现多线程的，C11也有自己的多线程，那它的多线程又是怎样的？我们来使用一些C11的多线程。 Makefile： te…

阅读更多...

防火墙组网与安全策略实验

防火墙组网与安全策略实验

实验要求： 实现： 防火墙接口配置： 所有接口均配置为三层接口由于G1/0/3口下为vlan环境，所以防火墙需要配置子接口 ： 交换机划分vlan分开生产区和办公区、配置trunk干道 ： 安全策略： 生产区访…

阅读更多...

【中项第三版】系统集成项目管理工程师 | 第 4 章信息系统架构④ | 4.7

【中项第三版】系统集成项目管理工程师 | 第 4 章信息系统架构④ | 4.7

前言第4章对应的内容选择题和案例分析都会进行考查，这一章节属于技术相关的内容，学习要以教材为准。本章分值预计在4-5分。目录 4.7 安全架构 4.7.1 安全威胁 4.7.2 定义与范围 4.7.3 整体架构设计 4.7.4 网络安全架构设计 4.7.5 数据库系统安…

阅读更多...

Pod资源-持久化-网络暴露-env

Pod资源-持久化-网络暴露-env

一.资源清单资源清单组成 apiVersion：v1 #对应不同的k8s版本中的api； kind：Pod #资源的名称（service、ConfigMap、hpa.....） metadata： #声明资源的元数据信息（资源的…

阅读更多...

JavaWeb后端学习

JavaWeb后端学习

Web：全球局域网，万维网，能通过浏览器访问的网站 Maven Apache旗下的一个开源项目，是一款用于管理和构建Java项目的工具作用： 依赖管理：方便快捷的管理项目以来的资源（jar包）&am…

阅读更多...

Linux - 探索命令行

Linux - 探索命令行

探索命令行 Linux命令行中的命令使用格式都是相同的: 命令名称参数1 参数2 参数3 ...参数之间用任意数量的空白字符分开. 关于命令行, 可以先阅读一些基本常识. 然后我们介绍最常用的一些命令: ls用于列出当前目录(即"文件夹")下的所有文件(或目录). 目录会用蓝色…

阅读更多...

初学编程不知道怎么选？推荐学习的三种热门编程语言

初学编程不知道怎么选？推荐学习的三种热门编程语言

在当今的社会需求下，市场上最常见、最受欢迎、最广泛应用的编程语言主要有三种：C语言、Java语言和Python语言。既然要做出选择，我们就需要明白这三种编程语言各自有何特点和区别。一、特点 C语言高效与灵活：C语言生成的机器…

阅读更多...

推荐文章

最新文章