深度学习_6_实战_点集最优直线解_代码解析

news2025/1/4 19:18:38

问题描述: 在这里插入图片描述

上述题目的意思为,人工造出一些数据点,对我们的模型y = Xw + b + ∈进行训练,其中标准模型如下:

在这里插入图片描述
其中W和X都为张量,我们训练的模型越接近题目给出的标准模型越好


训练过程如下:

人造数据集:

说人话,自己利用代码随机创造一些有规律的点,组成点集类似这样:

在这里插入图片描述
上述点集就服从正态分布

正态分布(也被称为高斯分布)是统计学中最常见的概率分布之一。它具有以下特征:

1、均值(Mean):正态分布具有一个均值,通常表示为 μ(mu),它代表分布的中心或平均值。分布的对称轴就是均值。

2、方差(Variance):正态分布的方差,通常表示为 σ^2(sigma
squared),代表数据点分散或离散程度的度量。方差越大,数据点越分散。

3、随机性:正态分布中的随机变量的值可以取任何实数值,但大多数值集中在均值周围,远离均值的值出现的概率逐渐减小。正态分布的概率密度函数呈钟形曲线,这个曲线是对称的。

正态分布的概率密度函数通常由以下公式表示:
在这里插入图片描述
正态分布概率密度函数

4、 正态分布在自然界和科学研究中经常出现,许多现象,如身高、体重、温度测量误差等,都可以近似地用正态分布来描述。正态分布在统计学、机器学习和数据分析中广泛应用,因为它具有许多有用的性质,包括中心极限定理等。

正态分布的特征使得它在各种应用中非常有用,包括假设检验、参数估计、回归分析等。


生成y点实现函数:

下列函数用途是带入真实的w, b再根据随机的x真实的y
这一作用是为了构造人工点集,等会训练模型用

def synthetic_data(w, b, num_examples):
    """生成 Y = XW + b + 噪声。"""
    X = torch.normal(0, 1, (num_examples, len(w)))# 均值为0,方差为1的随机数,n个样本,列数为w的长度
    y = torch.matmul(X, w) + b # y = x * w + b
    c = torch.normal(0, 0.01, y.shape)
    y += c # 加入随机噪音,均值为0.。形状与y的一样
    return X, y.reshape((-1, 1))# x, y做成列向量返回

最后返回的x, y就是点了

简单的张量运算:

根据矩阵乘法规则,要使这两个矩阵相乘,第一个矩阵的列数必须等于第二个矩阵的行数。

例如:

张量   [[1, 2], [3, 4]] 和张量  [1, 2]可以进行矩阵乘法:
前者一行两列,后者两行两列可乘:
[1*1 + 2*2, 3*1+ 4*2] = [5, 11]
反过来就不成乘了,两者shape分别是(1, 2), (2,)可兼容

张量和向量的区别:

朴素又简单的说,张量能表示任意维度,而向量是一维:
也就是说[1, 2]既可以表示为行向量也可以表示为一行两列的张量
[[1],[2]]这个也既可以表示为列向量或者两行一列的张量
再其他的都是张量了,张量的范围更广泛

代码的拆解分析:

X = torch.normal(0, 1, (num_examples, len(w)))# 均值为0,方差为1的随机

这个是为了更好的与w相乘,最后结果自然与上上述的例子一样,最后得到一个行向量

y.reshape((-1, 1))

作用:

y.reshape((-1, 1)) 是将张量 y 重新塑造(reshape)为一个列向量的操作。这里的 -1 是一个特殊的值,它表示自动计算该维度的大小以保持其他维度的元素数量不变。

假设原始的张量 y 是一个一维行向量,形状为 [n],其中 n 表示元素的数量。通过 y.reshape((-1, 1))
操作,你将其转换为一个列向量,形状为 [n, 1],其中 n 仍然表示元素的数量,但现在它们按列排列,而不是按行排列。

这种操作通常在深度学习和线性代数中用于将数据从一种形状转换为另一种形状,以适应模型的需求。列向量通常用于表示目标值或标签,而行向量通常用于表示特征。通过这种方式,你可以确保数据的形状与模型的期望输入/输出形状相匹配。


数据打乱批量返还函数:

def data_iter(batch_size, features, labels):
    num_examples = len(features)
    indices = list(range(num_examples))#转成list
    random.shuffle(indices)#打乱
    for i in range(0, num_examples, batch_size):#
        batch_indices = torch.tensor(indices[i:min(i + batch_size, num_examples)])#取
        yield features[batch_indices], labels[batch_indices]#不断返回

这个函数的作用主要就是将上述生成的一堆点,打乱,批量返还,方便下述数据处理,训练模型

代码的拆解分析:

num_examples = len(features)
indices = list(range(num_examples))#转成list

获取features长度,方便后续利用索引取值

batch_indices = torch.tensor(indices[i:min(i + batch_size, num_examples)])#取

indices[i:min(i + batch_size, num_examples)//切片取值

切片取值:
例如:

original_list = [0, 1, 2, 3, 4]
sliced_list = original_list[1:3] # 得到 [1, 2]

yield features[batch_indices], labels[batch_indices]#不断返回,y整理形状的用途就体现出来了

索引取值:

若二维张量a = [[0, 1, 2, 3, 4], [0, 1, 2, 3, 4]]
那么a[[0, 1]]:
a[[0, 1]] 表示对二维张量 a 进行行的索引操作,同时获取第 0 行和第 1 行的元素子集。它返回的是一个包含所选择的行的新的二维张量,其中包含了多个元素。
例如:
a = torch.tensor([[1, 2],
[3, 4],
[5, 6],
[7, 8],
[9, 10]])
那么:
a[[1, 3, 4]就是:
tensor([[3, 4],
[7, 8],
[9, 10]])

yield可以迭代返还,不像retrurn只返回一次,后续会在模型学习里继续补充


计算y值函数:

主要作用就是对我们的模型进行计算,我们的模型的有效值就是w,b它带入上述产生的x得到Y,这个Y是我们的模型计算出来的

def linreg(x, w, b):
    return torch.matmul(x, w) + b

代价函数:

def squared_loss(y_hat, y):
    return (y_hat - y.reshape(y_hat.shape))**2 / 2 / batch_size 

梯度下降篇章讲的很详细不再赘述


梯度下降函数:

def sgd(params, lr, batch_size):
    """小批量随梯度下降"""
    with torch.no_grad():#节省内存和计算资源。
        for param in params:
            param -= lr * param.grad
            param.grad.zero_()#用于清空张量param的梯度信息。

详情:深度学习_5_模型拟合_梯度下降原理
同上不再赘述


主函数:

true_w = torch.tensor([2, -3.4])
true_b = 4.2#真正的答案

features, labels = synthetic_data(true_w, true_b, 100)#产生的数据集|点集

batch_size = 10#每次取的数据量

#模型
w = torch.normal(0, 0.01, size=(2, 1), requires_grad=True)
b = torch.zeros(1, requires_grad = True)

lr = 0.03 #学习率
num_ecopchs = 30 #数据扫描三遍
net = linreg #指定模型
loss = squared_loss #损失

for epoch in range(num_ecopchs):#扫描数据
    for x, y in data_iter(batch_size, features, labels): #拿出x, y
      l = loss(net(x, w, b), y)#求损失,预测net,真实y
      l.sum().backward()#算梯度
      sgd([w, b], lr, batch_size)#使用参数的梯度更新参数
    with torch.no_grad():
        train_l = loss(net(features, w, b), labels)
        #print(train_l)
        print(f'epoch {epoch + 1},loss {float(train_l.mean()):f}')
        #print(f'W {w}, B {b}')

拆解理解:

true_w = torch.tensor([2, -3.4])
true_b = 4.2#真正的答案

features, labels = synthetic_data(true_w, true_b, 100)#产生的数据集|点集

上述代码为了产生数据用来训练模型

#模型
w = torch.normal(0, 0.01, size=(2, 1), requires_grad=True)
b = torch.zeros(1, requires_grad = True)#b是[0]

上述代码为我们的模型w是均值为0方差为0.001的随机数,

注意一下这里生成的模型w和上述true_w的维度可就不同了,这里w的shape是(2, 1)产生的张量案例为[[1], [2]]

与模型相乘的x还与上述一致(batch_size,2)

由于x的列数为2,w的行数为2相同,所以两者仍然可相乘!且最后生成(batch_size, 1)的二维张量

汗流浃背了吧?

上运行结果:

求真实y:在这里插入图片描述
上述三个张量分别为:x, true_w, true_y
求模型y:
在这里插入图片描述

上述三个张量分别为X, w, X*w

lr = 0.03 #学习率
num_ecopchs = 30 #数据扫描三遍
net = linreg #指定模型
loss = squared_loss #损失

下述循环执行三十次,也就是对整个数据循环学习三十次

for epoch in range(num_ecopchs):#扫描数据

因为学习率0.03大小适中,学习次数在[1, 30]随次数增加,模型w会越来越接近true_w,学习次数再多起来,可能就会产生无效学习浪费时间,当然学习率也要适中,详情可看上篇博客

net = linreg #指定模型
loss = squared_loss #损失

上述俩语句只是为了方便后续更改模型,所以直接调用模型名字

for x, y in data_iter(batch_size, features, labels): #拿出x, y
      l = loss(net(x, w, b), y)#求损失,预测net,真实y
      l.sum().backward()#算梯度
      sgd([w, b], lr, batch_size)#使用参数的梯度更新参数

此for循环配合data_iter函数内的yield语句可以把整个点集合分批次取出,实质是for循环调用了迭代器,此for循环是否结束和data_iter函数内的for循环相关

l.sum().backward()#算梯度

至于为什么要求和算梯度,这就是上篇博客梯度下降原理的作用了

requires_grad=True

上述代码标记了,某个变量在后续梯度计算中会用到,系统会跟踪,至于具体是用求偏导,还是别的算法,就不是我们该管的了,计算机帮你求

with torch.no_grad():
    train_l = loss(net(features, w, b), labels)
    #print(train_l)
    print(f'epoch {epoch + 1},loss {float(train_l.mean()):f}')
    #print(f'W {w}, B {b}')

==下列语句是,就是不让进行梯度跟踪 ==

 with torch.no_grad():

因为就是想打印一下模型训练结果

train_l = loss(net(features, w, b), labels)

上述代码,测试一下测试好的模型的损失值

print(f'epoch {epoch + 1},loss {float(train_l.mean()):f}')

打印格式,打印训练次数,与损失值

train_l.mean()

平均损失值

以上全部代码细节分析完毕

完整代码:

import random
import torch

def synthetic_data(w, b, num_examples):
    """生成 Y = XW + b + 噪声。"""
    X = torch.normal(0, 1, (num_examples, len(w)))# 均值为0,方差为1的随机数,n个样本,列数为w的长度
    y = torch.matmul(X, w) + b # y = x * w + b
    c = torch.normal(0, 0.01, y.shape)
    y += c # 加入随机噪音,均值为0.。形状与y的一样
    return X, y.reshape((-1, 1))# x, y做成列向量返回
def data_iter(batch_size, features, labels):
    num_examples = len(features)
    indices = list(range(num_examples))#转成list
    random.shuffle(indices)#打乱
    for i in range(0, num_examples, batch_size):#
        batch_indices = torch.tensor(indices[i:min(i + batch_size, num_examples)])#取
        yield features[batch_indices], labels[batch_indices]#不断返回


def linreg(x, w, b):
    return torch.matmul(x, w) + b



def squared_loss(y_hat, y):
    return (y_hat - y.reshape(y_hat.shape))**2 / 2 / batch_size


def sgd(params, lr, batch_size):
    """小批量随梯度下降"""
    with torch.no_grad():#节省内存和计算资源。
        for param in params:
            param -= lr * param.grad
            param.grad.zero_()#用于清空张量param的梯度信息。



true_w = torch.tensor([2, -3.4])
true_b = 4.2

features, labels = synthetic_data(true_w, true_b, 100)

batch_size = 10

w = torch.normal(0, 0.01, size=(2, 1), requires_grad=True)
b = torch.zeros(1, requires_grad = True)


lr = 0.03 #学习率
num_ecopchs = 30 #数据扫描三遍
net = linreg #指定模型
loss = squared_loss #损失

for epoch in range(num_ecopchs):#扫描数据
    for x, y in data_iter(batch_size, features, labels): #拿出x, y

      l = loss(net(x, w, b), y)#求损失,预测net,真实y

      l.sum().backward()#算梯度

      sgd([w, b], lr, batch_size)#使用参数的梯度更新参数
    with torch.no_grad():
        train_l = loss(net(features, w, b), labels)
        print(f'epoch {epoch + 1},loss {float(train_l.mean()):f}')
        #print(f'W {w}, B {b}')

运行效果:

在这里插入图片描述
可以看出随着学习次数的增加,误差也在逐渐减小

如果还觉得抽象,可以是输出我们训练的模型w和b

效果:
在这里插入图片描述

可以看出随着训练的次数增加我们训练的模型w与b和标准答案也越加趋近

在这里插入图片描述

到此完结梯度下降原理博客如下:

深度学习_5_模型拟合_梯度下降原理

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1132991.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

订水商城H5实战教程-04用户注册

目录 1 用户注册2 创建模型应用3 开发审核功能4 配置菜单5 发布预览最终效果 我们上一篇讲解了用户协议的功能,如果用户同意协议,就可以跳转到注册页面,要求用户录入个人基本信息,本篇我们介绍一下用户注册功能。 1 用户注册 用户…

Python-自动化绘制股票价格通道线

常规方案 通过将高点/低点与其 2 个或 3 个相邻点进行比较来检测枢轴点,并检查它是否是其中的最高/最低点。对所有枢轴点进行线性回归以获得上方和下方趋势线。价格离开通道后建仓。通过这样做,我们得到如下所示的价格通道。我认为我们可以利用给定的数据取得更好的结果。

OkHttp网络框架深入理解-SSL握手与加密

OkHttp简介 由Square公司贡献的一个处理网络请求的开源项目,是目前Android使用最广泛的网络框架。从Android4.4开始HttpURLConnection的底层实现采用的是OkHttp。 特点: 支持HTTP/2并允许对同一主机的所有请求共享一个套接字通过连接池,减少了请求延迟…

基于XML的Web服务Java接口(JAX-WS)、Jakarta XML Web Services Eclipse 实现

简介 JAX-WS(Java API for XML-Based Web Services),是创建web服务的Java编程接口,特别是SOAP服务。是Java XML编程接口之一,是Java SE 和Java EE 平台的一部分。 JAX-WS 2.0 规范是代替JAX-RPC 1.0的下一代Web服务AP…

红蓝对抗——信息收集

文章目录 1. 基础篇1.1 企业架构收集1.2 ICP 备案查询1.3 DNS 解析记录1.4 网络汇测1.5 C段收集1.6 证书收集1.7 接口收集1.8 APK信息收集1.9 公众号信息收集1.10 站点敏感信息收集1.11 供应链/业务链收集1.12 人员信息收集1.13 Google1.14 github信息收集 2. 进阶篇2.1 子域名…

C++ 异常和错误处理机制:如何使您的程序更加稳定和可靠

在C编程中,异常处理和错误处理机制是非常重要的。它们可以帮助程序员有效地处理运行时错误和异常情况。本文将介绍C中的异常处理和错误处理机制。 什么是异常处理? 异常处理是指在程序执行过程中发生异常或错误时,程序能够捕获并处理这些异常…

【打靶】vulhub打靶系列(一)—小白视野的渗透测试

主机探测 arpscan arp-scan -l 另一种方法arping for i in $(seq 1 200); do sudo arping -c 1 192.168.56.$i; done 注意这个必须是root权限 ​ 端口探测 nmap nmap -p- -sV -T4 192.168.56.104 发现8080端口 web测试 访问下web页面 1、通过逻辑点绕过 发送到xia_sq…

gitlab查看、修改用户和邮箱,gitlab生成密钥

查看用户、邮箱 git config user.name git config user.email 修改用户、邮箱 git config --global user.name “xxx” git config --global user.email “xxxxxx.com” 生成ssh密钥 ssh-keygen -t rsa -C “xxxxxx.com” 查看SSH秘钥 cat ~/.ssh/id_rsa.pub 将秘钥复制&…

Redis数据类型——set类型数据介绍及操作

1.set类型介绍及基本操作 2.set类型数据的扩展操作

2023年5个美国代理IP推荐,最佳代理花落谁家?

美国代理IP指的是代理服务器位于美国的IP地址,对于跨境业务来说,这些代理IP地址可以用于隐藏用户的真实IP地址,将其网络流量路由通过美国的服务器,以实现一些特定的目的。由于近年来,面向美国市场的跨境商家越来越多&a…

Spring无法加载静态属性和SpringBoot单元测试指定加载配置文件

一、Spring无法加载静态属性,怎么解决? Spring主要用于管理和注入Bean(对象)的实例属性,而不是静态属性。静态属性属于类本身,而不是类的实例,因此Spring的依赖注入机制不会处理它们。 看图&a…

力扣:138. 随机链表的复制(Python3)

题目: 给你一个长度为 n 的链表,每个节点包含一个额外增加的随机指针 random ,该指针可以指向链表中的任何节点或空节点。 构造这个链表的 深拷贝。 深拷贝应该正好由 n 个 全新 节点组成,其中每个新节点的值都设为其对应的原节点…

【Linux】Centos yum源替换

YUM是基于RPM包管理,能够从指定的服务器自动下载RPM包并且安装,可以自动处理依赖性关系,并且一次安装所有依赖的软件包,无须繁琐地一次次下载、安装。 CentOS 8操作系统版本结束了生命周期(EOL)&#xff0…

设备保修小程序开发制作方案

设备保修小程序定位为一款专业的设备保修服务平台,旨在为用户提供便捷、高效、优质的设备保修服务。 一、用户需求 用户需要快速了解设备的保修政策和流程。 用户需要方便地提交保修申请和查询保修进度。 用户需要及时获取设备的维修信息和维修结果。 用户需要对设…

【鸿蒙软件开发】自定义弹窗(CustomDialog)

文章目录 前言一、创建自己第一个自定义弹窗1.1 创建自定义弹窗1.2 创建构造器,与装饰器呼应相连CustomDialogController参数详解函数介绍open() close() 1.3 点击与onClick事件绑定的组件使弹窗弹出 二、示例代码总结 前言 自定义弹窗(CustomDialog&am…

Pycharm 中 py 文件预设 文件头部信息

文章目录 一、设置模板步骤:二、其他 一、设置模板步骤: “文件File–设置Settings–编辑器Editor–File and Code Templates- Python Script” 里面设置模板 二、其他 其他可用的预定义文件模板变量为: $ {PROJECT_NAME} - 当前项目的名称…

语雀暂别8小时:探究P0级故障幕后原因及补偿策略揭晓!

作者:苍何,CSDN 2023 年 实力新星,前大厂高级 Java 工程师,阿里云专家博主,土木转码,现任部门技术 leader,专注于互联网技术分享,职场经验分享。 🔥热门文章推荐&#xf…

攻防世界-web-FlatScience

1. 题目描述 打开链接,看到如下界面 界面上的链接都点击下,发现都是一些英文论文 这些暂时是我们从界面上能发现的全部信息了 2. 思路分析 && 解题过程 2.1 先将网站使用nikto命令扫描一下 我们发现除了显式的界面外,还有两个隐藏…

基于MATLAB的Simulink搭建一阶低通滤波器

一、一阶低通滤波的原理 式子中的α作为滤波系数,X ( n ) 为本次的采样值,Y ( n − 1 ) 为上次滤波的输出值,Y ( n ) 为本次滤波后的输出值 一阶低通滤波器是一种常用的信号处理算法,用于去除高频噪声和平滑信号。其基本原理是通过…