一次输入多个数据-batchsize大于1的简单的线性回归模型-标量

news2025/7/16 15:07:09

最简单的线性回归模型-标量

接上篇，由于batchsize为1，因此loss有很大的波动，这篇我们讨论batchsize大于1的情况。若batchsize数量为N，则 $y = w x + b$ 的损失函数为：
$\begin{aligned} L&=\sum_{i=1}^{N}(wx_i^*+b-y_i^*)^2\\ &=(w\boldsymbol{x}^T+b\boldsymbol{e}^T-\boldsymbol{y}^T)(w\boldsymbol{x}+b\boldsymbol{e}-\boldsymbol{y}) \end{aligned}$
为了方便计算在对损失函数乘一个数值，不影响其极值，因此将损失函数变为：
$L=\frac{1}{2}\sum_{i=1}^{N}(wx_i^*+b-y_i^*)^2$
求出 $w$ 和 $b$ 的梯度：
$\begin{aligned} \frac{\partial{L}}{\partial{w}}&=\sum_{i=1}^{N}(wx_i^*+b-y_i^*)x_i^*\\ &=\sum_{i=1}^{N}wx_i^{*2}+\sum_{i=1}^{N}bx_i^*-\sum_{i=1}^{N}y_i^*x_i^*\\ &=w\boldsymbol{x}^T\boldsymbol{x}+b\boldsymbol{e}^T\boldsymbol{x}-\boldsymbol{y}^T\boldsymbol{x}\\ &=(w\boldsymbol{x}^T+b\boldsymbol{e}^T-\boldsymbol{y}^T)\boldsymbol{x} \end{aligned}$
$\begin{aligned} \frac{\partial{L}}{\partial{b}}&=\sum_{i=1}^{N}(wx_i^*+b-y_i^*)\\ &=(w\boldsymbol{x}^T+b\boldsymbol{e}^T-\boldsymbol{y}^T)\boldsymbol{e} \end{aligned}$
其中 $\boldsymbol{x}$ 为每个batch中所有的 $x^*$ 组成的N维列向量， $\boldsymbol{y}$ 为每个batch中所有的 $y^*$ 组成的N维列向量， $\boldsymbol{e}$ 是长度为N的列向量，**使用向量表示可以让我们轻松使用numpy实现回归过程。**使用python实现结果如下：

import numpy as np
import random
import matplotlib.pyplot as plt

x = np.array([0.1,1.2,2.1,3.8,4.1,5.4,6.2,7.1,8.2,9.3,10.4,11.2,12.3,13.8,14.9,15.5,16.2,17.1,18.5,19.2])
y = np.array([5.7,8.8,10.8,11.4,13.1,16.6,17.3,19.4,21.8,23.1,25.1,29.2,29.9,31.8,32.3,36.5,39.1,38.4,44.2,43.4])
print(x,y)
plt.scatter(x,y)
plt.show()

散点图如下：
在这里插入图片描述
回归过程使用numpy中的矩阵计算完全按照上述损失函数和梯度直接计算即可：

# 设定步长
step=0.001
# 存储每轮损失的loss数组
loss_list=[]
# 定义epoch
epoch=500
# 定义batch_size
batch_size=18
# 定义单位列向量e
e=np.ones(batch_size).reshape(batch_size,1)

# 定义参数w和b并初始化
w=0.0
b=0.0

#梯度下降回归
for i in range(epoch) :
    #计算当前输入x和标签y的索引，由于x和y数组长度一致，因此通过i整除x的长度即可获得当前索引
    index = i % int(len(x)/batch_size)
    # 当前轮次的x列向量值为：
    cx=x[index*batch_size:(index+1)*batch_size]
    cx=cx.reshape(len(cx),1)
    # 当前轮次的y列向量值为：
    cy=y[index*batch_size:(index+1)*batch_size]
    cy=cy.reshape(len(cy),1)

    # 计算当前loss
    curloss = (w*cx.T+b*e.T-cy.T).dot((w*cx+b*e-cy))
    loss_list.append(float(curloss))

    # 计算参数w和b的梯度
    grad_w = (w*cx.T+b*e.T-cy.T).dot(cx)
    grad_b = (w*cx.T+b*e.T-cy.T).dot(e)
    # 更新w和b的值
    w -= step*grad_w
    b -= step*grad_b

损失函数和最终拟合结果如下：

print(loss_list)
plt.plot(loss_list)
plt.show()

在这里插入图片描述

pred_y = w*x+b
plt.scatter(x,y)
plt.plot(x,pred_y.reshape(len(x)),c='r')
plt.show()

在这里插入图片描述
可以看到增大batsize后损失函数比较稳定。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/392729.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

一次输入多个数据-batchsize大于1的简单的线性回归模型-标量

相关文章

html网页源码加密

Linux系统PWM应用编程

Java多态性

Hive学习——企业级调优

裁员降本，扭转颓势！通用汽车吹响智能电动「中国集结号」

7.SpringSecurity中的权限管理

ccc-pytorch-卷积神经网络介绍（5）

PMP和软考高项集成，更应该考哪个呢？

研报精选230306

k8s控制器

【Alamofire】【Swift】属性包装器注解@propertyWrapper

9.SpringSecurity核心过滤器-SecurityContextPersistenceFilter

Promise入门

【论文速递】CASE 2022 - EventGraph: 将事件抽取当作语义图解析任务

sql server 对比两个查询性能 ,理解Elapsed Time、CPU Time、Wait Time

《PyTorch深度学习实践9》——卷积神经网络-高级篇（Advanced-Convolution Neural Network）

Air101|Air103|Air105|Air780E|ESP32C3|ESP32S3|Air32F103开发板：概述及PinOut

前端必备技术之——AJAX

揭秘关键一环！数据安全服务大盘点

VScode 插件【配置】