基于Levenberg-Marquardt算法改进的BP神经网络-公式推导及应用

news2024/11/27 11:33:57

Levenberg-Marquardt算法是一种用于非线性最小化问题的优化算法,通常用于训练神经网络。它结合了梯度下降和高斯-牛顿方法的特点,旨在提高收敛速度和稳定性。下面是基于Levenberg-Marquardt算法改进的反向传播(BP)神经网络的详细推导过程。

考虑一个具有L层的前馈神经网络,其中第l层(l=1,2,...,L)有nl个神经元。令θ表示所有权重和偏置参数的集合。网络的输入为x,输出为y,训练数据集包含N个样本{(xi, yi)}。

1. 网络结构和符号定义:

   - 输入层:$a^{(1)} = x$
   - 第l层的激活:$z^{(l+1)} = \theta^{(l)}a^{(l)}$
   - 第l层的输出:$a^{(l+1)} = g(z^{(l+1)})$
   - 损失函数:$J(\theta) = \frac{1}{2}\sum_{i=1}^{N}\|y_i - a^{(L)}_i\|^2$

2. 反向传播:

   对于Levenberg-Marquardt算法,我们需要计算损失函数对参数的梯度。首先,使用反向传播计算梯度。

   - 计算输出层的误差项:
     $\delta^{(L)} = \nabla_{a^{(L)}}J \odot g'(z^{(L+1)})$

   - 计算隐藏层的误差项:
     $\delta^{(l)} = (\theta^{(l)})^T \delta^{(l+1)} \odot g'(z^{(l+1)})$

3. Levenberg-Marquardt算法的更新规则:

   Levenberg-Marquardt算法的更新规则基于牛顿方法,但引入了一个调整因子(damping parameter)λ。

   - 计算Hessian矩阵H(二阶偏导数):
     $H = \nabla_{\theta}\nabla_{\theta}J = \sum_{i=1}^{N}\nabla_{\theta}\delta_i \nabla_{\theta}\delta_i^T$

   - 计算梯度g:
     $g = \nabla_{\theta}J = \sum_{i=1}^{N}\nabla_{\theta}\delta_i$

   - 计算Levenberg-Marquardt矩阵:
     $L = H + \lambda I$

   - 使用Levenberg-Marquardt矩阵求解参数更新:
     $\Delta\theta = -L^{-1}g$

   - 更新参数:
     $\theta \leftarrow \theta + \Delta\theta$

   - 更新λ:
     $\lambda \leftarrow \lambda \times \text{adjustment factor}$

   这里,调整因子通常根据网络性能进行动态调整,以确保算法的稳定性和收敛性。

4. 迭代更新:

   通过反复执行步骤2和步骤3,直到满足停止条件(如达到最大迭代次数或达到一定的精度)为止。

5. 代码实现:

下面是一个使用PyTorch实现基于Levenberg-Marquardt算法改进的BP神经网络的简单示例:

import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np

# 生成模拟数据
np.random.seed(42)
X = np.random.rand(100, 1).astype(np.float32)
Y = 3 * X + 1 + 0.1 * np.random.randn(100, 1).astype(np.float32)

# 转换为PyTorch张量
X_tensor = torch.from_numpy(X)
Y_tensor = torch.from_numpy(Y)

# 定义神经网络模型
class LinearRegression(nn.Module):
    def __init__(self):
        super(LinearRegression, self).__init__()
        self.linear = nn.Linear(1, 1, bias=True)

    def forward(self, x):
        return self.linear(x)

# 初始化模型、损失函数和优化器
model = LinearRegression()
criterion = nn.MSELoss()
optimizer = optim.SGD(model.parameters(), lr=0.01)

# 定义Levenberg-Marquardt算法的训练步骤
def train_step(X, Y, model, criterion, optimizer):
    model.train()
    optimizer.zero_grad()
    predictions = model(X)
    loss = criterion(predictions, Y)

    # 计算梯度和Hessian矩阵
    gradients = torch.autograd.grad(loss, model.parameters(), create_graph=True)
    hessian = torch.autograd.grad(gradients, model.parameters(), create_graph=True)

    # 调整因子
    damping = 0.01
    l_matrix = [h + damping * torch.eye(h.size(0), device=h.device) for h in hessian]

    # 使用Levenberg-Marquardt矩阵求解参数更新
    update_direction = torch.linalg.solve(l_matrix, gradients)

    # 更新参数
    for param, update in zip(model.parameters(), update_direction):
        param.data -= update.data

    return loss.item()

# 训练模型
epochs = 100
for epoch in range(epochs):
    loss = train_step(X_tensor, Y_tensor, model, criterion, optimizer)
    print(f'Epoch {epoch+1}/{epochs}, Loss: {loss}')

# 打印训练后的权重和偏置
print('Trained weights:', model.linear.weight.data.item())
print('Trained bias:', model.linear.bias.data.item())

这个示例中,我们首先定义了一个简单的线性回归模型,并使用均方误差作为损失函数。在`train_step`函数中,我们计算了梯度和Hessian矩阵,并使用Levenberg-Marquardt算法进行参数更新。在每个训练步骤中,通过反复执行`train_step`函数,模型的参数将逐渐收敛到最优值。

在实际情况中,基于Levenberg-Marquardt算法的神经网络训练可能不是最佳选择,因为该算法相对较复杂,而深度学习框架通常使用更适合大规模数据集的优化算法。不过,为了演示,你可以使用基于Levenberg-Marquardt算法的训练方法来训练一个简单的神经网络模型以在MNIST数据集上进行数字识别。以下是一个PyTorch示例:

import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms
import matplotlib.pyplot as plt

# 加载MNIST数据集
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))])
train_dataset = datasets.MNIST('./data', train=True, download=True, transform=transform)
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=64, shuffle=True)

# 定义神经网络模型
class SimpleNN(nn.Module):
    def __init__(self):
        super(SimpleNN, self).__init__()
        self.flatten = nn.Flatten()
        self.linear1 = nn.Linear(28 * 28, 128)
        self.relu = nn.ReLU()
        self.linear2 = nn.Linear(128, 10)

    def forward(self, x):
        x = self.flatten(x)
        x = self.linear1(x)
        x = self.relu(x)
        x = self.linear2(x)
        return x

# 定义Levenberg-Marquardt算法的训练步骤
def train_step(X, Y, model, criterion, optimizer):
    model.train()
    optimizer.zero_grad()
    predictions = model(X)
    loss = criterion(predictions, Y)

    # 计算梯度和Hessian矩阵
    gradients = torch.autograd.grad(loss, model.parameters(), create_graph=True)
    hessian = torch.autograd.grad(gradients, model.parameters(), create_graph=True)

    # 调整因子
    damping = 0.01
    l_matrix = [h + damping * torch.eye(h.size(0), device=h.device) for h in hessian]

    # 使用Levenberg-Marquardt矩阵求解参数更新
    update_direction = torch.linalg.solve(l_matrix, gradients)

    # 更新参数
    for param, update in zip(model.parameters(), update_direction):
        param.data -= update.data

    return loss.item()

# 初始化模型、损失函数和优化器
model = SimpleNN()
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=0.01)

# 训练模型
epochs = 5
for epoch in range(epochs):
    for data, target in train_loader:
        optimizer.zero_grad()
        output = model(data)
        loss = criterion(output, target)
        loss.backward()
        optimizer.step()

    print(f'Epoch {epoch+1}/{epochs}, Loss: {loss.item()}')

# 可视化模型预测结果
with torch.no_grad():
    model.eval()
    test_loader = torch.utils.data.DataLoader(datasets.MNIST('./data', train=False, download=True, transform=transform), batch_size=1000, shuffle=True)
    images, labels = next(iter(test_loader))
    predictions = model(images)
    predicted_labels = torch.argmax(predictions, dim=1)

    # 显示前25个测试样本及其预测标签
    plt.figure(figsize=(10, 10))
    for i in range(25):
        plt.subplot(5, 5, i + 1)
        plt.imshow(images[i].squeeze(), cmap='gray')
        plt.title(f'Predicted: {predicted_labels[i]}, Actual: {labels[i]}')
        plt.axis('off')
    plt.show()

请注意,这只是一个演示性质的例子,使用Levenberg-Marquardt算法来训练神经网络可能不如其他现代优化算法(如Adam、SGD等)效果好。深度学习领域通常使用梯度下降的变体来训练神经网络。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1320559.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【vtkWidgetRepresentation】第十四期 二维标注

很高兴在雪易的CSDN遇见你 VTK技术爱好者 QQ:870202403 前言 本文分享vtk中的二维标注,主要用于医学领域,希望对各位小伙伴有所帮助! 感谢各位小伙伴的点赞+关注,小易会继续努力分享,一起进步! 你的点赞就是我的动力(^U^)ノ~YO 目录 前言 1. vtkBiDimension…

智能优化算法应用:基于吉萨金字塔建造算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用:基于吉萨金字塔建造算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于吉萨金字塔建造算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.吉萨金字塔建造算法4.实验参…

程序人生,由“小作文”事件想到的

时势造英雄。自媒体时代,火出圈是靠大众的审美和爱好,自己能做的关键,其实是做好自己,选择向上生长,持续不断的读书、学习。同时保持一份好奇心,培养一个兴趣爱好并自得其乐。 展示自我 回想起我小时候&am…

【Image】图像处理

计算机视觉 CV Perception 如自动驾驶领域。 只要是从所谓的图像当中去抽取信息的过程,我们都叫做Perception。 视觉检测可以涵盖二维检测,如车辆、人和信号灯的检测。另外,还可以控制三维信息,直接在三维空间中操作数据。 SL…

Excel 如何把一句话里的特定字标记颜色

方案: 借助Work功能 诉求:把如下Excel内容里所有的天标记为红色 第一步:复制到World里 第二步: CtrlH 然后如图执行替换 第3步:World 复制会 Excel

第8次实验:UDP

目的: 来看一下UDP(用户数据报协议)的细节。UDP是整个互联网上使用的一种传输协议。在不需要可靠性的情况下,作为TCP的替代品在互联网上使用。它在你的课文的第6.4节中有所涉及。在做这个实验之前,先复习一下这一部分 …

如何免费搭建私人电影网站(一)

前言:在线看电影经常会出现烦人的广告,为了不浪费时间看广告,有必要做自己的专属网站。 准备工作: 1、申请免费域名(也可以花钱注册域名相对稳定)链接: 申请免费域名方法 2、申请免费主机(也可以…

ArrayList的初始化容量与扩容机制解析

目录 1. ArrayList初始化容量 2. ArrayList的扩容机制 2.1. 计算新容量 2.2. 创建新数组并复制数据 2.3. 更新内部数组引用 3. ArrayList扩容的性能优化 3.1. 批量添加元素 3.2. 避免无效的扩容 3.3. 初始容量设定 4. 总结 在Java中,ArrayList是一个非常常…

Oracle VM VirtualBox使用——备赛笔记——2024全国职业院校技能大赛“大数据应用开发”赛项——任务2:离线数据处理

简述: Oracle VM VirtualBox是一款开源虚拟机软件,由德国Innotek公司开发,后被Sun Microsystems公司收购,并最终被甲骨文公司收购。它支持在Windows、Mac OS X、Linux、OpenBSD、Solaris、IBM OS2甚至Android等操作系统上创建虚拟…

8款AI写作神器,轻松创作高质量内容

随着AI技术的不断发展,AI生成文案平台也逐渐成为一种新型的写作工具。这些平台利用先进的算法和自然语言处理技术,能够快速生成高质量的文案内容。不仅可以提高写作效率,还可以帮助创作者更好地表达思想和创意。AIGCer介绍几款好用的AI写作工…

C语言精选练习题:(11)打印菱形

文章目录 每日一言题目思路代码结语 每日一言 Intelligence without ambition is a bird without wings. 聪明但没有抱负,就像没有翅膀的鸟。 题目 输入一个整数n,打印对应2n-1行的菱形图案,比如输入7,图案一共13行 1 …

揭秘 `nextTick`:解决异步回调的利器(上)

🤍 前端开发工程师(主业)、技术博主(副业)、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云…

Autosar DEM DTC的Debounce策略

文章目录 简介Debounce策略1、基于计数器的 Debounce 策略2、基于时间的Debounce策略 简介 故障事件防抖,与按键防抖(软件需要延时确认按键不是误触发)的作用类似,目的是为了防止事件误触发采取的策略。 因为DTC并不是一达到触发…

element-ui样式(一)

1.去掉表格横线 HTML表格标签&#xff1a; table&#xff1a;定义表格&#xff0c;生成的表格在一对<table></table>中&#xff1b; <th>&#xff1a;定义表格的表头&#xff0c;一般是表头中的内容会被加黑&#xff08;table head&#xff09;&#xff1b;…

行为型设计模式-策略模式(Strategy Pattern)

策略模式 策略模式&#xff1a;百度百科中引述为&#xff1a;指对象有某个行为&#xff0c;但是在不同的场景中&#xff0c;该行为有不同的实现算法。 策略模式是对算法的包装&#xff0c;是把使用算法的责任和算法本身分割开来&#xff0c;委派给不同的对象管理。策略模式通…

Kafka--从Zookeeper数据理解Kafka集群工作机制

从Zookeeper数据理解Kafka集群工作机制 这一部分主要是理解Kafka的服务端重要原理。但是Kafka为了保证高吞吐&#xff0c;高性能&#xff0c;高可扩展的三高架构&#xff0c;很多具体设计都是相当复杂的。如果直接跳进去学习研究&#xff0c;很快就会晕头转向。所以&#xff0c…

Linux之FTP 服务器

一、FTP服务器匿名账户服务器配置 1、测试是否已安装vsftp服务器&#xff1a; 2、启动vsftp服务器&#xff1a; 3、修改vsftp主配置文件&#xff0c;允许匿名登录 4、重新启动vsftpd服务,禁用防火墙 5、打开FTP服务的数据文件存放目录/var/ftp&#xff0c;复制若干文件到该目…

Java监听器与观察者模式

Java监听器与观察者模式 Java中的监听器&#xff08;Listener&#xff09;和观察者模式&#xff08;Observer Pattern&#xff09;都是用于处理对象间的事件通知和响应的设计模式。它们的目的是在对象之间建立一种松散的耦合&#xff0c;使得一个对象的状态变化可以通知到其他…

08_CSS定位与综合案例开发

day08_CSS定位与&综合案例开发 Objective&#xff08;本课目标&#xff09; 理解什么是定位能说出为什么要用定位 1. 为什么使用定位 标准流在最底层 (海底) ------- 浮动的盒子在中间层 (海面) ------- 定位的盒子 在 最上层 &#xff08;天空&#xff09; 小黄色块在…

Go标准包之flag命令行参数解析

1.介绍 在 Go中&#xff0c;如果要接收命令行参数&#xff0c;需要使用 flag 包进行解析。不同的参数类型可以通过不同的方法接收。 2.参数接受 2.1 接受方式 使用flag接收参数&#xff0c;可以由以下三种方式接受&#xff1a; 方式一: flag.Type(name,defaultVal,desc)方…