NNDL 作业9:分别使用numpy和pytorch实现BPTT

news2025/1/12 0:54:31

6-1P:推导RNN反向传播算法BPTT.

6-2P:设计简单RNN模型,分别用Numpy、Pytorch实现反向传播算子,并代入数值测试.、
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

forward:

我们知道循环卷积网络的cell的计算公式为:
s t = f ( U x t + W s t − 1 ) \mathrm{s}_t=f(U\mathrm{x}_t+W\mathrm{s}_{t-1}) st=f(Uxt+Wst1)
展开为:
[ s 1 t s 2 t . . s n t ] = f ( [ u 11 u 12 . . . u 1 m u 21 u 22 . . . u 2 m . . u n 1 u n 2 . . . u n m ] [ x 1 x 2 . . x m ] + [ w 11 w 12 . . . w 1 n w 21 w 22 . . . w 2 n . . w n 1 w n 2 . . . w n n ] [ s 1 t − 1 s 2 t − 1 . . s n t − 1 ] ) \begin{bmatrix} s_1^t\\ s_2^t\\ .\\.\\ s_n^t\\ \end{bmatrix}=f( \begin{bmatrix} u_{11} u_{12} ... u_{1m}\\ u_{21} u_{22} ... u_{2m}\\ .\\.\\ u_{n1} u_{n2} ... u_{nm}\\ \end{bmatrix} \begin{bmatrix} x_1\\ x_2\\ .\\.\\ x_m\\ \end{bmatrix}+ \begin{bmatrix} w_{11} w_{12} ... w_{1n}\\ w_{21} w_{22} ... w_{2n}\\ .\\.\\ w_{n1} w_{n2} ... w_{nn}\\ \end{bmatrix} \begin{bmatrix} s_1^{t-1}\\ s_2^{t-1}\\ .\\.\\ s_n^{t-1}\\ \end{bmatrix}) s1ts2t..snt =f( u11u12...u1mu21u22...u2m..un1un2...unm x1x2..xm + w11w12...w1nw21w22...w2n..wn1wn2...wnn s1t1s2t1..snt1 )
这里的矩阵运算将输入x和s规范到了相同的尺寸(n,1)。

BPTT:

由于循环神经网络的特殊性,它和全连接神经网络十分相似,因此可以有一个参照。
BPTT算法是针对循环层的训练算法,它的基本原理和BP算法是一样的,大致包含四个步骤:
1.前向计算每个神经元的输出值;
这个就是前面的forward部分。
2.反向计算误差函数E对当前神经元i的加权输入的偏导数;
在这里插入图片描述
这个加权输入实际上是指:
n e t t = U x t + W s t − 1 \mathrm{net}_t=U\mathrm{x}_t+W\mathrm{s}_{t-1} nett=Uxt+Wst1
接下来推导:
∂ n e t t ∂ n e t t − 1 = ∂ n e t t ∂ s t − 1 ∂ s t − 1 ∂ n e t t − 1 \frac{\partial{\mathrm{net}_t}}{\partial{\mathrm{net}_{t-1}}}=\frac{\partial{\mathrm{net}_t}}{\partial{\mathrm{s}_{t-1}}}\frac{\partial{\mathrm{s}_{t-1}}}{\partial{\mathrm{net}_{t-1}}} nett1nett=st1nettnett1st1
前一项:
在这里插入图片描述
后一项:
在这里插入图片描述
因此:
在这里插入图片描述
这就是误差项对上一个神经元输入的偏导数每一步链式求导的计算方法,将当前时刻的误差项展开,每多一个时刻就会多一步链式求导,也就是上面这个计算过程,这个部分对应全连接BP的最外层偏导。
同样的还有对当前输入的偏导计算,这个就简单一些了,因为不涉及上个神经元的输入。
同样,表示上一个神经元的
在这里插入图片描述

3.计算每个权重的梯度。
首先,我们计算误差函数E对权重矩阵W的梯度。
上图展示了我们到目前为止,在前两步中已经计算得到的量,包括每个时刻t 循环层的输出值,以及误差项。
在这里插入图片描述
同权重矩阵W类似,我们可以得到权重矩阵U的计算方法。
在这里插入图片描述
和权重矩阵W一样,最终的梯度也是各个时刻的梯度之和:
在这里插入图片描述

4.用SGD算法更新权重。
这一步就非常简单了,就是使用随机梯度下降算法实现参数更新,梯度有了,只需要引入学习率lr就够了。

全部代码;

import numpy as np

class RecurrentLayer():
    def __init__(self, input_width, state_width,
                 activator, learning_rate):
        self.input_width = input_width
        self.state_width = state_width
        self.activator = activator
        self.learning_rate = learning_rate
        self.times = 0       # 当前时刻初始化为t0
        self.state_list = [] # 保存各个时刻的state
        self.state_list.append(np.zeros(
            (state_width, 1)))           # 初始化s0
        self.U = np.random.uniform(-1e-4, 1e-4,
            (state_width, input_width))  # 初始化U
        self.W = np.random.uniform(-1e-4, 1e-4,
            (state_width, state_width))  # 初始化W

    def forward(self, input_array):
        '''
        根据『式2』进行前向计算
        '''
        self.times += 1
        state = (np.dot(self.U, input_array) +
                 np.dot(self.W, self.state_list[-1]))
        element_wise_op(state, self.activator.forward)
        self.state_list.append(state)

    def backward(self, sensitivity_array, 
                 activator):
        '''
        实现BPTT算法
        '''
        self.calc_delta(sensitivity_array, activator)
        self.calc_gradient()

    def update(self):
        '''
        按照梯度下降,更新权重
        '''
        self.W -= self.learning_rate * self.gradient

    def calc_delta(self, sensitivity_array, activator):
        self.delta_list = []  # 用来保存各个时刻的误差项
        for i in range(self.times):
            self.delta_list.append(np.zeros(
                (self.state_width, 1)))
        self.delta_list.append(sensitivity_array)
        # 迭代计算每个时刻的误差项
        for k in range(self.times - 1, 0, -1):
            self.calc_delta_k(k, activator)

    def calc_delta_k(self, k, activator):
        '''
        根据k+1时刻的delta计算k时刻的delta
        '''
        state = self.state_list[k+1].copy()
        element_wise_op(self.state_list[k+1],
                    activator.backward)
        self.delta_list[k] = np.dot(
            np.dot(self.delta_list[k+1].T, self.W),
            np.diag(state[:,0])).T

    def calc_gradient(self):
        self.gradient_list = [] # 保存各个时刻的权重梯度
        for t in range(self.times + 1):
            self.gradient_list.append(np.zeros(
                (self.state_width, self.state_width)))
        for t in range(self.times, 0, -1):
            self.calc_gradient_t(t)
        # 实际的梯度是各个时刻梯度之和
        self.gradient = reduce(
            lambda a, b: a + b, self.gradient_list,
            self.gradient_list[0]) # [0]被初始化为0且没有被修改过

    def calc_gradient_t(self, t):
        '''
        计算每个时刻t权重的梯度
        '''
        gradient = np.dot(self.delta_list[t],
            self.state_list[t-1].T)
        self.gradient_list[t] = gradient

    def reset_state(self):
        self.times = 0       # 当前时刻初始化为t0
        self.state_list = [] # 保存各个时刻的state
        self.state_list.append(np.zeros(
            (self.state_width, 1)))      # 初始化s0


def data_set():
    x = [np.array([[1], [2], [3]]),
         np.array([[2], [3], [4]])]
    d = np.array([[1], [2]])
    return x, d


def gradient_check():
    '''
    梯度检查
    '''
    # 设计一个误差函数,取所有节点输出项之和
    error_function = lambda o: o.sum()
    
    rl = RecurrentLayer(3, 2, IdentityActivator(), 1e-3)

    # 计算forward值
    x, d = data_set()
    rl.forward(x[0])
    rl.forward(x[1])
    
    # 求取sensitivity map
    sensitivity_array = np.ones(rl.state_list[-1].shape,
                                dtype=np.float64)
    # 计算梯度
    rl.backward(sensitivity_array, IdentityActivator())
    
    # 检查梯度
    epsilon = 10e-4
    for i in range(rl.W.shape[0]):
        for j in range(rl.W.shape[1]):
            rl.W[i,j] += epsilon
            rl.reset_state()
            rl.forward(x[0])
            rl.forward(x[1])
            err1 = error_function(rl.state_list[-1])
            rl.W[i,j] -= 2*epsilon
            rl.reset_state()
            rl.forward(x[0])
            rl.forward(x[1])
            err2 = error_function(rl.state_list[-1])
            expect_grad = (err1 - err2) / (2 * epsilon)
            rl.W[i,j] += epsilon
            print 'weights(%d,%d): expected - actural %f - %f' % (
                i, j, expect_grad, rl.gradient[i,j])


def test():
    l = RecurrentLayer(3, 2, ReluActivator(), 1e-3)
    x, d = data_set()
    l.forward(x[0])
    l.forward(x[1])
    l.backward(d, ReluActivator())
    return 

总结:RNN的参数更新和全连接的BP算法还是有很大差别的,这也是为什么把RNN单独形成了一个板块,虽然有部分功能的计算很相似,但是也只是部分而已,他们都有各自的特点。
附:这两天也中招了,很难受,希望老师同学们都能保护好自己,当然,也中招了的话就注意休息,多喝热水。。。
ref:
https://blog.csdn.net/segegse/article/details/127708468
https://zybuluo.com/hanbingtao/note/541458

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/98753.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

UML学习入门

UML 举一个简单的例子,来看这样一副图,其中就包括了UML类图中的基本图示法。 首先,看动物矩形框,它代表一个类(Class)。类图分三层,第一层显示类的名称,如果是抽象类,则…

多模块之前的消息引用问题

多模块引用之前的问题目录概述需求:设计思路实现思路分析1.在第一个模块中调用另一个调用模块的Bean2.普通java类 如何获取另一个模块的Bean3.启用消息机制4.为什么普通java类很难调用SpringBean的?参考资料和推荐阅读Survive by day and develop by nig…

机器学习快速上手基础

努力是为了不平庸~ 学习的最大理由是想摆脱平庸,早一天就多一份人生的精彩;迟一天就多一天平庸的困扰。 目录 一、简介与应该明确的学习方法 1、学习方法 2、简介 二、学习机器学习的优势 三、机器学习的内核 1、学习术语 2、内核 四、机器学习…

IT团队自动化端点管理解决方案—基于虹科Chef工具

企业如何简化端点管理工作流程? 如何解决安全事件?如何生成审计报告?如何处理大量账单?这些都是企业IT团队需要考虑的问题。然而,IT人员每天有大量的事情需要处理,如何自动化、标准化、及时性的处理这些问…

(最优化理论与方法)第六章无约束优化算法-第二节:梯度类算法

文章目录一:次梯度算法(1)次梯度算法结构(2)应用举例-LASSO问题求解二:牛顿法(1)经典牛顿法(2)修正牛顿法三:拟牛顿法(1)拟…

知到/智慧树——英语听说:实境主题与技能(参考答案)

目录 第一章测试 第二章测试 第三章测试 第四章测试 第五章测试 第六章测试 第七章测试 第八章测试 第九章测试 第十章测试 第一章测试 第1部分总题数: 10 1 【多选题】 (10分) What does this chapter mainly teach ( )? A. T…

生成树(基础)

目录 一、生成树的相关概念 二、最小生成树的相关概念 最小生成树的性质(MST性质): MST性质解释: 三、Prim算法(普里姆算法) 动态演示 关键算法: 完整代码: 四、Kruskal(克鲁斯卡尔)算法 动态演示&…

mysql主从复制架构

MySQL的主从复制架构的分布机制,是通过将MySQL的某一台主机(master)的数据复制到其他主机(slave)上。 在复制过程中一台主机作为主服务器,其他服务器则为从服务器。主服务器将更新写入到日志文件中,日志被从服务器的 I/O线程读取,…

逻辑回归 预测癌症数据

目录 一:加载数据 二:数据集划分 三:选择算法 四:网格模型 超参调优 五:模型预测 六:模型保存和使用 七:完整源码分享 八:预测与实际比对 一:加载数据 from sk…

C语言—变量与常量

想存储一个数据时,都会在内存中开辟一个空间,这个空间会有一个地址; 这个地址是一串数字,为了方便记忆,所以要对这个地址起一个名字,也就是变量名; 通过这个变量名就可以找到内存中存放这个数…

java高校学生电器报修系统ssm高校后勤报修系统小程序源码和论文

随着高校每年的扩大招生,学校人数越来越多,学校后勤报修管理的工作量也越来越繁重。使用传统的管理手段和方法,很难完成大量的信息分析和处理。因此,充分利用网络资源和信息化技术,建设一套基于校园网的学校后勤报修管…

fpga实操训练(uart串口)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 如果说led灯、按键、数码管这些都只能算是基础的话,那么学习fpga遇到的第一个门槛就是uart。要做好uart,首先需要了解串口的…

Thymeleaf 预处理表达式__${表达式}__之国际化使用案例

目录一. 前期准备1.1 国际化项目获取类1.2 国际化配置文件类1.3 项目配置文件1.4 国际化资源文件二. __${表达式}__预处理表达式2.1 在Thymeleaf中使用Spring的Bean2.2 通过#{}获取国际化资源2.3 预处理表达式__${表达式}__的使用三. 效果一. 前期准备 1.1 国际化项目获取类 …

linux系统中RGBLCD的基本操作和实现方法

大家好,今天主要来聊一聊,如何控制RGBLCD屏的方法。 目录 第一:LCD基本简介 第二:LCD屏的要点 第三:LCD屏具体配置步骤 第四:LCD屏具体的代码实现 第一:LCD基本简介 LCD液晶屏是常用的外设&…

Linux常用命令,能解决工作中99%的Linux操作问题

目录 一、ls 二、pwd 三、cd 四、touch 五、mkdir 六、rmdir&rm 七、man 八、cp 九、mv 九、cat 十、move 十一、less 十二、head 十三、tail 十四、时间 十五、cal 十六、find 十七、grep 十八、zip/unzip 十九、tar 二十、计算器 二十一、uname 二…

SpringBoot 整合Netty自定义消息协议

本文主要介绍springboot项目,配置netty进行消息通信,自定义的netty消息协议,本文消息主要以表格中进行 消息头消息体长度加密标识(可选)加密类型(可选)消息体标识消息体校验码2字节2字节1字节&…

SAP ABAP——SAP简介(一)【SAP发展历程】

💂作者简介: THUNDER王,一名热爱财税和SAP ABAP编程以及热爱分享的博主。目前于江西师范大学会计学专业大二本科在读,同时任汉硕云(广东)科技有限公司ABAP开发顾问。在学习工作中,我通常使用偏后…

研究必备的 5 个外文文献检索网站

1. Google scholar 网址: https://scholar.google.com.hk/?hlzh-CN 如今搜索论文的首选,可以在这里查看论文统计和引用参考文献,还能通过关注作者或者论文获得新论文更新提醒,以及利用自动化推荐来提供一个基本库 2. DBLP 网址…

MSVC C++ UTF-8编程

除windows平台外大部分其他平台,编译器默认使用的编码都是UTF-8编码,最新版本的Clang编译器只支持UTF-8编码。如果程序需要在多个平台编译运行,则代码必须使用UTF-8。使用UTF-8可以更容易的在多字节字符串(char, std::string)和宽字符(wchar_…

Java+SSM汽车租赁系统汽车出租(含源码+论文+答辩PPT等)

项目功能简介: 该项目采用的技术实现如下 后台框架:Spring、SpringMVC、MyBatis UI界面:jQuery 、JSP 数据库:MySQL 系统功能 系统分为前台用户租车和后台系统管理: 1.前台用户租车 用户注册、用户登录、用户中心、浏览车辆、车辆…