基于门控的循环神经网络:GRU

news2025/1/11 17:59:59

门控循环单元(GatedRecurrentUnit,GRU)网络,也是一种基于门控的循环神经网络,但是名气不如LSTM大,GRU是对LSTM的一种改版,可以理解为是LSTM的简化版。LSTM有三个门,输入门,遗忘门,输出门,而GRU仅有两个门,分别为更新门和重置门。GRU的目的和LSTM是一样的,也是为了解决循环神经网络的长期依赖问题,即随时间反向传播算法当序列长度太长后产生的梯度爆炸和梯度消失问题。GRU将LSTM中的输入门和遗忘门合并成了一个更新门,同时,GRU也不引入额外的记忆单元(LSTM中引入了额外的记忆单元C),直接在当前状态ht和历史状态ht-1之间引入线性依赖关系。

GRU网络的隐状态ht的更新方式为:

其中zt在[0,1]之间,称为更新门,用来控制当前状态需要从历史状态中保留多少信息,以及需要从候选状态中接受多少新信息。

这里的W,U,b都是可以学习的权重参数。

其中ht~称为当前时刻的候选状态,计算方法如下:

rt就是GRU的另一个门,重置门,用来控制候选状态ht~的计算是否依赖上一时刻的状态ht-1。

当rt=0时,候选状态就只和当前输入xt有关,而与历史状态ht-1无关了,当rt=1时,候选状态就又和当前输入xt有关,也和历史状态ht-1有关,就和简单循环神经网络RNN一样了。

当更新门zt=0时,那么ht就等于ht~,也就是说ht和ht-1就是一个非线性函数;如果zt=0且rt=1,GRU就是简单循环神经网络RNN;如果zt=0且rt=0,那么zt=tanh(Wh*xt+bh),ht就只和当前输入xt有关了;当zt=1时,ht=ht-1,也就是说ht直接是上一个时刻的隐状态ht-1,而与候选状态无关,也就是和当前输入xt无关了。当然,大多数时候,GRU的隐状态既和上一个时刻的隐状态有关,又和当前输入xt有关。可以这么说,重置门有助于捕获序列中的短期依赖关系,更新门有助于捕获序列中的长期依赖关系。GRU网络结构如下图:

下面我们来实现一下GRU网络。

class GRU(nn.Module):
    def __init__(self, input_size, num_hiddens, batch_first=True):
        super(GRU,self).__init__()
        def normal(shape):
            return torch.randn(size = shape)*0.01

        def three():
            wx = normal((input_size, num_hiddens)) 
            wh = normal((num_hiddens, num_hiddens))
            b = torch.zeros(num_hiddens)
            return (wx,wh,b)
            
        W_xz, W_hz, b_z = three() # 更新门参数
        W_xr, W_hr, b_r = three() # 重置门参数
        W_xh, W_hh, b_h = three() # 候选隐藏状态参数
        # 输出层参数
        W_hq = normal((num_hiddens, num_hiddens))
        b_q = torch.zeros(num_hiddens)
        self.params = [W_xz, W_hz, b_z, W_xr, W_hr, b_r, W_xh, W_hh, b_h, W_hq, b_q]
        self.batch_first = batch_first
        self.num_hiddens = num_hiddens
        

    def forward(self,inputs):
        [W_xz, W_hz, b_z, W_xr, W_hr, b_r, W_xh, W_hh, b_h, W_hq, b_q] = self.params
        if self.batch_first:
            batch_size = inputs.shape[0]
            seq_len = inputs.shape[1] # 序列长度
        else:
            batch_size = inputs.shape[1]
            seq_len = inputs.shape[0] # 序列长度
        
        self.h = torch.zeros((seq_len, self.num_hiddens))
        H = self.h
        outputs = []
        for X in inputs:
            Z = torch.sigmoid((X@W_xz) + (H@W_hz) + b_z)
            R = torch.sigmoid((X@W_xr) + (H@W_hr) + b_r)
            H_tilda = torch.tanh((X@W_xh) + ((R*H)@W_hh) + b_h)
            H = Z*H + (1-Z)*H_tilda
            Y = H@W_hq + b_q
            outputs.append(Y)
        
        out = torch.cat(outputs, dim=0)
        out = out.reshape(batch_size,seq_len,self.num_hiddens)
        return out,(H)

可以看到,我们首先初始化了更新门,重置门,候选隐藏状态,以及输出层的参数。输入的第一个维度默认是batch_size,第二个维度是序列长度seq_len,由于我们这里只是定义了一个GRU模块,所以输出的维度和隐藏层一致。实际应用中,需要在GRU的输出结果后,加上全连接层,得到最终的输出。这里X遍历了整个inputs,最后按第0维(也就是第一个维度)拼接,得到GRU输出结果,其实就是把一个batch拆分开计算,再将得到结果,在batch_size维度上进行合并。我们可以看一下输出大小示例:

net = GRU(input_size=1, num_hiddens=20, batch_first=True)
data = torch.zeros(8,10,1)
out,ht = net(data)
print(out.shape)
# 输出:
torch.Size([8, 10, 20])

可以看到,输入batch_size=8,序列长度10,输入大小是1维的数字,输出第一个维度是8,也就是batch_size,第二个维度10,是序列长度,第三个维度20,是隐藏层的大小。我们可以看一下pytorch官方提供的GRU函数,得到的结果大小。

input_size = 1
num_hiddens = 20

gru=nn.GRU(
            input_size=input_size,    #输入特征维度,维度为1
            hidden_size=num_hiddens,  #隐藏层神经元个数,或者也叫输出的维度
            num_layers=1,
            batch_first=True
        )
data = torch.zeros(8, 10, 1)
out,ht = gru(data)
print(out.shape)
print(out[:,-1,:].shape)
# 输出:
torch.Size([8, 10, 20])
torch.Size([8, 20])

可以看到pytorch官方的GRU函数和我们自己实现的输出格式是一致的,都是[8,10,20]。下面,我们根据我们自己定义的GRU模块,来实现一个完整的GRU网络:

class model(nn.Module):  
    def __init__(self, input_size, hidden_size, output_size):  
        super(model, self).__init__()  
        self.hidden_size = hidden_size  
        self.gru = GRU(input_size, hidden_size, batch_first=True) # 自定义的GRU
        #self.gru = nn.GRU(input_size, hidden_size, batch_first=True) # Pytorch提供的GRU
        self.fc = nn.Linear(hidden_size, output_size)  
  
    def forward(self, x):  
        out, _ = self.gru(x)
        out = self.fc(out[:, -1, :])
        return out
net = model(1, 20, 1)
data = torch.zeros(8, 4, 1)
out = net(data)
print(out.shape)
# 输出:
torch.Size([8, 1])

完整的模型中,我在得到GRU的结果后又加上了全连接模块,得到了最终的输出。我这里输入了batch_size=8,序列长度为4,输入维度为1的序列数据,最终输出结果是batch_size=8,输出维度是1的数据,符合我们的要求。下面我们用这个模型,在之前用过的正弦数据上模拟一下。

import matplotlib.pyplot as plt

# 画出sin函数作为序列函数
y = []
for i in range(1000):
    y.append(np.sin(0.01*i)+np.random.normal(0,0.2)) # 给sin函数增加一个微小的扰动
x = [i for i in range(1000)]

plt.plot(x, y)
plt.show()

根据正弦函数并加上一个随机扰动生成序列数据,我们的目的是希望根据四个输入数据输出下一个数据。下面构造训练数据。

# 用前600个数字作为训练集,后400个作为测试集
class myDataset(Dataset):
    def __init__(self, tau=4, total=600, transform=None):
        data = [i for i in range(total)]
        y = []
        for i in range(total):
            y.append(np.sin(0.01*i)+np.random.normal(0,0.2)) # 给sin函数增加一个微小的扰动
        # tau代表用多少个数字来作为输入,默认为4
        self.features = np.zeros((total-tau, tau)) # 构建了996行4列的输入序列,代表了996个训练样本,每个样本有4个数字构成
        for i in range(tau):
            self.features[:,i] = y[i: total-tau+i] # 给特征向量赋值
        self.data = data
        self.transform = transform
        self.labels = y[tau:]
        
    def __len__(self):
        return len(self.labels)
    
    def __getitem__(self, idx):
        return self.features[idx], self.labels[idx]
transform = transforms.Compose([transforms.ToTensor()])
trainDataset = myDataset(transform=transform)
train_loader = DataLoader(dataset=trainDataset, batch_size=32, shuffle=False) 

训练函数:

def train(epochs=10):
    net = model(1, 20, 1)
    criterion = nn.MSELoss()
    optimizer = torch.optim.Adam(net.parameters(), lr=0.01)
    for epoch in range(epochs):
        total_loss = 0.0
        for i, (x, y) in enumerate(train_loader):
            x = Variable(x)
            x = x.to(torch.float32)
            x = x.unsqueeze(2)

            y = Variable(y)
            y = y.to(torch.float32)
            y = y.unsqueeze(1)

            optimizer.zero_grad()
            outputs = net(x)
            loss = criterion(outputs, y)
            total_loss += loss.sum() # 因为标签值和输出都是一个张量,所以损失值要求和
            loss.sum().backward()
            optimizer.step()
        if (epoch+1)%50==0:
            print('Epoch {}, Loss: {:.4f}'.format(epoch+1, total_loss/len(trainDataset)))
    torch.save(net, 'gru.pt')
train(epochs=1000)
# 输出
Epoch 50, Loss: 0.0164
Epoch 100, Loss: 0.0149
Epoch 150, Loss: 0.0135
Epoch 200, Loss: 0.0122
Epoch 250, Loss: 0.0109
Epoch 300, Loss: 0.0098
Epoch 350, Loss: 0.0087
Epoch 400, Loss: 0.0077
Epoch 450, Loss: 0.0068
Epoch 500, Loss: 0.0060
Epoch 550, Loss: 0.0053
Epoch 600, Loss: 0.0046
Epoch 650, Loss: 0.0040
Epoch 700, Loss: 0.0035
Epoch 750, Loss: 0.0031
Epoch 800, Loss: 0.0027
Epoch 850, Loss: 0.0024
Epoch 900, Loss: 0.0022
Epoch 950, Loss: 0.0020
Epoch 1000, Loss: 0.0019

下面根据训练后的模型进行预测:

# 预测
net = torch.load('gru.pt')
features = torch.from_numpy(features)
features = features.float()
features = features.unsqueeze(2)
y_pred = net(features)

# 画出sin函数作为序列函数
y = []
for i in range(996):
    # 给sin函数增加一个微小的扰动
    y.append(np.sin(0.01*i)+np.random.normal(0,0.2))
x = [i for i in range(996)]

fig, ax = plt.subplots()
ax.plot(x, y)
ax.plot(x, y_pred.detach().numpy(), color="y")
plt.show()

可以看到,训练结果符合正弦函数的图形特征。下一篇文章,我们看一下如何利用循环神经网络预测股价。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1699049.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大模型应用:基于Golang实现GPT模型API调用

1.背景 当前OpenAI提供了开放接口,支持通过api的方式调用LLM进行文本推理、图片生成等能力,但目前官方只提供了Python SDK。为了后续更方便集成和应用,可以采用Golang对核心推理调用接口进行封装,提供模型调用能力。 2.相关准备…

Python基于PyQt6制作GUI界面——按钮

示例对应的制作的 ui文件 界面如下所示。 <?xml version"1.0" encoding"UTF-8"?> <ui version"4.0"><class>Form</class><widget class"QWidget" name"Form"><property name"geom…

探索python字典:遍历与访问的艺术

新书上架~&#x1f447;全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我&#x1f446;&#xff0c;收藏下次不迷路┗|&#xff40;O′|┛ 嗷~~ 目录 一、获取字典的键与值 1. 获取字典的键 2. 获取字典的值 二、遍历字典的键值对 1. 使用 …

I2C SPI UART TCP/UDP AD/DA PWM大总结

I2C SPI UART TCP/UDP AD/DA PWM大总结 1. I2C总线描述1.1 基础协议内容1.1.1 通信时序1.1.2 一般通讯时序1.1.3 Burst模式 2. SPI总线2.1 基础协议内容 3. UART4. TCP/UDP5. AD/DA5.1 AD的原理5.2 DA的原理 6. PWM 1. I2C总线描述 I2C的特点&#xff1a;半双工&#xff0c;同步…

X2Doris使用指南:界面化数据迁移工具 - 轻松实现整库迁移至Doris

什么是X2Doris X2Doris 是 SelectDB 团队开发的&#xff0c;专门用于将各种离线数据迁移到 Apache Doris 中的核心工具&#xff0c;该工具集 自动建 Doris 表 和 数据迁移 为一体&#xff0c;目前支持了 Apache Doris/Hive/Kudu/StarRocks 数据库往 Doris 或 SelectDB Cloud 迁…

如何查看热门GPT应用?

1、登陆chatgpt 2、访问 https://chatgpt.com/gpts 3、在该界面&#xff0c;可以搜索并使用image generator, Write For Me&#xff0c;Language Teature等热门应用。

【实战JVM】-基础篇-03-Java内存结构

【实战JVM】-基础篇-03-Java内存结构 1 运行时数据区1.1 总览1.2 程序计数器1.2.1 是否会内存溢出 1.3 java虚拟机栈1.3.1 栈帧的组成1.3.1.1 局部变量表1.3.1.2 操作数栈1.3.1.3 帧数据1.3.1.3.1 动态链接1.3.1.3.2 方法出口1.3.1.3.3 异常表 1.3.2 是否会内存溢出1.3.3 设置虚…

代码随想录算法训练营第三十六天 | 1005.K次取反后最大化的数组和、134.加油站、135.分发糖果

目录 1005.K次取反后最大化的数组和 思路 代码 代码 134.加油站 思路 代码 135.分发糖果 思路 代码 1005.K次取反后最大化的数组和 本题简单一些&#xff0c;估计大家不用想着贪心 &#xff0c;用自己直觉也会有思路。 代码随想录 思路 直觉&#xff0c;直接写&…

基于YOLOv8的车牌检测与识别(CCPD2020数据集)

前言 本篇博客主要记录在autodl服务器中基于yolov8实现车牌检测与识别&#xff0c;以下记录实现全过程~ yolov8源码&#xff1a;GitHub - ultralytics/ultralytics: NEW - YOLOv8 &#x1f680; in PyTorch > ONNX > OpenVINO > CoreML > TFLite 一、环境配置 …

粤嵌—2024/5/20—三角形最小路径和(✔)

代码实现&#xff1a; int minimumTotal(int **triangle, int triangleSize, int *triangleColSize) {if (triangleSize 1) {return triangle[0][0];}for (int i 1; i < triangleSize; i) {for (int j 0; j < triangleColSize[i]; j) {int x i - 1;int y1 j - 1, y2…

[JDK工具-5] jinfo jvm配置信息工具

文章目录 1. 介绍2. 打印所有的jvm标志信息 jinfo -flags pid3. 打印指定的jvm参数信息 jinfo -flag InitialHeapSize pid4. 启用或者禁用指定的jvm参数 jinfo -flags [|-]HeapDumpOnOutOfMemoryError pid5. 打印系统参数信息 jinfo -sysprops pid6. 打印以上所有配置信息 jinf…

LDAP: error code 32 - No Such Object

目前我的项目版本&#xff1a; Spring版本:5.3.15SpringBoot版本:2.6.3 完整错误 org.springframework.ldap.NameNotFoundException: [LDAP: error code 32 - No Such Object]; nested exception is javax.naming.NameNotFoundException: [LDAP: error code 32 - No Such Objec…

多环境和前后多环境实战

文章目录 一.多环境1.1 什么是多环境1.2 多环境分类1.2.1 本地环境&#xff08;自己的电脑&#xff09;1.2.2 开发环境&#xff08;远程开发&#xff09;1.2.3 测试环境1.2.4 预发布环境1.2.5 正式环境1.2.6 沙箱环境&#xff08;实验环境&#xff09; 1.3 如何实现1.3.1 抽象配…

Git--本地仓库

文章目录 工作区和暂存区工作区&#xff08;Working Directory&#xff09;版本库&#xff08;Repository&#xff09; 初始化git仓库添加文件到版本库步骤 查看修改内容查看工作区和暂存区状态已add文件已修改/新增 的未add文件git跟踪修改原理 查看提交历史版本回退撤销修改撤…

C++/ cuda kernel中的模版元编程识别 kernel 模版的数据类型

1&#xff0c;模版元编程 模板元编程是一种利用 C 模板系统在编译时进行计算和生成代码的技术。其原理基于模板特化、递归、模板参数推导等特性&#xff0c;通过模板实例化和展开&#xff0c;在编译时生成代码&#xff0c;以实现在编译期间进行复杂计算和代码生成的目的。 2&am…

化学中的不确定性。

化学中的不确定性TOC 基于元素分析的无机化学的理论大厦应该说早已落成了&#xff0c;但是却仍然存在着一些列的难解甚至是无解问题&#xff0c;这些大多是在使用理论解释现象时遇到的困难&#xff0c;有些则是在生产实践中生产工艺和生产工序设计和优化中发现的问题。于是&…

音视频开发8 音视频中SDL的使用,SDL 在windows上环境搭建,SDL 使用 以及 常用 API说明,show YUV and play PCM

1.SDL简介 SDL&#xff08;Simple DirectMedia Layer&#xff09;&#xff0c;是一个跨平台的C语言多媒体开发库。 支持Windows、Mac OS X、Linux、iOS、Android 提供对音频、键盘、鼠标、游戏操纵杆、图形硬件的底层访问 很多的视频播放软件、模拟器、受欢迎的游戏都在使用…

【移动云】云端赋能——数字化时代游戏与工作的新境界

前言 在当今这个信息化、数字化的时代&#xff0c;云计算、大数据和人工智能等前沿技术已经深入到我们生活的方方面面。作为我国通信行业的领军企业&#xff0c;中国移动凭借其在5G技术领域的领先优势&#xff0c;推出了基于移动云计算技术的云业务品牌——移动云。移动云以云操…

CSS浮动(CSS从入门到精通学习第四天)

css第04天 一、其他样式 1、圆角边框 在 CSS3 中&#xff0c;新增了圆角边框样式&#xff0c;这样我们的盒子就可以变圆角了。 border-radius 属性用于设置元素的外边框圆角。 语法&#xff1a; border-radius:length; 参数值可以为数值或百分比的形式如果是正方形&…

Win11系统CMD乱码

1. 背景 在打包前端代码的时候&#xff0c;看到系统控制台中竟然出现了乱码。想到之前就曾经出现过因为影响不大就一直放着没管。今天有空就把问题解决掉吧。 2. 解决过程 2.1 问题定位 在命令行中执行 chcp&#xff0c;看到返回结果如下 Active code page: 936936 代表的…