实地研究降本增效的杀伤力,LSTM算法实现全国失业率分析预测

news2024/10/5 16:27:54

前言

降本增效=降本增笑?增不增效暂且不清楚,但是这段时间大厂的产品频繁出现服务器宕机和产品BUG确实是十分增笑。目前来看降本增效这一理念还会不断渗透到各行各业,不单单只是互联网这块了,那么对于目前就业最为严峻的一段时期,我们能够对失业率有个全面的了解是最好的情况,所以基于此理念我们来拟定一个失业率预测分析这一微项目。

我们将会从数据获取–数据处理–LSTM建模–预测检测这四个流程依次进行最终得到一个较为合理准确的数据,当然该预测率的准确度是依赖获取到的官方数据的,至于数据真实性这个不作过多解释~大家只要了解建模过程如何和LSTM模型如何使用就好。

博主现任高级人工智能工程师,理解各类模型原理以及每种模型的建模流程和各类题目分析方法。写文章的目的就是为了让零基础快速使用各类代码模型,保证每篇文章都为用心撰写。

且每篇文章我都会尽可能将简化涉及到垂直领域的专业知识,转化为大众小白可以读懂易于理解的知识,将繁杂的程序创建步骤逐个拆解,以逐步递进的方式由难转易逐渐掌握并实践,欢迎各位学习者关注博主,博主将不断创作技术实用前沿文章。

数据获取

不查不知道,一查确实还是挺有意思的数据,想要获取官方数据可以直接访问国家数据网站。
全国失业率统计数据因为是官方的数据所以就默认为真实情况,就不用进行数据清洗工程了。

数据预览

# 转换为DataFrame
df = pd.DataFrame(data)

# 将日期转换为时间序列,并设为索引
df['日期'] = pd.to_datetime(df['日期'], format='%Y年%m月')
df.set_index('日期', inplace=True)

# 由于数据是逆序的,我们需要将其反转以正确地展示时间序列
df = df.iloc[::-1]

df

请在此添加图片描述

我们再来数据可视化帮我们更具体的看清楚整个数据的全貌:

# 绘制线图
plt.figure(figsize=(10, 6))  # 设置图形大小
plt.plot(df.index, df['全国城镇调查失业率(%)'], marker='o', label='全国城镇调查失业率(%)')
plt.plot(df.index, df['全国城镇本地户籍劳动力失业率(%)'], marker='s', label='全国城镇本地户籍劳动力失业率(%)')
plt.plot(df.index, df['全国城镇外来户籍劳动力失业率(%)'], marker='^', label='全国城镇外来户籍劳动力失业率(%)')

# 设置图表标题和标签
plt.title('不同类型失业率的时间序列变化')
plt.xlabel('日期')
plt.ylabel('失业率(%)')
plt.xticks(rotation=45)  # 旋转x轴标签以避免重叠
plt.legend()  # 显示图例

# 显示图表
plt.tight_layout()  # 自动调整子图参数, 使之填充整个图像区域
plt.show()

请在此添加图片描述

LSTM建模

请在此添加图片描述

那么现在我们可以来预测未来三个月的失业率到底如何,构建一个LSTM模型来预测未来三个月的失业率是一个典型的时间序列预测任务。使用PyTorch框架进行此类预测需要几个步骤:数据预处理、定义LSTM模型、训练模型、以及最后的预测。下面我会概述这个过程的每个步骤,并提供相应的示例代码。

步骤 1: 数据预处理

时间序列预测的第一步通常涉及到数据的预处理,包括标准化/归一化数据和创建适合于监督学习的时间序列数据集。

from sklearn.preprocessing import MinMaxScaler
import numpy as np
import torch

# 假设df是包含失业率时间序列的DataFrame

# 选择一个列作为预测目标
data = df['全国城镇调查失业率(%)'].values.reshape(-1, 1)

# 数据标准化
scaler = MinMaxScaler(feature_range=(-1, 1))
data_normalized = scaler.fit_transform(data)

# 创建数据集
def create_dataset(data, look_back=1):
    dataX, dataY = [], []
    for i in range(len(data)-look_back):
        a = data[i:(i+look_back), 0]
        dataX.append(a)
        dataY.append(data[i + look_back, 0])
    return np.array(dataX), np.array(dataY)

look_back = 3  # 使用3个月的数据来预测下一个月
X, y = create_dataset(data_normalized, look_back)
X = X.reshape(X.shape[0], 1, X.shape[1])  # 为了LSTM输入,需要转换为[samples, time steps, features]

# 转换为PyTorch张量
X_torch = torch.from_numpy(X).float()
y_torch = torch.from_numpy(y).float()

步骤 2: 定义LSTM模型

在PyTorch中定义一个简单的LSTM模型。

import torch.nn as nn

class LSTMModel(nn.Module):
    def __init__(self, input_size=1, hidden_layer_size=100, output_size=1):
        super().__init__()
        self.hidden_layer_size = hidden_layer_size

        self.lstm = nn.LSTM(input_size, hidden_layer_size)

        self.linear = nn.Linear(hidden_layer_size, output_size)

        self.hidden_cell = (torch.zeros(1,1,self.hidden_layer_size),
                            torch.zeros(1,1,self.hidden_layer_size))

    def forward(self, input_seq):
        lstm_out, self.hidden_cell = self.lstm(input_seq.view(len(input_seq) ,1, -1), self.hidden_cell)
        predictions = self.linear(lstm_out.view(len(input_seq), -1))
        return predictions[-1]

步骤 3: 训练模型

接下来,定义训练循环来训练LSTM模型。

model = LSTMModel(input_size=3, hidden_layer_size=100, output_size=1)  # 确保这里的参数与你的数据匹配
loss_function = nn.MSELoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

epochs = 150
for epoch in range(epochs):
    total_loss = 0
    for seq, labels in zip(X_torch, y_torch):
        optimizer.zero_grad()
        
        # 根据修改后的模型,不再需要外部初始化hidden_cell
        y_pred = model(seq.unsqueeze(0))  # 增加一个批次维度

        single_loss = loss_function(y_pred, labels.unsqueeze(0))  # 标签也需要增加一个批次维度
        single_loss.backward()
        optimizer.step()
        
        total_loss += single_loss.item()
    
    if epoch % 25 == 0:
        print(f'epoch: {epoch:3} loss: {total_loss/len(X_torch):10.8f}')

训练误差:

epoch:   0 loss: 0.50735911
epoch:  25 loss: 0.09428047
epoch:  50 loss: 0.08110558
epoch:  75 loss: 0.06782570
epoch: 100 loss: 0.05745859
epoch: 125 loss: 0.05270799

模型预测

基于前面讨论的步骤和代码,使用训练好的LSTM模型和最近几个月的数据来预测未来三个月的失业率。这个过程大致分为以下几步:

  1. 使用最近的数据:基于look_back参数,从最新的数据开始预测。
  2. 进行预测:利用模型预测下一个时间点的值。
  3. 更新输入数据:将预测值添加到输入数据中,用于下一步的预测。
  4. 重复预测过程:重复步骤2和3,直到预测了所需的未来时间点的数据。
# 如果look_back=3,我们取最后3个已知时间点的数据
input_data_normalized = data_normalized[-look_back:].reshape((1, 1, look_back))

# 转换为PyTorch张量
input_data_tensor = torch.from_numpy(input_data_normalized).float()

# 存储预测结果
predictions_normalized = []

# 进行未来三个月的预测
for _ in range(3):  # 预测未来三个月
    with torch.no_grad():  # 不计算梯度
        # 预测下一个时间点
        pred = model(input_data_tensor)
        predictions_normalized.append(pred.numpy().flatten()[0])  # 存储预测结果
        
        # 更新输入数据
        input_data_tensor = torch.cat((input_data_tensor[:, :, 1:], pred.unsqueeze(0)), dim=2)

# 将预测结果逆标准化
predictions = scaler.inverse_transform(np.array(predictions_normalized).reshape(-1, 1))

print("预测的未来三个月失业率:", predictions.flatten())
预测的未来三个月失业率: [5.226562  5.1846743 5.1323695]

这个过程假定input_data_normalized包含了用于开始预测的最后look_back个时间点的数据,已经是标准化形式。每次预测后,我们都会更新这个输入数据,将最新的预测值添加进去,同时移除最旧的数据点,以便于下一次预测。预测完成后,我们使用与训练数据相同的MinMaxScaler实例scaler来逆标准化预测结果,以获取原始尺度上的预测值。

确保在进行预测之前,model已经在相似的数据上训练并且达到了满意的性能。预测的这个值大家看个乐呵就行不要太较真~

点关注,防走丢,如有纰漏之处,请留言指教,非常感谢

以上就是本期全部内容。我是fanstuck ,有问题大家随时留言讨论 ,我们下期见。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1528381.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Excel xlsx file:not supported

报错信息: 原因: Excel和xlrd版本不匹配 解决措施: 降低xlrd版本或Excel版本 方法一: 1) 先卸载了原来的版本:uninstal xlrd 2) 安装新的低版本xlrd模块pip install xlrd1.2.0 方法二: 1&#xff09…

数据结构之带头双向链表(易学版)

目录 1.问题引入 2.结构实现 2.3.1接口实现 2.3.2函数实现 3.总结 ,又和大家见面了,今天要给大家分享的是双链表的知识,跟着我的脚步,包学包会哦~ 规矩不乱,先赞后看! ps:(孙…

Tortoisegit 免密配置

TortoiseGit的免密配置通常涉及公钥和私钥的使用,以及通过配置来避免在每次操作时需要输入密码。以下是具体的配置步骤: 1、生成私钥: 首先,使用PuTTYgen生成私钥。你可以在“开始”菜单中找到TortoiseGit文件夹,并在…

AVP-SLAM:自动泊车系统中的语义SLAM_

AVP-SLAM:自动泊车系统中的语义SLAM 附赠最强自动驾驶学习资料:直达链接 ●论文摘要 在自动代客泊车系统中车辆在狭窄且拥挤且没有GPS信号的停车场中进行导航,具备准确的定位能力是至关重要的。传统的基于视觉的方法由于在停车场中由于缺少…

爬虫逆向实战(36)-某建设监管平台(RSA,魔改)

一、数据接口分析 主页地址:某建设监管平台 1、抓包 通过抓包可以发现网站首先是请求了一个/prod-api/mohurd-pub/vcode/genVcode的接口,用于获取滑块验证码的图片 滑块验证之后,请求了/prod-api/mohurd-pub/dataServ/findBaseEntDpPage这…

Git——标签详解

目录 Git标签1、概述1.1、标签是什么1.2、什么时候使用标签1.3、标签的分类 2、轻量标签(lightweight tag)3、有附注的标签(annotated tag)4、两种标签的区别5、删除标签 Git标签 1、概述 1.1、标签是什么 在Git中,…

解决Anaconda环境下利用gradio启动web页面生成的链接报错Could not create share link

一、错误信息 启动web页面生成了地址,但是在网页中无法访问: 二、解决方法 在报错的同时也给我们指出了解决方法: Please check your internet connection. This can happen if your antivirus software blocks the download of this fi…

搭建Hadoop集群(完全分布式运行模式)

目录 一、准备模板机(最小化安装)二、配置一台纯净的模板机修改主机名固定IP地址通过yum安装方式安装必要的软件关闭防火墙且禁止自启修改hosts映射文件创建普通用户 并让他能用sudo命令在/opt下创建software和module完成 三、搭建完全分布式运行模式3.1克隆第一台机器hadoop10…

2024-3-18-C++day6作业

1>思维导图 2>试编程 要求: 封装一个动物的基类,类中有私有成员:姓名,颜色,指针成员年纪 再封装一个狗这样类,共有继承于动物类,自己拓展的私有成员有:指针成员:腿的个数&a…

面试算法-52-对称二叉树

题目 给你一个二叉树的根节点 root , 检查它是否轴对称。 示例 1: 输入:root [1,2,2,3,4,4,3] 输出:true 解 class Solution {public boolean isSymmetric(TreeNode root) {return dfs(root, root);}public boolean dfs(Tr…

长安链正式发布三周年,技术更迭支撑产业变革

导语: 2024年1月27日长安链正式发布三周年,开源社区借开年之际与大家一同回顾长安链三年来的技术发展历程,每一个里程碑的建设都得益于与长安链同行的合作伙伴与开发者,希望在2024年可以共同携手继往开来,为数字经济发…

第三门课:结构化机器学习项目-机器学习策略

文章目录 1 机器学习策略一1.1 为什么是ML策略?1.2 正交化1.3 单一数字评估指标1.4 满足和优化指标1.5 训练、开发及测试集划分1.6 开发集和测试集的大小1.7 什么时候改变开发、测试集和指标?1.8 为什么是人的表现?1.9 可避免偏差1.10 理解人…

STM32第九节(中级篇):RCC(第三节)—— 使用HSE配置系统时钟并使用MCO输出监控系统时钟

前言 这节课我们开始学习使用HSE配置系统时钟并使用MCO输出监控系统时钟,上节课我们讲了固件库里的系统时钟配置函数,是机器写的,我们现在自己来写一个。 STM32第九节(中级篇):RCC(第三节&…

【人工智能】Gitee AI 天数智芯有奖体验开源AI模型,一定能有所收货,快来体验吧

大家好,我是全栈小5,欢迎阅读小5的系列文章。 这是《人工智能》系列文章,每篇文章将以博主理解的角度展开讲解。 目录 前言两大赛道天数智芯1.模型地址2.天数智芯专区3.选择模型4.模型详情页5.部署模型6.成功部署7.执行例子8.移除模型 千模盲…

被大家低估的Excel函数扫地僧choose函数

今天我们要跟大家介绍Excel函数界的又一个世外高手——引用函数CHOOSE。 首先来看下它的基本语法: CHOOSE(索引值,参数1,[参数2],…[参数254]) CHOOSE函数主要用于根据索引值从一组数据中返回相应位置的数值。索引值是介于1到254之间的数字,或者是包含…

2024全网最全的完整的性能测试流程!

完整的性能测试流程 一、准备工作 在什么阶段开展性能测试工作?一般情况下,是在被测系统已完成功能测试、系统趋于稳定的情况下,才会进行性能测试。 1. 组建测试团队 根据被测系统的实际情况,组建一个性能测试团队,团…

[QJS xmake] 非常简单地在Windows下编译QuickJS!

文章目录 前言准备C编译器xmake编译包 工程准备修改版本号第一遍编译第二遍编译效果 前言 quickjs是个很厉害的东西啊,我一直想编译一下的,奈何一直没成功。现在找了点时间成功编译了,写篇文章记录一下。当前版本:2024-1-13 应该…

STM32CubeIDE基础学习-LED闪烁实验

STM32CubeIDE基础学习-LED闪烁实验 文章目录 STM32CubeIDE基础学习-LED闪烁实验前言第1章 硬件介绍第2章 新建工程2.1 基础工程配置部分2.2 工程外设配置部分2.3 生成工程代码部分2.4 输出HEX文件、编译下载 第3章 代码编写3.1 方式1:IO翻转3.2 方式2:调…

“西安大重澳生物科技有限公司”——甄选优质企业品牌入围央媒

西安大重澳生物科技有限公司,一家专注于生物科技研发的企业,自2017年成立以来,致力于开发革命性的肤用肽制剂产品。近日,成功入围央视新媒体直播盛典。在持续的创新与努力下,畅夫泰R畅肤肽品牌已成为备受瞩目的名副其实…

园区配电监测信息系统

园区配电监测信息系统是一款集成了高科技、数据分析和管理的系统,旨在实时监测和控制园区内的电力供应,提高电力使用效率,减少能源浪费,确保电力安全。该系统通过现代通信技术、自动控制技术和计算机技术,实现对园区配…