pytorch集智-2单车预测器

news2024/11/28 8:26:35

完整代码在个人主页简介链接pytorch路径下可找到

1 单车预测器1.0

1.1 人工神经元

对于sigmoid函数来说,w控制函数曲线的方向,b控制曲线水平方向位移,w'控制曲线在y方向的幅度

1.2 多个人工神经元

模型如下

数学上可证,有限神经元绘制的曲线可以逼近任意有限区间内的曲线(闭区间连续函数有界)

1.3 模型与代码

通过训练可得到逼近真实曲线的神经网络参数

通过梯度下降法寻找局部最优(如何寻找全局最优后面考虑)

思考 n个峰需在一个隐层要多少隐单元?材料说3个峰10个单元就够了,理论上算,最少需要5个,可能保险起见,加其他一些不平滑处,就弄了10个

初次代码如下

from os import path
import numpy as np
import pandas as pd
import torch
import torch.optim as optim
import matplotlib.pyplot as plot

DATA_PATH = path.realpath('pytorch/jizhi/bike/data/hour.csv')

class Bike():
    def exec(self):
        self.prepare_data_and_params()
        self.train()
        
    def prepare_data_and_params(self):
        self.data = pd.read_csv(DATA_PATH)
        
        counts = self.data['cnt'][:50]
        self.x = torch.FloatTensor(np.arange(len(counts)))
        self.y = torch.FloatTensor(np.array(counts, dtype=float))
        self.size = 10
        self.weights = torch.randn((1, self.size), requires_grad=True)
        self.biases = torch.randn((self.size), requires_grad=True)
        self.weights2 = torch.randn((self.size, 1), requires_grad=True)

    def train(self):
        rate = 0.001
        losses = []
        x, y = self.x.view(50, -1), self.y.view(50, -1) # reshape
        for num in range(30000):
            hidden = x * self.weights + self.biases
            hidden = torch.sigmoid(hidden)
            predictions = hidden.mm(self.weights2)
            loss = torch.mean((predictions - y) ** 2)
            losses.append(loss.data.numpy())
            if num % 3000 == 0:
                print(f'loss: {loss}')
            loss.backward()
            
            self.weights.data.add_(- rate * self.weights.grad.data)
            self.biases.data.add_(- rate * self.biases.grad.data)
            self.weights2.data.add_(- rate * self.weights2.grad.data)
            
            self.weights.grad.data.zero_()
            self.biases.grad.data.zero_()
            self.weights2.grad.data.zero_()
        
        # plot loss
        #plot.plot(losses)
        #plot.xlabel('epoch')
        #plot.ylabel('loss')
        #plot.show()
        
        # plot predict
        x_data = x.data.numpy()
        plot.figure(figsize=(10, 7))
        xplot, = plot.plot(x_data, y.data.numpy(), 'o')
        yplot, = plot.plot(x_data, predictions.data.numpy())
        plot.xlabel('x')
        plot.ylabel('y')
        plot.legend([xplot, yplot], ['Data', 'prediction with 30000 epoch'])
        plot.show()

def main():
    Bike().exec()

if __name__ == '__main__':
    main()

拟合有问题,原因是拟合次数不够,为啥不够?从sklearn学习了解到,神经网络对输入参数敏感,一般来说需要对数据做标准化处理。具体来说,第一个隐层输出范围变成-50-50,0.0001学习率情况下100000次也不够,可以对数据做预处理,减小x跨度,变为0-1,可加快训练速度,进行如下改动再次训练

self.x = torch.FloatTensor(np.arange(len(counts))) / len(counts)

正确了,再取50个点预测一下

    def predict_and_plot(self):
        counts_predict = self.data['cnt'][50:100]
        x = torch.FloatTensor((np.arange(len(counts_predict), dtype=float) + 50) / 100)
        y = torch.FloatTensor(np.array(counts_predict, dtype=float))
        
        # num multiply replace matrix multiply
        hidden = x.expand(self.size, len(x)).t() * self.weights.expand(len(x), self.size)
        hidden = torch.sigmoid(hidden)
        predictions = hidden.mm(self.weights2)
        loss = torch.mean((predictions - y) ** 2)
        print(f'loss: {loss}')
        
        x_data = x.data.numpy()
        plot.figure(figsize=(10, 7))
        xplot, = plot.plot(x_data, y.data.numpy(), 'o')
        yplot, = plot.plot(x_data, predictions.data.numpy())
        plot.xlabel('x')
        plot.ylabel('y')
        plot.legend([xplot, yplot], ['data', 'prediction'])
        plot.show()

预测失败,可能是过拟合

2 单车预测器2.0

2.1 数据预处理

通过上节学习和之前写的sklearn博客发现,神经网络训练前需要预处理数据,主要有1数值型变量需要范围标准化2数值型类型变量需处理为onehot。标准化可用sklearn的scaler,也可手动标准化,类型变量可用pd.get_dummies操作。直接开始操作

    def prepare_data_and_params_2(self):
        # type columns to dummy
        self.data = pd.read_csv(DATA_PATH)
        dummy_fields = ['season', 'weathersit', 'mnth', 'hr', 'weekday']
        for each in dummy_fields:
            dummies = pd.get_dummies(self.data[each], prefix=each, drop_first=False)
            self.data = pd.concat([self.data], dummies)
        drop_fields = ['season', 'weathersit', 'mnth', 'hr', 'weekday', 'instant', 'dteday', 'workingday', 'atemp']
        self.data = self.data.drop(drop_fields, axis=1)
        
        # decimal columns to scaler
        quant_features = ['cnt', 'temp', 'hum', 'windspeed']
        scaled_features = {}
        for each in quant_features:
            mean, std = self.data[each].mean(), self.data[each].std()
            scaled_features[each] = [mean, std]
            self.data.loc[:, each] = (self.data[each] - mean) / std
            
        self.tr, self.te = self.data[:-21 * 24], self.data[-21 * 24:]
        target_fields = ['cnt', 'casual', 'registered']
        self.xtr, self.ytr = self.tr.drop(self.tr.drop[target_fields], axis=1), self.tr[target_fields]
        self.xte, self.yte = self.te.drop(self.te.drop[target_fields], axis=1), self.te[target_fields]
        self.x = self.xtr.values
        y = self.ytr.values.astype(float)
        self.y = np.reshape(y, [len(y), 1])        
        self.loss = []

2.2 构造神经网络

    def train_and_plot2(self):
        input_size = self.xtr.shape[1]
        hidden_size=10
        output_size=1
        batch_size=128
        neu = torch.nn.Sequential(
            torch.nn.Linear(input_size, hidden_size),
            torch.nn.Sigmoid(),
            torch.nn.Linear(hidden_size, output_size)
        )
        cost = torch.nn.MSELoss()
        optimizer = torch.optim.SGD(neu.parameters(), lr=0.01)

2.3 数据批处理

为啥要批处理?如果数据太多,每个iter直接处理所有数据会比较慢

        for i in range(1000):
            batch_loss = []
            for start in range(0, len(self.x), batch_size):
                end = start + batch_size if start + batch_size < len(self.x) else len(self.x)
                xx = torch.FloatTensor(self.x[start:end])
                yy = torch.FloatTensor(self.y[start:end])
                predictions = neu(xx)
                loss = cost(predictions, yy)
                optimizer.zero_grad()
                loss.backward()
                optimizer.step()
                batch_loss.append(loss.data.numpy())
            if i % 100 == 0:
                self.loss.append(np.mean(batch_loss))
                print(i, np.mean(batch_loss))
        plot.plot(np.arange(len(self.loss)) * 100, self.loss)
        plot.xlabel('epoch')
        plot.ylabel('MSE')
        plot.show()

2.4 测试神经网络

原始数据是从2011-2012两个完整年,按教材,取2012最后21天作测试集预测

    def predict_and_plot2(self):
        targets = self.yte['cnt']
        targets = targets.values.reshape([len(targets), 1]).astype(float)
        x = torch.FloatTensor(self.xte.values.astype(float))
        y = torch.FloatTensor(targets)
        predict = self.neu(x)
        predict = predict.data.numpy()
        
        fig, ax = plot.subplots(figsize=(10, 7))
        mean, std = self.scaled_features['cnt']
        ax.plot(predict * std + mean, label='prediction')
        ax.plot(targets * std + mean, label='data')
        ax.legend()
        ax.set_xlabel('date-time')
        ax.set_ylabel('counts')
        dates = pd.to_datetime(self.rides.loc[self.te.index]['dteday'])
        dates = dates.apply(lambda d: d.strftime('%b %d'))
        ax.set_xticks(np.arange(len(dates))[12::24])
        ax.set_xticklabels(dates[12::24], rotation=45)
        plot.show()

发现2012最后21天前半段还行,后半段有差异,看日历发现临近圣诞节,可能不能用正常日程预测

2.5 改进与分析(重要)

这节有啥用?上节圣诞节预测不准,为啥?这节可以通过分析神经网络回答这个问题

怎么分析?本节主要通过分析神经网络参数来在底层寻找原因,帮助分析问题

在异常处将多个神经源绘制独自的曲线,绘制其图像,分析找原因,比如趋势相同,趋势相反这种曲线,重点分析对象。适用于神经元较少,可以一个一个神经元看,多了就不行了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1365476.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

前端ui库搜集

涟漪动画效果 - MDUI 开发文档, Material Design 前端框架添加涟漪动画效果后&#xff0c;会在点击元素时&#xff0c;产生向外扩散的水波纹效果。https://www.mdui.org/docs/ripple#ripple https://semantic-ui.com/ https://getuikit.com/ https://www.purecss.cn/grids.htm…

iview table 表格合并行鼠标悬停时的高亮

背景&#xff1a; Iview里面的表格没有提供鼠标移入移出的事件。 而且当开启鼠标悬浮高亮的时候会显示异常&#xff0c;并没有高亮合并后的整行&#xff0c;还是高亮子行。 高亮前&#xff1a; 高亮异常情况&#xff1a; 解决后&#xff1a; 解决方案&#xff1a; 一、思路&…

第6章 密码学和对称密钥算法

6.1 密码学基本知识 6.1.1 密码学的目标 安全从业者可借助密码系统实现4个基本目标&#xff1a;保密性、完整性、身份认证和不可否认性。 其中每个目标的实现都需要满足诸多设计要求&#xff0c;而且并非所有密码系统都是为达到所有4个目标而设计的。 下面的小节将详细讲解这…

我的剑,传给能挥舞它的人--量化书籍推荐!

这篇笔记介绍量化入门的参考书目。 前1/4叹为观止&#xff0c;再1/4勉强点赞&#xff0c;再1/4乏善可陈&#xff0c;最后1/4简直不忍卒读。这是我对某本名书的评价&#xff0c;希望你并不会将这句话还给我。“不会的”&#xff0c;我安慰自己。不是文章多好&#xff0c;但你们…

云卷云舒:【实战篇】对象存储迁移

云卷云舒&#xff1a;【实战篇】MySQL迁移-CSDN博客 1. 简介 对象存储与块存储、文件存储并列为云计算三大存储模型。提供海量存储空间服务&#xff0c;具备快速的数据存取性能、高可靠和数据安全性&#xff0c;通过标准的RESTful API接口和丰富的SDK包来提供服务&#xff0c…

基于SSM的校内信息服务发布系统的设计与实现

末尾获取源码 开发语言&#xff1a;Java Java开发工具&#xff1a;JDK1.8 后端框架&#xff1a;SSM 前端&#xff1a;Vue 数据库&#xff1a;MySQL5.7和Navicat管理工具结合 服务器&#xff1a;Tomcat8.5 开发软件&#xff1a;IDEA / Eclipse 是否Maven项目&#xff1a;是 目录…

uniapp 微信小程序跳转至其他小程序

一、背景&#xff1a; 需要在目前的小程序中跳转到另一个小程序&#xff0c;跳转的目标小程序需要已经发布上线了 二、具体实现 使用uni.navigateToMiniProgram打开另一个小程序 官网指引&#x1f449;&#xff1a;uni.navigateToMiniProgram(OBJECT) | uni-app官网 <t…

RA8900CE汽车用c总线接口实时时钟模块

汽车用c总线接口实时时钟模块内置调频32.768 kHz晶体单元和DTCXO&#xff0c;高稳定性和电源切换。 接口类型我 2C-Bus接口(400kHz)界面电压范围2.5V ~ 5.5V温度补偿电压范围2.0V至5.5V计时电压范围1.6V ~ 5.5V可选时钟输出(32.768 kHz, 1024 Hz, 1 Hz)各种功能齐全的日历、报…

css3 transform:scale

transform:scale 语法&#xff1a;transform:scale(x,y); <html> <head><style>.box1 {display: inline-block;width: 200px;height: 200px;background-color: pink;}.box2 {display: inline-block;width: 200px;height: 200px;background-color: red;tran…

第85讲:MySQLDump与Binlog日志实现企业级数据备份恢复案例

文章目录 1.企业级数据备份恢复案例描述2.第一环节&#xff1a;周三凌晨进行数据全量备份3.第二环节&#xff1a;模拟周三凌晨备份完之后到下午3点前的业务操作4.第三环节&#xff1a;模拟数据库异常数据丢失导致平台无法使用5.第四环节&#xff1a;发布停服公告全员进入数据恢…

计算机组成原理 I/O方式

I/O 方式 I/O方式分类: 程序查询方式。由 CPU通过程序不断查询 /O 设备是否已做好准备&#xff0c;从而控制0 设备与主机交换信息程序中断方式。只在 I/0 设备准备就绪并向 CPU发出中断请求时才予以响应。DMA方式。主存和 I/O 设备之间有一条直接数据通路&#xff0c;当主存和…

什么是IT安全(Information Technology Security)?它的价值如何体现

文章目录 一、IT安全名词解释二、IT安全面临的威胁三、IT安全的类型3.1 网络安全3.2 系统安全3.3 应用安全3.4 数据安全3.5 用户安全3.6 物理安全3.7 安全管理 四、IT 安全和信息安全 ( InfoSec )之间有什么区别&#xff1f;IT安全信息安全&#xff08;InfoSec&#xff09; 五、…

湖南大学-计算机网路-2023期末考试【部分原题回忆】

前言 计算机网络第一门考&#xff0c;而且没考好&#xff0c;回忆起来的原题不多。 这门学科学的最认真&#xff0c;复习的最久&#xff0c;考的最差。 教材使用这本书&#xff1a; 简答题&#xff08;6*530分&#xff09; MTU和MSS分别是什么&#xff0c;联系是什么&#x…

内外网文件交换系统实用技巧揭秘:安全、效率、便捷一个不少

内外网文件交换系统是一种专门设计用于在企业内部网络&#xff08;内网&#xff09;与外部网络&#xff08;外网&#xff09;之间安全传输文件的技术解决方案。在企业环境中&#xff0c;出于安全考虑&#xff0c;内部网络通常与外部网络隔离&#xff0c;以防止未经授权的访问和…

Nacos 学习之系列文章

系列文章目录 目录 系列文章目录 文章目录 前言 一、Nacos是什么&#xff1f; 二、Nacos的主要功能 服务发现和服务健康监测 动态配置服务 动态 DNS 服务 三、Nacos 地图 四、Nacos 生态图 总结 前言 Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。 Naco…

MATLAB根据数据拟合曲线

MATLAB根据数据拟合曲线 MATLAB根据数据拟合曲线视频观看 MATLAB根据数据拟合曲线 x1[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59,60,61,6…

测试分类篇

小王学习录 测试分类按测试对象划分1. 界面测试2. 可靠性测试3. 容错性测试4. 文档测试5. 兼容性测试6. 易用性测试7. 安装卸载测试8. 安全测试9. 性能测试10. 内存泄露测试 按是否查看代码划分1. 黑盒测试2. 白盒测试3. 灰盒测试 按开发阶段分1. 单元测试2. 集成测试3. 系统测…

02. Eureka、Nacos注册中心及负载均衡原理

01小节中订单服务远程调用用户服务案例实现了跨服务请求&#xff0c;在微服务中一个服务可能是集群部署的&#xff0c;也就是一个服务有多个实例&#xff0c;但是我们在调用服务时需要指定具体的服务实例才能调用该服务&#xff0c;在集群模式下&#xff0c;服务地址应该写哪个…

【leetcode】力扣热门之回文链表【简单难度】

题目描述 给你一个单链表的头节点 head &#xff0c;请你判断该链表是否为回文链表。如果是&#xff0c;返回 true &#xff1b;否则&#xff0c;返回 false 。 用例 输入&#xff1a;head [1,2,2,1] 输出&#xff1a;true 输入&#xff1a;head [1,2] 输出&#xff1a;f…

深度学习:解决CNN的困境——胶囊网络

从2017年底到2018年初&#xff0c;整个人工智能学术研究领域谈论最多的应该就是被誉为深度学习之父Geoffrey E. Hinton 发表的论文 Dynamic Routing Between Capsules,其中介绍了全新的深度学习模型——胶囊网络&#xff08;Capsule Network&#xff09; 1. 普通CNN的困境 虽…