共享单车之租赁需求预估

news2025/1/12 7:01:30

文章目录

  • 第1关:数据探索与可视化
  • 第2关:特征工程
  • 第3关:租赁需求预估


第1关:数据探索与可视化

相关知识
为了完成本关任务,你需要掌握:

读取数据
数据探索与可视化
读取数据
数据保存在./step1/bike_train.csv中,共享单车的训练集数据总共有8709个训练样本,训练样本中有12个特征(其中count为标签)。特征说明如下:

datetime:时间。年月日小时格式
season:季节。1:春天;2:夏天;3:秋天;4:冬天
holiday:是否节假日。0:否;1:是
workingday:是否工作日。0:否;1:是
weather:天气。1:晴天;2:阴天;3:小雨或小雪;4:恶劣天气
temp:实际温度
atemp:体感温度
humidity:湿度
windspeed:风速
casual:未注册用户租车数量
registered:注册用户租车数量
count:总租车数量
想要读取数据很简单,使用pandas即可,代码如下:

import pandas as pd
train_df = pd.read_csv(‘./step1/bike_train.csv’)#打印数据中的前5行
print(train_df.head(5))
输出如下图所示:

数据探索与可视化
一般拿到数据之后都需要做数据探索(EDA),因为我们需要看看数据到底长什么样子,有什么特性是可以挖掘出来的。假设我们需要看看数据的大概分布是什么样的。可以用pandas提供的describe()函数。输出如下:

此时我们能看到count的标准差很大,我们可以将count的数据分布可视化出来,代码如下:

import matplotlib.pyplot as plt
plt.figure(figsize=(10,10))
#画count的直方图
plt.hist(train_df[‘count’],bins=20)
plt.title(‘count histgram’)
plt.xlabel(‘count’)
可视化结果如下:

从可视化结果可以看出,count的整体的分布倾斜比较严重,需要处理一下,不然可能过拟合会有点严重。此时我们可以考虑将count的数值在3个标准差之外的样本给扔掉,减少训练集中的噪声,并对count做log变换。代码如下:

import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
#筛选3个标准差以内的数据
train_df=train_df[np.abs(train_df[‘count’]-train_df[‘count’].mean())<=3*train_df[‘count’].std()]
#log变换
y=train_df[‘count’].values
y_log=np.log(y)
#可视化
sns.distplot(y_log)
plt.title(‘distribution of count after log’)
处理后可视化结果如下:

可以从可视化结果看出,转换过后,count的分布倾斜没有那么严重了,差异也变小了。

接下来我们看看其他的一些特征对于共享单车租赁量的影响。

首先来看看季节对于租赁量的影响,代码如下:

day_df=train_df.groupby(‘date’).agg({‘season’:‘mean’,
‘casual’:‘sum’, ‘registered’:‘sum’,
‘count’:‘sum’,‘temp’:‘mean’,
‘atemp’:‘mean’,‘workingday’:‘mean’,‘holiday’:‘mean’})
season_day_mean=day_df.groupby([‘season’],as_index=True).agg({‘casual’:‘mean’, ‘registered’:‘mean’,‘count’:‘mean’})
temp_df = day_df.groupby([‘season’], as_index=True).agg({‘temp’:‘mean’, ‘atemp’:‘mean’})
season_day_mean.plot(figsize=(15,9),xticks=range(1,4))
plt.title(‘count in different season’)
可视化结果如下:

从可视化结果可以看出,临时用户和注册用户用车数量变化趋势大体一致,且两年间都在秋季左右达到了比较高的用车辆,说明美国人也都比较喜欢在这段时间外出游玩。这是符合常理的。

接下来看看天气对租赁数量的影响,代码如下:

weather_group=train_df.groupby([‘weather’])
weather_count=weather_group[[‘count’,‘registered’,‘casual’]].count()
weather_mean=weather_group[[‘count’,‘registered’,‘casual’]].mean()#不同天气的每小时平均租赁数量
weather_mean.plot.bar(stacked=True,title=‘count per hour in different weather’)
可视化结果如下:

讲道理,天气比较好的时侯,骑共享单车的人才比较多。但上图中像4(恶劣天气)这种天气的租赁数量也比较高,这是不是有点反常呢?我们可以从数据集中找出对应的数据看看,代码如下:

print(train_df.loc[train_df.weather==4])
数据结果如下:

数据的时间是下午6点,刚好是下班的高峰期,所以能够理解为什么这条数据对应的租赁量均值那么高了,这也是符合常理的。

那么一天中不同时间段对于租赁数量有什么样的影响呢?这个就留给你做练习吧。

编程要求
根据提示,在右侧编辑器Begin-End处补充代码,将./step1/bike_train.csv中的数据按照hour这个特征分组,然后求每一组的count的平均值。并使用matplotlib.pyplot绘制折线图,并保存到./step1/result/plot.png。

测试说明
平台会对你生成的折线图与正确答案进行比对,因此请按照以下要求可视化:

折线图的figsize为(10, 10)
折线图的标题为average count per hour
测试输入:
预期输出:你的答案与正确答案一致

开始你的任务吧,祝你成功!
示例代码如下:

import pandas as pd
import matplotlib
matplotlib.use('Agg')
import matplotlib.pyplot as plt
#********* Begin *********#
import pandas as pd
import matplotlib.pyplot as plt
train_df = pd.read_csv('./step1/bike_train.csv')
train_df['hour'] = train_df.datetime.apply(lambda x:x.split()[1].split(':')[0]).astype('int')
group_hour=train_df.groupby(train_df.hour)
hour_mean=group_hour[['count','registered','casual']].mean()
fig=plt.figure(figsize=(10,10))
plt.plot(hour_mean['count'])
plt.title('average count per hour')
plt.savefig('./step1/result/plot.png')
#********* End *********#

在这里插入图片描述

第2关:特征工程

任务描述
本关任务:编写python代码,完成时间细化的功能。

相关知识
为了完成本关任务,你需要掌握:

相关性分析
特征选择
相关性分析
在选择特征之前,我们可以看看各个特征相关性的强弱。代码如下:

#计算特征对的相关性
corr_df=train_df.corr()
corr_df1=abs(corr_df)
#画热力图
fig=plt.gcf()
fig.set_size_inches(30,12)
sns.heatmap(data=corr_df1,square=True,annot=True,cbar=True)
相关性热力图如下(其中颜色越亮,代表线性相关性越高):

选择特征
在使用相关性这一指标来选择特征时,通常选择相关性较低,也就是颜色较暗的特征。因为如果选择相关性较高的,比如temp和atemp。从图可以看出这两个特征的相关性很高,也就是说在训练模型的时候,这两个特征所对应的权重是成比例的。既然成比例,那么之选其中一个就行了。

根据热力图我们暂且可以选择时段(hour)、温度(temp)、湿度(humidity)、季节(season)、天气(weather)、风速(windspeed)、是否工作日(workingday)、是否假日(holiday
、注册用户租赁数量(registered)作为特征。

编程要求
现在可能觉得datetime这个字段有必要再细化挖掘一下,比如细化成年份、月份、日期、星期几等。

根据提示,在右侧编辑器Begin-End处补充代码,实现transform_data函数。该函数需要你将train_df中的datetime字段进行细化,细化成year(年份)、month(月份)、date(日期)、weekdat(星期几)、hour(小时)。并返回细化后的DataFrame。

例如,原始数据如下:

细化后数据如下:

测试说明
平台会对你返回的DataFrame与答案进行比对,您只需实现transform_data即可。

测试输入:
预期输出:你的答案与正确答案一致

开始你的任务吧,祝你成功!
示例代码如下:

import pandas as pd
import numpy as np
from datetime import datetime
def transform_data(train_df):
    '''
    将train_df中的datetime划分成year、month、date、weekday
    :param train_df:从bike_train.csv中读取的DataFrame
    :return:'''
    #********* Begin *********#
    train_df['date'] = train_df.datetime.apply(lambda x: x.split()[0])
    train_df['hour'] = train_df.datetime.apply(lambda x: x.split()[1].split(':')[0]).astype('int')
    train_df['year'] = train_df.datetime.apply(lambda x: x.split()[0].split('-')[0]).astype('int')
    train_df['month'] = train_df.datetime.apply(lambda x: x.split()[0].split('-')[1]).astype('int')
    train_df['weekday'] = train_df.date.apply(lambda x: datetime.strptime(x, '%Y-%m-%d').isoweekday())
    return train_df
    #********* End **********#

在这里插入图片描述

第3关:租赁需求预估

任务描述
本关任务:编写python代码,实现租赁需求预估。

相关知识
为了完成本关任务,你需要掌握:

独热编码
sklearn机器学习算法的使用
生成预测结果
独热编码
一般来说,代表类型型的特征我们需要对其进行独热编码。像数据中季节这种类别型的特征,应该使用独热编码。因为如果使用原始的1、2、3、4的话,机器学习算法可能会认为4这个季节更重要。为了防止这种偏见,我们就需要对其进行独热编码。

独热编码其实很简单,就是将待编码的特征的所有可能的取值列出来,然后再在对应的位置上填1,其他位置填0。可以看成是二进制的一种变形。

比如有4个样本的season分别为2、2、2、1。如下图所示:

那么将其独热编码后,如下图所示(第1行到第3行的season=2,所以编码后,每行的season_2这一列为1,其他列为0。而第4行的season=1,所以编码后,season_1这一列为1,其他列为0):

代码如下:

import pandas as pd
#将train_df中的season这一列进行独热编码
dummies_season = pd.get_dummies(train_df[‘season’], prefix=‘season’)
#打印
print(dummies_season)
sklearn机器学习算法的使用
sklearn中提供了非常多的机器学习算法的接口,例如逻辑回归、弹性网络、随机森林等等。而且使用起来非常简单,只需要fit、predict二连即可。而本关是对共享单车的租赁需求量做预测,所以这是一个回归问题。在这里给出sklearn解决回归问题的示例代码:

from sklearn.linear_model import Ridge
#实例化Ridge回归对象
ridge = Ridge(alpha=1.0)
#使用训练集的数据和标签训练
ridge.fit(train_df, train_label)
#对测试集数据进行预测
pred_result = ridge.predict(test_df)
生成预测结果
想要将预测结果保存到文件中,可以使用pandas来实现,示例代码如下:

import pandas as pd
#构建DataFrame,pred_result为机器学习算法的预测结果
result = pd.DataFrame({‘count’:pred_result})
#将DataFrame保存成result.csv,并且保存时不保留index
result.to_csv(‘./result.csv’, index=False)
编程要求
根据提示,在右侧编辑器补充代码。代码主要任务如下:

读取./step3/bike_train.csv中的数据作为训练集,读取./step3/bike_test.csv中的数据作为测试集
将数据处理成你想要的样子
使用sklearn对训练集数据进行训练,并对测试集进行预测
将预测结果保存至./step3/result.csv
测试说明
平台会计算你保存的./step3/result.csv的r2 score。若r2 score高于0.95视为过关。

测试输入:
预期输出:你的预测结果的r2 score高于0.95

PS:./step3/result.csv中需要两列。一列为datetime,另一列为count。其中datetime为./step3/bike_test.csv中的datetime,count为你的预测结果。如:

开始你的任务吧,祝你成功!
示例代码如下:

#********* Begin *********#
import pandas as pd
import numpy as np
from datetime import datetime
from sklearn.linear_model import Ridge
train_df = pd.read_csv('./step3/bike_train.csv')
# 舍弃掉异常count
train_df=train_df[np.abs(train_df['count']-train_df['count'].mean())<=3*train_df['count'].std()]
# 训练集的时间数据处理
train_df['date']=train_df.datetime.apply(lambda x:x.split()[0])
train_df['hour']=train_df.datetime.apply(lambda x:x.split()[1].split(':')[0]).astype('int')
train_df['year']=train_df.datetime.apply(lambda x:x.split()[0].split('-')[0]).astype('int')
train_df['month']=train_df.datetime.apply(lambda x:x.split()[0].split('-')[1]).astype('int')
train_df['weekday']=train_df.date.apply( lambda x : datetime.strptime(x,'%Y-%m-%d').isoweekday())
# 独热编码
train_df_back=train_df
dummies_month = pd.get_dummies(train_df['month'], prefix='month')
dummies_year = pd.get_dummies(train_df['year'], prefix='year')
dummies_season = pd.get_dummies(train_df['season'], prefix='season')
dummies_weather = pd.get_dummies(train_df['weather'], prefix='weather')
train_df_back = pd.concat([train_df, dummies_month,dummies_year, dummies_season,dummies_weather], axis = 1)
train_label = train_df_back['count']
train_df_back = train_df_back.drop(['datetime', 'season', 'weather', 'atemp', 'date', 'month', 'count'], axis=1)
test_df = pd.read_csv('./step3/bike_test.csv')
# 测试集的时间数据处理
test_df['date']=test_df.datetime.apply(lambda x:x.split()[0])
test_df['hour']=test_df.datetime.apply(lambda x:x.split()[1].split(':')[0]).astype('int')
test_df['year']=test_df.datetime.apply(lambda x:x.split()[0].split('-')[0]).astype('int')
test_df['month']=test_df.datetime.apply(lambda x:x.split()[0].split('-')[1]).astype('int')
test_df['weekday']=test_df.date.apply( lambda x : datetime.strptime(x,'%Y-%m-%d').isoweekday())
# 独热编码
test_df_back=test_df
dummies_month = pd.get_dummies(test_df['month'], prefix='month')
dummies_year = pd.get_dummies(test_df['year'], prefix='year')
dummies_season = pd.get_dummies(test_df['season'], prefix='season')
dummies_weather = pd.get_dummies(test_df['weather'], prefix='weather')
test_df_back = pd.concat([test_df, dummies_month,dummies_year, dummies_season,dummies_weather], axis = 1)
test_df_back = test_df_back.drop(['datetime', 'season', 'weather', 'atemp', 'date', 'month'], axis=1)
clf = Ridge(alpha=1.0)
# 训练
clf.fit(train_df_back, train_label)
# 预测
count = clf.predict(test_df_back)
# 保存结果
result = pd.DataFrame({'datetime':test_df['datetime'], 'count':count})
result.to_csv('./step3/result.csv', index=False)
#********* End *********#

在这里插入图片描述


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1342794.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Gooxi受邀出席操作系统与AI技术应用实践沙龙·OC城市行·深圳站活动

2023年是大模型元年&#xff0c;国内诸多AI、互联网公司争先恐后加码投入“练模”。AI产业快速发展行业高速运转&#xff0c;业内人称这是继蒸汽机、计算机之后开启新一轮科技革命的技术。但AI大模型是一个资本密集、人才密集和数据密集的产业&#xff0c;如何促进AI大模型落地…

Java之程序、进程、线程、管程和并发、并行的概念

文章目录 1. 进程与线程1.1 程序1.2 进程1.3 线程1.4 管程 2.并行与并发2.1 并发2.2 并行 1. 进程与线程 1.1 程序 程序是指令和数据的有序集合&#xff0c;其本身没有任何运行的含义&#xff0c;是一个静态的概念。简单的说就是我们写的代码。 1.2 进程 &#xff08;1&…

05-认证服务中多种认证方式的实现

多种认证方式 统一认证入口 目前各大网站支持账号密码认证、手机验证码认证、扫码登录认证等多种认证方式,Spring Security框架也支持多样化的认证方案 账号和密码认证: 采用OAuth2协议的密码模式即可实现手机号加验证码认证: 用户认证提交的是手机号和验证码并不是账号和密…

软件测试/测试开发丨Windows Appium环境搭建

windows 版本 Appium 环境搭建 安装 nodejs 下载.msi文件 https://nodejs.org/en/download/ 注意&#xff1a; 1、下载12.*版本双击安装即可。 2、无须配置环境变量,直接重启一个 cmd 输入下面的命令&#xff0c;能够查看这两个版本号即安装成功。 安装 appium desktop 直…

如何在Docker环境下安装火狐浏览器并结合内网穿透工具实现公网访问

文章目录 1. 部署Firefox2. 本地访问Firefox3. Linux安装Cpolar4. 配置Firefox公网地址5. 远程访问Firefox6. 固定Firefox公网地址7. 固定地址访问Firefox Firefox是一款免费开源的网页浏览器&#xff0c;由Mozilla基金会开发和维护。它是第一个成功挑战微软Internet Explorer浏…

【LeetCode】修炼之路-0001-Two Sum(两数之和)【python】【简单】

前言 计算机科学作为一门实践性极强的学科,代码能力的培养尤为重要。当前网络上有非常多优秀的前辈分享了LeetCode的最佳算法题解,这对于我们这些初学者来说提供了莫大的帮助,但对于我这种缺乏编程直觉的学习者而言,这往往难以消化吸收。&#xff08;为什么别人就能想出这么优雅…

tcp/ip实现两个手机之间连接同步显示

app主界面 选择一&#xff1a;TCP客户端 选择二&#xff1a;TCP服务端 点击下图item时进入曲线绘制页面 如果是服务器端它不需要连任何设备就可以直接进入绘制界面如果是TCP的话就不能直接进入&#xff0c;否则就会提示未连接网络连接不能放在主线程&#xff0c;页面去调方法&…

Java限流方案常用算法详解 固定时间窗口 滑动时间窗口 漏桶限流 令牌桶限流

前言 为什么要做限流&#xff1f; 服务需要保护自己&#xff0c;以免被太多的请求淹没&#xff08;无论是恶意或无意的&#xff09;&#xff0c;从而保持可用性。 举个生活中的例子&#xff0c;某个景区&#xff0c;平时可能根本没什么人前往&#xff0c;但是一旦到了国庆假日…

Python中的并发编程(7)异步编程

异步编程 Python3.4后新增了asyncio模块&#xff0c;支持异步编程。 异步是在一个线程中通过任务切换的方式让多个任务”同时“进展。asyncio不涉及线程/进程切换&#xff0c;减少了线程/进程创建、上下文切换的开销&#xff0c;更轻量级。 asyncio的核心是事件循环&#xff0…

仓储3代电子标签接口文档-V1.2

电子标签标签注册 通过手动触发电子标签注册到系统&#xff0c;注册成功就可以进行功能测试。 仓储3代注册 方式1:&#xff08;四灯外供电版本标签&#xff09; 标签左测中间按键连按三次 方式2:&#xff08;电池供电版本标签&#xff09; 标签右下角左下角按键&#xff0…

开放网络+私有云=?星融元的私有云承载网络解决方案实例

在全世界范围内的云服务市场上&#xff0c;开放网络一直是一个备受关注的话题。相比于传统供应商的网络设备&#xff0c;开放网络具备软硬件解耦、云原生、可选组件丰富等优势&#xff0c;对云服务商和超大型企业有足够的吸引力。 SONiC作为开源的网络操作系统&#xff0c;使得…

SV接口的驱动和采样_2023.12.27】

cb 使用cloking block进行信号的同步 在cloking block&#xff0c;所有信号的采样和驱动&#xff0c;都是和时钟同步的 clocking cb &#xff08;posedge clk&#xff09;; input grant; output request; endclocking接口同步 用和wait来同步测试平台中的信号 bus.cb; 接口…

QT UI自动化测试(1)

一、框架选择 想结合公司产品搭建一套自动化测试框架&#xff0c;一方面自己学习用&#xff0c;一方面也希望跟公司业务结合起来&#xff0c;双赢。公司软件最多的产品是部署在Linux系统上&#xff0c;基于QT QML开发的UI&#xff0c;本来奔着免费的自动化框架去的&#xff0c;…

PulseGAN

研究背景 远程光电容积描记术 (rPPG) 是一种非接触式技术&#xff0c;用于测量面部视频中的心脏信号。健康监测和情绪识别等许多领域都迫切需要高质量的 rPPG 脉冲信号。然而&#xff0c;由于脉搏信号不准确的限制&#xff0c;现有的大多数rPPG方法只能用于获取平均心率&#…

Selenium自动化教程03:延时等待的3种方式

我们经常会碰到用selenium操作页面上某个元素的时候&#xff0c;需要等待页面加载完成后&#xff0c;才能操作。否则页面上的元素不存在&#xff0c;会抛出异常。或者碰到AJAX异步加载&#xff0c;我们需要等待元素加载完成后&#xff0c;才能操作。在进行UI自动化测试时&#…

骑砍MOD天芒传奇-任务列表

一.真假仁宗 进入场景后找到假的仁宗并击杀,只能问一个问题.但你不知道他是否是说真话的那个人&#xff01; dlga_rz_question_list:question1|那 个 是 仁 宗 &#xff1f; dlga_rz_question_list:question2|你 是 个 说 真 话 的 人 吗 &#xff1f; dlga_rz_question_lis…

【Linux】虚拟内存

文章目录 一、 介绍二、虚拟内存改配置多大&#xff1f;三、配置步骤 一、 介绍 虚拟内存&#xff08;也称为交换空间&#xff09;&#xff0c;是一种计算机操作系统的内存管理技术&#xff0c;它通过将部分存储器空间用作硬盘上的临时扩展&#xff0c;使得程序能够使用比实际…

.NetCore NPOI 读取excel内容及单元格内图片

由于数据方提供的数据在excel文件中不止有文字内容还包含图片信息&#xff0c;于是编写相关测试代码&#xff0c;读取excel文件内容及图片信息. 本文使用的是 NPOI-2.6.2 版本&#xff0c;此版本持.Net4.7.2;.NetStandard2.0;.NetStandard2.1;.Net6.0。 测试文档内容&#xf…

基于Spring Cloud + Spring Boot的企业电子招标采购系统源码

随着企业的快速发展&#xff0c;招采管理逐渐成为企业运营中的重要环节。为了满足公司对内部招采管理提升的要求&#xff0c;建立一个公平、公开、公正的采购环境至关重要。在这个背景下&#xff0c;我们开发了一款电子招标采购软件&#xff0c;以最大限度地控制采购成本&#…

SSM驾校预约管理系统----计算机毕业设计

项目介绍 本项目分为管理员、教练、学员三种角色&#xff0c; 管理员角色包含以下功能&#xff1a; 学员管理、教练管理、车辆管理、关系管理、车辆维修管理、个人中心等功能。 教练角色包含以下功能&#xff1a; 我的课程、我的学员、车辆中心、个人中心等功能。 学员角色包…