20+个小而精的Python实战案例(附源码和数据)

news2024/11/15 12:35:19

公众号:尤而小屋
作者:Peter
编辑:Peter

大家好,我是Peter~

最近小编认真整理了20+个基于python的实战案例,主要包含:数据分析、可视化、机器学习/深度学习、时序预测等,案例的主要特点:

  • 提供源码:都是基于jupyter notebook,附带一定的注释,运行即可
  • 数据齐全:大部分案例都有提供数据,部分案例使用内置数据集

数据统计分析

基于python和第三方库进行数据处理和分析,主要使用pandas、plotly、matplotlib等库,具体案例:

电子产品(手机)销售分析:

(1)不同内存下的销量(代码片段)

nei_cun = color_size["Number_GB"].value_counts().reset_index()
nei_cun.columns = ["Number_of_GB","Count"]  # 重命名
nei_cun["Number_of_GB"] = nei_cun["Number_of_GB"].apply(lambda x: str(x) + "GB")

fig = px.pie(nei_cun,
             values="Count",
             names="Number_of_GB")

fig.show()

(2)不同闪存Ram下的价格分布(代码片段)

fig = px.box(df, y="Sale Price",color="Ram")

fig.update_layout(height=600, width=800, showlegend=False)

fig.update_layout(
    title={ "text":'不同<b>闪存</b>下的价格分布', 
            "y":0.96,  
            "x":0.5,  
            "xanchor":"center",  
            "yanchor":"top"  
          },

    xaxis_tickfont_size=12,   
    yaxis=dict(
        title='Distribution',  
        titlefont_size=16,  
        tickfont_size=12,  
    ),
    legend=dict(
        x=0,  
        y=1,
        bgcolor='rgba(255, 255, 255, 0)',  
        bordercolor='rgba(2, 255, 255, 0)'   
    )
)

fig.show()

7万条餐饮数据分析

fig = px.bar(df2_top3,x="行政区",y="店铺数量",color="类别",text="店铺数量")
fig.update_layout(title="不同行政区下不同类别的店铺数量对比")
fig.show()

不同店铺下的点评数量对比:

4个指标的关系:口味、环境、服务和人均消费

基于python实现RFM模型(用户画像)

RFM模型是客户关系管理(CRM)中的一种重要分析模型,用于衡量客户价值和客户创利能力。该模型通过以下三个指标来评估客户的价值和发展潜力:

  • 近期购买行为(R):指的是客户最近一次购买的时间间隔。这个指标可以反映客户的活跃程度和购买意向,进而判断客户的质量和潜在价值。

  • 购买的总体频率(F):指的是客户在一定时间内购买商品的次数。这个指标可以反映客户对品牌的忠诚度和消费习惯,进而判断客户的潜力和价值。

  • 花了多少钱(M):指的是客户在一定时间内购买商品的总金额。这个指标可以反映客户的消费能力和对品牌的认可度,进而判断客户的价值和潜力。

计算R、F、M三个指标值:

data['Recency'] = (datetime.now().date() - data['PurchaseDate'].dt.date).dt.days

frequency_data = data.groupby('CustomerID')['OrderID'].count().reset_index()
# 重命名
frequency_data.rename(columns={'OrderID': 'Frequency'}, inplace=True)

monetary_data = data.groupby('CustomerID')['TransactionAmount'].sum().reset_index()
monetary_data.rename(columns={'TransactionAmount': 'MonetaryValue'}, inplace=True)

可视化

可视化主要是讲解了matplotlib的3D图和统计相关图形的绘制和plotly_express的入门:

(1) matplotlib的3D图形绘制

plt.style.use('fivethirtyeight')
fig = plt.figure(figsize=(8,6))

ax = fig.gca(projection='3d')

z = np.linspace(0, 20, 1000)
x = np.sin(z)
y = np.cos(z)

surf=ax.plot3D(x,y,z)

z = 15 * np.random.random(200)
x = np.sin(z) + 0.1 * np.random.randn(200)
y = np.cos(z) + 0.1 * np.random.randn(200)
ax.scatter3D(x, y, z, c=z, cmap='Greens')

plt.show()

plt.style.use('fivethirtyeight')
fig = plt.figure(figsize=(14,8))

ax = plt.axes(projection='3d')
ax.plot_surface(x, 
                y,
                z, 
                rstride=1,
                cstride=1, 
                cmap='viridis',
                edgecolor='none')

ax.set_title('surface')

# ax.set(xticklabels=[],  # 隐藏刻度
#        yticklabels=[],
#        zticklabels=[])

plt.show()

(2) 统计图形绘制

绘制箱型图:

np.random.seed(10)
D = np.random.normal((3, 5, 4), (1.25, 1.00, 1.25), (100, 3))

fig, ax = plt.subplots(2, 2, figsize=(9,6), constrained_layout=True)

ax[0,0].boxplot(D, positions=[1, 2, 3])
ax[0,0].set_title('positions=[1, 2, 3]')

ax[0,1].boxplot(D, positions=[1, 2, 3], notch=True)  # 凹槽显示
ax[0,1].set_title('notch=True')

ax[1,0].boxplot(D, positions=[1, 2, 3], sym='+')  # 设置标记符号
ax[1,0].set_title("sym='+'")

ax[1,1].boxplot(D, positions=[1, 2, 3], 
                patch_artist=True,
                showmeans=False, 
                showfliers=False,
                medianprops={"color": "white", "linewidth": 0.5},
                boxprops={"facecolor": "C0", "edgecolor": "white", "linewidth": 0.5},
                whiskerprops={"color": "C0", "linewidth": 1.5},
                capprops={"color": "C0", "linewidth": 1.5})
ax[1,1].set_title("patch_artist=True")

# 设置每个子图的x-y轴的刻度范围
for i in np.arange(2):
    for j in np.arange(2):
        ax[i,j].set(xlim=(0, 4), xticks=[1,2,3],
                    ylim=(0, 8), yticks=np.arange(0, 9))

plt.show()

绘制栅格图:

np.random.seed(1)
x = [2, 4, 6]
D = np.random.gamma(4, size=(3, 50))

# plt.style.use('fivethirtyeight')

fig, ax = plt.subplots(2, 2, figsize=(9,6), constrained_layout=True)

# 默认栅格图-水平方向
ax[0,0].eventplot(D)
ax[0,0].set_title('default')

# 垂直方向
ax[0,1].eventplot(D, 
                  orientation='vertical', 
                  lineoffsets=[1,2,3])
ax[0,1].set_title("orientation='vertical', lineoffsets=[1,2,3]")

ax[1,0].eventplot(D, 
                  orientation='vertical',
                  lineoffsets=[1,2,3],
                  linelengths=0.5) # 线条长度
ax[1,0].set_title('linelengths=0.5')

ax[1,1].eventplot(D, 
                  orientation='vertical',
                  lineoffsets=[1,2,3],
                  linelengths=0.5,
                 colors='orange')
ax[1,1].set_title("colors='orange'")


plt.show()

(3) plotly_express入门
使用plotly_express如何快速绘制散点图、散点矩阵图、气泡图、箱型图、小提琴图、经验累积分布图、旭日图等

机器学习

基于机器学习的Titanic生存预测

目标变量分析:

相关性分析:

基于树模型的特征重要性排序代码:

f,ax=plt.subplots(2,2,figsize=(15,12))

# 1、模型
rf=RandomForestClassifier(n_estimators=500,random_state=0)
# 2、训练
rf.fit(X,Y)
# 3、重要性排序
pd.Series(rf.feature_importances_, X.columns).sort_values(ascending=True).plot.barh(width=0.8,ax=ax[0,0])
# 4、添加标题
ax[0,0].set_title('Feature Importance in Random Forests')

ada=AdaBoostClassifier(n_estimators=200,learning_rate=0.05,random_state=0)
ada.fit(X,Y)
pd.Series(ada.feature_importances_, X.columns).sort_values(ascending=True).plot.barh(width=0.8,ax=ax[0,1],color='#9dff11')
ax[0,1].set_title('Feature Importance in AdaBoost')

gbc=GradientBoostingClassifier(n_estimators=500,learning_rate=0.1,random_state=0)
gbc.fit(X,Y)
pd.Series(gbc.feature_importances_, X.columns).sort_values(ascending=True).plot.barh(width=0.8,ax=ax[1,0],cmap='RdYlGn_r')
ax[1,0].set_title('Feature Importance in Gradient Boosting')

xgbc=xg.XGBClassifier(n_estimators=900,learning_rate=0.1)
xgbc.fit(X,Y)
pd.Series(xgbc.feature_importances_, X.columns).sort_values(ascending=True).plot.barh(width=0.8,ax=ax[1,1],color='#FD0F00')
ax[1,1].set_title('Feature Importance in XgBoost')

plt.show()      

不同模型对比:

基于KNN算法的iris数据集分类

特征分布情况:

pd.plotting.scatter_matrix(X_train, 
                           c=y_train, 
                           figsize=(15, 15),
                           marker='o', 
                           hist_kwds={'bins': 20}, 
                           s=60,
                           alpha=.8
                          )

plt.show()

混淆矩阵:

from sklearn.metrics import classification_report,f1_score,accuracy_score,confusion_matrix
sns.heatmap(confusion_matrix(y_pred, y_test), annot=True)
plt.show()

对新数据预测:

x_new = np.array([[5, 2.9, 1, 0.2]])

prediction = knn.predict(x_new)

基于随机森林算法的员工流失预测

不同教育背景下的人群对比:

fig = go.Figure(data=[go.Pie(
    labels=attrition_by['EducationField'],
    values=attrition_by['Count'],
    hole=0.4,
    marker=dict(colors=['#3CAEA3', '#F6D55C']),
    textposition='inside'
)])


fig.update_layout(title='Attrition by Educational Field', 
                  font=dict(size=12), 
                  legend=dict(
                      orientation="h",
                      yanchor="bottom",
                      y=1.02, 
                      xanchor="right",
                      x=1
))

fig.show()

年龄和月收入关系:

类型编码:

from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()

df['Attrition'] = le.fit_transform(df['Attrition'])
df['BusinessTravel'] = le.fit_transform(df['BusinessTravel'])
df['Department'] = le.fit_transform(df['Department'])
df['EducationField'] = le.fit_transform(df['EducationField'])
df['Gender'] = le.fit_transform(df['Gender'])
df['JobRole'] = le.fit_transform(df['JobRole'])
df['MaritalStatus'] = le.fit_transform(df['MaritalStatus'])
df['Over18'] = le.fit_transform(df['Over18'])
df['OverTime'] = le.fit_transform(df['OverTime'])

相关性分析:

基于LSTM的股价预测

LSTM网络模型搭建:

from keras.models import Sequential
from keras.layers import Dense, LSTM

model = Sequential()
# 输入层
model.add(LSTM(128, return_sequences=True, input_shape= (xtrain.shape[1], 1)))
# 隐藏层
model.add(LSTM(64, return_sequences=False))
model.add(Dense(25))
# 输出层
model.add(Dense(1))
# 模型概览
model.summary()

交叉验证实现:

k = 5
number_val = len(xtrain) // k  # 验证数据集的大小
number_epochs = 20
all_mae_scores = []
all_loss_scores = []

for i in range(k):
    # 只取i到i+1部分作为验证集
    vali_X = xtrain[i * number_val: (i+1) * number_val]
    vali_y = ytrain[i * number_val: (i+1) * number_val]

    # 训练集
    part_X_train = np.concatenate([xtrain[:i * number_val],
                                  xtrain[(i+1) * number_val:]],
                                  axis=0
                                 ) 
    part_y_train = np.concatenate([ytrain[:i * number_val],
                                  ytrain[(i+1) * number_val:]],
                                  axis=0
                                 )
    
    print("pxt: \n",part_X_train[:3])
    print("pyt: \n",part_y_train[:3])
    
    # 模型训练
    history = model.fit(part_X_train,
                        part_y_train,
                        epochs=number_epochs,
                        # 传入验证集的数据
                        validation_data=(vali_X, vali_y),
                        batch_size=300,
                        verbose=0  # 0-静默模式 1-日志模式
                       )
    
    mae_history = history.history["mae"]
    loss_history = history.history["loss"]
    all_mae_scores.append(mae_history)
    all_loss_scores.append(loss_history)

时序预测

基于AMIRA的销量预测

自相关性图:

偏自相关性:

预测未来10天

p,d,q = 5,1,2
model = sm.tsa.statespace.SARIMAX(df['Revenue'],
                                order=(p, d, q),
                                seasonal_order=(p, d, q, 12))
model = model.fit()
model.summary()
ten_predictions = model.predict(len(df), len(df) + 10)  # 预测10天

基于prophet的天气预测

特征间的关系:

预测效果:

其他案例

python的6种实现99乘法表

提供2种:

for i in range(1, 10):
    for j in range(1, i+1):  # 例如3*3、4*4的情况,必须保证j能取到i值,所以i+1;range函数本身是不包含尾部数据
        print(f'{j}x{i}={i*j} ', end="")  # end默认是换行;需要改成空格
    print("\n")  # 末尾自动换空行
for i in range(1, 10):       # 外层循环
    j = 1      # 内层循环初始值
    while j <= i:      # 内层循环条件:从1开始循环
        print("{}x{}={}".format(i,j,(i*j)), end=' ')  # 输出格式
        j += 1  # j每循环一次加1,进入下次,直到j<=i的条件不满足,再进入下个i的循环中
    print("\n")
i = 1  # i初始值

while i <= 9:  # 循环终止条件
    j = 1  # j初始值
    while j <= i:    # j的大小由i来控制
        print(f'{i}x{j}={i*j} ', end='')
        j += 1   # j每循环一次都+1,直到j<=i不再满足,跳出这个while循环 
    i += 1  # 跳出上面的while循环后i+1,只要i<9就换行进入下一轮的循环;否则结束整个循环
    print('\n')

python实现简易计算器(GUI界面)

提供部分代码:

import tkinter as tk

root = tk.Tk()  
root.title("Standard Calculator")  
root.resizable(0, 0)  


e = tk.Entry(root,
             width=35,
             bg='#f0ffff',
             fg='black',
             borderwidth=5,
             justify='right',
             font='Calibri 15')

e.grid(row=0, column=0, columnspan=3, padx=12, pady=12)

# 点击按钮
def buttonClick(num): 
    temp = e.get(
    )  
    e.delete(0, tk.END)  
    e.insert(0, temp + num)  

# 清除按钮
def buttonClear():  
    e.delete(0, tk.END)


def buttonGet(oper):  
    global num1, math  
    num1 = e.get()  
    math = oper  
    e.insert(tk.END, math)
    try:
        num1 = float(num1)  
    except ValueError:  
        buttonClear()

如果你对python、对数据分析感兴趣,且掌握jupyter notebook的使用,更多详细内容,欢迎咨询小编,公众号后台回复:联系小编

公众号:尤而小屋
作者:Peter
编辑:Peter

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/710069.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

spring boot security验证码登录示例

前言 在spring boot security自定义认证一文&#xff0c;基本给出了一个完整的自定义的用户登录认证的示例&#xff0c;但是未涉及到验证的使用&#xff0c;本文介绍登录的时候如何使用验证码。 本文介绍一个验证码生成工具&#xff0c;比较老的一个库了&#xff0c;仅作demo…

rust warp框架教程1-helloworld

warp框架简介 warp is a super-easy, composable, web server framework for warp speeds. warp建立在hyper之上&#xff0c;因此&#xff0c;warp天生支持异步&#xff0c;HTTP/2&#xff0c;以及“正确的HTTP实现”。 warp的强大之处在于其提供的filter系统&#xff0c;它…

软件设计模式与体系结构-设计模式-生成模式单例模式

目录 二、生成器模式1. 生成者模式概念实例一&#xff1a;房屋选购系统题目时序图类图 优缺点适用场景 2. 生成器模式与抽象工厂模式3. 课程作业*** 三、单例模式1. 单例模式要点&#xff1a;基本思路实例一&#xff1a;互联网连接问题 2. 多线程情况3. 优缺点4. 适用场景5. 课…

leetcode 88.合并两个有序数组

⭐️ 题目描述 &#x1f31f; leetcode链接&#xff1a;合并两个有序数组 ⭕️ 代码&#xff1a; /*思路&#xff1a;双指针问题1.从前往后拷贝依次比较两个数组元素的较小值&#xff0c;较小值先拷贝- 问题&#xff1a;从前拷贝会造成覆盖(有问题)2.从后往前拷贝依次比较两个…

SpringBoot(五)SpringBoot事务

在实际开发项目时&#xff0c;程序并不是总会按照正常的流程去执行&#xff0c;有时候线上可能出现一些无法预知的问题&#xff0c;任何一步操作都有可能发生异常&#xff0c;异常则会导致后续的操作无法完成。此时由于业务逻辑并未正确的完成&#xff0c;所以在之前操作过数据…

单臂路由实现不同VLAN之间数据转发

实验环境&#xff1a; 思科模拟器&#xff0c;Cisco Packet Tracer 实验拓扑&#xff1a; 实验配置&#xff1a; &#xff08;1&#xff09;PC配置 IP地址子网掩码网关PC1192.168.10.1255.255.255.0192.168.10.254PC2192.168.10.2255.255.255.0192.168.10.254PC3192.168.20…

串口通讯监控方法

当我们调试硬件的时候&#xff0c;发现串口数据异常&#xff0c;用示波器和逻辑分析仪的话会比较麻烦&#xff0c;此时可以并一个监控串口&#xff0c;如下图所示 232串口&#xff0c;我们是不能直接并一个串口上去的&#xff1b;但是我们的监控串口&#xff0c;可以只接一根R…

【玩转循环】探索Python中的无限可能性

前言 循环可能是每个编程语言中使用比较多的语法了&#xff0c;如果能合理利用好循环&#xff0c;就会出现意想不到的结果&#xff0c;大大地减少代码量&#xff0c;让机器做那些简单枯燥的循环过程&#xff0c;今天我将为大家分享 python 中的循环语法使用。&#x1f697;&am…

数据结构--栈的链式存储

数据结构–栈的链式存储 推荐使用不带头结点的单链表 \color{green}推荐使用不带头结点的单链表 推荐使用不带头结点的单链表 typedef struct LNode {ElemType data;struct LNode* next; } LNode, *LinkList;bool InitList(LinkList &L) {L->next NULL; }后插操作&…

python网络编程(二)模拟ssh远程执行命令

1、项目需求&#xff1a; 要实现一个像ssh远程连接工具一样&#xff0c;在终端输入命令&#xff0c;返回对应的结果。 比如window的dos命令&#xff1a; dir &#xff1a;查看目录下的文件 ipconfig : 查看网卡信息 tasklist : 查看进程列表 linux的命令&#xff1a; ls : 查看…

Jenkins与CI/CD

简介 CI&#xff08;持续集成&#xff09; Continuous Integration是一种软件开发实践&#xff0c;即团队开发成员经常集成他们的工作&#xff0c;通常每个成员每天至少集成一次&#xff0c;也就意味着每天可能会发生多次集成。每次集成都通过自动化的构建&#xff08;包括编…

Debian 环境使用 docker compose 部署 sentry

Debian 环境使用 docker compose 部署 sentry Sentry 简介什么是 Sentry &#xff1f;Sentry 开发语言及支持的 SDKSentry 功能架构 前置准备条件规格配置说明Dcoker Desktop 安装WSL2/Debian11 环境准备 Sentry 安装步骤docker 部署 sentry 步骤演示过程说明 总结 Sentry 简介…

python机器学习在气象模式订正、短临预报、气候预测等场景的应用

基于机器学习的天河机场物流预测研究 全球经济快速增长的形势下,八大区域性枢纽之一的武汉天河机场的物流需求也在攀升。文章针对天河机场的货邮吞吐量,运用机器学习中的线性回归模型通过Python对其进行需求预测,并用二次指数平滑法与之对比,在平均绝对百分误差比较下得出机器…

需求分析引言:架构漫谈(四)性能专题

前文介绍了非功能性需求里的可靠性和可用性&#xff0c; 本文对非功能性需求里的性能&#xff0c;进行一些详细的说明&#xff0c;和如何度量系统的性能问题。 1、概念 性能通常是指一个软件系统的处理能力和速度&#xff0c;一般通过 延迟 和 吞吐量 这两个指标进行度量。 不…

分布式软件架构——域名解析系统

透明多级分流系统的设计原则 用户在使用信息系统的过程中&#xff0c;请求首先是从浏览器出发&#xff0c;在DNS的指引下找到系统的入口&#xff0c;然后经过了网关、负载均衡器、缓存、服务集群等一系列设施&#xff0c;最后接触到了系统末端存储于数据库服务器中的信息&…

云计算——容器

作者简介&#xff1a;一名云计算网络运维人员、每天分享网络与运维的技术与干货。 座右铭&#xff1a;低头赶路&#xff0c;敬事如仪 个人主页&#xff1a;网络豆的主页​​​​​ 目录 前言 一.容器简介 二.主流容器技术 1.docker &#xff08;1&#xff09;容器的组…

HTML5+ Runtime提示

使用的环境 vue-cli框架&#xff0c;Andriod调试、云打包都会出现该弹框 1.我遇到的问题 上述弹框提示&#xff0c;HBuilderX3.8.2 &#xff0c; 手机SDK版本是3.8.4&#xff0c;不匹配 解决目的&#xff1a;需要让两个版本匹配 2. 点击“查看详情”&#xff0c;查看原因 …

JS文件UTF8格式乱码问题

UTF8格式的JS文件在IE中显示乱码问题的解决 这种情况通常是由于JS文件头缺少BOM标志引起的,解决方式: 方法1:用系统自带记事本,另存为 UTF-8,覆盖原文件,会自动加上BOM标志(就是文件开头的EF BB BF 三个字节) 方法2: 用notepad 打开,编码菜单,由UTF8编码改为 UTF8-BOM编码

10-Vue从入门到手撕

什么时候可以开始学习Vue? 学习路线&#xff1a;H5 CSS3 ---> ES6 ---> 网络 ---> 第三方库 ---> 工程化 ---> Vue 不经过前面的铺垫是无法学习vue的&#xff0c;就算学了还得倒回去补知识点 展现Vue Vue源码分析&#xff0c;走进作者的内心世界 …

记录一次对STM32G4串口硬件FIFO的调试

记录一次对STM32G4串口硬件FIFO的调试 前言&#xff1a;通常我们使用串口接收多字节数据会使用中断和DMA两种方式。使用中断方式&#xff0c;每接收到一个字节就会触发一次中断&#xff0c;我们可以在中断函数里将接收到的这一字节保存在内存中然后等待其他程序处理&#xff0c…