新项目分析

news2026/2/11 11:56:56

1：数据类型处理

sep=‘\s+‘ 这是正则表达式，通过一定规则的表达式来匹配字符串用的 \s 表示空白字符，包括但不限于空格、回车(\r)、换行(\n)、tab或者叫水平制表符(\t)等，这个根据编码格式不同代表的含义也不一样，感兴趣可以搜索看一下 + 是重复修饰符，表示它前面与它紧邻的表达式格式相匹配的字符串至少出现一个，上不封顶 \s+ 意思就是至少有一个空白字符存在
————————————————
版权声明：本文为CSDN博主「舞动的白杨」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/weixin_37706204/article/details/120827447

#字段含义加载

#coding=utf=8
import pandas as pd
pd.set_option('display.max_columns',None)
df=pd.read_csv('./CDNOW_master.txt',header=None,sep='\s+',names=['user_id','order_dt','order_product','order_amount'])#让第一行不能作为索引,添加列索引
print(df.head())
#print(df.info())

#观察数据类型和数据的缺失值

df.info

#将年月日换成时间类型

df=pd.to_datetime(df['order_dt'],format='%Y%m%d')
print(df)

#查看总描述

df=pd.to_datetime(df['order_dt'],format='%Y%m%d')
print(df)

#原始数据中添加一列表示月份

#coding=utf=8
import pandas as pd
pd.set_option('display.max_columns',None)
df=pd.read_csv('./CDNOW_master.txt',header=None,sep='\s+',names=['user_id','order_dt','order_product','order_amount'])#让第一行不能作为索引,添加列索引

df['order_dt']=pd.to_datetime(df['order_dt'],format='%Y%m%d')

df['Month']=df['order_dt'].values.astype('datetime64[M]')
print(df.head())

第二部分：按月数据分析

#用户每月花费的总金额

#coding=utf=8
import pandas as pd
pd.set_option('display.max_columns',None)
df=pd.read_csv('./CDNOW_master.txt',header=None,sep='\s+',names=['user_id','order_dt','order_product','order_amount'])#让第一行不能作为索引,添加列索引

df['order_dt']=pd.to_datetime(df['order_dt'],format='%Y%m%d')

df['Month']=df['order_dt'].values.astype('datetime64[M]')
print(df.head())

#绘制折线图

df.groupby(by='Month')['order_amount'].sum().plot()
plt.show()

#所有用户每月产品的购买量

df.groupby(by='Month')['order_product'].sum().plot()
plt.show()

#所有用户每月消费的次数

print(df.groupby(by='Month')['order_product'].count())

#统计每月消费的人数

print(df.groupby(by='Month')['user_id'].nunique())

2：

#求每一个用户消费的总金额

print(df.groupby(by='user_id')['order_amount'].sum())

#求每一个用户消费的总次数

print(df.groupby(by='user_id')['order_amount'].count())

#散点图

user_amount_sum=df.groupby(by='user_id')['order_amount'].sum()
user_product_sum=df.groupby(by='user_id')['order_product'].count()
plt.scatter(user_product_sum,user_amount_sum)
plt.show()

#各个用户消费总金额的直方分布图（金额在1000以内）

df.groupby(by='user_id').sum().query('order_amount<=1000')['order_amount'].hist()
plt.show()

#各个用户消费的总数量的直方分布图（消费商品的数量在100次之内的分布

df.groupby(by='user_id').sum().query('order_product<=100')['order_product'].hist()
plt.show()

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/362227.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

新项目分析

相关文章

一文讲解系统调用与函数调用有什么区别？

2023/02/21 事件循环-eventloop 宏任务微任务讲解

如何使用 API 工具做 Websocket 测试

17 个短代码，检验你 Python 基本功

来一波骚操作，Java内存模型

项目管理从需求管理开始--不懂需求管理还敢带项目？

Spark RDD及内存计算

第51篇-某彩网登录参数分析-webpack【2023-02-21】

Springboot 全局异常处理类

Elasticsearch7.8.0版本进阶——数据更新流程

经典文献阅读之--MSC-VO(曼哈顿和结构约束VIO)

程序中的日期使用问题-格式转化：SimpleDateFormat、org.apache.commons.lang3.time.DateUtils

Windows下使用git提交代码到gitee

深入Spring底层透析bean生命周期及循环引用的醍醐灌顶篇

人工智能详细笔记：卷积神经网络（CNN）

直播预告 | 嵌入式BI如何将数据分析真正融入业务流程

ASP.NET MVC | 简介

django项目实战六（django+bootstrap实现增删改查）进阶优化modelform类与视图

数据结构-考研难点代码突破（C++实现树型查找 - 平衡二叉树（AVL树）的基本操作（增删））

跨境群店安全运营神器—超级浏览器