数据分析-28-小红书消费情况分析（包含代码和数据）

文章目录

- 0. 代码数据下载
- 1. 项目介绍
- 2. 数据说明
- 3. 分析目的
- - 1. 提出问题：哪些消费群体更庞大，平均购买力更强？已知自变量能否准确预测用户购买金额？
  - - a. 数据导入
    - b. 去除重复数值和缺失数值
    - c. 简化部分columns的命名，方便之后绘图与处理
  - 2. 数据分析：哪些消费群体更庞大，平均购买力更强
  - - a. 先分析单一变量与利润的关系
    - b. categorical变量和quantitative变量的组合和利润的关系
    - - （1）年龄与性别
      - （2）是否参加活动与先前消费金额
      - （3）注册时间与距离上一次下单时间
    - c. 用多线性模型分析数据集
- 4. 结论及建议

0. 代码数据下载

关注公众号：『AI学习星球』
回复：小红书消费情况分析 即可获取数据下载。
算法学习、4对1辅导、论文辅导或核心期刊可以通过公众号或➕v：codebiubiubiu滴滴我
在这里插入图片描述

1. 项目介绍

小红书是一个的生活方式平台和消费决策入口。与其他店商品台不同，在小红书可以购买商品，也可以分享各种攻略和日常。

本文包括以下几个部分：

数据来源及说明
分析思路
数据清洗
数据分析
结论

2. 数据说明

这是一个关于用户在小红书购买金额的数据集，共有29452条数据， 7个变量。

字段名字	字段介绍
Revenue	用户下单的购买金额
3rd_party_stores	用户过往在app中从第三方购买的数量，为0则代表只在自营商品中购买
Gender	性别 1：男 0：女未知则空缺
Engaged_last_30	最近30天在app上有参与重点活动（讨论，卖家秀）
Lifecycle	生命周期分为A,B,C （分别对应注册6个月内，1年内，2年内）
days_since_last_order	最近一次下单距今的天数（小于1则代表当天有下单）
previous_order_amount	以往累积的用户购买金额

数据来源：某红书销售情况

3. 分析目的

假设用户购买金额（revenue）为因变量，其它六个变量为自变量，探寻不同特征的人群对总购买金额的贡献大小，帮助企业定位消费人群并在营销推广等方面做出更好决策。综合所有变量建立多线性数据模型并分析数据模型的准确性。准确的数据模型能够帮助预测用户下单金额。

1. 提出问题：哪些消费群体更庞大，平均购买力更强？已知自变量能否准确预测用户购买金额？

数据整理：数据预处理

a. 数据导入

import pandas as pd
import numpy as np
import random
from matplotlib import pyplot as plt
from pyecharts.charts import Boxplot

from sklearn.model_selection import train_test_split
from sklearn.datasets import load_boston

df= pd.read_csv("31 l2_week2.csv")
df.head(10)

在这里插入图片描述

b. 去除重复数值和缺失数值

df.drop_duplicates(inplace=True)
df.reset_index(drop=True,inplace=True)
df.replace('nan',np.nan,inplace=True)
###把性别、年龄、用户过往中为nan的数值分别用随机dummy variable、平均值、随机dummy variable替代
df.fillna(value={"gender":random.choice([1.0,0.0]),"age":round(df["age"].mean(),0),"engaged_last_30":random.choice([1.0,0.0])},inplace=True)
df.head(10)

在这里插入图片描述

c. 简化部分columns的命名，方便之后绘图与处理

df=df.rename(columns={"engaged_last_30": "engage", df.keys()[5]: "last_order", "previous_order_amount":"accumulation", "3rd_party_stores":"3rd"})

df.head()

在这里插入图片描述

df.dtypes

在这里插入图片描述

2. 数据分析：哪些消费群体更庞大，平均购买力更强

a. 先分析单一变量与利润的关系

###用matrix plot大致看一下变量之间的线性关系
import plotly.express as px
fig = px.scatter_matrix(df)
fig.show()
#从第一排的图像可以看出各个变量与利润的关系， 更详细的图如下：

在这里插入图片描述

通过变代码一一绘制每个单一变量与revenue的关系

plt.scatter(df['gender'], df['revenue'], color='purple')
plt.title('gender Vs revenue', fontsize=14)
plt.xlabel('gender', fontsize=14)
plt.ylabel('revenue', fontsize=14)
plt.grid(True)
plt.show()

在这里插入图片描述

plt.scatter(df['age'], df['revenue'], color='lightgreen')
plt.title('gender Vs revenue', fontsize=14)
plt.xlabel('age', fontsize=14)
plt.ylabel('revenue', fontsize=14)
plt.grid(True)
plt.show()

在这里插入图片描述

plt.scatter(df['engage'], df['revenue'], color='orange')
plt.title('engagement in the last 30 days Vs revenue', fontsize=14)
plt.xlabel('engage', fontsize=14)
plt.ylabel('revenue', fontsize=14)
plt.grid(True)
plt.show()
###参与活动的人群总体购买金额更高

在这里插入图片描述

plt.scatter(df['lifecycle'], df['revenue'], color='pink')
plt.title('lifecycle Vs revenue', fontsize=14)
plt.xlabel('lifecycle', fontsize=14)
plt.ylabel('revenue', fontsize=14)
plt.grid(True)
plt.show()

在这里插入图片描述

plt.scatter(df['last_order'], df['revenue'], color='lightblue')
plt.title('days from the last order Vs revenue', fontsize=14)
plt.xlabel('last_order', fontsize=14)
plt.ylabel('revenue', fontsize=14)
plt.grid(True)
plt.show()

在这里插入图片描述

plt.scatter(df['accumulation'], df['revenue'], color='grey')
plt.title('previous amount of consumption Vs revenue', fontsize=14)
plt.xlabel('accumulation', fontsize=14)
plt.ylabel('revenue', fontsize=14)
plt.grid(True)
plt.show()

在这里插入图片描述

plt.scatter(df['3rd'], df['revenue'], color='red')
plt.title('3rd party consumption Vs revenue', fontsize=14)
plt.xlabel('3rd party', fontsize=14)
plt.ylabel('revenue', fontsize=14)
plt.grid(True)
plt.show()
###图像呈现两个极端， 从不购买第三方产品和购买第三方产品数量最多的人群的购买金额更高

在这里插入图片描述

df.head()

在这里插入图片描述

b. categorical变量和quantitative变量的组合和利润的关系

（1）年龄与性别

df[df['gender'] == 1.0].age.plot(kind='hist', color='blue', edgecolor='black', alpha=0.5, figsize=(10, 7))
df[df['gender'] == 0.0].age.plot(kind='hist', color='magenta', edgecolor='black', alpha=0.5, figsize=(10, 7))
plt.legend(labels=['Males', 'Females'])
plt.title('Distribution of age', size=24)
plt.xlabel('age', size=18)
plt.ylabel('revenue', size=18)
###60岁年龄段的女性对利润的贡献远大于同年龄段的男性， 但其它年龄段中男性对利润的贡献均比女性大

在这里插入图片描述

发现：60岁年龄段的女性对利润的贡献远大于同年龄段的男性，但其它年龄段中男性对利润的贡献均比女性大

（2）是否参加活动与先前消费金额

df[df['lifecycle'] == 'A'].accumulation.plot(kind='hist', color='blue', edgecolor='black', alpha=0.5, figsize=(10, 7))
df[df['lifecycle'] == 'B'].accumulation.plot(kind='hist', color='magenta', edgecolor='black', alpha=0.5, figsize=(10, 7))
plt.legend(labels=['engage', 'not engage'])
plt.title('Distribution of previous order amount', size=24)
plt.xlabel('previous order amount', size=18)
plt.ylabel('revenue', size=18)

acdiff=df.groupby("engage")['revenue'].mean().sort_values()
acdiff

在这里插入图片描述

结论：从图中看出未参与活动人群对利润的总体贡献更大，但随着先前消费数额的增加，差距逐渐减少。参与活动的人群比未参与活动的人群平均购买力更强，可见是因为参加活动的人群数量少才导致总体贡献不如未参加活动人群高

（3）注册时间与距离上一次下单时间

df[df['lifecycle'] == 'A'].last_order.plot(kind='hist', color='red', edgecolor='black', alpha=0.5, figsize=(10, 7))
df[df['lifecycle'] == 'B'].last_order.plot(kind='hist', color='blue', edgecolor='black', alpha=0.5, figsize=(10, 7))
df[df['lifecycle'] == 'C'].last_order.plot(kind='hist', color='pink', edgecolor='black', alpha=0.5, figsize=(10, 7))
plt.legend(labels=['A','B','C'])
plt.title('Distribution of days since last order', size=24)
plt.xlabel('last order', size=18)
plt.ylabel('revenue', size=18)
#A: 注册六个月内, B:注册一年内, C：注册两年内
cyclediff= df.groupby("lifecycle")['revenue'].mean().sort_values()
cyclediff

在这里插入图片描述

结论：越新注册的用户平均购买力更高且下单率更频繁；注册两年的用户数量更庞大，所以对利润总体贡献高

c. 用多线性模型分析数据集

与其它变量不同的是， lifecycle是object，把它转变为dummy variable(0,1)能方便之后分析多线性关系和绘图

from sklearn.preprocessing import MultiLabelBinarizer
mlb = MultiLabelBinarizer()
array_out = mlb.fit_transform(df["lifecycle"])#把原本的a,b,c转变成0，1， 将原本dataframe中的一个column变为a,b,c三个columns
df_out = pd.DataFrame(data=array_out, columns=mlb.classes_)
df_out

在这里插入图片描述

df = pd.concat([df_out, df], axis=1)#将两个dataframe合并
df1= df.drop(columns=['lifecycle'])#移除原先的lifecycle column
df1.head()

在这里插入图片描述

from sklearn import linear_model
X = df[['gender','age', 'engage', 'accumulation', '3rd', 'A','B','C', 'last_order']] 
Y = df['revenue']
regr = linear_model.LinearRegression()
result = regr.fit(X, Y)
print('Intercept: \n', regr.intercept_)
print('Coefficients: \n', regr.coef_)
###模型：其中x1到x8 分别对应性别到第三方购买数量, lifecycle c。 只要已知性别， 年龄， 参与活动， 以往购买金额， 第三方购买数量, a,b,c这八个变量就能预测该用户的购买金额

在这里插入图片描述

from sklearn import datasets, linear_model
from sklearn.linear_model import LinearRegression
import statsmodels.api as sm
from scipy import stats

X2 = sm.add_constant(X) 
est = sm.OLS(Y, X2)
est2 = est.fit()
print("summary()\n",est2.summary())
print("pvalues\n",est2.pvalues)
print("tvalues\n",est2.tvalues)
print("rsquared\n",est2.rsquared)
print("rsquared_adj\n",est2.rsquared_adj)