数据分析:旅游景点销售门票和消费情况分析

news2024/9/25 17:20:32

数据分析:旅游景点销售门票和消费情况分析

文章目录

  • 数据分析:旅游景点销售门票和消费情况分析
  • 一、前言
  • 二、数据准备
  • 三、分析数据
  • 四、用户购买门票数量分析
  • 五、用户复购分析
  • 六、用户回购分析
  • 七、占比分析
    • 1.每个月分层用户占比情况。
    • 2.每月不同用户的占比
    • 3.每月活跃用户的占比
    • 4.每月回流用户占比
  • 励志语录

一、前言

旅游景区作为旅游业持续发展的重要载体,在旅游业中起到中流砥柱的作用。随着人们的生活水平的不断提升,对旅游服务质量的要求也越来越高,特别是在旅游景区,大部分游客已经不再满足于现有的旅游服务水平,因此旅游景区服务质量的改善提升对旅游景区的发展具有一定的现实意义。目前,由于互联网大数据时代的来临,网络数据呈爆炸式增长,可以通过各种网站游客的评论数据获得游客对于旅游景区的感知情况。但这类数据随意性、社会性、分散性等特点,很难直接使用,文本分析技术应运而生。本文使用文本分析技术从冗杂的评论数据中识别出用户谈论的主要文本内容,提炼旅游景区应该主要关注问题。本文基于游客感知的视角,通过分析、挖掘游客对旅游景区的网络评论了解游客对景区形象的评价和感受。(来自于网络)

二、数据准备

1.导入所需要的模块。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
plt.rcParams['font.sans-serif']=['SimHei']# 用来正常显示中文标签
from datetime import datetime

2.导入数据,查看前十数据。

df = pd.read_csv(r"C:\Users\XWJ\Desktop\kelu.csv")
df.head()

在这里插入图片描述
3.使用函数info():数据表的基本信息(维度,列名称,数据格式,所占空间等)。

df.info()

在这里插入图片描述
4…使用describe()函数,计算数据集中每列的总数、均值、标准差、最小值、25%、50%、75%分位数以及最大值。

df.describe()

在这里插入图片描述

根据平均分92,和1/2分位得知,大多数用户评分在100,效果非常不错。
16年~19年门票价格都是110。

三、分析数据

1.每天销量分析。

df['time'] = pd.to_datetime(df['time'],format='%Y/%m/%d')
df.groupby('time')['rating'].count().plot(figsize=(12,4))

在这里插入图片描述

整体来看每日销量呈现上升趋势,但是在18年5月份前后(2,3,4)出现一次较大的波动,销量急剧下滑,猜测:台风,疫情,运营推广不利。
6年9月~17年1月,销量非常低,每天平均2-3张门票,猜测:101观景台门票刚刚上线发售,观景台刚刚对游客进行开放。

2.每月销量分析。

df['month'] = df['time'].values.astype('datetime64[M]')  #保留月份精度的日期
df.head()
df.groupby('month')['rating'].count().plot(figsize=(12,4))  #按照月份进度进行计数
plt.xlabel('月份')
plt.ylabel('销售数量')
plt.title('16~19年每月销量分析')

在这里插入图片描述

月份整体销量依然呈现上升趋势,但是在18年2,3,4月份月销量下滑明显。跟每天销量下降有关。猜测:台风,疫情,运营推广不利。

3.每个用户的购买量和消费金额分析。

df1 = pd.DataFrame({
    'name':['zhangsan','lisi'],
    'group':['A','B']
})
df2 =  pd.DataFrame({
    'name':['wangwu','lisi'],
    'score':[88,90],
    'group':['C','D']
})
pd.merge(left=df1,right=df2,on='name',how='inner',suffixes=['_1','_2'])

在这里插入图片描述

#按照游客分组,统计每个游客的购买次数
grouped_count_author = df.groupby('author')['frequency'].count().reset_index() 
#按照游客分组,统计每个游客的消费金额
grouped_sum_amount = df.groupby('author')['amount'].sum().reset_index()
user_purchase_retention = pd.merge(left=grouped_count_author,
                                  right=grouped_sum_amount,
                                  on='author',
                                  how='inner')
user_purchase_retention.tail(60)
user_purchase_retention.plot.scatter(x='frequency',y='amount',figsize=(12,4))
plt.title('用户的购买次数和消费金额关系图')
plt.xlabel('购物次数')
plt.ylabel('消费金额')

在这里插入图片描述

四、用户购买门票数量分析

1.用户购买门票数量。

df.groupby('author')['frequency'].count().plot.hist(bins=50)  #影响柱子的宽度,宽度= (最大值-最小值)/bins
plt.xlim(1,17)
plt.xlabel('购买数量')
plt.ylabel('人数')
plt.title('用户购买门票数量直方图')

在这里插入图片描述

绝大多数用户购买过1张门票,用户在7000人次左右。
少数人购买过2~4张门票,猜测:可能是台北周边用户。

2.用户购买门票2次及以上情况分析。

df_frequency_2 = df.groupby('author').count().reset_index()
df_frequency_2.head()
df_frequency_2[df_frequency_2['frequency']>=2].groupby('author')['frequency'].sum().plot.hist(bins=50)
plt.xlabel('购买数量')
plt.ylabel('人数')
plt.title('购买门票在2次及以上的用户数量')

在这里插入图片描述

消费两次的用户在整体上占比较大,大于2次的用户占小部分,用户购买次数最多为8次。

3.查看购买2次及以上的具体人数。

df_frequency_2[df_frequency_2['frequency']>=2].groupby('frequency')['author'].count()

在这里插入图片描述

出去购买一次的顾客,可以看出购买2次有402人,购买3次的99人,以此类推得知大多数据倾向于购买2~5。

4.购买次数在1~5次之间的用户占比分析。

#1.按照用户进行分组  2.取出购买次数  3.过滤出1~5次用户  4.绘制饼图
df_frequency_gte_1 = df.groupby('author')['frequency'].count().reset_index()
#过滤出<=5次的用户
values = list(df_frequency_gte_1[df_frequency_gte_1['frequency']<=5].groupby('frequency')['frequency'].count())
print(values)
plt.pie(values,labels=['购买1次','购买2次','购买3次','购买4次','购买5次'],autopct='%1.1f%%')
plt.title('购买次数在1~5次之间的人数占比')
plt.legend()

在这里插入图片描述

可以看出购买一次的占比83%,其次逐渐递减。并且递减比较明显,购买3.4.5的占比相近,人数都很少。

5.购买次数在2~5次之间的用户占比分析。

#过滤出>=2次并且<=5次的用户
df_frequency_gte_2 = df_frequency_2[df_frequency_2['frequency']>=2].reset_index()
values = list(df_frequency_gte_2[df_frequency_gte_2['frequency']<=5].groupby('frequency')['frequency'].count())
print(values)
plt.pie(values,labels=['购买2次','购买3次','购买4次','购买5次'],autopct='%1.1f%%')
plt.title('购买次数在2~5次之间的人数占比')
plt.legend()

在这里插入图片描述

在2~5次之间,购买2.3次用户占比最大,综合占据了80%

五、用户复购分析

1.复购率分析。

复购率:在某一时间窗口内(多指一个月)内消费次数在两次及以上的用户在总消费用户的占比
三种情况:
消费次数>1,为复购用户,用1表示
消费次数=1,为非复购用户,用0表示
消费次数=0, 未消费用户,用na表示

applymap:df,处理每一个元素
apply:df,处理每一行或者每一列数据
map:Serise,处理每一个元素

pivot_count = df.pivot_table(index='author',
                            columns='month',
                            values='frequency',
                            aggfunc='count').fillna(0)
pivot_count = pivot_count.applymap(lambda x: 1 if x>1 else np.NAN  if x==0 else 0)
# pivot_count[pivot_count['2016-09-01']==1]
(pivot_count.sum()/pivot_count.count()).plot()
plt.xlabel('时间(月)')
plt.ylabel('百分比(%)')
plt.title('16~19年每月用户复购率')

在这里插入图片描述

16年9月份复购率最高达到了7.5%,然后开始下降,趋于平稳在1.2%。

2.复购用户人数。

pivot_count.sum().plot()
plt.xlabel('时间/月')
plt.ylabel('复购人数')
plt.title('16~19年每月的复购人数折线图')

在这里插入图片描述
整体来看,复购人数长线上升趋势。
但是在18年2.3.4.10和19年2月份,复购人数下降较为明显,出现异常信号,需要和业务部门具体分析情况。

六、用户回购分析

1.回购率分析。

回购率:在某一个时间窗口内消费过的用户,在下一个时间窗口仍旧消费的占比

pivot_purchase = df.pivot_table(index='author',
                columns='month',
               values='frequency',
               aggfunc='count'
              ).fillna(0)
pivot_purchase.head()

def purchase_return(data): #data:代表的是每一名游客的所有月份消费记录
    status = [] #存储每一个月回购状态
    for i in range(30):#遍历每一个月(最后一个月除外)
        ####本月消费
        if data[i] == 1:
            if data[i+1] ==1:#下个月有消费,是回购用户,1
                status.append(1)
            else:#na|未消费
                status.append(0) #非回购用户,0
        else: ####本月未消费
            status.append(np.NaN)
    status.append(np.NaN)
    return pd.Series(status,pivot_purchase.columns)
pivot_purchase_return = pivot_purchase.apply(purchase_return,axis=1)  #用户回购状态
(pivot_purchase_return.sum()/pivot_purchase_return.count()).plot()
plt.title('16年~19年每月的回购率')
plt.xlabel('月份')
plt.ylabel('回购率%')

在这里插入图片描述

回购率最高在18年6月份,达到4%
整体来看,回购率呈现微弱上升趋势
出现了几次较大下滑,分别是17年6月份,18年1月份,18年8月份,19年1月份

2.回购人数分析。

pivot_purchase_return.sum().plot()
plt.title('16年~19年每月的回购人数')
plt.xlabel('月份')
plt.ylabel('回购人数')
print(pivot_purchase_return.sum())

在这里插入图片描述

在这里插入图片描述

整体呈现上升趋势,回购人数最多时在18年11月份,人数未17人
其中有几次回购人数下降较为明显,主要在分别是17年6月份,18年1月份,18年8月份,19年1月份

七、占比分析

1.每个月分层用户占比情况。

#活跃用户|不活跃用户|回流用户|新用户
def active_status(data): #data:每一行数据(共31列)
    status = [] #存储用户31个月的状态(new|active|unactive|return|unreg)
    for i in range(31):
        #判断本月没有消费==0
        if data[i] ==0:
            if len(status)==0: #前几个月没有任何记录(也就是97年1月==0)
                status.append('unreg')  
            else:#之前的月份有记录(判断上一个月状态)
                if status[i-1] =='unreg':#一直没有消费过
                    status.append('unreg')
                else:#上个月的状态可能是:new|active|unative|reuturn
                    status.append('unactive')
        else:#本月有消费==1
            if len(status)==0:
                status.append('new') #第一次消费
            else:#之前的月份有记录(判断上一个月状态)
                if status[i-1]=='unactive':
                    status.append('return') #前几个月不活跃,现在又回来消费了,回流用户
                elif  status[i-1]=='unreg':
                    status.append('new') #第一次消费
                else:#new|active
                    status.append('active') #活跃用户
            
    return pd.Series(status,pivot_purchase.columns) #值:status,列名:18个月份
pivot_purchase_status  =pivot_purchase.apply(active_status,axis=1)
pivot_status_count =pivot_purchase_status.replace('unreg',np.NaN).apply(pd.value_counts)
pivot_status_count.T.plot.area()

在这里插入图片描述

可以看出,红色(不活跃用户)占据网站用户的主体
橙色(新用户)从17年的1月~19年1月,呈现上升趋势;但是在18年4月份左右,新用户的量突然急剧下降,异常信号;
以后,新用户又开始逐渐上涨,回复稳定状态
绿色(回流用户),一直维持稳定稳定状态,但是在18年2~4月份,出现异常下降情况,异常信号;

2.每月不同用户的占比

return_rate = pivot_status_count.apply(lambda x:x/x.sum())
return_rate.T.plot()

在这里插入图片描述

在17年1月份过后,网站用户主体由不活跃用户组成,新用户占比开始逐渐下降,并且趋于稳定,稳定在10%左右
活跃用户和会用户,一直很稳定,并且占比较小
16年9月前后,新用户和不活跃用户,发生较大的变化,猜测:活动或者节假日造成…

3.每月活跃用户的占比

return_rate.T['active'].plot(figsize=(12,6))
plt.xlabel('时间(月)')
plt.ylabel('百分比')
plt.title('每月活跃用户的占比分析')

在这里插入图片描述
在17年1月份活跃用户占比较高,在0.5%,但是在1-2月份,急剧下降,猜测:春节的影响,或者温度
结合历年1~2月份销量来看,都会出现一定比例的下降,再次验证我们的猜测:春节的影响
在18年2月和5月出现异常,门票销量下降,猜测:雨水或者台风影响

4.每月回流用户占比

return_rate.T['return'].plot(figsize=(12,6))
plt.xlabel('时间(月)')
plt.ylabel('百分比')
plt.title('每月回流用户的占比分析')

在这里插入图片描述

整体来看,回流用户比例上升趋势,但是波动较大
在17年1月和6月,18年4月,19年2月,回流用户比例都出现了较大幅度下降,表现为异常信号
不论是回流用户还是活跃用户,在以上几个月份中都表现出下降趋势。

np.mean(return_rate.T['return'])
#0.00736823576229978 

回流用户平均值在0.73%左右
在17年9月份以后,仅有连个异常点在平均值一下
在17年9月份以前,所有数据都显示出回流用户比例低于平均值,猜测:景点开放不久,很多游客尚未发现本景点;本景点在该平台上线不久

励志语录

人生从来没有固定的路线,决定你能够走多远的,并不是年龄,而是你的努力程度。无论到了什么时候,只要你还有心情对着糟糕的生活挥拳宣战,都不算太晚。迟做,总比不做好!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/356226.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

网络模型OSI

网络模型OSI定义模型分布数据封装、解封过程数据链路层1.LLC逻辑链路控制子层(Logic Link Control Sub Layer)2.MAC媒介访问控制子层(Medium Acess Control Sub Layer)CSMA/CARST-CST原理OSI定义 OSI&#xff1a;Open Systems Interconnection Reference Model&#xff0c;开放…

2023年前端开发的八大趋势,值得你关注下

随着新年的到来&#xff0c;许多人制定了提高自己和工作的决心。对于前端开发人员而言&#xff0c;跟上最新的潮流趋势是成功的关键。特别是在经济不好的情况下&#xff0c;很多科技专家在最近一个季度内被解雇&#xff0c;这更加强调了这一点。在2023年&#xff0c;有许多令人…

学习 Python 之 Pygame 开发坦克大战(五)

学习 Python 之 Pygame 开发坦克大战&#xff08;五&#xff09;坦克大战完善地图1. 创建砖墙2. 给砖墙增加子弹击中的碰撞效果3. 给砖墙坦克不能通过的碰撞效果坦克大战完善地图 我的素材放到了百度网盘里&#xff0c;里面还有原版坦克大战素材&#xff0c;我都放在一起来&am…

Blazor入门100天 : 身份验证和授权 (2) - 角色/组件/特性/过程逻辑

目录 建立默认带身份验证 Blazor 程序角色/组件/特性/过程逻辑DB 改 Sqlite将自定义字段添加到用户表脚手架拉取IDS文件,本地化资源freesql 生成实体类,freesql 管理ids数据表初始化 Roles,freesql 外键 > 导航属性完善 freesql 和 bb 特性 本节源码 https://github.com/…

Flink03: 集群安装部署

Flink支持多种安装部署方式 StandaloneON YARNMesos、Kubernetes、AWS… 这些安装方式我们主要讲一下standalone和on yarn。 如果是一个独立环境的话&#xff0c;可能会用到standalone集群模式。 在生产环境下一般还是用on yarn 这种模式比较多&#xff0c;因为这样可以综合利…

C++入门:引用

目录 一. 什么是引用 1.1 引用的概念 1.2 引用的定义 二. 引用的性质和用途 2.1 引用的三大主要性质 2.2 引用的主要应用 三. 引用的效率测试 3.1 传值调用和传引用调用的效率对比 3.2 值返回和引用返回的效率对比 四. 常引用 4.1 权限放大和权限缩小问题 4.2 跨…

【超好用】自定义的mybatis-plus代码生成器

BACKGROUND你是否也有这样的烦恼&#xff1a;每次写代码都需要创建很多包很多层很多类很多接口&#xff1f;耗时且费力姑且不谈&#xff0c;有时可能还大意了没有闪&#xff0c;搞出一堆bug这谁顶得住啊都3202年了&#xff0c;让程序自力更生吧&#xff01;&#xff01;教程 le…

原创|关于一次产品需求程序设计及优化的经历

文章目录一、流程梳理二、设计梳理三、技术方案3.1、下单接口扩展3.3.1、Request类新增deviceType3.3.2、申请单新增字段产品策略(productStrategy)3.3.3、下单产品策略的处理逻辑3.2、询价模块的设计3.2.1、Context设计3.2.2、ProductStrategy类设计3.2.2.1、AbstractProductS…

k8s篇之概念介绍

文章目录时光回溯什么是K8SK8S不是什么一、K8S构成组件控制平面组件&#xff08;Control Plane Components&#xff09;kube-apiserveretcdkube-schedulerkube-controller-managercloud-controller-managerNode 组件kubeletkube-proxy容器运行时&#xff08;Container Runtime&…

Spring Cloud Nacos实战(七)- Nacos之Linux版本安装

Nacos之Linux版本安装 Linux版NacosMySql生产环境配置 ​ 已经给大家讲解过了Nacos生产环境下需要搭建集群配置&#xff0c;那么这里我们预计需要&#xff1a;1个Nginx3个Nacos注册中心1个MySql 具体配置&#xff1a; 在官网上下载NacosLinux版本&#xff1a;https://github…

基于SSM框架的CMS内容管理系统的设计与实现

基于SSM框架的CMS内容管理系统的设计与实现 ✌全网粉丝20W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取项目下载方式&#x1f345; 一、项目…

并查集(高级数据结构)-蓝桥杯

一、并查集并查集(Disioint Set)&#xff1a;一种非常精巧而实用的数据结构用于处理不相交集合的合并问题。用于处理不相交集合的合并问题。经典应用&#xff1a;连通子图。最小生成树Kruskal算法。最近公共祖先。二、应用场景有n个人&#xff0c;他们属于不同的帮派。 已知这些…

Kafka漏洞修复之CVE-2023-25194修复措施验证

Kafka漏洞修复之CVE-2023-25194修复措施验证前言风险分析解决方案AdoptOpenJDK Zookeeper Kafka多版本OpenJDK安装切换Zookeeper安装Kafka安装与使用其他Kafka消息发送流程Linux配置加载顺序参考链接前言 场景介绍 Kafka最近爆出高危漏洞CNNVD-202302-515&#xff0c;导致Apa…

LeetCode刷题复盘笔记—一文搞懂贪心算法之56. 合并区间(贪心算法系列第十四篇)

今日主要总结一下可以使用贪心算法解决的一道题目&#xff0c;56. 合并区间 题目&#xff1a;56. 合并区间 Leetcode题目地址 题目描述&#xff1a; 以数组 intervals 表示若干个区间的集合&#xff0c;其中单个区间为 intervals[i] [starti, endi] 。请你合并所有重叠的区间…

QXlsx(访问Excel)

再Qt中已经有了QAxObject来访问Excel&#xff0c;但访问的是微软的com&#xff0c;只能访问正版的Excl中的 .xls//xlsx ,而且使用起来及其不方便&#xff08;本人亲测&#xff09;。 在这里使用QXlsx,能更简单的访问Excel数据&#xff0c;但QXlsx这个类并没有在Qt Creator中&a…

《MySQL学习》 MySQL优化器选择如何选择索引

一.优化器的选择逻辑 建表语句 CREATE TABLE t (id int(11) NOT NULL AUTO_INCREMENT,a int(11) DEFAULT NULL,b int(11) DEFAULT NULL,PRIMARY KEY (id),KEY a (a),KEY b (b) ) ENGINEInnoDB;往表中插入10W条数据 delimiter ;; create procedure idata() begindeclare i in…

目标检测三大数据格式VOC,YOLO,COCO的详细介绍

注&#xff1a;本文仅供学习&#xff0c;未经同意请勿转载 说明&#xff1a;该博客来源于xiaobai_Ry:2020年3月笔记 对应的PDF下载链接在&#xff1a;待上传 目录 目标检测常见数据集总结 V0C数据集(Annotation的格式是xmI) A. 数据集包含种类: B. V0C2007和V0C2012的区别…

QT学习记录散件

fromLocal8Bit() qt中fromLocal8Bit()函数可以设置编码。 因为QT默认的编码是unicode&#xff0c;不能显示中文的 而windows默认使用&#xff08;GBK/GB2312/GB18030&#xff09; 所以使用fromLocal8Bit()函数&#xff0c;可以实现从本地字符集GB到Unicode的转换&#xff0c;从…

32-Golang中的map

Golang中的map基本介绍基本语法map声明的举例map使用的方式map的增删改查操作map的增加和更新map的删除map的查找map的遍历map切片基本介绍map排序map的使用细节基本介绍 map是key-value数据结构&#xff0c;又称为字段或者关联数组。类似其它编程语言的集合&#xff0c;在编程…

2023美赛ABCDEF思路汇总

注&#xff1a;以下每个题思路仅是个人所想所做&#xff0c;不代表他人。由于时间仓促完成这么多&#xff0c;难免有不足之处&#xff0c;还请谅解。 文章目录A题第一大问第二大问B题第一问第二问第三问C题第一问第二问第三问第四问D题第一问第二问第三问第四问第五问E题第一问…