大数据开发中如何计算用户留存及SQL示例

news2025/1/14 0:54:40

在大数据开发领域,用户留存是一个关键指标,它反映了产品吸引并保留用户的能力。
image.png

留存率的计算不仅有助于评估产品的健康状况,还能为产品优化和市场策略提供重要依据。

本文将详细介绍如何在大数据开发中计算用户留存,并附带具体的SQL示例。

目录

    • 留存的定义与意义
    • 留存率的计算公式
    • SQL示例:计算次日留存率
      • 第一步:数据预处理
      • 第二步:计算次日留存用户
      • 第三步:计算留存率
    • 完成SQL
    • 其他留存率计算方法
    • 总结

留存的定义与意义

image.png

留存是指用户在某一时间点(如注册日、首次使用日)后,在后续特定时间段内继续使用该产品的行为。留存率则是这些留存用户占初始用户的比例。留存率越高,说明产品越能吸引并保持用户的兴趣。

留存的意义在于:

  • 评估产品吸引力:留存率高的产品通常意味着用户对产品有较高的满意度和忠诚度。
  • 指导产品优化:通过分析不同时间段的留存率,可以识别产品改进的方向,如用户体验、功能设计等。
  • 制定市场策略:根据留存数据,可以制定更有针对性的营销策略,提高用户粘性和活跃度。

留存率的计算公式

image.png

留存率的计算公式通常为:
留存率 = 基准日后第n天活跃用户数 基准日用户数 × 100 % \text{留存率} = \frac{\text{基准日后第n天活跃用户数}}{\text{基准日用户数}} \times 100\% 留存率=基准日用户数基准日后第n天活跃用户数×100%
其中,基准日可以是用户注册日、首次使用日等,n可以是1天、7天、30天等,具体取决于分析需求。

SQL示例:计算次日留存率

以下是一个使用SQL计算次日留存率的示例。假设我们有一个用户行为日志表user_log,包含字段user_id(用户ID)、login_time(登录时间)等。

image.png

第一步:数据预处理

首先,我们需要从用户行为日志表中提取出每个用户的首次登录时间和后续登录时间。这里我们使用窗口函数来找出每个用户的首次登录时间。

WITH first_login AS (
    SELECT
        user_id,
        MIN(login_time) AS first_login_time
    FROM
        user_log
    GROUP BY
        user_id
)

第二步:计算次日留存用户

接下来,我们将用户行为日志表与首次登录时间表进行连接,并筛选出次日登录的用户。

, retention_users AS (
    SELECT
        a.user_id,
        a.login_time,
        DATE_ADD(b.first_login_time, INTERVAL 1 DAY) AS expected_next_day
    FROM
        user_log a
    JOIN
        first_login b ON a.user_id = b.user_id
    WHERE
        DATE(a.login_time) = DATE(expected_next_day)
)

第三步:计算留存率

最后,我们计算次日留存用户数占初始用户数的比例。

SELECT
    COUNT(DISTINCT r.user_id) AS next_day_retention_users,
    COUNT(DISTINCT f.user_id) AS initial_users,
    ROUND(COUNT(DISTINCT r.user_id) / COUNT(DISTINCT f.user_id) * 100, 2) AS next_day_retention_rate
FROM
    first_login f
LEFT JOIN
    retention_users r ON f.user_id = r.user_id;

完成SQL

这个示例假设你有一个名为user_log的表,其中包含user_id(用户ID)和login_time(登录时间)字段。

-- 计算次日留存率
WITH FirstLogin AS (
    -- 找出每个用户的首次登录时间
    SELECT
        user_id,
        MIN(login_time) AS first_login_time
    FROM
        user_log
    GROUP BY
        user_id
),
RetentionUsers AS (
    -- 找出次日登录的用户
    SELECT
        a.user_id,
        a.login_time,
        DATE_ADD(b.first_login_time, INTERVAL 1 DAY) AS expected_next_day
    FROM
        user_log a
    JOIN
        FirstLogin b ON a.user_id = b.user_id
    WHERE
        DATE(a.login_time) = DATE(expected_next_day)
)
-- 计算留存率
SELECT
    COUNT(DISTINCT RetentionUsers.user_id) AS next_day_retention_users,
    COUNT(DISTINCT FirstLogin.user_id) AS initial_users,
    ROUND(COUNT(DISTINCT RetentionUsers.user_id) / COUNT(DISTINCT FirstLogin.user_id) * 100, 2) AS next_day_retention_rate
FROM
    FirstLogin
LEFT JOIN
    RetentionUsers ON FirstLogin.user_id = RetentionUsers.user_id;

这个SQL查询首先使用WITH子句创建了两个临时表:FirstLoginRetentionUsersFirstLogin表包含每个用户的首次登录时间,而RetentionUsers表包含那些在首次登录后的次日也登录了的用户。最后,主查询计算了次日留存用户数、初始用户数以及次日留存率。
image.png

其他留存率计算方法

除了次日留存率,我们还可以计算3日留存率、7日留存率等。这些计算方法的思路与次日留存率类似,只是在筛选条件中将INTERVAL 1 DAY改为相应的天数即可。

总结

用户留存率是衡量产品健康度和用户粘性的重要指标。

在大数据开发中,我们可以通过SQL等工具高效地计算留存率,为产品优化和市场策略提供有力支持。

本文介绍了留存的定义、意义以及具体的SQL示例,希望能对大数据开发人员有所帮助。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1882100.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

docker k8s

1、docker是什么? 将环境和程序一起打包给到 服务器运行的工具软件。 2、基础镜像base image是什么? 操作系统:用户空间、内核空间 阉割操作系统,利用其的用户空间(因为应用程序运行在用户空间)&#xf…

永磁同步电机离线参数识别

引言 永磁同步电机(PMSM)因其结构简单、功率密度高、转矩惯量比大和效率高等优点,在工业生产、航空航天和新能源交通等领域得到了广泛应用。然而,传统的参数辨识方法依赖位置传感器,这不仅增加了硬件成本,…

薄冰英语语法学习--名词3-性别

上面的是人。 下面的是动物。 花个2分钟看一下人的,在花2分钟看一下动物的。记不住没关系,读一遍。像 我这样 男人 man ,女人 woman 。xxx xxx ,xxx ,xxx 读完发现很多带ness代表雌性的。 核心 英语中的雌雄可以用,man 和 wo…

C++ :lambda表达式

目录 lambda表达式书写格式: lambda表达式各部分说明: lambda的使用示范: 注意事项: 返回值类型可以省略,参数也可也省略: sort内部也可以直接写lambda表达式: 排序时利用lambda进行排序…

【正点原子K210连载】第十六章 machine模块实验 摘自【正点原子】DNK210使用指南-CanMV版指南

1)实验平台:正点原子ATK-DNK210开发板 2)平台购买地址https://detail.tmall.com/item.htm?id731866264428 3)全套实验源码手册视频下载地址: http://www.openedv.com/docs/boards/xiaoxitongban 第十六章 machine模块…

小区服务前台小程序的设计

管理员账户功能包括:系统首页,个人中心,住户管理,管理员管理,员工管理,安保管理,安保分配管理,客服聊天管理 微信端账号功能包括:系统首页,公告,…

AI绘画Stable Diffusion 高清放大,多种方法详解,建议收藏!

👣 本章概述 在Stable Diffusion我们想要得到一张高分辨率且具有细节特征的图片时,我们就需要使用一些图片放大算法来帮助我们实现。 本文主要概述在sd中常常使用的高清修复方法以及不同方法的区别和应用场景。同时也给出一些推荐的工作流,你…

python实现符文加、解密

在历史悠久的加密技术中,恺撒密码以其简单却有效的原理闻名。通过固定的字母位移,明文可以被转换成密文,而解密则是逆向操作。这种技术不仅适用于英文字母,还可以扩展到其他语言的字符体系,如日语的平假名或汉语的拼音…

jvm性能监控常用工具

在java的/bin目录下有许多java自带的工具。 我们常用的有 基础工具 jar:创建和管理jar文件 java:java运行工具,用于运行class文件或jar文件 javac:java的编译器 javadoc:java的API文档生成工具 性能监控和故障处理 jps jstat…

Pickle, SafeTensor, GGML和GGUF

如今,大型语言模型的使用方式有以下几种: 作为 OpenAI、Anthropic 或主要云提供商托管的专有模型的 API 端点作为从 HuggingFace 的模型中心下载的模型工件和/或使用 HuggingFace 库进行训练/微调并托管在本地存储中作为针对本地推理优化的格式的模型工…

springboot学习,如何用redission实现分布式锁

目录 一、springboot框架介绍二、redission是什么三、什么是分布式锁四、如何用redission实现分布式锁 一、springboot框架介绍 Spring Boot是一个开源的Java框架,由Pivotal团队(现为VMware的一部分)于2013年推出。它旨在简化Spring应用程序…

Verilog中的wire和reg有什么区别

大多数初学者还没有真正很难掌握Verilog/SystemVerilog硬件描述语言(HDL)中wire(网络)和reg(变量)的区别。这个概念是每个经验丰富的RTL设计都应该熟悉的。但是现在有许多没有Verilog开发经验的验证工程师都…

mybatis延迟加载

mybatis延迟加载 1、延迟加载概述 应用场景 ​ 如果查询订单并且关联查询用户信息。如果先查询订单信息即可满足要求,当我们需要查询用户信息时再查询用户信息。把对用户信息的按需去查询就是延迟加载。 延迟加载的好处 ​ 先从单表查询、需要时再从关联表去关联查…

最短路模型——AcWing 188. 武士风度的牛

最短路模型 定义 最短路模型是图论中的一个经典问题,旨在寻找从图中一个顶点到另一个顶点的路径,使得这条路径上的边(或边的权重)之和最小。这一模型在许多实际问题中有着广泛的应用,比如网络路由、地图导航、物流配…

音频转文字怎么转?4个音频转文字的方法一定要知道

随着夏日脚步的到来,各类活动和准备工作也随之增多。 在这样一个忙碌的时期,整理会议的音频记录变得尤为关键。然而,单单依靠手动整理,不仅耗时耗力,还可能出现错漏。 但也不用太着急,下面将为大家介绍几…

生产者发送数据,kafka服务器接收数据异常的问题记录

现象: 某个客户要求审计日志用kafka的方式传输给他们,使用了第三方的librdkafka库来开发。 往客户提供的kafka服务器上的一个topic发送数据,这个topic有三个分区,客户反馈接收到的数据和发送端发送的实际数量对不上,他…

韩顺平0基础学java——第34天

p675-689 UDP网络编程 1.类 DatagramSocket和 DatagramPacket[数据包/数据报]实现了基于UDP协议网络程序。 2.UDP数据报通过数据报套接字DatagramSocket发送和接收,系统不保证UDP数据报一定能够安全送到目的地,也不能确定什么时候可以抵达。 3.DatagramPacket对象…

python-docx 设置水印字体

本文目录 前言一、水印的XML在哪里1、Word内置水印设置2、自定义XML部件3、Header or Footer二、确认位置三、水印表前解释1、水印XML源代码2、水印结构解析3、关于style的详解三、修改水印样式前言 本文我们来完成一个有趣的玩意儿:在Python中通过操作Word文档的XML来设置整…

MeterSphere v3.0全新启航,让软件测试工作更简单、更高效

2024年7月1日,MeterSphere v3.0版本正式发布。MeterSphere v3.0是新一代的测试管理和接口测试工具,致力于让软件测试工作更简单、更高效,不再成为持续交付的瓶颈。 在团队协作方面,针对目前企业软件测试团队所面临的测试工具不统…

【SpringBoot3学习 | 第2篇】SpringBoot3整合+SpringBoot3项目打包运行

文章目录 一. SpringBoot3 整合 SpringMVC1.1 配置静态资源位置1.2 自定义拦截器(SpringMVC配置) 二. SpringBoot3 整合 Druid 数据源三. SpringBoot3 整合 Mybatis3.1 Mybatis整合3.2 声明式事务整合配置3.3 AOP整合配置 四. SpringBoot3 项目打包和运行…