简介
连续登陆天数场景描述是对一个特定情境或活动连续发生的天数进行详细的阐述。这种描述通常用于展示某个事件或活动的持续时间,以及它对参与者或环境产生的影响。
常见的应用场景:
- 用户留存分析:通过跟踪用户的连续登录天数,可以分析用户的留存情况,了解用户对产品的粘性和忠诚度。
- 产品使用频率:连续登录天数反映了用户对产品的使用频率,有助于了解产品的使用情况和用户的需求。
- 用户活跃度:通过连续登录天数,可以评估用户群体的活跃度,识别高活跃度用户和需要激励的用户。
- 营销策略效果评估:连续登录天数可以作为衡量营销策略效果的指标,如签到奖励、任务完成奖励等。
- 用户行为预测:通过历史连续登录数据,可以建立模型预测用户的未来行为,如流失风险、购买倾向等。
- 产品功能优化:分析连续登录天数与用户使用的产品功能之间的关系,可以为产品功能的优化提供依据。
- 个性化推荐:根据用户的连续登录天数和相关行为数据,可以进行个性化内容或产品的推荐。
- 客户关系管理:连续登录天数可以作为客户关系管理中的一个维度,帮助识别和奖励忠诚客户。
常见可能用到的数据分析和数据挖掘方法:
- 趋势分析:通过绘制连续登录天数的趋势图,可以观察用户群体的整体活跃趋势。
- 分段分析:将用户按照连续登录天数进行分段,分析不同段内用户的特征和需求。
- 相关性分析:探究连续登录天数与其他用户行为指标(如购买次数、浏览时长等)之间的相关性。
- 回归分析:建立回归模型,分析连续登录天数对用户行为(如收入、转化率等)的影响。
- 用户画像构建:利用连续登录天数作为用户画像的一个维度,结合其他数据构建更全面的用户画像。
- 漏斗分析:在特定业务流程中,分析连续登录天数对用户转化率的影响,识别潜在的瓶颈和改进点。
- 聚类分析:对用户进行聚类,根据连续登录天数和其他行为数据将用户分为不同的群体,以进行更精细化的运营。
- 异常检测:通过检测连续登录天数的异常变化,可以发现潜在的问题或欺诈行为。
示例分析和详解
常见的笔试题考点:
- 用户最长连续登陆天数。(注意看是否有间断,间断是否统计)
- 连续登陆超过x天/不少于x天的用户。
- 任意/最近时间段内用户连续登陆天数/超过x天的用户。
……
题目:用户登录信息表login_tb(log_id:登录动作id,user_id:用户id, log_time:登录时间, log_port:登录端口)。
下面是建表语句和模拟的数据:
drop table if exists `login_tb` ;
create table if not exists `login_tb` (
`user_id` int,
`login_time` datetime,
`login_port` varchar(64));
insert into login_tb values(1101,'2022-02-09 07:24:15','pc');
insert into login_tb values(1102,'2022-02-09 09:12:57','app');
insert into login_tb values(1003,'2022-02-10 09:36:11','m');
insert into login_tb values(1102,'2022-02-10 09:37:01','app');
insert into login_tb values(1104,'2022-02-10 12:01:46','app');
insert into login_tb values(1106,'2022-02-10 10:23:01','app');
insert into login_tb values(1003,'2022-02-11 10:43:01','m');
insert into login_tb values(1102,'2022-02-11 11:56:47','app');
insert into login_tb values(1104,'2022-02-11 14:52:37','app');
insert into login_tb values(1106,'2022-02-11 16:56:27','app');
insert into login_tb values(1003,'2022-02-11 17:43:01','m');
insert into login_tb values(1106,'2022-02-12 10:56:17','app');
insert into login_tb values(1106,'2022-02-15 10:56:17','app');
insert into login_tb values(1106,'2022-02-16 10:56:17','app');
insert into login_tb values(1106,'2022-02-17 10:56:17','app');
insert into login_tb values(1106,'2022-02-18 10:56:17','app');
需求1:请用 SQL 查询用户最长连续登陆天数。
需求2:请用 SQL 查询连续登陆不少于3天的用户。
需求3:请用 SQL 查询2022年2月1日-2022年2月28日用户最长的连续登录天数。
首先,简单查询如下图,我们可以对进行 user_id 和 login_time 排序大致看看情况:
可以看到用户 1003 连续登陆 2 天,其中 2022-02-11 登陆多次;用户 1101 登陆 1 天;用户 1102 连续登陆 3 天;用户 1104 连续登陆 2 天;用户 1106 连续登陆 3 天,间断了 2 天,又接着连续登陆了 4 天。
注意事项:
- 一个用户/商品一天可以登陆/下单多次,因此需要注意去重复。
- 在一段时间内,可能连续登陆多天,间断几天后,又连续登陆。
下面我们介绍通过 SQL 方法主逐步实现上面需求。
方法一:利用排名窗口函数
- 可能出现多次登陆,对所需列去重复;
- 利用 row_number 对每个 user_id 登录日期进行升序排序,得到 rn 列(如果是连续的,可以发现用户 user_id 对应的排序字段 rn 是连续的);
- 利用 date_sub 将 login_date 与 rn 相减,可以得到“伪日期列-dt_uid”,可以发现不管是否间断,若连续登录,dt_uid 对应相同;
- 对 user_id 和 dt_uid 进行分组聚合,再使用 datediff 或者 count ,就可以得出每个 user_id 对应连续的“开始日期、结束日期和连续天数”。
- 结合具体题目需求,添加筛选或稍微处理,基本上可以应对相关系列题目。
需求答案:
########### 需求1:请用 SQL 查询用户最长连续登陆天数。
-- 一天可能出现多次登陆,去重
with t0 as
(select distinct user_id, date(login_time) as login_date
from login_tb),
-- 利用 row_number 对每个 user_id 登录日期进行升序排序,得到 rn 列(如果是连续的,可以发现用户 user_id 对应的排序字段 rn 是连续的)
-- 利用 date_sub 将 login_date 与 rn 相减,可以得到“伪日期列-dt_uid”,可以发现不管是否间断,若连续登录,dt_uid 对应相同;
t1 as
(select user_id
, login_date
, row_number() over (partition by user_id order by login_date) as rn
, date_sub(login_date, interval row_number() over (partition by user_id order by login_date)day) as dt_uid
from t0),
-- 对 user_id 和 dt_uid 进行分组聚合,再使用 datediff 或者 count ,就可以得出每个 user_id 对应连续的“开始日期、结束日期和连续天数”。
t2 as
(select user_id
, dt_uid
, min(login_date) as consecutive_start_date
, max(login_date) as consecutive_end_date
, datediff(max(login_date), min(login_date)) + 1 as consecutive_days
, count(login_date) as consecutive_days1
from t1
group by user_id, dt_uid)
select user_id
, max(consecutive_days) as consecutive_days_longest
from t2
group by user_id;
########### 需求2:请用 SQL 查询连续登陆不少于3天的用户。
-- 一天可能出现多次登陆,去重
with t0 as
(select distinct user_id, date(login_time) as login_date
from login_tb),
-- 利用 row_number 对每个 user_id 登录日期进行升序排序,得到 rn 列(如果是连续的,可以发现用户 user_id 对应的排序字段 rn 是连续的)
-- 利用 date_sub 将 login_date 与 rn 相减,可以得到“伪日期列-dt_uid”,可以发现不管是否间断,若连续登录,dt_uid 对应相同;
t1 as
(select user_id
, login_date
, row_number() over (partition by user_id order by login_date) as rn
, date_sub(login_date, interval row_number() over (partition by user_id order by login_date)day) as dt_uid
from t0),
-- 对 user_id 和 dt_uid 进行分组聚合,再使用 datediff 或者 count ,就可以得出每个 user_id 对应连续的“开始日期、结束日期和连续天数”。
t2 as
(select user_id
, dt_uid
, min(login_date) as consecutive_start_date
, max(login_date) as consecutive_end_date
, datediff(max(login_date), min(login_date)) + 1 as consecutive_days
, count(login_date) as consecutive_days1
from t1
group by user_id, dt_uid)
select user_id
from t2
group by user_id
having max(consecutive_days) >= 3;
########### 需求3:请用 SQL 查询2022年2月1日-2022年2月15日用户最长的连续登录天数。
-- 一天可能出现多次登陆,去重
with t0 as
(select distinct user_id, date(login_time) as login_date
from login_tb
where date(login_time) between '2022-02-01' and '2022-02-15'
),
-- 利用 row_number 对每个 user_id 登录日期进行升序排序,得到 rn 列(如果是连续的,可以发现用户 user_id 对应的排序字段 rn 是连续的)
-- 利用 date_sub 将 login_date 与 rn 相减,可以得到“伪日期列-dt_uid”,可以发现不管是否间断,若连续登录,dt_uid 对应相同;
t1 as
(select user_id
, login_date
, row_number() over (partition by user_id order by login_date) as rn
, date_sub(login_date, interval row_number() over (partition by user_id order by login_date)day) as dt_uid
from t0),
-- 对 user_id 和 dt_uid 进行分组聚合,再使用 datediff 或者 count ,就可以得出每个 user_id 对应连续的“开始日期、结束日期和连续天数”。
t2 as
(select user_id
, dt_uid
, min(login_date) as consecutive_start_date
, max(login_date) as consecutive_end_date
, datediff(max(login_date), min(login_date)) + 1 as consecutive_days
, count(login_date) as consecutive_days1
from t1
group by user_id, dt_uid)
select user_id
, max(consecutive_days) as consecutive_days_longest
from t2
group by user_id;
可以发现 需求1 只要在前面分析的思路上,稍微添加临时表汇总即可;需求3 只要在 需求1 基础上,临时表 t0 稍微添加日期范围条件即可;
方法二:利用错位窗口函数
- 可能出现多次登陆,对所需列去重复;
- 利用自连接和 lead 找出断点日期,即连续登录开始或者间断的初始日期(login_date_cr)和下次连续登陆的开始日期(login_date_nr),如果为 null 则给默认永久即 9999-12-31;
- 利用上一步得出的 结果, 将每个对应的用户 user_id 和 login_date 映射在
[login_date_cr, login_date_nr)
之间(注意 login_date_nr 是开区间),可以发现不管是否间断,若连续登录,用户的 login_date_cr 和 login_date_nr 对应相同;
- 对 user_id 、 login_date_cr 和 login_date_nr 进行分组聚合,再使用 datediff 或者 count ,就可以得出每个 user_id 对应连续的“开始日期、结束日期和连续天数”。
- 结合具体题目需求,添加筛选或稍微处理,基本上可以应对相关系列题目。
需求答案:
########### 需求1:请用 SQL 查询用户最长连续登陆天数。
-- 一天可能出现多次登陆,去重
with t0 as
(select distinct user_id, date(login_time) as login_date from login_tb),
-- 利用自连接和 lead 找出断点日期,即连续登录开始或者间断的初始日期,和下次连续登陆的开始日期,如果为 null 则给默认永久即 9999-12-31
t1 as
(select a.user_id
, a.login_date as login_date_cr
, lead(a.login_date, 1, '9999-12-31') over (partition by a.user_id order by a.login_date) as login_date_nr
from t0 as a
left join t0 as b
on a.user_id = b.user_id
and datediff(a.login_date, b.login_date) = 1
where b.login_date is null),
-- 利用上一步得出的 结果, 将每个对应的用户 user_id 和 login_date 映射在[login_date_cr, login_date_nr) 之间(注意 login_date_nr 是开区间)
-- ,可以发现不管是否间断,若连续登录,用户的 login_date_cr 和 login_date_nr 对应相同;
t2 as
(select t0.user_id, t0.login_date, t1.login_date_cr, t1.login_date_nr
from t0
left join t1
on t0.user_id = t1.user_id
and t0.login_date >= t1.login_date_cr
and t0.login_date < t1.login_date_nr),
-- 对 user_id 、 login_date_cr 和 login_date_nr 进行分组聚合,再使用 datediff 或者 count ,就可以得出每个 user_id 对应连续的“开始日期、结束日期和连续天数”。
t3 as
(select user_id
, login_date_cr
, login_date_nr
, min(login_date) as consecutive_start_date
, max(login_date) as consecutive_end_date
, datediff(max(login_date), min(login_date)) + 1 as consecutive_days
, count(login_date) as consecutive_days1
from t2
group by user_id, login_date_cr, login_date_nr)
select user_id
, max(consecutive_days) as consecutive_days_longest
from t3
group by user_id;
########### 需求2:请用 SQL 查询连续登陆不少于3天的用户。
-- 一天可能出现多次登陆,去重
with t0 as
(select distinct user_id, date(login_time) as login_date from login_tb),
-- 利用自连接和 lead 找出断点日期,即连续登录开始或者间断的初始日期,和下次连续登陆的开始日期,如果为 null 则给默认永久即 9999-12-31
t1 as
(select a.user_id
, a.login_date as login_date_cr
, lead(a.login_date, 1, '9999-12-31') over (partition by a.user_id order by a.login_date) as login_date_nr
from t0 as a
left join t0 as b
on a.user_id = b.user_id
and datediff(a.login_date, b.login_date) = 1
where b.login_date is null),
-- 利用上一步得出的 结果, 将每个对应的用户 user_id 和 login_date 映射在[login_date_cr, login_date_nr) 之间(注意 login_date_nr 是开区间)
-- ,可以发现不管是否间断,若连续登录,用户的 login_date_cr 和 login_date_nr 对应相同;
t2 as
(select t0.user_id, t0.login_date, t1.login_date_cr, t1.login_date_nr
from t0
left join t1
on t0.user_id = t1.user_id
and t0.login_date >= t1.login_date_cr
and t0.login_date < t1.login_date_nr),
-- 对 user_id 、 login_date_cr 和 login_date_nr 进行分组聚合,再使用 datediff 或者 count ,就可以得出每个 user_id 对应连续的“开始日期、结束日期和连续天数”。
t3 as
(select user_id
, login_date_cr
, login_date_nr
, min(login_date) as consecutive_start_date
, max(login_date) as consecutive_end_date
, datediff(max(login_date), min(login_date)) + 1 as consecutive_days
, count(login_date) as consecutive_days1
from t2
group by user_id, login_date_cr, login_date_nr)
select user_id
from t3
group by user_id
having max(consecutive_days) >= 3;
########### 需求3:请用 SQL 查询2022年2月1日-2022年2月15日用户最长的连续登录天数。
-- 一天可能出现多次登陆,去重
with t0 as
(select distinct user_id, date(login_time) as login_date
from login_tb
where date(login_time) between '2022-02-01' and '2022-02-15'),
-- 利用自连接和 lead 找出断点日期,即连续登录开始或者间断的初始日期,和下次连续登陆的开始日期,如果为 null 则给默认永久即 9999-12-31
t1 as
(select a.user_id
, a.login_date as login_date_cr
, lead(a.login_date, 1, '9999-12-31') over (partition by a.user_id order by a.login_date) as login_date_nr
from t0 as a
left join t0 as b
on a.user_id = b.user_id
and datediff(a.login_date, b.login_date) = 1
where b.login_date is null),
-- 利用上一步得出的结果, 将每个对应的用户 user_id 和 login_date 映射在[login_date_cr, login_date_nr) 之间(注意 login_date_nr 是开区间)
-- ,可以发现不管是否间断,若连续登录,用户的 login_date_cr 和 login_date_nr 对应相同;
t2 as
(select t0.user_id, t0.login_date, t1.login_date_cr, t1.login_date_nr
from t0
left join t1
on t0.user_id = t1.user_id
and t0.login_date >= t1.login_date_cr
and t0.login_date < t1.login_date_nr),
-- 对 user_id 、 login_date_cr 和 login_date_nr 进行分组聚合,再使用 datediff 或者 count ,就可以得出每个 user_id 对应连续的“开始日期、结束日期和连续天数”。
t3 as
(select user_id
, login_date_cr
, login_date_nr
, min(login_date) as consecutive_start_date
, max(login_date) as consecutive_end_date
, datediff(max(login_date), min(login_date)) + 1 as consecutive_days
, count(login_date) as consecutive_days1
from t2
group by user_id, login_date_cr, login_date_nr)
select user_id
, max(consecutive_days) as consecutive_days_longest
from t3
group by user_id;
通过两种方法可知,主要思路都是需要给用户连续登陆日期打上一个独有的分组标签
,只要解决了这个,问题就基本上解决了,方法有很多,有兴趣的同学可以自行探索,就个人而已,比较推荐方法一:利用排名窗口函数
,普遍适用于许多分析工具。
为了快速得到我们想要的结果,我们可能想到或者看到许多方法来解决需求2“请用 SQL 查询连续登陆不少于3天的用户”。如下图,通过 count 和 lead 开窗函数之间限定不少于3天两种方法。
再根据结果,嵌套子查询筛选不少于3天的用户,得到的结果似乎正确,我们再看看下面另外的情况。
如果我们将需求调整为“请用 SQL 查询连续登陆不少于6天的用户”。从数据查看,应该没有任何一个用户满足需求。继续沿用上面的代码逻辑,结果如下:
可以发现,用户 1106 将会被统计出来,我们知道用户 1106 是连续登陆 3 天,间断了 2 天,又接着连续登陆了 4 天,这显然存在问题,所以需要特别注意雷区“是否有连续、间断、再连续,间断是否需要统计等问题
”。
get 上面的分析思路和方法,我们来趁热打铁,做几道真题练练手~
经典真题
真题1:订单表(order),字段包含:订单(order_id)、商品(sku_id)、支付时间(paid_timestamp)、订单状态(order_status,支付成功为order_status=1)。
- 需求1:请用SQL实现“从今天往前算的最近180天内,支付成功记录的商品清单最长的连续下单天数“。
- 需求2:请用SQL实现”从今天往前算的最近180天内,连续30天有支付成功记录的商品清单。
难度等级:⭐️⭐️⭐️⭐️⭐️
答案:
########## 需求1
-- 一个商品一天可能被下单多次,限定需求范围查询
with t0 as
(select distinct sku_id, date(paid_timestamp) as paid_date
from order
where order_status = 1
and date(paid_timestamp) >= date_sub(curdate(),interval 180 day)
and date(paid_timestamp) <= curdate()
),
t1 as
(select sku_id
, paid_date
, row_number() over (partition by sku_id order by paid_date) as rn
, date_sub(paid_date, interval row_number() over (partition by sku_id order by paid_date)day) as dt_uid
from t0),
t2 as
(select sku_id
, dt_uid
, min(paid_date) as consecutive_start_date
, max(paid_date) as consecutive_end_date
, datediff(max(paid_date), min(paid_date)) + 1 as consecutive_days
, count(paid_date) as consecutive_days1
from t1
group by sku_id, dt_uid)
select sku_id
, max(consecutive_days) as consecutive_days_longest
from t2
group by sku_id;
########## 需求2
-- 一个商品一天可能被下单多次,限定需求范围查询
with t0 as
(select distinct sku_id, date(paid_timestamp) as paid_date
from order
where order_status = 1
and date(paid_timestamp) >= date_sub(curdate(),interval 180 day)
and date(paid_timestamp) <= curdate()
),
t1 as
(select sku_id
, paid_date
, row_number() over (partition by sku_id order by paid_date) as rn
, date_sub(paid_date, interval row_number() over (partition by sku_id order by paid_date)day) as dt_uid
from t0),
t2 as
(select sku_id
, dt_uid
, min(paid_date) as consecutive_start_date
, max(paid_date) as consecutive_end_date
, datediff(max(paid_date), min(paid_date)) + 1 as consecutive_days
, count(paid_date) as consecutive_days1
from t1
group by sku_id, dt_uid)
select sku_id
from t2
group by sku_id
having max(consecutive_days) >= 30;
真题2:用户签到表 user_sign_d 用来记录用户每日是否签到,包含以下字段:日期(sign_date:‘yyyy-mm-dd’)、用户ID(user_id)、当日是否签到(if_sign:1表示签到,0表示未签到)。
- 需求1:编写SQL查询,计算截止2022年1月31日最长连续签到打卡了多少天,输出结果包含 user_id 和 consecutive_sign_days。
- 需求2:编写SQL查询,计算2022年1月1日-2022年1月31日连续签到打卡超过 28 天的牛马🐮🐎(用户),连续打卡可间断,但间断不超过 2 天(周末)继续打卡有效,否则无效,比如打卡 5 天,间断 2 天,又连续打卡 5 天,则连续打卡视为连续登陆 12 天;打卡 5 天,间断 3 天,又连续打卡 5 天,则连续打卡视为连续登陆 5 天。
难度等级:⭐️⭐️⭐️⭐️⭐️
答案:
########## 需求1
-- 一个用户一天可能打卡多次,限定需求范围查询
with t0 as
(select distinct user_id, date(sign_date) as sign_date
from user_sign_d
where if_sign = 1
and date(sign_date) <= '2022-01-31'
),
t1 as
(select user_id
, sign_date
, row_number() over (partition by user_id order by sign_date) as rn
, date_sub(sign_date, interval row_number() over (partition by user_id order by sign_date)day) as dt_uid
from t0),
t2 as
(select user_id
, dt_uid
, min(sign_date) as consecutive_start_date
, max(sign_date) as consecutive_end_date
, datediff(max(sign_date), min(sign_date)) + 1 as consecutive_days
, count(sign_date) as consecutive_days1
from t1
group by user_id, dt_uid)
select user_id
, max(consecutive_days) as consecutive_days_longest
from t2
group by user_id;
########## 需求2
-- 一个用户一天可能打卡多次,限定需求范围查询
with t0 as
(select distinct user_id, date(sign_date) as sign_date
from user_sign_d
where if_sign = 1
and date(sign_date) >= '2022-01-01'
and date(sign_date) <= '2022-01-31'
),
-- 计算用户与上次次登陆日期差
t1 as
(select user_id
, sign_date
, lag(sign_date) over (partition by user_id order by sign_date) as lag_date
, datediff(sign_date, lag(sign_date) over (partition by user_id order by sign_date)) as days_gap
from t0),
-- 构造分组 uid:根据日期差 days_gap,判断是否连续,如果 days_gap <= 2,则认为连续,赋值 0,否则不连续,赋值 1
t2 as
(select user_id
, sign_date
, lag_date
, days_gap
, sum(if(days_gap <= 2, 0, 1)) over (partition by user_id order by sign_date) as dt_uid
from t1),
-- 对 user_id 和 dt_uid 进行分组聚合,再使用 datediff ,就可以得出每个 user_id 对应连续的“开始日期、结束日期和连续天数”。
t3 as
(select user_id
, dt_uid
, min(sign_date) as consecutive_start_date
, max(sign_date) as consecutive_end_date
, datediff(max(sign_date), min(sign_date)) + 1 as consecutive_days
from t2
group by user_id, dt_uid)
select user_id
from t3
group by user_id
having max(consecutive_days) >= 28;
主要思路:
对用户连续日期构造分组 dt_uid,再进行分组聚合。
如果对 SQL 开窗函数不太熟悉,可以参照 Mysql 开窗函数,一文带你直接通关,结合里面的简单示例进行实操多练习,查看得出结果并理解,希望会对你有帮助。
如果有新的思路和灵感,欢迎留言👏