内容导航
类别 | 内容导航 |
---|---|
机器学习 | 机器学习算法应用场景与评价指标 |
机器学习算法—分类 | |
机器学习算法—回归 | |
机器学习算法—聚类 | |
机器学习算法—异常检测 | |
机器学习算法—时间序列 | |
数据可视化 | 数据可视化—折线图 |
数据可视化—箱线图 | |
数据可视化—柱状图 | |
数据可视化—饼图、环形图、雷达图 | |
统计学检验 | 箱线图筛选异常值 |
3 Sigma原则筛选离群值 | |
Python统计学检验 | |
大数据 | PySpark大数据处理详细教程 |
使用教程 | CentOS服务器搭建Miniconda环境 |
Linux服务器配置免密SSH | |
大数据集群缓存清理 | |
面试题整理 | 面试题—机器学习算法 |
面试题—推荐系统 |
前驱记录
为了在 SQL 查询中按特定列对数据进行分区,可以在窗口函数中使用 PARTITION BY 子句。这通常用于在执行窗口函数(如 LAG)时在某些列的值上创建数据的分区。例如,如果您想按 _distinct_id 分区数据,然后在每个分区内找到符合特定条件的记录的前一条记录,可以这样做:
WITH ExtendedTable AS (
SELECT
_distinct_id,
_part_event,
plat_id,
_event_time,
exception_type,
_kudu_pt,
LAG(_part_event) OVER (PARTITION BY _distinct_id ORDER BY _event_time) AS prev_part_event
FROM
YourTable
WHERE
_kudu_pt >= 20231115 AND _kudu_pt < 20231201
)
SELECT
COUNT(*) AS TotalCount
FROM
ExtendedTable
WHERE
_part_event = 'app_exception' AND exception_type = 7
AND
(
prev_part_event LIKE 'dbt_ad%' OR
prev_part_event LIKE 'video%' OR
prev_part_event LIKE 'ad%' OR
prev_part_event LIKE 'Ad%' OR
prev_part_event LIKE 'insert%' OR
prev_part_event LIKE 'inters%'
)
在这个例子中:
LAG(_part_event) OVER (PARTITION BY _distinct_id ORDER BY _event_time):此窗口函数首先按 _distinct_id 列对数据进行分区,然后在每个分区内按 _event_time 排序,从而为每条记录计算 prev_part_event。
这意味着 LAG() 函数是在每个 _distinct_id 分区内独立计算的。
请确保将 _distinct_id 替换为您实际想要用作分区依据的列名。这种方法允许您在每个分区(例如,每个用户或每个设备)内单独跟踪事件序列。
后驱记录
要查找满足特定条件(例如 _part_event = ‘app_exception’ AND exception_type = 7)的记录的后一条记录,您可以使用窗口函数 LEAD()。与 LAG() 类似,LEAD() 用于访问当前行之后的行中的数据。在您的场景中,我们将使用 LEAD() 来获取每条记录后面的 _part_event 值,然后筛选出满足您指定条件的记录。
以下是相应的 SQL 查询:
WITH ExtendedTable AS (
SELECT
_distinct_id,
_part_event,
plat_id,
_event_time,
exception_type,
_kudu_pt,
LEAD(_part_event) OVER (PARTITION BY _distinct_id ORDER BY _event_time) AS next_part_event
FROM
YourTable
WHERE
_kudu_pt >= 20231115 AND _kudu_pt < 20231201
)
SELECT
COUNT(*) AS TotalCount
FROM
ExtendedTable
WHERE
_part_event = 'app_exception' AND exception_type = 7
AND
(
next_part_event LIKE 'dbt_ad%' OR
next_part_event LIKE 'video%' OR
next_part_event LIKE 'ad%' OR
next_part_event LIKE 'Ad%' OR
next_part_event LIKE 'insert%' OR
next_part_event LIKE 'inters%'
)
在此查询中:
LEAD(_part_event) OVER (PARTITION BY _distinct_id ORDER BY _event_time) 用于在 _distinct_id 分区内按 _event_time 排序后,获取每条记录后面的 _part_event 值。
最后,查询从 ExtendedTable 中选择那些满足 _part_event = ‘app_exception’ AND exception_type = 7 条件的记录,并且它们的下一条记录的 _part_event 符合您指定的模式。
这个查询将返回在指定时间段内,满足 _part_event = ‘app_exception’ AND exception_type = 7 条件的记录的数量,且它们的后一条记录符合特定的 _part_event 模式。
友情提示:如果你觉得这个博客对你有帮助,请点赞、评论和分享吧!如果你有任何问题或建议,也欢迎在评论区留言哦!!!