题目:
查询所有选修"英语"的学生成绩与前一名的分数差距,按照成绩降序排序。
针对以上需求,有两种做法
1.使用lag函数
lag()函数,取当前行的上一列,用法是lag(列,往上取的行数,填充值),如lag(score, 1, 0)
表示取score这一列当前行的上一行作为新的一行,若超出窗口范围,则给值为0
lag(score,1,0) over(order by score desc) lag_score
1.取上一行的分数
select
name,
subject,
score,
lag(score,1,0) over(order by score desc) lag_score
from default.score
where subject = '英语'
2.将两个分数相减
考虑到第一名同学没有上一行数据,给予0
if(lag_score - score > 0, lag_score - score, 0) score_diff
3.最终SQL
select
name,
score,
lag_score,
if(lag_score - score > 0, lag_score - score, 0) score_diff
from
(
select
name,
subject,
score,
lag(score,1,0) over(order by score desc) lag_score
from default.score
where subject = '英语'
)t1
2.使用排名函数row_number来解决
思路:
问题:排名总数会减少?
rank()函数在进行排名时,值相同,总数排名会跳过,这样在进行关联时,等号左右两边关联不上,数据减少。
所以这里使用row_number()进行排名,分数相同,排名顺序递增。
1.取当前学生的分数排名
使用with表达式,很好的提高了SQL复用性
这里将排名存储在虚表中,避免二次查询。
with RankScore as (
select
name,
subject,
score,
-- 使用rank()导致排名减少,造成关联不上
row_number() over(partition by subject order by score desc) rk
from default.score
where subject = '英语'
)
2. 关联该同学的排名与他的上一名排名, 将当前排名 = 上一行排名 + 1, 差值为1,即为本行与上一行
select
from RankScore a
-- 当前名与上一名学生的差距。
join RankScore b on a.rk = b.rk + 1
order by a.score desc
3. 使用当前行分数-上一行分数,得到分差
select
a.name,
a.subject,
a.score,
a.score - b.score as score_diff
from RankScore a
-- 当前名与上一名学生的差距。
join RankScore b on a.rk = b.rk + 1
order by a.score desc
4.最终SQL
with RankScore as (
select
name,
subject,
score,
-- 使用rank()导致排名减少,造成关联不上
row_number() over(partition by subject order by score desc) rk
from default.score
where subject = '英语'
)
select
a.name,
a.subject,
a.score,
a.score - b.score as score_diff
from RankScore a
-- 当前名与上一名学生的差距。
join RankScore b on a.rk = b.rk + 1
order by a.score desc
通过这道题,我们学习了排名函数、虚拟表的使用。