效率真高！众安保险数据分析岗（实习）面试通过了，分享一下面试经验！

最近，我们社群组织了一场技术&面试讨论会，邀请了一些互联网大厂同学、参加社招和校招面试的同学，针对新手如何入门数据分析、机器学习算法、该如何备战、面试常考点分享等热门话题进行了深入的讨论。

基于社群的讨论，今天我整理了一个同学的面试题，分享给大家，希望对后续找工作的有所帮助。喜欢记得点赞、收藏、关注。更多技术交流&面经学习，可以文末加入我们交流群。

今天面了众安保险的数据分析岗，感觉很顺利，但是拢共就面了20min，还是有点没底

更新一下：过啦，当天下午三点面五点就通知通过了！！效率真高。

面试流程：

自我介绍
过去实习中影响最深刻的一个项目
两个简单的SQL，口述就行

部门表（员工姓名、部门、薪资）取出每个部门的最高薪资、平均薪资、总薪资

用户表（用户id、登陆时间）取出每天每个用户第二次登录的记录（我用窗口函数做的）
给我介绍了一下公司业务、部门构成、以及实习生的日常工作
反问

面试很简单，面试前做了一些准备也附上：

sql的执行顺序

FROM - ON - JOIN - WHERE - GROUP BY - WITH - HAVING - SELECT - DISTINCT - ORDER BY - LIMIT

在 SQL 中，查询语句的执行顺序通常是按照以下步骤进行的：

FROM：首先，从指定的表（或视图）中获取数据，这是查询的基本数据源。

WHERE：然后，根据 WHERE 子句中的条件筛选出满足条件的行。

GROUP BY：如果查询包含 GROUP BY 子句，则将结果按照指定的列进行分组。

HAVING：在分组后，根据 HAVING 子句中的条件筛选出满足条件的分组。HAVING 子句可以被认为是 WHERE 子句针对分组后的结果的过滤器。

SELECT：选择要检索的列，并且对数据进行计算、转换等操作。

DISTINCT：如果查询包含 DISTINCT 关键字，则去除结果集中重复的行。

ORDER BY：按照指定的列对结果集进行排序。

LIMIT / OFFSET：如果使用了 LIMIT 或 OFFSET 子句，最后根据这些子句来限制结果集的大小或移动结果集的起始位置。
需要注意的是，虽然这是一般情况下的执行顺序，但在实际执行过程中，数据库系统可能会对查询进行优化和重排，以提高性能。
表连接方式有哪些及其区别？

在 SQL 中，连接是用于联合两个或多个表的操作，以便获取相关的数据。有几种连接方式，主要包括 INNER JOIN、LEFT JOIN（或 LEFT OUTER JOIN）、RIGHT JOIN（或 RIGHT OUTER JOIN）和 FULL JOIN（或 FULL OUTER JOIN）。以下是它们的主要区别：

INNER JOIN:INNER JOIN 返回两个表中符合连接条件的行。如果某一行在其中一个表中没有匹配行，则该行不会包含在结果中。

LEFT JOIN (或 LEFT OUTER JOIN):LEFT JOIN 返回左表中的所有行，以及右表中符合连接条件的行。如果在右表中没有匹配的行，则结果集中右侧的列将包含 NULL 值。

RIGHT JOIN (或 RIGHT OUTER JOIN):RIGHT JOIN 返回右表中的所有行，以及左表中符合连接条件的行。如果在左表中没有匹配的行，则结果集中左侧的列将包含 NULL 值。

FULL JOIN (或 FULL OUTER JOIN):FULL JOIN 返回左右两个表中的所有行，如果在其中一个表中没有匹配的行，则另一个表中对应的列将包含 NULL 值。

在实际应用中，选择连接方式取决于你需要的结果。如果你只想获取两个表中匹配的行，可以使用 INNER JOIN。如果你想保留左表中的所有行，并且将右表中匹配的行加入，可以使用 LEFT JOIN。同样，RIGHT JOIN 是保留右表中的所有行，而 FULL JOIN 保留两个表中的所有行。

连接操作可以根据数据之间的关系和业务需求来选择，因此了解不同连接方式的特点对于写出准确的 SQL 查询语句是很重要的。
sql题，表A和表B，a.id = b.id ，保留两表的所有字段，用哪种连接方式？若没有共同的字段，用什么连接？union 和 union all的区别？

在MySQL中，FULL JOIN语法是不支持的，但你可以通过使用LEFT JOIN和RIGHT JOIN的组合来模拟FULL JOIN的效果。FULL JOIN可以获取左表和右表中的所有行，并将它们组合在一起，缺失的值用NULL填充。这在MySQL中可以通过UNION和LEFT JOIN以及RIGHT JOIN来实现。以下是一个示例：

sqlCopy codeSELECT *
FROM tableA
LEFT JOIN tableB ON tableA.id = tableB.id
UNION
SELECT *
FROM tableA
RIGHT JOIN tableB ON tableA.id = tableB.id

这个查询首先使用LEFT JOIN从tableA获取所有行，然后使用UNION操作符将结果与RIGHT JOIN从tableB获取的所有行组合在一起。这样就模拟了FULL JOIN的效果。需要注意的是，UNION会自动去除重复的行，如果需要保留所有行，则可以使用UNION ALL。

如果没有共同的字段，你可以使用CROSS JOIN连接方式。CROSS JOIN会返回两个表的笛卡尔积，即两个表的所有可能组合。

sqlCopy codeSELECT *
FROM tableA
CROSS JOIN tableB;
但请注意，CROSS JOIN会返回非常大的结果集，特别是当两个表都很大时，它可能会导致性能问题。因此，在使用CROSS JOIN时，务必要仔细考虑数据量的大小和性能影响。

union与union all的区别在于，union 进行去重，而union all不去重
sql去重方式有哪些？

在SQL中，有几种不同的方法可以去重，具体取决于你的数据和需要。以下是一些常见的去重方式：

DISTINCT关键字：使用SELECT语句与DISTINCT关键字一起，可以从结果集中去除重复的行。

GROUP BY子句：使用GROUP BY子句，将相同的值聚合到一起，并且可以结合聚合函数如COUNT、SUM等使用。
使用子查询：通过在SELECT语句中使用子查询，可以选择不重复的行。

使用ROW_NUMBER()窗口函数：使用ROW_NUMBER()函数可以为每一行分配一个唯一的数字，然后可以根据这个数字过滤出不重复的行。

使用UNION或UNION ALL操作符：如果你有两个或多个表，想要将它们的结果合并并去重，可以使用UNION或UNION ALL操作符。UNION会自动去除重复的行，而UNION ALL会保留所有行。

这些是一些SQL中常见的去重方式，选择合适的方法取决于你的数据结构、需求和性能考虑。
窗口函数有哪些

窗口函数（Window Functions）是一种SQL中强大的工具，用于在查询结果集中执行聚合、分析和计算操作。下面是一些常见的窗口函数：

ROW_NUMBER()：为结果集中的每一行分配一个唯一的数字。

RANK()：为结果集中的每一行分配一个排名，相同的值将获得相同的排名，但是会跳过相同排名数量。

DENSE_RANK()：与RANK()类似，但是不会跳过相同排名数量，排名是连续的。

NTILE(n)：将结果集划分为n个相等大小的桶，并为每个桶中的行分配一个桶号。

LEAD(column, offset, default)：获取当前行之后第offset个行的值。

LAG(column, offset, default)：获取当前行之前第offset个行的值。

FIRST_VALUE(column)：获取分组中第一行的指定列的值。

LAST_VALUE(column)：获取分组中最后一行的指定列的值。

SUM(), AVG(), COUNT(), MIN(), MAX()：这些聚合函数也可以用作窗口函数，用于在窗口内执行聚合操作而不是整个结果集。

PERCENT_RANK()：为结果集中的每一行计算百分比排名。

CUME_DIST()：计算当前行在整个分组中的累积分布百分比。

PERCENTILE_CONT()：计算分组中指定百分位数的近似值。

LAG() OVER (PARTITION BY … ORDER BY …)：在指定分区内根据指定顺序获取前一行的值。

LEAD() OVER (PARTITION BY … ORDER BY …)：在指定分区内根据指定顺序获取后一行的值。

这些窗口函数可以在SELECT语句的SELECT列表、ORDER BY子句和GROUP BY子句中使用，并且通常与OVER子句一起使用，以定义窗口的边界和排序规则。窗口函数提供了强大的功能，可以在查询结果中进行复杂的分析和处理。