一个月50场面试,跑的慢就抢在别人前面!

news2024/12/27 10:24:02

f4e95a0b6e8128e145e50f5d04adeac9.png300万字!全网最全大数据学习面试社区等你来!

今天的主人公也是一个应届生新人拿到满意offer的案例。

下面是一些聊天记录和面经,这名同学做的非常好的一个点,他把个人项目中的所用到的技术栈和项目具体的业务流程图以及用到的技术难点都做了总结。

1. Offer情况

从3月底到4月底,共接到约50次面试,很多面试官表达了简历写的很不错。

e9bcac888b6c5e9beeb08fc2070963a6.png

需要提醒的一点,现在的招聘和以前不一样,每个面试都要认真对待,不能存在"试一试"的心理,尤其是中大厂/大的甲方平台的面试机会。

2.一些面经

应该同学要求,公司做了隐藏处理。大部分技术点都可以在知识星球找到。

某头部大厂

一面
1. Yarn中的资源调度模型
2. MapReduce的工作流程
3. Hive中的小文件如何处理
4. 离线数仓业务中的数据是如何采集的,业务数据与行为数据分别存放在哪里,这些原始数据存储之后如何处理
5. 业务开发的时候拉链表
6. 从云平台拉取数据到Hive中需要注意什么
7. 最终模型的粒度
8. 主流数据库了解哪些

二面
1. LeetCode原题:有效的电话号码、三数之和
2. DataStream API介绍
3. 实时集成:实时数据如何实现数据实时对账,如何通过数据自动化修复来保证数据一致性
4. 内部某个环节导致程序短暂中断(但是并不是由于数据源导致的数据中断),然后将程序改正确之后如何保证数据一致性
5. 如何确保实时程序运行过程中没有丢失数据或者漏掉数据的,如何识别
6. 如果有丢失数据的情况是如何补救数据的
7. Java多线程
8. Hbase的rowkey设计原则,项目中如何设计
9. Hbase的版本控制如何控制
10. Spark数据倾斜如何解决
11. ClickHouse的优缺点
12. 项目调试Shell脚本用什么参数,500行的shell脚本,一段一段进行调试该怎么调试
13. Shell脚本如何进行后台调用

深圳某大厂

1. 介绍一下自己的项目经历
2. 数仓分层和星型模型和雪花模型
3. 传统的维度建模如何做
4. 实时数仓项目介绍,流关联类型,广播流?
5. CheckPoint的原理和作用,项目中的配置
6. 自定义算子实现EOS语义
7. 任务挂掉之后如何找到对应的checkpoint
8. Flink CDC有用过吗
9. MySQL的数据同步使用Flink CDC会吗
10. Flink CDC的实现原理
11. MySQL的Binlog被清理之后该如何做Flink CDC全量的处理
12. Flink的会话窗口使用过吗,一般用在哪种业务场景下
13. 滑动窗口、滚动窗口、会话窗口的区别是什么
14. Flink的CEP用过吗,是用来干什么的呢
15. 项目处理的量级,对应的集群规模,这个规模是一个集群管理呢还是多个集群管理
16. 开发的时候遇到过哪些问题吗,技术上的问题
17. 有了解过一些新版Flink的特性吗

某科技公司

一面
1. 自我介绍
2. HDFS的读写原理
3. Hive的内部表和外部表的区别
4. Hive的引擎有哪些
5. MapReduce与Spark的区别
6. Spark中的宽依赖和窄依赖有什么区别
7. Kafka如何保证数据一致性的
8. Kafka本主题在生产数据,Flink在消费数据,有的Flink消费快,有的Flink消费慢,有什么办法去检查这个A、B、C、D四个消费者的消费情况
9. Hbase中写入数据的方式
10. Kafka的数据通过Flink SQL写入到Hive中如何写入
11. Flink的水位线主要解决什么问题的
12. Hive的调优有什么思路吗
13. Java中重载和重写的区别是什么
14. Java中继承和多态的特点
15. 往shell脚本中传入两个参数怎么传
16. shell脚本中写个死循环如何实现:每个五秒钟,打印一句话
17. Linux如何查看CPU的使用率

二面
1. 项目的架构
2. Kafka的基本问题:Kafka的理解,Kafka的问题是变相问的,不是直接问的,Kafka的性能瓶颈,cpu、memory、disk三方面来讨论
3. Hbase的读写流程
4. Hbase的大合并与小合并的区别
5. Hbase的大合并与小合并对应的触发机制、对应的粒度
6. 批量处理之类的脚本会写吗
7. 会经常操作Linux吗,经常操作的Linux的指令对应的功能是什么
8. 如何查看端口的占用情况
9. 知道AWK是什么指令吗
10. 查看CPU的命令还有印象吗
11. 有处理过一些平台级别的故障吗

某科技公司2

1. 自我介绍
2. Flink的四大基石了解吗
3. 讲一下Flink的watermark机制
4. 了解窗口的触发器嘛Trigger
5. Trigger和watermark之间是有什么区别的呢
6. Kafka到Flink的端到端精准一次是怎么实现的
7. Flink的状态过期如何处理
8. 计算一个商品的营业额,10秒一次进行更新
10. 乱序迟到数据的三种解决方法
11. Flink的提交方式有哪些
12. Kafka的分区策略有哪些
13. Kafka的AR、ISR、OSR
14. 什么情况下ISR中的follower会放到OSR中
15. ClickHouse为什么查询速度快
16. Spark的性能调优
17. Hive的数据倾斜
18. Hive的分区分桶机制
19. Hbase的读写流程
20. Hbase的数据热点问题如何解决
21. HDFS的架构了解吗
22. Hadoop的高可用是怎么实现的
23. Java的多线程
24. Java的锁机制,悲观锁、乐观锁、轻量级锁、重量级锁
25. Java Spring MVC的运行流程
26. 进程相关的Linux命令
27. 网络传输协议的七层
28. udp与tcp的区别
29. tcp/ip协议
30. http协议
31. 二叉树——如何查询二叉树的高度
32. 给一个数组实现一个循环的链表
33. 项目中的计算链路
34. 各个项目中Kafka的峰值数据
35. 实时故障告警中涉及到的告警字段有哪些印象深刻的
36. 实时级别是秒级还是分钟级

某信息公司

1. Flink运行在哪儿,Yarn还是k8s上
2. Flink提交任务都是使用的什么模式,Session、Per-Job、Application这三种模式之间的区别是什么
3. Flink有什么机制能够保证在消费Kafka数据的时候不会造成数据丢失和数据重复
4. ClickHouse中的表引擎使用的是哪种,为什么这么选择
5. Kafka->Flink->Kafka->Flink->ClickHouse是如何实现端到端的Eos
6. Flink中的Checkpoint的原理
7. Flink任务的并行度如何做优化和调整的,Source端怎么考虑,Transform端怎么考虑,或者可以通过哪些指标来进行判断吗,判断哪些并行度设置大了或者设置小了
8. Flink反压的优化,如何解决反压
9. Flink数据倾斜的优化,如何解决数据倾斜,什么时候会出现数据倾斜
10. Flink中两个比较大的数据量的流进行join需要考虑什么
在使用Union对侧输出迟到的数据以及合并后的数据再进行合并时还会造成数据丢失吗,会对程序的时效性造成影响吗
11. ClickHouse这种OLAP型引擎为什么查询速度快
12. 其他的OLAP型引擎了解过吗,比如doris或者stackRocks
13. Flink是运行在Yarn上的,那么Yarn集群或者底层的HDFS组件出现过什么问题吗,会由于底层的故障导致Flink任务的失败吗
14. 在使用Redis当作Hbase的二级缓存来实现Flink对应任务的这个场景下,为什么考虑Redis当作二级缓存,有考虑过Flink本身的缓存机制吗
15. 维度建模的方法,事实表和维度表的设计有了解过吗
16. 维度表的一些属性需要不需要冗余到事实表中,哪些需要冗余到事实表,哪些需要在做具体查询的时候做一个关联有考虑过吗

3. 重磅个人项目总结

这个同学自己总结了一个文档,文档时个人项目的总结和面试点。包括:业务知识、架构图、项目流程图、项目中的集群数据规模、开发中遇到的技术问题等等。

我个人非常建议这样的做法,项目面试占整个面试的至少50%,一个详细的总结非常有必要。下面是一些截图。

f21d689c6d753ef6444f3c2045203859.png

还有一些项目中遇到的知识点汇总:

7b9dd3c51452eb2ca874ea36c777e622.png

4. 总结

我在跟这个同学一对一聊简历的时候的明显感觉:

  1. 该同学各个方面的背景并不是十分突出,不是名校,项目也没有很复杂,但是为找工作做了充足的准备,包括项目中的难点梳理和可能遇到的面试问题,所有工作都做在了前面。

  2. 目标非常明确,行动力强。愿意花时间去研究项目用到的技术栈和原理。根据建议去对应的技术模块下整理知识点。

大家加油吧!

如果这个文章对你有帮助,不要忘记 「在看」 「点赞」 「收藏」 三连啊喂!

8362d54d526a834eda5133ca6fd5cb6d.png

c3374a7d0df7b74d12cfcd3770387dc8.jpeg

2022年全网首发|大数据专家级技能模型与学习指南(胜天半子篇)

互联网最坏的时代可能真的来了

我在B站读大学,大数据专业

我们在学习Flink的时候,到底在学习什么?

193篇文章暴揍Flink,这个合集你需要关注一下

Flink生产环境TOP难题与优化,阿里巴巴藏经阁YYDS

Flink CDC我吃定了耶稣也留不住他!| Flink CDC线上问题小盘点

我们在学习Spark的时候,到底在学习什么?

在所有Spark模块中,我愿称SparkSQL为最强!

硬刚Hive | 4万字基础调优面试小总结

数据治理方法论和实践小百科全书

标签体系下的用户画像建设小指南

4万字长文 | ClickHouse基础&实践&调优全视角解析

【面试&个人成长】2021年过半,社招和校招的经验之谈

大数据方向另一个十年开启 |《硬刚系列》第一版完结

我写过的关于成长/面试/职场进阶的文章

当我们在学习Hive的时候在学习什么?「硬刚Hive续集」

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/547094.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2年再见面

我和张哥是在两年前吃过饭,那时候我是在大学城上班。 两年前,张哥在微信上跟我说话,说要来深圳找我,问我什么时间方便,请我吃个便饭。两年前,公众号还比较火热。有挺多人找我做事情,找我做事情之…

桥梁安全监测,智能化桥梁结构健康监测方案

桥梁是现代城市交通网络中不可或缺的组成部分,但由于长期受到自然环境和人为因素的影响,桥梁的安全问题一直备受关注。传统的桥梁检测方式主要是靠人力进行巡查,这种方式效率低下、成本高,而且难以全面掌握桥梁结构的真实情况。随…

回顾 | Let's Learn .NET-通过 Semantic Kernel .NET SDK 管理你的 OpenAI 项目

点击蓝字 关注我们 编辑:Alan Wang 排版:Rani Sun Lets Learn .NET 系列 “Lets Learn .NET” 是面向全球的 .NET 初学者学习系列,旨在通过不同语言,帮助不同地区的开发者掌握最新的 .NET 开发知识与技能。 在 ChatGPT 与 OpenAI…

从零玩转设计模式之简单工厂设计模式-jiandangonchangmoshi

title: 从零玩转设计模式之简单工厂设计模式 date: 2022-12-08 11:31:19.472 updated: 2022-12-11 23:03:34.805 url: https://www.yby6.com/archives/jiandangonchangmoshi categories: - 设计模式 tags: - 设计模式 简单工厂模式是一种创建型设计模式,用于创建单…

Docker安装MinIO教程

本章教程,主要介绍一下,如何在Linux用Docker安装MinIO。 MinIO是一个高性能、分布式对象存储系统,支持S3 API,适用于云原生环境。MinIO可以在标准硬件上运行,并且具有低延迟、高吞吐量、高可用性和可扩展性等优势。Min…

C语言两百行代码实现简易扫雷

文章目录 前言一.代码实现二.设计思路main()函数搭建框架reset ( )函数dis_play( )函数setmine( )函数player_move( )函数 前言 扫雷应该是我们接触到的第一个电脑游戏,用c语言实现扫雷对初学者来说是一个不错的锻炼 编写扫雷只需要用到数组、函数和生成随机数的知…

Java文件与IO流

首先我们要清楚什么是流,正如其名,很形象,流就是像水一样的东西,具有方向性,在java中 ,流大概就是类 接下来,我们要对输入输出流有一个基本认识,什么是输入输出流呢? 输入…

漏斗分析、 python学习路径地图、数据科学技能书知识地图、数据安全治理解决方案、AIGC发展研究、经营的本质…| 本周精华...

▲点击上方卡片关注我,回复“8”,加入数据分析领地,一起学习数据分析,持续更新数据分析学习路径相关资料~(精彩数据观点、学习资料、数据课程分享、读书会、分享会等你一起来乘风破浪~)回复“小飞象”&…

【计算机组成原理】(四)原码补码的加减乘除

各种码的作用: 模运算的性质: -3(-1)*129 90*129 211*129 332*129 -15(-2)*129 我们发现等号右边都是9,相当于等号的左边的数除去12的余数都是9 那我们就说这几个等好左边的数&#xff0…

从零玩转设计模式之原型模式-yuanxingmoshi

title: 从零玩转设计模式之原型模式 date: 2022-12-11 20:05:35.488 updated: 2022-12-23 15:35:44.159 url: https://www.yby6.com/archives/yuanxingmoshi categories: - 设计模式 tags: - 设计模式 - 原型模式 什么是原型模式设计模式? 原型模式是一种软件设计模式&#…

【Rust 日报】2023-05-19 Bevy主分支添加了对WebGPU的支持

cascade-protocol Rust实现的 Cascade information reconciliation protocol for Quantum Key Distribution (QKD) 量子键分布?好像是密码学相关的。 隔行如隔山,小编也不懂这个具体是干啥的。感兴趣的同学可以前去研究。 https://github.com/gftea/casc…

SSR 应用与原 CSR 应用变更同步问题实践

在上一篇介绍《天猫汽车商详页的SSR改造实践》一文中提到过,为免影响线上应用,我们的一体化应用(后面简称称 SSR 应用)是在原 CSR 项目基础上另起的应用仓库。 背景 当商详业务有新需求迭代,CSR 仓库发生了变化&#x…

Java基础学习(18)反射、动态代理

Java基础学习 一、反射1.1 什么是反射1.2 获取class对象 二、综合练习2.1 保存信息2.2 文件的动态创建 三、动态代理3.1 什么是动态代理3.2 创建代理 一、反射 1.1 什么是反射 反射允许对封装类的字段,方法和构造函数的信息进行编程访问 个人理解: 就是…

【JVM】5. 本地方法接口和本地方法栈

文章目录 5.1. 什么是本地方法?5.2. 为什么使用Native Method?5.3. 本地方法栈 5.1. 什么是本地方法? 简单地讲,一个Native Method是一个Java调用非Java代码的接囗。一个Native Method是这样一个Java方法:该方法的实现…

【007】C++数据类型之原码、补码、反码

C数据类型之原码、补码、反码 引言一、原码、补码、反码的概述二、为什么要使用补码?三、对数据的存四、对数据的取总结 引言 💡 作者简介:专注于C/C高性能程序设计和开发,理论与代码实践结合,让世界没有难学的技术。包…

KingbaseES V8R3 集群运维案例--sys_rewind恢复备库节点

​ 案例说明: 在KingbaseES V8R3集群执行failover切换后,原主库被人为误(未配置recovery.conf)启动;或者人为promote备库为主库后。需要将操作节点再重新加入集群,此时节点与主库的timeline将出现分叉,导致节点直接加入…

ChatGLM-6B 本地部署指南!

Datawhale干货 作者:宋志学,Datawhale成员 注意事项-写在最前 显卡需要至少6GB的显存使用GPU部署模型需要自行安装torch和与自己显卡匹配的CUDA、cudnn 下载ChatGLM-6B 在GitHub上下载chatglm-6b的源码,地址如下 https://github.com/THUDM/C…

信息安全-应用安全-SCA技术:SBOM应用实践初探

目录 软件供应链安全治理 供应链安全概述 风险治理重点 何为SBOM SBOM的元素 SBOM的格式 SBOM使用场景 如何使用SBOM 选择SBOM工具 SBOM与风险情报关联 围绕SBOM建立管理流程 关于SBOM的思考 现代软件都是组装的而非纯自研。随着开源组件在数字化应用中的使用比例越…

【C++】运算符重载与赋值运算符重载(显式与默认)的特性与格式以及前置++,后置++重载

文章目录 前言一、运算符重载二、赋值运算符重载1. 赋值运算符重载格式:2. 用户没有显式实现时,编译器会生成一个默认赋值运算符重载,以值的方式逐字节拷贝。3. 赋值运算符只能重载成类的成员函数不能重载成全局函数 三、前置与后置 前言 C为…

【Linux】Linux小程序-进度条

目录 一、\r和\n的理解 二、行缓冲区概念 三、进度条源代码 一、\r和\n的理解 \r:回车; \n:换行; 那么请问这两个有什么区别呢? 比如:我们在编写内容的时候,一行没有写完的情况下,需…