数据开发的简历及面试

简历

个人信息: 邮箱别写QQ邮箱, 写126邮箱/189邮箱等

学历>>本科及以上写,大专及以下不写

专业>>非计算机专业不写

政治面貌>>党员写, 群众不用写

掌握的技能: 精通 > 熟悉 > 了解

专业工具: 大数据相关的

公司: 如果没有可以写的>>金融服务外包公司的中小型公司; 地方性银行

外包公司: 业务范围写有技术服务的

工作经历: 从最近的一份工作往回写, 最近的一份工作一年以上

工作经验: 1-3年初级,4年中级,5年及以上高级

项目经验: 工作2-4年的, 3个或以上; 同一家公司的项目跨度别太大; 最后一个项目最好写银行项目,因为银行项目多

项目: 从最近的项目开始往回写; 项目内容包括项目介绍, 个人职责 ;把一个项目重点准备, 了解第二个项目,其他项目可以说时间隔得比较久,记不太清楚了.

简历风格: 简约不花哨

优点:

具备良好的定位问题及解决问题的能力

具备较强的学习能力,能快速学习新的技术

具备良好的沟通能力,

简历模板:

创客贴-做图做视频必备_会打字就能做设计，商用有版权

中文简历（免费下载 | word可编辑）- 简历模板资源网

面试

个人介绍:

问候语(你好) + 我是(个人信息) + 技能(简要介绍) + 数据开发经验 +突出闪光 + 着重介绍自己的最近一个项目(要说写简历上没有写的更具体一些的信息) + 结束语(以上就是我的大体情况)

面试官: 平常使用什么ETL工具抽取数据?

sqoop

(银行项目数据抽取尽量不用Kettle>>之前发生过数据泄密>>使用sqoop等ETL工具)

面试官: 数仓调度用什么工具?

sqoop(ETL工具)

面试官: 项目有多少层?每个项目层的是什么?

面试官: 关系型数据库(比如oracle)和hive的区别?

1.存储格式的区别

关系型数据库: 数据存储格式是数据库内部实现的，用户通常无法直接访问底层文件格式

hive: 数据存储格式由用户选择>>文本格式(默认), 序列化格式(SequenceFile), 列式存储格式(如Parquet和ORC)

2.计算引擎不同:

Oracle数据库的计算引擎通常指的是其内部用于执行SQL查询和数据操作的组件,包括:

hive: 支持3种引擎, MapReduce、Tez和Spark, 默认的计算引擎是MapReduce

3.应用:

关系型数据库: 适用于需要事务处理、实时查询和数据完整性的场景（OLTP）面向企业日常运营的增删改查,企业必然会有

hive: 适合数据分析大规模数据集, (OLAP), 只有查和分析

4.查询性能

关系型数据库较快; hive较慢

5.事务支持

关系型数据库: 支持ACID（原子性、一致性、隔离性、持久性）事务

hive:不支持ACID事务，主要用于批量处理和分析

面试官: shell循环方式有多少呢?

for循环; while循环; untill循环(取反值)

面试官: 数据抽取会会遇到什么问题?怎么办?

1.数据采集前后数量不一致:

检查脚本,修改脚本问题>>删除数据>>进行数据重跑

如果还有问题>>找负责上游系统的同事问一下是不是在我抽数据的过程中, 同事进行了数据删除

2.数据倾斜

3.数据飘逸/数据漂移

面试官: 如何测试数据是否前后一致?

大体上看条数是否一致(对数)：首先，通过SQL使用count(*), count(1), count(字段)来比较两个数据源的记录总数是否一致。(多了或少了)
找出不一致的字段：通过分组和计数操作找出记录数不一致的字段。例如，可以使用以下SQL语句来找出具有重复记录的字段

面试官: 怎么判断数据的质量?

完整型(count对数),

空值率 = (缺失或为空的记录数 / 总记录数) × 100%

准确性(对地区,金额的关键字段进行聚合计算, 如果不准确要进行抽象测试)

准确率 = (正确数据记录数 / 总数据记录数) x 100%

时效性 (T+1)

唯一性(确定数据的唯一版本)

评估数据集中的重复值。重复数据比例 = (重复值数量 / 总数据量) × 100%

面试官: 数据有多少种? 依据数据的组织方式和特性进行分类的

结构化数据(指具有明确格式和规则的数据，通常以表格或数据库的形式存在 ;

sql语言>>结构化查询语言)

半结构化数据(数据通常具有自描述性, 如XML和JSON)

非结构化数据(文本、图片、音频、视频等)

面试官: 数据量是多少?

总数据量没有计算过, 我负责的部分日增量30来万

抽取数据花多长时间?

2个小时

怎么花怎么长时间?

公司服务器性能比较差

怎么抽怎么快?

并行度大,通过sqoop把并行度调高了(原本的4个进程调成8个)

面试官: 你之前使用过什么数据栈

面试官: 做过报表开发吗?

做过,做得比较少

面试官: 在项目中常用的函数 sum ,case when ,开窗函数(排名), 位移函数,

面试官: 上一份工作的离职原因?

项目结束之后一直没有新的项目,我想找一个能长期有项目的工作

面试官: shell脚本怎么传参?

在执行脚本的时候传参, 用$1和$2

面试官: 如何强行转换数据类型?

hive 和oracle都是

面试官: 如果namenode挂掉了, 怎么办?

可以启用SecondaryNameNode

(作用是辅助NameNode进行元数据管理和检查点（Checkpoint）操作)

面试官:怎么启用SecondaryNameNode?

面试官: 在使用hive的时候, 有没有遇到过数据倾斜?

有

面试官: 遇到数据倾斜怎么办?

面试官: 你遇到过的数据倾斜是什么原因?怎么办?

空值过多>>数据分布不均

解决方法:

如何排查是否遇到数据倾斜?

去Yarn看一下进程, 看job日志, 看是否卡在某个阶段, 比如map端走完了,reduce端不动了, 就是数据倾斜

面试官: 开发过什么指标?

逾期天数,

面试官: 什么是逾期?

逾期是指借款人未能在贷款合同规定的还款日期内按时偿还贷款本金或利息

面试官: 逾期率怎么计算?

面试官: 在实际开发过程中有没有遇到特别难点?怎么处理的?

没有太难的,难的主要是对业务的理解, 我会频繁和业务人员进行沟通

复杂的指标计算>>涉及到十来张表,需要连接, 嵌套

面试官: 解释一下呆账和坏账?

面试官: 在hive中如何处理小文件?

处理已经存在的小文件

手动合并小文件

使用INSERT OVERWRITE语句：通过将数据重新写入目标表的方式合并小文件

使用CONCATENATE命令：适用于ORC文件格式的表，可以合并分区内的小文件

使用Hadoop命令合并：适合ORC或Parquet格式文件

自动合并小文件

在Hive作业中配置参数，自动触发文件合并

SET hive.merge.mapfiles = true;  --控制是否在Map-only作业结束后合并小文件
SET hive.merge.mapredfiles = true;  --控制是否在Map-Reduce作业结束后合并小文件
SET hive.merge.size.per.task = 256000000; -- 合并后文件的目标大小
SET hive.merge.smallfiles.avgsize = 16000000; -- 触发合并的平均文件大小

预防小文件的生成:

控制Reduce任务数量：通过调整mapred.reduce.tasks或hive.exec.reducers.bytes.per.reducer参数，减少输出文件数量

SET hive.exec.reducers.bytes.per.reducer = 256000000; -- 每个Reduce任务处理的数据量

使用INSERT INTO替代多次小批量写入：集中写入可以减少文件数量

合理规划分区和分桶策略，避免因分区过多导致小文件问题

文件格式: 使用ORC或Parquet格式，并启用压缩（如LZO、Snappy），减少文件数量和存储空间

面试通过多长时间能入职?

一周后

未来的职业规划?

想继续精进自己的技术, 2, 3年以后转做业务

假设你做了项目经理, 你有什么想法?

根据每个人擅长的点,合理配置他们的工作.

面试官: 你还有什么要问的吗?

能否介绍一下贵公司典型的项目周期是怎样的？项目从启动到完成通常需要多长时间？

公司经常做的项目有哪些?

“您能否分享一下团队目前使用的主要技术栈？"

是否有二面? 二面的具体时间是什么时候?

能否介绍一下你们公司的团队结构和工作方式？

“贵公司如何支持员工的职业发展和技能提升？”

公司在未来几年有哪些主要的业务目标或发展方向？

数据开发的简历及面试

简历

面试

相关文章

如何在docker上部署前端nginx服务（VUE）

模型和数据集的平台之在Hugging Face上进行模型下载、上传以及创建专属Space

[Web 信息收集] Web 信息收集 — 手动收集 IP 信息

排序算法（3）：

TypeScript - 泛型

Python基于Django和Vue的校园互助平台（附源码、文档说明）

Redis 高可用性：如何让你的缓存一直在线，稳定运行？

【Linux】调试工具GDB的使用及案例讲解

DeepSeek回答：AI时代Go语言学习路线

1分钟用DeepSeek编写一个PDF转Word软件

【Linux】初探信号的奥秘

Ubuntu搭建esp32环境配置打开AT指令集 websocket功能

express(node ORM) 使用 Winston 记录日志及数据库保存日志

是德科技keysight N5173B信号发生器，是一款经济高效的仪器

从零到一：如何用阿里云百炼和火山引擎搭建专属 AI 助手（DeepSeek）？

FFmpeg视频处理入门级教程

C/C++ | 每日一练 (4)

蓝桥杯备考：贪心算法之矩阵消除游戏

基于 CFD 预测的机器学习第 2 部分：在 Benchmark 应用程序上使用 Stochos 预测流场

批量导出数据库表到Excel