目录
- 一面/技术面 2024/08/15
📋 总结: 本来应该是在7月底面试的,但因为有事就拖到了现在,或许是飞星计划里最晚面试的一批?面试官很和蔼,问的问题不算难,总体体验还算不错。
一面/技术面 2024/08/15
- 深挖实习
- 深挖论文(论文的创新点?训练时模型和数据的规模?你在论文中的贡献?)
- LLM预训练数据通常是由哪些部分组成的?
- 你都了解过哪些预训练数据集?分别介绍一下
- 预训练数据的SOP是怎样的?请从零开始讲,包括采集,解析,质量过滤,敏感内容过滤,去重等
- 怎样对网页数据进行解析?有没有遇到过棘手的问题?又是如何解决的?
- 怎样对PDF文档进行过滤?
- 表格数据应当如何清洗?
- Python中列表和生成器的区别?
- 怎样快速统计一个文本文件中有多少行等于abc?
- 形状为(1,2,3)和(3,2,1)的张量进行相加,会发生什么?得到的结果是什么样的?
- 介绍一下Adam优化器的原理。
- 一个6B的模型保存到计算机中会占用多少空间?
- 训练途中保存一个checkpoint和直接训完保存的模型有什么区别?(当时没太听懂问题)
- LLM的词表是如何构建的?LLaMA如何做词表扩充?
- LLM为什么会出现复读机的现象?又该如何解决?
- 手撕代码:无(我也不知道为什么没有算法题,或许是因为专项计划?)
一面问题总体来说不算难,等二面面过后继续更新