面试搜狐大型模型算法工程师，感受非凡体验！

搜狐大模型算法工程师面试题

应聘岗位：搜狐大模型算法工程师

面试轮数：

整体面试感觉：偏简单

面试过程回顾

1. 自我介绍

在自我介绍环节，我清晰地阐述了个人基本信息、教育背景、工作经历和技能特长，展示了自信和沟通能力。

2. 技术问题回答

2.1 介绍一下，现在几种流行的大模型架构?

BART (bi Encoder+casual Decoder，类bert的方法预训练)
T5 (Encoder+Decoder，text2text预训练)
GPT(Decoder主打zero-shot)
GLM (mask的输入部分是双向注意力，在生成预测的是单向注意力)

2.2 说一下 prefix LM 和 casualLM 的区别？

prefix LM 和 casualLM 所用的 attention mask 不一样：

prefix LM：token可以相互看到；
casualLM：严格自回归

2.3 在大模型任务中，你用到 LoRA，讲一下 LoRA 实现原理?

LoRA 的思想很简单:

在原始 PLM (Pre-trained Language Model) 旁边增加一个旁路，做一个降维再升维的操作，来模拟所谓的intrinsic rank。
训练的时候固定 PLM 的参数，只训练降维矩阵 A 与升维矩阵 B 。而模型的输入输出维度不变，输出时将 BA 与 PLM 的参数叠加。
用随机高斯分布初始化 A ，用 0 矩阵初始化 B ，保证训练的开始此旁路矩阵依然是 0 矩阵。

2.4 instruction tuning 和prompt learning 的区别?

instruction tuning和prompt learning的目的都是去挖掘语言模型本身具备的知识。不同的是Prompt是激发语言模型的补全能力，例如根据上半句生成下半句，或是完形填空等(few-shot)。Instruct是激发语言模型的理解能力，它通过给出更明显的指令，让模型去做出正确的行动 (zero-shot)。

2.5 项目中你用到的大模型推理加速工具是什么？能不能简单介绍一下为什么用它？

项目中主要用到 vLLM 大模型推理加速框架。

2.6 vLLM 具有哪些特点 ?

受到操作系统中，虚拟内存和分页经典思想的启发
PagedAttention 允许在不连续的内存空间中存储连续的 keys 和 values。具体来说，PagedAttention 会将每个序列的 KV cache 划分为块，每个块包含固定数量 tokens 的 keys 和 values。在注意力计算过程中，PagedAttention 内核有效地识别并获取这些块。
分块之后，这些 KV cache 不再需要连续的内存，从而可以像在操作系统的虚拟内存中一样，更灵活地对这些 KV cache 进行管理。
PagedAttention 对于显存的利用接近理论上的最优值（浪费比例低于4%）。通过对显存进行更好的管理，可以使得单次可以使用更大的 batch size，从而进一步利用 GPU 的并行计算能力。

3. Leetcode 题

具体题意记不清了，但是类似【51. N 皇后】

题目内容

按照国际象棋的规则，皇后可以攻击与之处在同一行或同一列或同一斜线上的棋子。

n 皇后问题研究的是如何将 n 个皇后放置在 n×n 的棋盘上，并且使皇后彼此之间不能相互攻击。

给你一个整数 n ，返回所有不同的 n 皇后问题的解决方案。

每一种解法包含一个不同的 n 皇后问题的棋子放置方案，该方案中 ‘Q’ 和 ‘.’ 分别代表了皇后和空位。

示例：

示例 2：
提示：
- 1 <= n <= 9
题目解答

个人本次面试总结

本次面试偏技术面一点，整体效果还行，问到很多技术点都比较简单

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴，可以Vx扫描下方二维码免费领取🆓