24 家国内大模型面经及考点总结!

news2024/11/25 12:45:32

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述

一些比较高频的东西(针对基座算法/框架岗位为主,大体按重要性排序):

  1. 多头注意力,频率太高了。coding轮,概念轮都考。复习的点包括:时间/空间复杂度,优化(kv-cache,MQA,GQA),手写多头代码。各种Norm,这个频率也不低,不过比较标准的内容,没有啥特意要说的,有的考手写,有的考概念和理解(为什么管用)。
  2. 框架相关内容,各种并行方式,优缺点。DeepSpeed,Megatron可以看看源代码,Flash-Attention等内容。这个点也经常考代码题。
  3. BERT,GPT等比较主流大模型,一些细节,比如位置编码,训练loss,激活,架构些许不同这种。自回归重点。
  4. 大模型训练,这个可能主要是工作经验相关,经常问比如训练loss炸掉了,如何解决,一些技巧之类的。面试时有些面试官会问一些很细节的东西,感觉是在确认确实上手跑过基座训练不是吹水。
  5. 数据预处理,BPE,tokenization,mask相关概念和对模型/训练影响,数据配比(有paper)。
  6. evaluation,如何评估大模型,安全性,有效性,公开数据,个别考过手写eval框架(多选,生成)。
  7. 根据投的岗位,多模态和RLHF内容可以适当看看。这俩感觉paper挺重要的,也大多研究岗位。楼主也少面了一些自动驾驶,RL啥的,不过结果不咋地。

PS:有些非基座相关的或者实在没啥印象的就没写。

1. 智元机器人(Agibot)(拒)

稚晖君那个。当时面的很早,他们好像还在一边组建团队一边搞东西,一面就是稚晖君本人,问了一些简历的经历,然后问了transformer相关的比较常见的问题比如MHA,复杂度,BERT/GPT这种。然后后边就没有收到回复,应该是挂了。这家是我开始面试的第一家,所以印象还比较深刻。和大佬交流感觉也挺顺畅,很看好他家的以及具身智能这个方向。给稚晖君大佬点赞!

2. 面壁科技/面壁智能(offer)

记得一共两面,技术上问了大模型训练,transformer相关的内容和过往经历,第二面好像就聊offer了如果没有记错。团队很年轻,大部分清华背景。当时感觉是不是有点太年轻了虽然清华背景这样子。印象里他们有说funding还是很足的。PS:包是挺大的。

3. 光年之外 (简历拒)

三月份猎头帮忙推荐的,简历拒。

4. 北京智源人工智能研究院 (消失)

一共3-4面,面试官是不同team的人,有evaluation,训练等团队。面试时总体感觉他们想招偏evaluation这边的人。面到后面记得有一次面试官鸽了约好的面试,然后后面说从新安排时间,但是猎头或者HR就没有再给后续消息了,应该是默拒了。

5. 360(简历拒)

当时猎头说要高P,P8+

6. Minimax (口头offer):

这家面试轮次挺多,具体记不清但是起码4+轮。

前几轮都是考leetcode为主,问了很少很浅的大模型的内容,记得是其中一面是让手写MHA。最后一轮和主管聊完之后被分配到了框架组的offer,和猎头问了一下算法组是不是考虑,回答是不,就没再继续接触。

PS:他家的包还是挺大的(总包说肯定到得了X+),在几家初创里都算大的,但是面试时公司的前景,业务技术方向感觉面试官没有沟通很多。主管面也是20分钟就匆匆结束了,没有交流很多信息。

7. 昆仑万维 (offer)

面试好像问了之前训练大模型的内容,比如模型参数大小,训练一些细节之类的,印象里没有leetcode。面试官记得很乐呵的一个人。当时拿到的包裹相对低一些,比其他公司。不过后边接触到猎头都说他家给的还是很可以的,所以不确定是不是自己记错了或者交流有误。

8. 云从科技 (拒)

两轮面试被拒掉了,印象很深的是第二轮面试超级长,设定1个小时面试聊了2个多小时。面试官问了很多之前的经验,大模型训练的细节之类的,模型端,框架端,之前做的研究都聊到了。感觉聊的是挺开心的,不过后边就被拒了。

9. 阿里夸克(offer)

4论面试,2轮带leetcode,然后浅浅问了相关经验,第三轮主要问了大模型的内容,比较标准的问题(transformer,训练,分布式,如何处理训练一些问题比如loss spike啥的)。第四轮是cross面,推荐组的一个大佬,感觉是象征性面试,因为之前做过搜广推问了相关问题,问了probability和脑筋急转弯,最后问一些OS的问题我不会。

几天后收到offer,和HR接触时感觉不太礼貌,交流有些摩擦。

10. 衔远(offer)

3面左右,问的也比较中规中矩。最后一面是和周伯文老师聊。他家最后给了框架的岗位,但是我相对想做模型相关。包裹挺大的。

11. 潞晨科技(Colossal-AI)(拒)

他家是做框架为主的,一面问了很多框架内容,各种模型切分方式,问的比较深,好像也问了flash-attention的内容,感觉答得还凑合。

后来我表达了想做算法端,他们算法那边确实也在招人不过hc不多,二面是算法组的人面的,问的应用端比较多,感觉可能不做基座?然后面挂了。他家在圈子里感觉框架端名声挺大的,记得公司内部之前有人发他家新闻来着。

12. 蚂蚁(offer)

徐鹏老师团队。一面记不清了,二面是徐鹏老师本人。聊了之前很多经历,大模型,搜广推,本科实习时的前后端。印象深一点是徐鹏老师表达了团队人希望模型研究和工程都要做,research和engineering不分很细,这个和我的观点很像。接下来一轮HR面就发offer了,第一年算上签字 ** 这样子。

13. 腾讯(简历拒)

猎头说要phd。

14. 小红书(简历拒)

猎头说要phd。

15. 商汤(没消息了,被拒)

一共两面,一面记得是leetcode+写MHA,感觉面得不错。二面好像答得不太好,具体问的啥忘掉了。。。后来没消息了,被拒。

16. 百川智能(拒)

猎头推的,安排了面试,第一面过了之后,后面二面我记错了时间,晚了很久(在外边开车)。然后被HR拒掉了,不过理由说的是要3年以上经验的,不知道是不是给我点面子。

17. 百度文心(offer)

这边面了好多轮。一面是数据组的人,问了很多关于大模型数据处理的内容,感觉答得一般,表达了想去模型组,然后面试官应该是和HR交流了,第二组开始就是模型组的人来面试。有没有leetcode不记得了,面试内容也比较中规中矩,transformer,大模型训练这种内容。后边和leader还有HR聊得也比较通畅。和初创不一样他家组分得挺细的,模型,框架,数据啥的都是分开的。(包裹底薪* 万多,几个月忘了)

18. 科大讯飞(拒)

HR先聊的,觉得我不可能来合肥就拒了。

19. IDEA研究院(拒)

这家确实啥也不记得了,记得的就是一面就被拒了,很尴尬。

20. 好未来(offer)

他家感觉团队整体背景在众多公司中相对一般,一面问了一个简单的leetcode没答上来很尴尬,模型轮可能比较好最后还是给offer了。问题也比较中规中矩,包裹没聊。做的项目是数学相关的GPT模型,个人也不是很了解这个方向。

21. 零一万物(拒)

一面是之前阿里的推荐系统那边的大佬,问了leetcode和一些推荐系统的问题,感觉答得还可以。二面也是个大佬有搜广推,NLP相关很多经验,考了个需要动点脑子的leetcode,没答上来,挂了。没有走到很靠后,好奇他家后边面试会不会有大模型的大佬来面。

22. 月之暗面(moonshot)(拒)

这家感觉面试问的广度和深度是国内厂面的里边最相关也最专业的。一面是个大佬,之前Kaiming大神一些高引论文的共同作者。一开始问了包括一些基础的大模型训练的内容,transformer架构。然后开始问一些框架端的内容,分布式训练的切割和device之间交流,后面follow-up的问题问了不同device之间communication怎么做,底层communication算法有啥,我答案里有ring-reduce,然后再深入问了reduce底层如何实现,我就不会了。问了会不会用cuda写东西,我说了解很浅。最后给了比较难的leetcode,题目不记得了,没写出来,挂。看了下他家主页,感觉创始人和员工都很牛。这家虽然只有一面感觉在国内应该是背景很top的一家了。很可惜没有机会多聊一些。

23. 阿里达摩院(新达摩)(offer)

一面考了leetcode,浅问了大模型技术。第二面是团队大老板,海归,之前在北美连续创业成功,汇报行癫。聊了很多高层的对于大模型技术上的愿景和理解,大模型未来市场方向之类的,我其实听不特别懂,不过学到了很多。他家是纯研究方向,算力听意思挺nb的。主要做大语言模型和多模态大模型这两方面的。最后说我一面leetcode不太行,补了一面coding,然后收到了offer。

24. 边塞科技 (拒)

这家专门做RLHF,微调的。清华背景,创始人有openai的经验。聊了两面感觉在RLHF上积累特别多,学到了很多东西。楼主RL是个票友级别就无了。

总结

这段时间面试了很多家,也学到了超级多东西。楼主这边背景是做基座预训练算法端为主的,对框架端和RL的内容有一定了解(面试能凑合),对于后端的知识比如ML compiler,kernel,cuda相关的了解就比较浅了(问到觉大概率挂)。硬件几乎不太懂。感觉一圈聊下来几点感悟:

  1. 大模型这方向真的卷,面试时好多新模型,新paper疯狂出,东西出的比我读的快。
  2. Research岗位对工程也有要求,工程端也需要了解模型。
  3. 感觉比较硬核的岗位,尤其初创公司都是对好几个点都有要求的(应用,模型,框架,底层后端,硬件)。
  4. 楼主目前是:模型 > 框架 > 底层 > 其他。下一步想不放下模型的前提下,发展底层这边的能力(kernel等)
  5. 目前市场还看不太清,楼主对市场之前不太关注,也不感兴趣,技术宅。
  6. RLHF很有前景的方向,强化学习如果经历够的话也要深挖一下。
  7. 大模型包总体给的相对高一些(同P)。
  8. 目前大多数公司还是集中在语言模型,偏研究的方向会有多模态的预训练这意思。

还有几家背景和面试感觉特别好的公司,不过猎头特别说了要保密,不方便发,如果有朋友想了解的话可私信。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2129086.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大模型书籍丨深入浅出的 Transformer 学习,这本大模型应用解决方案太香了

说到Transformer,这个已经是无数人谈论的神经网络的基础架构之一了。但是这期间又有无数的好的,极好的,不好的信息,所以如果你要真的了解它,找本好书来仔细看一下,其实是对得起自己的最好方式! …

企业数据端口和储备设备防泄漏:端口管控软件是什么?

端口管控软件是什么?端口管控:系统基于Windows底层驱动,可智能识别存储设备的类型为海量存储还是非海量存储,不影响USB键盘、鼠标和打印机等接入设备的正常使用; 针对不同的计算机可自定义设置USB端口的读写模式,可设定…

视频编辑SDK解决方案,包含丰富的模板方案

美摄科技作为视频编辑技术的领航者,携其革命性的视频编辑SDK解决方案,正以前所未有的方式,赋能每一位创作者,让图片与视频的碰撞擦出最耀眼的火花,轻松打造个性化、高质量的Vlog作品,满足从日常分享到专业制…

OJ 删除链表的倒数第N个结点

题目: 给你一个链表,删除链表的倒数第 n 个结点,并且返回链表的头结点 示例: 代码思路: //方法一:class Solution { public: //使用双指针算法ListNode* removeNthFromEnd(ListNode* head, int n) { i…

通信工程学习:什么是MRF多媒体资源功能、MRFC多媒体资源功能控制、MRFP多媒体资源功能处理

一、MRF多媒体资源功能 MRF(Multimedia Resource Function,多媒体资源功能)是3G/IMS网络中定义的提供多媒体资源功能的网络实体,它为3G/IMS网络的业务和承载提供媒体能力支持。MRF通过提供丰富的媒体处理功能,如播放声…

MySQL之库和表操作

目录 一:对库的操作 1.创建数据库 2.查看数据库列表 3.显示创建数据库的语句 4.删除数据库 5.字符集与校验集 6.确认当前所处的数据库 7.修改数据库 8.备份和恢复 9.查看连接情况 二:对表的操作 1.创建表 2.查看表 3.删除表 4.修改表 接下来的日…

【进展报告】9.9-9.12

一、进度概述 1、推进关于滤波的相关任务(详情见相关文件) 二、详情 1、噪声与滤波模块 在师兄 inversionnet 的基础上,在正则化模块前后添加了对应的噪声和滤波模块。 噪声采用的是最基本的高斯噪声和椒盐噪声,关于其他…

OpengGL学习-显示三维形状

本文介绍了OpenGL创建三维图形的几个示例程序。并附有OpenGL创建三维形状的基础示例代码。本文还介绍了OpenGL基础知识,并对Vulkan做了简介。Vulkan性能更强大,但对开发技术人员要求更高,对兼容性的风险和工作量要有充分的认识。兼容性不仅存…

通信工程学习:什么是MGCF多媒体网关控制功能

MGCF:多媒体网关控制功能 MGCF(Media Gateway Control Function,多媒体网关控制功能)是IP多媒体子系统(IMS)网络中的一个关键组件,主要负责实现IMS网络和传统电路交换网络(如PSTN、I…

2024年【建筑焊工(建筑特殊工种)】考试技巧及建筑焊工(建筑特殊工种)作业考试题库

题库来源:安全生产模拟考试一点通公众号小程序 建筑焊工(建筑特殊工种)考试技巧考前必练!安全生产模拟考试一点通每个月更新建筑焊工(建筑特殊工种)作业考试题库题目及答案!多做几遍,其实通过建筑焊工(建筑特殊工种)在线考试很简…

springboot 项目获取 yaml/yml (或 properties)配置文件信息

文章目录 springboot 项目获取配置文件信息前言1、 Autowired 注入 Environment类2、基础用法,使用Value注解直接注入配置信息3、进阶方法(推荐使用)拓展:springboot 集成配置中心 - 以 Apollo 为例 springboot 项目获取配置文件信…

YOLO配合 PYQT做自定义虚拟电子围-自定义绘制多边形虚拟电子围栏

电子围栏标注以及显示 1、目标检测: YOLO可以识别检测物体,这是众所周知的。使用YOLO来做目标检测,并获取坐标信息。 2、电子围栏 比如在监控中,指定一块区域,如果有目标进入,则发出警报,并提…

写的一致性问题之失效模式

文章目录 1、先删除redis缓存,再写入mysql:1.1、高并发情况下分析出现的问题 1、先删除redis缓存,再写入mysql: 此时删除redis成功,写入mysql成功,此时redis是空,mysql是新数据。此时删除redis…

财富通公司开发洗车小程序有哪些用处?

洗车小程序具有多种用处,主要体现在以下几个方面: 1.便捷预约服务:用户可以通过洗车小程序轻松预约洗车服务,无需亲自前往洗车店或打电话预约,节省了时间和精力。同时,小程序通常提供多种预约时间选项&…

Java进阶13讲__补充1/2

单元测试、反射、注解、Lombok 1. 单元测试 1.1 Junit单元测试框架 1.2 Junit框架入门 package com.itheima.a_单元测试;import org.junit.Test;public class SpringUtilTest {Testpublic void testPrintNumber() {StringUtil.printNumber("Jack");StringUtil.pri…

go 笔记

数据结构与 方法(增删改查) 安装goland,注意版本是2024.1.1,不是2024.2.1,软件下载地址也在链接中提供了 ‘go’ 不是内部或外部命令,也不是可运行的程序 或批处理文件。 在 Windows 搜索栏中输入“环境变量”&#…

Windows上安装RabbitMQ

rabbitmq是干嘛的我就不介绍了,直接开始安装教程。 搭建成功演示图 下载安装包 https://pan.baidu.com/s/1ZlCFxh9Q00ynSU3ZCpTC9Q?pwdry51​pan.baidu.com/s/1ZlCFxh9Q00ynSU3ZCpTC9Q?pwdry51 下载完后有两个包(erlang和rabbitmq) 先安装otp_win64_24.1.7.exe…

【Python系列】理解 Python 中的时间和日期处理

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

测试开发基础——测试分类

四、测试分类 1. 按照测试目标分类 1.1. 界面测试 肉眼看到的任何元素都需要进行测试 界面测试(简称U测试),指按照界面的需求(一般是U设计稿)和界面的设计规则,对我们软件界面所展示的全部内容进行测试…

【计算机网络】UDP 协议详解及其网络编程应用

文章目录 一、引言二、UDP1、UDP的协议格式2、UDP 报文的解包和分用3、UDP面向数据报的特点 三、UDP输入输出四、UDP网络编程 一、引言 UDP(User Datagram Protocol,用户数据报协议)是一种网络通信协议,它属于传输层的协议。是一…