青颖飞帆(青书)大模型算法工程师面试题6道|含解析

news2025/1/12 18:07:38

1、Decoder-Only和Encoder-Decoder模型相比有什么优势?在训练和推理效率上有什么区别?****

Decoder-Only模型:结构较为简洁,通常只由一个解码器组成。模型参数较少,相比于Encoder-Decoder模型在训练和推理上可能更高效。在自回归生成任务中表现优异,比如语言模型生成文本。

训练和推理效率:

训练效率:

Decoder-Only 模型:在训练过程中,由于模型仅处理解码器部分,参数较少,训练效率较高。

Encoder-Decoder 模型:由于需要同时训练编码器和解码器部分,模型的参数量通常较大,因此训练效率相对较低。

推理效率:

Decoder-Only 模型:推理过程中模型依赖先前生成的标记,因此推理时间较长,尤其在生成长文本时。

Encoder-Decoder 模型:推理时编码器只需处理一次输入,但解码器部分的推理仍然逐步进行,因此总的来说推理时间也较长,但对于复杂任务而言,效率可能更好。

2、说一下LLaMA LLaMA2 LLaMA3的区别?****

Llama-1有7B、13B、30B和65B四个参数量版本。Llama-1各个参数量版本都在超过1T token的语料上进行了预训训练。

相比于Llama-1,Llama-2将预训练的语料扩充到了 2T token,同时将模型的上下文长度从2,048翻倍到了4,096,并引入了分组查询注意力机制(grouped-query attention, GQA)等技术。

与Llama 2相比,Llama-3将tokenizer由sentencepiece换成了tiktoken,这与GPT4 保持一致。同时,词表大小由32k扩展到了128k。另外,为了提高模型效率,Llama-3 8B和70B都采用了GQA。同时上下文长度也扩展到了8k。

3、有哪些位置编码,其特点是什么?****

绝对位置编码:

固定正弦-余弦位置编码:最早由 Transformer 引入,使用不同频率的正弦和余弦函数将位置信息编码到每个标记中。

特点:固定不变,无需训练;能够保留序列顺序信息。

相对位置编码:

相对位置编码:相对于其他标记的位置信息,而不是绝对位置。常用于改进 Transformer 模型,如 Transformer-XL。

特点:在处理长序列时表现更好,能够捕捉到序列中不同位置之间的关系。

Learnable Position Encoding(可学习位置编码):

特点:直接在模型中引入可训练的参数来表示位置编码,允许模型自己学习最优的位置信息表示。

应用:在 GPT-3 等大型模型中广泛应用。

4、介绍一下MoE模型?****

MoE (Mixture of Experts) 模型是一种多专家模型,通过引入多个专家(子模型),每个专家擅长处理特定类型的数据。

Gating 机制:在模型中,使用 gating 机制(例如 softmax 函数)选择哪些专家参与推理或训练,从而提高模型效率。

稀疏激活:模型中的每个样本只激活一部分专家,这使得 MoE 模型在处理大规模数据时非常高效。

优势:

计算效率高:由于仅激活部分专家,MoE 模型可以在保证模型容量的情况下减少计算开销。

可扩展性强:通过增加专家的数量,可以轻松扩展模型容量而不显著增加计算成本。

应用场景:通常用于大型语言模型和推荐系统中,能够处理复杂、多样化的任务。

5、说一下beam search算法,为什么用的少了?****

Beam Search 是一种常用于序列生成任务的启发式搜索算法,它通过保留若干(称为 beam size)的最佳候选序列,逐步生成最终输出序列。

特点:相比贪心算法,Beam Search 可以避免局部最优解,生成质量更高的序列。

使用减少的原因:

计算复杂度高:Beam Search 需要同时跟踪多个候选序列,计算量较大,推理速度慢。

模型更新:近年来,随着生成模型(如 Transformer)的改进,模型自身在生成时能够更好地捕捉全局信息,因此对 Beam Search 的依赖降低。

替代方法:诸如 Sampling(采样)等方法,通过在输出时引入随机性,能够生成质量较好的序列,同时避免 Beam Search 的高计算成本。

6、假如需要上线一个公文写作的大模型,具体流程应当是怎样的?****

  • 需求分析:

确定模型的功能需求,例如支持哪些文体的公文写作、支持的语言种类、生成的风格要求等。

确定目标用户群体和使用场景,例如是否面向政府机构或企业。

  • 数据收集与预处理:

收集大规模的公文数据集,涵盖多种公文类型(如通知、报告、意见等)。

对数据进行清洗和标注,确保数据的质量和多样性,处理敏感信息和数据偏见问题。

  • 模型选择与训练:

选择合适的预训练模型(如 GPT、BERT 等)作为基础模型。

在公文数据集上进行进一步的微调,确保模型能够生成符合公文写作规范的文本。

使用监督学习、强化学习等技术提高模型的生成质量,减少生成的错误和不合适的内容。

  • 评估与优化:

使用自动化评估指标(如 BLEU、ROUGE)和人工评估(如人类专家打分)对模型进行评估。

根据评估结果调整模型参数、优化算法,必要时扩展训练数据集。

附上技术清单

在这里,我们想要强调的是:成功求职并不是一件难事,关键在于你是否做好了充分的准备。通过学习和掌握AI技术的相关知识和技能,了解面试中可能出现的问题和技巧,你就能够在面试中展现出自己的专业素养和实力,赢得面试官的青睐和认可。因此,让我们一起努力,用知识和技能武装自己,迎接AI时代的挑战和机遇吧!
有需要的朋友可以扫描下方二维码,免费获取更多相关资料!
请添加图片描述

最后,祝愿所有转行、求职的同学都能够在AI产品面试中取得优异的成绩,找到心仪的工作!加油!

大模型基础面

在这里插入图片描述

大模型进阶面

在这里插入图片描述

大模型微调面

在这里插入图片描述

大模型langchain面

在这里插入图片描述

大模型推理面

在这里插入图片描述

更多面试题分享

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2041913.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

UE5学习笔记9-创建一个小窗口提示人物是否和武器重叠

一、目标 创建一个UsrWidget去显示如果人物和武器重叠显示窗口,如果人物和武器不重叠将窗口隐藏 二、创建窗口并显示 1.创建一个窗口蓝图类,命名为PickUpWidget,这个蓝图类不需要C类,在对应文件夹中单机右键选择用户界面的控件蓝…

torch分布式训练DataParallel和DistributedDataParallel

Pytorch 分布式训练主要有两种方式: torch.nn.DataParallel > 简称 DP torch.nn.parallel.DistributedDataParallel > 简称DDP 其中 DP 只用于单机多卡,DDP 可以用于单机多卡也可用于多机多卡,后者现在也是Pytorch训练的主流用法&…

维基知识库系统Wiki.js本地Linux环境部署并配置公网地址远程访问

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

所生成项目的处理器架构“MSIL”与引用“***”的处理器架构“x86”不匹配。

在c#工程里新建了一个类库,编译的场合出现以下警告:C:\Program Files\Microsoft Visual Studio\2022\Enterprise\MSBuild\Current\Bin\amd64\Microsoft.Common.CurrentVersion.targets(2401,5): warning MSB3270: 所生成项目的处理器架构“MSIL”与引用“…

单链表leetcode刷题/下(C语言版)

目录 题目1:返回倒数第k个结点 题目2:回文链表 题目3:相交链表 题目1:返回倒数第k个结点 如图,该题使用到了快慢指针的思想。先定义两个指针,同时指向链表的首元结点,然后让fast指针向前先走…

秋招突击——8/15——知识补充——Socket通信

文章目录 引言正文基于TCP协议的Socket通信基于UDP协议的Socket通信服务端如何接收更多项目多进程多线程IO多路复用select轮询IO多路复用epoll事件通知 使用Socket实现同一个机器上的多线程通信服务端创建对应socket监听端口客户端发起对应的连接请求 总结 引言 上次面试腾讯的…

Qt篇——:-1: error: collect2.exe: error: ld returned 1 exit status错误

错误如图所示: 出现这个错误的时候我们点击下面的 [4 编译输出],可以看到具体的编译报错信息,找到对应的错误进行解决即可。 这里举个例子,比如最常见的一种错误原因是:multiple definition of ......。这代表着你重复…

视频号小店升级微信小店,视频号直播电商将迎来新变化!

8月12日,腾讯发布《视频号小店升级为微信小店的公告》-意见征集通知,及其相关规则通知。 ▲ 图片来源:腾讯公告 公告称:腾讯计划自08月25日起,正式支持商家将视频号小店升级成微信小店。 微信小店将进一步简化商家入驻…

C++语言基础|循环结构

C语言基础|循环结构 循环1. for语句2. while循环3. do…while语句 循环 在程序中,常常需要重复地执行某些操作。C提供了3种循环语句:for语句、while语句和do-while语句。在循环语句中,重复执行的操作叫做循环体。循环体可以是单条语句、块语…

一把手在精益生产的实施中扮演着怎样的角色?

在探讨一把手在精益生产实施中的角色时,我们不得不深入剖析精益生产的核心要义及其在现代企业管理中的重要性。精益生产作为一种以提高效率、降低成本、增加价值为目标的生产管理方式,其核心理念包括价值导向、流动制造、消除浪费、持续改进等。在这个过…

ubuntu服务器部署的mysql本地连不上的问题

试过了网上的所有方法,都连不上,可以执行: SELECT user, host, plugin FROM mysql.user WHERE user root; 查一下:plungin这个连接插件是不是auth_socket, auth_socket是只能本地连接的插件,需要修改: ALTER USER root% IDENTIFIED WITH mysql_native_password BY your_pass…

攀登SEO巅峰:代理技术如何成为网站排名提升的秘密武器

在当今这个数字化时代,搜索引擎优化(SEO)已成为企业和电商从业者在网站获取自然流量、提升品牌知名度和促进业务增长的关键策略之一。然而,随着搜索引擎算法的不断升级和市场竞争的日益激烈,传统的SEO手段已难以满足现…

【数据结构】二叉树(二)遍历

上篇已经了解对二叉树有了大概了解,本篇学习二叉树的前序、中序、后序及层序遍历的递归与非递归共7种遍历方法,快收藏吧~ 目录 1、前序遍历 递归方式: 迭代方式: 2、中序遍历 递归方式: 迭代方式: …

数字医学影像系统PACS源码,三甲以下医院都能满足,C#语言开发,C/S架构系统成熟稳定,支持二次开发项目使用。

数字医学影像系统(RIS/PACS)源码,三甲以下的医院都能满足。开发技术:C/S架构,C#开发语言,数据库服务器采用Oracle数据库。 PACS系统模块组成 : 工作站: 分诊工作站、超声工作站、放…

二叉树详解(1)

文章目录 目录1. 树的概念及结构1.1 树的相关概念1.2 树的表示1.3 树在实际中的运用(表示文件系统的目录树结构) 2. 二叉树的概念及结构2.1 概念2.2 特殊的二叉树2.3 二叉树的存储结构 3. 二叉树的顺序结构及实现3.1 二叉树的顺序结构3.2 堆的概念及结构…

监控电脑屏幕被拍照的原理是什么?如此有趣的电脑防偷窥知识,你一学就会!

“防身立志言为本,修业安命行为先”。在数字化时代,保护个人隐私与信息安全已成为我们不可忽视的重要课题。 当我们坐在电脑前工作、学习或娱乐时,是否曾想过,屏幕上的内容也可能成为他人窥探的目标? 今天&#xff0c…

【NI-DAQmx入门】基于TSN的以太网NI CompactDAQ机箱(9185/9189)

软件兼容性: WIN10 64bit: LabVIEW 2019 32bit NI-DAQmx 19.6 NI-Sync 19.5(TSN) WIN11 64bit: LabVIEW 2022Q3 32bit NI-DAQmx 2022Q3 32bit NI-TimeSync 2022 Q4(TSN) 如果要启用TSN&…

力扣 | 递增子序列 | 动态规划 | 最长递增子序列、最长递增子序列的个数、及其变式

文章目录 一、300. 最长递增子序列二、673. 最长递增子序列的个数三、变式1、646. 最长数对链2、1218. 最长定差子序列3、1027. 最长等差数列4、354. 俄罗斯套娃信封问题5、1964. 找出到每个位置为止最长的有效障碍赛跑路线 四、2024复旦计科夏令营机试 最长递增子序列&#xf…

Docker容器逃逸

Docker容器逃逸 Privileged 特权模式容器逃逸 | T Wiki (teamssix.com)https://wiki.teamssix.com/cloudnative/docker/docker-privileged-escape.html 1、云原生-Docker 安全-容器逃逸&特权模式 2、云原生-Docker 安全-容器逃逸&挂载 Procfs 3、云原生-Docker 安…

Linux云计算 |【第二阶段】OPERATION-DAY3

主要内容: Nginx调度器(7层代理服务器Http、Nginx,4层代理服务器SSH)、配置upstream服务器集群池属性,HTTP错误代码,Nginx优化(自定义404错误代码、状态页面显示、ab压力测试、客户端开启缓存、…