面经总结系列(二): 面壁智能大模型算法工程师

news2025/1/12 18:48:51

在这里插入图片描述

👨‍💻作者简介: CSDN、阿里云人工智能领域博客专家,新星计划计算机视觉导师,百度飞桨PPDE,专注大数据与AI知识分享。✨公众号:GoAI的学习小屋 ,免费分享书籍、简历、导图等,更有交流群分享宝藏资料,关注公众号回复“加群”或➡️点击链接 加群。

🎉AI学习星球推荐: GoAI的学习社区 知识星球是一个致力于提供《机器学习 | 深度学习 | CV | NLP | 大模型 | 多模态 | AIGC 》各个最新AI方向综述、论文等成体系的学习资料,配有全面而有深度的专栏内容,包括不限于 前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关(简历撰写技巧、面经资料与心得)多方面综合学习平台,强烈推荐AI小白及AI爱好者学习,性价比非常高!加入星球➡️点击链接

💚AI面经专栏总结: 本专栏主要为总结各小中大厂的面经系列总结,内容涵盖了多个热门技术领域,包括但不限于算法、机器学习、CV、NLP、大模型、测开、大数据、数分等,内容包括问题及详细答案,此外金邀请了行业内经验丰富的技术专家和面试官,分享面试经验和技巧,帮助求职者顺利通关各类技术面试。

算法工程师面经系列

面壁智能 大模型算法工程师 base北京

  1. 首先是自我介绍+实习项目介绍
    因为我没有实际的大模型经验,所以问我的偏基础。

  2. Adam优化器
    自适应优化算法,可以根据历史梯度信息来调整学习率,对参数的更新进行了归一化处理,使得每个参数的更新都有一个相似的量级,从而提高训练效果。
    Adam在动量SGD的基础上增加了二阶动量,通过其来自适应控制步长,当梯度较小时,整体的学习率就会增加,反之会缩小。

  3. 各种激活函数及其优缺点
    一文读懂常见激活函数 - 知乎

  4. Transformer的结构,其中解码器和编码器的attention有什么不同
    其应用方式和关注的对象有所不同:
    编码器的自注意力:
    编码器的自注意力用于处理输入序列的元素,每个编码器层的自注意力机制关注输入序列中的不同位置,以学习各元素之间的关系。编码器的自注意力有助于将输入序列的信息编码为一种上下文感知的表示,以供解码器使用。

解码器的自注意力:
解码器的自注意力用于处理已生成的目标序列的部分或全部元素,以预测下一个目标元素。
在解码器中,为了避免信息泄露,自注意力机制通常会掩盖(Mask)当前时刻之后的信息,以确保在生成目标序列时不会使用未来信息。解码器的自注意力有助于将上下文信息与已生成的部分目标序列关联起来,以支持逐步生成目标语言的词语。

编码器-解码器注意力(Encoder-Decoder Attention):
在解码器中,除了自注意力,还使用编码器-解码器注意力来获取与源语言序列相关的信息。
编码器-解码器注意力关注源语言序列的各个元素,以帮助解码器理解输入序列与当前解码时刻的关系。

这种注意力机制用于将源语言的上下文信息引入到解码器中,以支持翻译或序列生成任务。
编码器和解码器中的自注意力和编码器-解码器注意力的作用分别是编码输入信息和生成输出信息,并在不同的上下文中使用。编码器的自注意力用于处理源语言序列,而解码器的自注意力用于处理目标语言序列。编码器-解码器注意力用于建立源语言和目标语言序列之间的关联,以便在翻译或序列生成任务中生成有意义的输出。

  1. LN和BN的不同,为什么transformer用LN
    LN和BN主要是作用的维度不同,LN是在特征这个维度,BN是在batch这个维度。
    LN 在处理自注意力模型中更适合,因为它更能满足序列数据的特性,减小梯度问题,同时保持了输入特征的独立性。
    用norm的目的是为了数值稳定 防止梯度出现异常 你将什么东西看作一个整体 就对这个整体进行norm 不同整体之间是分别进行norm的,一个句子里的token的意义和句子本身有关 而不是和不同句子有关 所以用LN。

  2. distribute和non-distribute有什么区别?
    distribute指分布式训练, 是在多个计算节点上并行训练模型的方法。通常,每个节点都包含一个或多个GPU,每个GPU都用于处理一部分数据,分布式训练通常用于处理大规模数据集或复杂的深度学习模型,以加快训练速度和提高性能。
    Non-distributed 指非分布式训练,是在单个计算节点上训练模型的方法。在这种情况下,训练数据和模型参数都位于单个计算节点上。非分布式训练通常用于较小的数据集或简单的深度学习模型,或者是为了快速原型开发。在非分布式训练中,通常使用单个GPU或CPU来执行训练。

  3. 简述目前各种cv模型的发展趋势和方向

  4. Codeing题目
    现在有一个整数数组 ,请找出一个正整数满足以下两个条件:1)不在数组中;2)最小。
    输入:array = [1,3,0]
    输出:2
    输入:array = [2,4,-1,1]
    输出:3
    输入:array = [4,8,9,11,12]
    输出:1

思路:
哈希+二分

代码:

def func(nums):
    n = len(nums)
    d = {}
    nums = sorted(list(set(nums)))
    for i in range(n):
        d[nums[i]] = i
    if 1 not in d:
        return 1
    if d[nums[-1]] - d[1] == nums[-1] - 1:
        return nums[-1] + 1
    l, r = 1, nums[-1]
    res = 0
    while l <= r:
        mid = (l + r) >> 1
        if mid not in d:
            res = mid
            r = mid - 1
        else:
            if d[mid] - d[1] == mid - 1:
                l = mid + 1
            else:
                r = mid - 1
                res = r
    return res

nums1 = [1,3,0]
print(func(nums1))

nums2 = [2,4,-1,1]
print(func(nums2))

nums3 = [4,8,9,11,12]
print(func(nums3))

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1641596.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Mysql基础篇(一)Mysql概述

基本概念 数据库(DataBase,DB) 数据库的定义 按照数据结构来组织、存储和管理数据的仓库。 严格意义上来说&#xff0c;数据库是一个实体&#xff0c;它是能够合理保管数据的“仓库”&#xff0c;用户在该“仓库”中存放要管理的事务数据&#xff0c;“数据”和“库”两个概念…

HTML5+CSS3小实例:无限循环loading动画

实例:无限循环loading动画 技术栈:HTML+CSS 效果: 源码: 【HTML】 <!DOCTYPE html> <html lang="zh-CN"><head><meta charset="UTF-8"><meta name="viewport" content="width=device-width, initial-sc…

大数据分析入门之10分钟掌握GROUP BY语法

前言 书接上回大数据分析入门10分钟快速了解SQL。 本篇将会进一步介绍group by语法。 基本语法 SELECT column_name, aggregate_function(column_name) FROM table_name GROUP BY column_name HAVING condition假设我们有students表&#xff0c;其中有id,grade_number,class…

Matlab画箱线图

⚠申明&#xff1a; 未经许可&#xff0c;禁止以任何形式转载&#xff0c;若要引用&#xff0c;请标注链接地址。 全文共计3077字&#xff0c;阅读大概需要3分钟 &#x1f308;更多学习内容&#xff0c; 欢迎&#x1f44f;关注&#x1f440;【文末】我的个人微信公众号&#xf…

内网安全-代理Socks协议路由不出网后渗透通讯CS-MSF控制上线简单总结

我这里只记录原理&#xff0c;具体操作看文章后半段或者这篇文章内网渗透—代理Socks协议、路由不出网、后渗透通讯、CS-MSF控制上线_内网渗透 代理-CSDN博客 注意这里是解决后渗透通讯问题&#xff0c;之后怎么提权&#xff0c;控制后面再说 背景 只有win7有网&#xff0c;其…

Unity Trail Renderer入门

概述&#xff1a; 在项目的开发过程中&#xff0c;一定有时候需要炫酷的尾迹效果&#xff0c;那接下来这部分的内容&#xff0c;一定不要错过&#xff01; Trail Renderer&#xff08;尾迹渲染&#xff09; Time&#xff1a;尾迹存在的时间&#xff0c;时间越长尾迹存在的越久…

无人机+无人车:自组网协同技术及应用前景详解

无人车&#xff0c;也被称为自动驾驶汽车、电脑驾驶汽车或轮式移动机器人&#xff0c;是一种通过电脑系统实现无人驾驶的智能汽车。这种汽车依靠人工智能、视觉计算、雷达、监控装置和全球定位系统协同合作&#xff0c;使得电脑可以在没有任何人类主动操作的情况下&#xff0c;…

总分420+专业140+哈工大哈尔滨工业大学803信号与系统和数字逻辑电路考研电子信息与通信工程,真题,大纲,参考书。

考研复习一路走来&#xff0c;成绩还是令人满意&#xff0c;专业803信号和数电140&#xff0c;总分420&#xff0c;顺利上岸&#xff0c;总结一下自己这一年复习经历&#xff0c;希望大家可以所有参考&#xff0c;这一年复习跌跌拌拌&#xff0c;有时面对压力也会焦虑&#xff…

【算法系列】字符串

目录 leetcode题目 一、最长公共前缀 二、最长回文子串 三、二进制求和 四、字符串相加 五、字符串相乘 六、仅仅反转字母 七、字符串最后一个单词的长度 八、验证回文串 九、反转字符串 十、反转字符串 II 十一、反转字符串中的单词 III leetcode题目 一、最长公…

[Kubernetes] 安装KubeSphere

选择4核8G&#xff08;master&#xff09;、8核16G&#xff08;node1&#xff09;、8核16G&#xff08;node2&#xff09; 三台机器&#xff0c;按量付费进行实验&#xff0c;CentOS7.9安装Docker安装Kubernetes安装KubeSphere前置环境: nfs和监控安装KubeSphere masternode1no…

从零开始学AI绘画,万字Stable Diffusion终极教程(三)

【第3期】Lora模型 欢迎来到SD的终极教程&#xff0c;这是我们的第三节课 这套课程分为六节课&#xff0c;会系统性的介绍sd的全部功能&#xff0c;让你打下坚实牢靠的基础 1.SD入门 2.关键词 3.Lora模型 4.图生图 5.controlnet 6.知识补充 在SD里面&#xff0c;有一个…

基础I/O--文件系统

文章目录 回顾C文件接口初步理解文件理解文件使用和并认识系统调用open概述标记位传参理解返回值 closewriteread总结 文件描述符fd0&1&2理解 回顾C文件接口 C代码&#xff1a; #include<stdio.h> int main() { FILE *fpfopen("log.txt",&…

基于Pytorch深度学习——GPU安装/使用

本文章来源于对李沐动手深度学习代码以及原理的理解&#xff0c;并且由于李沐老师的代码能力很强&#xff0c;以及视频中讲解代码的部分较少&#xff0c;所以这里将代码进行尽量逐行详细解释 并且由于pytorch的语法有些小伙伴可能并不熟悉&#xff0c;所以我们会采用逐行解释小…

用git上传本地文件到github

两种方式&#xff1a;都需要git软件&#xff08;1&#xff09;VScode上传 &#xff08;2&#xff09;直接命令行&#xff0c;后者不需要VScode软件 &#xff08;1&#xff09;vscode 上传非常方便&#xff0c;前提是下载好了vscode和git软件 1 在项目空白处右击&#xff0c;弹…

字符函数与字符串函数(2)

遇见她如春水映莲花 字符函数与字符串函数&#xff08;2&#xff09; 前言一、strcatstrncat 二、strcmpstrncmp在这里插入图片描述 三、strstr四、strtok五、strerror总结 前言 根据上期字符函数与字符串函数我们可以了解到字符函数与个别字符串函数的用法&#xff0c; 那么接…

手写一个uart协议——rs232

先了解一下关于uart和rs232的基础知识 文章目录 一、RS232的回环测试1.1模块整体架构1.2 rx模块设计1.2.1 波形设计1.2.2代码实现与tb1.2.4 仿真 1.3 tx模块设计1.3.1 波形设计1.3.2 代码实现与tb1.3.4 顶层设计1.3.3 仿真 本篇内容&#xff1a; 一、RS232的回环测试 上位机…

改变视觉创造力:图像合成中基于样式的生成架构的影响和创新

原文地址&#xff1a;revolutionizing-visual-creativity-the-impact-and-innovations-of-style-based-generative 2024 年 4 月 30 日 介绍 基于风格的生成架构已经开辟了一个利基市场&#xff0c;它将机器学习的技术严谨性与类人创造力的微妙表现力融为一体。这一发展的核…

4.3 JavaScript变量

4.3.1 变量的声明 JavaScript是一种弱类型的脚本语言&#xff0c;无论是数字、文本还是其他内容&#xff0c;统一使用关键词var加上变量名称进行声明&#xff0c;其中关键词var来源于英文单词variable&#xff08;变量&#xff09;的前三个字母。 可以在声明变量的同时对其指定…

汇川AM400PLC通过EtherCAT总线控制禾川X3E伺服使能和点动控制

进行通信之前需要安装禾川X3E的XML文件&#xff0c;具体方法如下&#xff1a; 1、汇川AM400PLC和X3E通信配置 汇川AM400PLC和禾川X3E伺服EtherCAT通信-CSDN博客文章浏览阅读29次。1、汇川H5UPLC和X3E伺服EtherCAT总线控制汇川H5U PLC通过EtherCAT总线控制SV660N和X3E伺服_伺服…

转速和频率转换功能块(CODESYS ST源代码)

1、转速/频率常用转换关系 转速/频率/线速度/角速度计算FC_200 plc计算角速度-CSDN博客文章浏览阅读3.2k次。里工业控制张力控制无处不在,也衍生出很多张力控制专用控制器,磁粉制动器等,本篇博客主要讨论PLC的张力控制相关应用和算法,关于绕线机的绕线算法,大家可以参看专…