写给大模型新人的经验,刷到少走三年弯路!

news2024/12/23 17:51:14

这篇文章,我将结合自己在大模型领域的经验,给大家详细聊聊新人应该如何转行大模型赛道?

比如大模型都有哪些方向?各方向的能力要求和岗位匹配?新手转行大模型常踩的坑和常见的误区?以及入行大模型最顺滑的路径?

如果你是正打算入行大模型的校招/社招同学,请一定看完,可能会让你在入行大模型的路上,少走很多弯路。

01

大模型都有哪些方向?

如果你在求职网站搜索"大模型"关键词,看一下招聘 JD,基本可以了解现在业内对大模型工程师的需求方向和能力要求.。

总结一下,大致可以分为 4 类:

  • 做数据的(大模型数据工程师,爬虫/清洗/ETL/Data Engine/Pipeline)
  • 做平台的(大模型平台工程师,分布式训练/大模型集群/工程基建)
  • 做应用的(大模型算法工程师,搜/广/推/对话机器人/AIGC)
  • 做部署的(大模型部署工程师,推理加速/跨平台/端智能/嵌入式)

02

大部分新手的误区

如果是你,看到这几个方向,会怎么选?我估计很多人都直奔第三点去了,坚定的要做应用,走在所有工种的最前沿,做出让老板,用户都看得到的核心"产品"。

不过这里我不禁要给各位泼一点冷水,在 AI 算法这个行业,三是很吃业务经验的,如果你之前本身就是做算法的,比如是做 NLP,又或者是做语音助手,对话机器人这类的,再顺水推舟做相关方向的大模型算法工程师,这是比较合适的。

在自身业务里融入一些大模型的算法和技法,拿到实际的业务产出,去市面上也比较好找这类岗位。

但如果你是 CS 方向的实习生/应届毕业生,或者其他 IT 方向转行大模型,3 未必是一个最好的选择,大家不要带着一个误区:大模型算法工程师就是调模型,调超参,做一做预训练,做一做 finetune,SFT 之类的活。

实际上呢,这部分工作只有很少人做,基本一个 team 中只有个位数的人,或者只是算法工作的很小的一部分。

注意一点,新人进去 90% 以上都不可能直接让你干算法模型调优的活,大部分可能还是让你配环境,搭链路,清洗数据,分析数据,调研,写一写 function,tools。

这些体力活都干熟了以后,可能才会让你跑一些模型实验。其中比较出色的,脑子比较灵活的同学,才会慢慢让他们开始接触线上业务。

也有很多同学,干了好几年,还是在干一些边角料,脏活,杂活,根本接触不到核心业务。对于刚入行的新人,如果你学历背景好点,可以去大公司做 intern 然后转正,背景差一点,可以去中小公司,积累业务经验。

03

数据很重要!

然后很多人可能往往忽视了上面的 1,2,4,觉得我学了这么多算法知识,学了机器学习,深度学习,还了解大模型,再去做数据,有点屈才了。

但我想告诉你的是,1 是更多转行大模型同学更容易上岸的方式。条条大路通罗马,不是只有一条路走到黑。

首先,目前国外的大模型技术至少领先国内两年,虽然国内已经有几十上百个“大模型”了,但真正能打的并没有几个。探究原因,还是有很多技术没有突破。

算法本身来说,GPT 已经不是什么秘密了。那剩下还有什么呢,一是数据,二是工程技巧

拿数据来说,先说通用的大模型训练,数据的来源,从哪里采,数据的质量怎么把控,如何过滤有毒信息,语言的筛选与比例,数据的去重,以及数据的规范化处理,评测集的构建。这些既是体力活,又是技术活。

对于垂直领域,比如金融,电商,法律,车企,这种领域数据的构建就更考验技术了,业务数据怎么来,数据不够怎么办,完全没有数据怎么办?如果构建高质量的微调数据?

能把这些问题解决好,模型也就成功了一大半。因此,就目前的现状,对于数据工程师,特别是有经验的数据工程师,是非常稀缺的。

04

大模型平台干些啥?

然后说下 2,大模型平台工程师。如果你之前是做工程的,或者对工程比较感兴趣,我比较建议你选 2。

这二者其实并没有本质的区别,都是为了大模型业务服务的,也叫大模型基础设施的建设,作用就是让大模型 train 得更好,大模型跑得更快。

这块主要是干些啥呢?

从计算层面来说,有分布式计算,并行计算,高性能计算,有些公司对这三者也不加区分。

从硬件层面来说,有搞大模型训练集群,GPU 集群,CPU/GPU 混部集群,池子里要管理几百上千张卡,还要负责他们的利用率,机器的健康状况,有没有挂的,中小公司这块基本都是开发和运维一体的,一个工作干两个工种的活。

从平台层面来说,有做 LLMOps 的,也就是 pipeline。集数据 IO,模型训练,预测,上线,监控于一体,这种就是跟着业务团队走,做适配,造很多高效的轮子,方面业务团队使用,减少他们额外重复开发的时间。

这块整体上来说,在大模型时代稳中有升,因为实际上很多公司这方面的人都是从之前搞深度学习平台,大规模机器学习平台的人招过来的,技术上的 gap 相对比较小。因此,对于 AI 工程感兴趣的,可以选这个方向。

05

大模型部署干些啥?

最后说一下 4,大模型部署工程师。这个岗位之前也有,不过在大模型这一两年尤其的火热。

什么原因呢?

因为部署大模型太费钱了。首先模型延迟本身就高,30B 以上的模型,对算力,显存要求很高。

老板关心什么?一方面是大模型产品,也就是业务指标要好看,方便 PR。另一方面也要求控制成本(大厂/独角兽除外)。

一般企业里面,一个 P8 级别的 leader,要在公司里面抢业务,拉资源,找人力,本身就是一个不容易的事。

“降本增效”是 23 年以来,几乎所有公司的一个主旋律。所以老板们很关心你节约了多少钱,比如你把推理效率提高一倍,那就实实在在降低了一倍的成本。

回到大模型部署工程师来,这个岗位总体有两个方向的工作:云端部署和端侧部署

云端比较好理解,可以做推理加速平台,也可以随着业务走,做大模型定制化加速。

比如 Qwen-7b 的加速,还可以做大模型推理引擎,比如搜索/问答的推理引擎,一般是在高并发用户场景下,在保证用户 SLO 的前提下,最优化 latency 和 throughput。

另一个大方向是端侧的部署。也就是在消费级 GPU/NPU 以及边端设备下,部署大模型,同时让领域大模型小型化,让业务能实际工程落地。

总的来说,大模型部署工程师对工程能力,系统能力,以及硬件等方面都要有一定的了解,现在各种推理框架出来以后,降低了一点难度,但仍然是一个比较有竞争力的工种。

你得了解计算图和 OP 的优化,得了解各种推理框架,缓存/显存优化,还有 LLM 结构运行时的系统架构。这个岗位一般不推荐新人入场,因为太吃经验了。建议先从 2 进场,然后逐步转到 4。

06

总结

最后,给准备入场大模型的新人几点建议:

  1. 不要只关心 finetune,SFT,RLHF,作为系统性学习是 OK 的,切忌花太多精力。
  2. 想做应用的,建议 focus 到某个垂直领域,比如对话机器人,问答系统,金融/医疗/教育方向,找一个具体的场景,把它做好,做深。
  3. 多关心数据,data pipeline,高质量训练/测试集的构建经验,对数据的sense,是最直接,也是最适合用到未来工作当中的。
  4. 大模型不只有算法,也可以有工程。大公司拼的都是基建,平台是对业务的支撑,牛逼的 infrastrure 是大模型产品成功不可或缺的因素。

在大模型时代,我们如何有效的去学习大模型?

现如今大模型岗位需求越来越大,但是相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。
在这里插入图片描述

掌握大模型技术你还能拥有更多可能性

• 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程;

• 能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用;

• 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域;

• 更优质的项目可以为未来创新创业提供基石。

可能大家都想学习AI大模型技术,也_想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。为了让大家少走弯路,少碰壁,这里我直接把都打包整理好,希望能够真正帮助到大家_。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,下面是我整理好的一套完整的学习路线,希望能够帮助到你们学习AI大模型。

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述

三、AI大模型经典PDF书籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

在这里插入图片描述

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

四、AI大模型各大场景实战案例

在这里插入图片描述

结语

【一一AGI大模型学习 所有资源获取处(无偿领取)一一】
所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1988303.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

扩散模型系列笔记(一)——DDPM

直观理解 扩散模型分为前向过程(扩散过程,Data → \to →Noise)和后向过程(生成过程或逆扩散过程,Noise → \to →Data)。在前向过程中,对于每一个观测样本,不断向样本中添加少量噪…

智能编程新纪元:腾讯AI代码助手的高效编程体验

智能编程新纪元:腾讯AI代码助手的高效编程体验 智能编程新纪元:腾讯AI代码助手的高效编程体验引言一、配置开发环境二、AI助手实现高效编程2.1 AI助手自动补全2.2 AI助手实现编程思维2.3 AI助手高效注解2.4 AI助手打破语言壁垒 三、帮助和提升四、优化和…

【CSS入门】第一课 - CSS内容都可以写在哪里?

从这一小节开始,我们开始学习CSS的内容。之前都是学习的HTML标签,还用几节课的时间做了纯HTML标签的实战。 但是只用纯HTML标签做出来的东西呢,不是那么好看,而且你看那么多网站,没有哪个网站只用纯HTML标签做东西的&…

游戏加速器推荐

游戏加速器推荐,玩游戏用什么加速器!我得给你推荐一款我常用的。 首先呢,就是深度加速器,它针对目前手游网游的游戏加速效果特别棒,而且界面也很友好。 另外,还有深度加速器,这款加速器不仅支持…

springboot青少年科普平台-计算机毕业设计源码76194

摘 要 对于搭建一个青少年科普平台,您可以考虑使用Spring Boot作为后端框架。Spring Boot是一个能够简化Spring应用开发的框架,能够帮助您快速搭建稳定、高效的后端服务。您可以利用Spring Boot的特性来构建一个可靠的数据服务,用于展示和传播…

为什么稳定的开关电源仍可能振荡

开关模式调节器 开关模式调节器的功能是尽可能高效地将输入电压转换为稳定的恒定输出电压。 此过程会有一些损失,其效率可衡量为 ηPOUTPIN?PINPOUTη→VINIIN(1)VOUTIOUTη?IINVOUTIOUTη/VIN 图 1. 输入电流与输入电压的关系。 图 2. 添加了 12 V 处的切线。…

C++-类与对象基础

一,类的定义 1.1类定义格式 class为定义类的关键字,Stack为类的名字,{}中为类的主体,注意类定义结束时后面分号不能省略。类体中内容称为mian类的成员:类中的变量称为类的属性或成员变量; 类中的函数称为类的方法或者…

【麒麟】多种方法修改MAC地址

原文链接:【麒麟】多种方法修改MAC地址 Hello,大家好啊!今天给大家带来一篇关于在麒麟桌面操作系统上多种方法修改MAC地址的文章。MAC地址是网络接口卡的物理地址,有时我们需要修改它以实现特定的网络配置需求。本文将详细介绍几种…

VS2022中打印中文乱码

我们在使用VS编写C语言代码的时候,我们可能遇见用printf打印中文出现乱码的情况,如下: 下面我们来讲一下怎么解决这种问题: 出现这种现象是因为你使用的编码设置不对; 1.我们首先打开文件标签,看看是否有…

为什么我要从测试经理转行到产品经理?

本文来聊一下我转产品经理的心路历程。 我从大学毕业做的就是软件测试,简单点说就是把别人设计的产品别人码的代码 我们或手工或自动化 的方式检查是否有逻辑问题,是否符合需求设计。某一天我突然对自己的工作不那么热爱,难道一辈子就干这个…

C4D学习笔记

C4D学习笔记 技巧使用对称面的两边会有问题,很生硬洗面奶瓶盖凹槽洗面奶瓶子尾部接缝 常用功能在一个线创建一个平面在圆面内家一圈线(KL循环切割)在某个面向内加一圈线某个模式切换,选中所有(按着Ctrl键)焊接&#xf…

Apache OFBiz系统ProgramExport接口存在远程命令执行漏洞CVE-2024-38856 附POC

@[toc] 免责声明:请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息或者工具而造成的任何直接或者间接的后果及损失,均由使用者本人负责,所产生的一切不良后果与文章作者无关。该文章仅供学习用途使用。 1. Apache OFBiz系统简介 微信公众号搜索:南…

8月6日笔记

8月6日 红日靶场打靶继续 SHOW VARIABLES #用于显示服务器运行时的各种系统变量的当前设置。这些变量可以控制服务器的行为在 MySQL 中,general_log 和 general_log_file 是两个与“general”相关的系统变量,它们控制着服务器是否启用一般查询日志以及…

安卓应用开发学习:聚合数据API获取天气预报

一、引言 上个月我通过腾讯位置服务,实现了手机定位应用的开发学习。最近在看软件书籍时,又看到了聚合数据API方面的内容。 书上介绍了聚合数据天气预报API的应用,不过书上的代码看得有些难受,我到聚合数据官网,对天气…

使用Streamlit构建一个web模拟HTTP请求工具

目录 前言 HTTP工具功能点: 1. 导入库: 2.设置页面配置: 3. Markdown格式的说明文本: 4.用户输入界面: 5. 发送请求按钮和逻辑: 6.发送HTTP请求并计算请求细节: 7.总结 前言 最初就是因为在微信看到一篇文章中,看到此http工具的制作因为觉得Streamlit有无限…

第四周:网络应用(下)

一、P2P应用_原理与文件分发 1、纯P2P架构 2、文件分发:客户机/服务器架构 3、文件分发:P2P架构 P2P和CS架构对比: 对于文件分发这类应用来说,P2P架构有着非常好的可扩展性,即当节点数目增大的时候,它所…

Ajax-02

一.form-serialize插件 作用:快速收集表单元素的值 const form document.querySelector(.example-form) const data serialize(form,{hash:true,empty:true}) *参数1:要获取哪个表单的数据 表单元素设置name属性,值会作为对象的属性名 建议…

【初阶数据结构题目】13.环形链表II

环形链表II 点击链接做题 思路:快慢指针 快慢指针,即慢指针一次走一步,快指针一次走两步,两个指针从链表起始位置开始运行,如果链表带环则一定会在环中相遇,否则快指针率先走到链表的未尾 让一个指针从链表…

visual studio跳转到上一个/下一个光标处的快捷键设置

vscode能通过Alt左右箭头跳转到上/下一个光标处,这对于“点进函数看源码,看完后跳转到原来位置”是非常方便的。 在Visual Studio中,有2种方法实现这样的功能。 第一种,直接点击这两个按钮:(缺点是每次要用…

阻抗?关于双绞线阻抗的那些事...

双绞线的阻抗不是电阻,而是描述传输高频信号时电磁感应分布特性的一个特性参数。 电缆中的每个微分段的电阻、电容、电感的分布感应值都是不一样。 分析方法:计算每个微分电缆段的感应值分布函数,换算成四端网络参数等效值,单位…