大模型算法入行转行?指南来了!

news2024/12/28 21:06:54

最近私信问我关于入行、转行方面的问题比较多,就专门写一篇讲讲我的理解。

在这里插入图片描述

首先说明一下个人的背景和现状,我本人是本科学历,有互联网大厂搜推方向经验,后来跳到中厂继续做推荐,去年开始做大模型。现在是个小组长,做以应用落地为目的的大模型方向工作。

现在大模型算法涉及的工作主要分为这几个方向:
1.偏底层的训练和推理框架工作,比如colossal-ai、vlm这些,各厂如果自建集群搭建训练推理框架的话也会有一部分工作与之重合;
2.预训练;
3.Alignment;
4.应用开发;

上面也就十分粗略的简单做了个划分,其实很多界限并不清晰,只是为了后面叙述有个结构。

底层框架

这一层我是没太接触过的,不过公司内有做这方面的人。以我粗浅的认知,这些人的技术栈和以前搞GPU算子优化、分布式框架的那拨人重合度比较高。不太懂就不多说了。

预训练

在我看来,预训练这块的工作最终肯定是赢家通吃的。现在只是因为大家都还在同一个水平线上,也没有能和开源拉开差距,卖api也卖不了多少,所以看起来竞争还挺激烈。等到决出三六九等之后肯定没有必要存在那么多团队做pretrain。况且即使做pretrain的团队,真正核心在干活的也没几个人。一千张卡可能不够供一个人用,卡就那么多,配用的人也就那么多。剩下的人做的事情我觉得都不是那么有意义,不是说洗数据啥的不重要,重要,但对大多数人来说对个人价值提升不大。我之前也自己做基于llama的继续pretrain,现在这块工作已经完全放弃了,感觉没啥意义。

再有,所谓垂直领域大模型这个事情我觉得大概率是个伪命题,各方面知识应该是相互促进补充的,遵循奥卡姆剃刀原理我相信最终就是一个模型破一切。

所以我认为虽然现在预训练目前在就业市场上可能还是有比较大的需求量的,但是很多就是纯跟风,迟早得死。对于择业的建议就是:自信自己顶级天赋顶级卷度,势要干翻gpt4的人选这个。

Alignment

我其实觉得sft和强化学习都可以放一起,不知道我这个小标题准不准确。反正都是在基座上进一步提升对话的效果。这块工作其实就开始一定程度接近业务了,比如目前,很多业务团队都会根据下游任务来构造数据进行sft训练。会不会以后基座足够强之后全靠few shot啥的就完全解决问题,这个我不敢猜测。至少在国内,基于开源模型做sft拿到业务上用,应该是挺长一段时间会保持的状态,所以这个方向看起来我觉得是目前市场上需求较大,未来一段时间也还是会持续有比较大需求量的。想训模型的可以选这个方向我觉得挺好

应用开发

这一块的岗位其实现在大家看到的还不多,主要可能有两个原因吧,第一是openai的接口在国内直接用是有监管问题的。第二是国内开源模型的水平还不行,以及一些相关链路上的工作还没做完(比如functioncalling)。所以时机还不成熟,还不到LLM native应用大规模爆发的时候。

但是我觉得毫无疑问这个方向的人才需求以后将远远超出前面几个方向加起来,这就像是你搞安卓系统和安卓应用开发的对比一样。做操作系统开发才几个人,安卓开发那真是不知道有多少了。

我预计这个时间也不会太长,一两年肯定够了,所以现在找这个方向的机会开始布局也是很不错的。不过先训训模型等真的有机会起来也没问题,毕竟你做应用开发对系统原理了解清楚肯定是优势,

其他

其实除了上面说这些,还存在一些其他的方向,比如类似guidance这样在align模型之后的,和推理框架绑定比较强的组件,我觉得以后应该会融入到推理框架的范围内。

总结

最后简单总结一下,我认为现在总体的行业形势是资本进行了大规模投入,但是基本堆在预训练上,然后这个环节也容纳不了太多人就业,而且暂时也创造不了多少商业价值。所以很有可能一段时间后会有一个下行的阶段,现在做预训练这些创业公司死一批。然后随着应用端的工作越来越多,大家慢慢把投入方向往下移,往应用端发力,这时候会有一些找准机会和方向的公司出来。顺利的话各种LLM native应用就走入千家万户。(就纯粹我自己的想象哈哈哈)

总的来说我认为LLM肯定是一个好的方向,现在进来不管做什么,也算是比较早的了解原理的人,后面做应用应该也会有一些优势。

如何学习AI大模型?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

想正式转到一些新兴的 AI 行业,不仅需要系统的学习AI大模型。同时也要跟已有的技能结合,辅助编程提效,或上手实操应用,增加自己的职场竞争力。

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高

那么针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

学习路线

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2170093.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

用ChatGPT做数据分析与挖掘,爽!

导读:在现代数据分析中,Python凭借其强大的数据处理能力和丰富的库资源成为首选工具。ChatGPT,作为先进的自然语言处理模型,正逐步成为Python数据分析与挖掘的强大辅助工具。 通过ChatGPT的自然语言处理能力,用户可以…

模糊综合评价法详细讲解+Python代码实现

🤵‍♂️ 个人主页:艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞&#x1f4…

敏捷开发与DevOps的有机结合

在当今快速变化的技术环境中,软件开发团队面临着前所未有的挑战。客户需求不断变化,市场竞争激烈,技术更新速度加快,这些因素都要求开发团队具备高度的敏捷性和高效的运营能力。为了应对这些挑战,越来越多的企业选择将…

性能调优知识点(mysql)一

Mysql 索引 索引介绍 1.索引是排好序的数据结构。他的目的是为了提升查询效率。 2.mysql存储引擎分为innodb和myisam。它是用来形容表的。 innodb支持事务、外键、行锁 myisam不支持事务、外键 3.myisam使用3个文件来存储每张表数据,每个文件名以表名开头&#x…

智能硬件语音交互接入大模型知识库的排错指引

前言 前篇讲了把大模型知识库接入到聆思CSK6大模型开发板的文章,这篇讲一下配置失败时该怎么去定位问题和解决。 阅读这篇文章前建议先看:三步把知识库接到智能语音硬件上-CSDN博客 一、排错流程顺序参考 二、云端鉴权问题处理 原因1:聆思平…

css动态边框

参考&#xff1a; Clip-path实现按钮流动边框动画_在线clip-path-CSDN博客 https://www.5axxw.com/questions/simple/9ju5yt#google_vignette <div class"bottom-top-item-centent bottom-top-item-left"><vue-seamless-scroll :data"listLeftData&q…

稿件生产业务并发竞争场景下的安全性保障

一. 背景 视频业务作为B站内容生态的心脏&#xff0c;承载了海量的视频内容和用户互动。它不仅是用户获取信息、享受娱乐的窗口&#xff0c;更是UP主展示创意、分享知识的舞台。在设计和实现视频系统时&#xff0c;我们致力于平衡用户体验、内容分发的效率&#xff0c;同时确保…

H5支付 两种成熟方案

H5支付&#xff0c;对前端来讲并不算难。主要工作量都在后端&#xff0c;需要对接支付宝API文档配置大量参数与商户信息。 前端需要做的是正常调取支付接口&#xff0c;拿到配置好的支付信息&#xff0c;触发后续流程&#xff0c;再利用本地存储拿支付订单号判断支付结果即可【…

SpringBoot使用EasyPoi根据模板导出word or pdf

1、导出效果 1.1 wrod 1.2 pdf 2、依赖 <!--word--><dependency><groupId>cn.afterturn</groupId><artifactId>easypoi-base</artifactId><version>4.3.0</version></dependency><dependency><groupId>cn.…

leetcode968. 监控二叉树

给定一个二叉树&#xff0c;我们在树的节点上安装摄像头。 节点上的每个摄影头都可以监视其父对象、自身及其直接子对象。 计算监控树的所有节点所需的最小摄像头数量。 示例 1&#xff1a; 输入&#xff1a;[0,0,null,0,0] 输出&#xff1a;1 解释&#xff1a;如图所示&#x…

回归预测|基于卷积神经网络-支持向量机的数据回归预测Matlab程序CNN-SVM 卷积提取特征与原始特征进行融合预测

回归预测|基于卷积神经网络-支持向量机的数据回归预测Matlab程序CNN-SVM 卷积提取特征与原始特征进行融合预测 文章目录 一、基本原理原理流程总结 二、实验结果三、核心代码四、代码获取五、总结 回归预测|基于卷积神经网络-支持向量机的数据回归预测Matlab程序CNN-SVM 卷积提…

有关若依登录过程前端的对应处理学习

导言 在用C#搞完个后端后想用若依的前端做对接&#xff0c;不过很久没搞过若依了&#xff0c;想趁这个二次开发的过程记录熟悉一下登录的过程 过程 验证&#xff0c;在permission.js的路由守卫&#xff0c;这里在用户发起api请求时会验证用户的请求是否有token&#xff0c;对…

网络编程(10)——json序列化

十、day10 今天学习如何使用jsoncpp将json数据解析为c对象&#xff0c;将c对象序列化为json数据。jsoncp经常在网络通信中使用&#xff0c;也就是服务器和客户端的通信一般使用json&#xff08;可视化好&#xff09;&#xff1b;而protobuf一般在服务器之间的通信中使用 json…

C# 委托(Delegate)二

一.委托的多播&#xff08;Multicasting of a Delegate&#xff09;&#xff1a; 委托对象&#xff0c;使用 "" 运算符进行合并&#xff0c;一个合并委托调用它所合并的两个委托。使用"-" 运算符从合并的委托中移除组件委托。 注&#xff1a;只有相同类型…

使用 Napkins.dev 将草图转换为应用程序

在现代前端开发中&#xff0c;快速将设计草图转换为实际的应用程序代码是一个巨大的优势。Napkins.dev 是一个利用人工智能将网站设计草图转换成实际应用程序的平台。本文将介绍如何使用 Napkins.dev 进行这一过程。 什么是 Napkins.dev&#xff1f; Napkins.dev 是一个开源平…

机器学习-TopicModel

概率图模型基础概率潜在语义分析&#xff08;PLSA&#xff09;LDA 概率图模型基础 猜球游戏 有两个信封&#xff0c;其中一个装有一个红球&#xff0c;一个黑球。另一个信封有两个黑球。 。 假设红球价值100元&#xff0c;黑球价值1元。 你随机从其中拿起一个信封&#xff0c;从…

Linux高阶IO之select多路转接

文章目录 select多路转接timeoutfd_set返回值执行过程总结 select多路转接 多路转接有三种方案,分别是select,poll和epoll,我们都会讲解和介绍 select的函数原型是这样的 他一共有五个参数,但是可以分为三组 nfds:需要监视的最大的文件描述符值1readfds:可读文件描述符集合 …

C#邮件发送:实现自动化邮件通知完整指南!

C#邮件发送性能怎么优化&#xff1f;使用C#发送邮件的设置步骤&#xff1f; 无论是用于客户服务、内部沟通还是项目管理&#xff0c;自动化邮件通知都能显著提高效率和响应速度。AokSend将详细介绍如何使用C#邮件发送功能来实现自动化邮件通知系统。 C#邮件发送&#xff1a;配…

二、词法分析,《编译原理》(本科教学版),第2版

文章目录 一、词法分析器1.1 词法分析器的作用1.2 词法分析器的设计方法1.3Antlr 词法分析器生成器1.3.1 环境准备1.3.2 词法分析器自动生成初体验&#xff08;需了解少许正则表达式概念&#xff09;1.3.2.1 创建工程1.3.2.2 空白符逻辑1.3.2.3 实现INT类型1.3.2.4 实现单行注释…

ClkLog常见问题-埋点集成篇Sec. 2

本篇将继续解答ClkLog使用过程中【埋点集成】阶段的常见问题。 1.【埋点集成】 问&#xff1a;receiver数据接收是不是一定要有ssl证书&#xff1f; 答&#xff1a;不是。 2.【埋点集成】 问&#xff1a;接收服务地址从哪里获取&#xff1f; 答&#xff1a;接收服务地址参考&am…