llm 是泡沫?

news2025/1/15 21:01:32

这篇文章不谈技术,只想聊聊自己这两年从事 llm 工作的一些感悟。

我个人对 llm 是一种很复杂的态度。毕竟,它真的击碎了我 2023 年之前所有的技术积累,以前在 nlp 苦心钻研的训练经验、模型结构、不同任务类型的不同处理技巧,好像在 ChatGPT 面前显得一文不值。

不过,事情都有两面性。与我的技术一起被击碎的,还有我那一潭死水的工作内容。我不再是特征工程师 —— “花了几个月的时间,就只为了构造某个能力的数据特征,然后想办法加入到模型网络中”。当领导又想让模型有一个新的能力怎么办,重复这个特征构造的过程,下一个季度的 OKR 也就制定完毕了。我一点都不认为这样的工作节奏能带给我自己、带给我的公司任何有意义的内容。

因此,作为一个曾经研究对话系统的 nlp 码农,即使我过去的知识和工作经验极速贬值,我也认可 llm:认可它提高了程序员 code 的效率,认可它创造了新的研究范式,认可它给我的工作内容注入新的活力,认可它掀起了全民狂欢的技术浪潮!

llm 是生产力工具
不管有多少人抨击 ChatGPT 的技术路线,也不管 ChatGPT 未来会不会真的取代我程序员的工作,一个毋庸置疑的事实是:ChatGPT 是当今不可或缺的强大生产力工具。

不会前端的我敢答应领导说我会给个简单 demo,而不是像以前那样说“我不确定 Django 能不能做这个“;没学过 go 语言的我敢直接写用于上线的代码;记不住的正则命令我不需要再搜了;学不会的 pandas 终于不用再学了;shell 语言的冷门命令也能信手拈来了——这些都是 ChatGPT 带给我的自信。

不仅是程序员,只要是文本领域,ChatGPT 就都已经改变了工作方式。它写出的新闻稿、小说不能用?那就让他写十篇你选一篇,或者是让它写个大纲自己再修改下。也许模型在创作任务的效果永远超不过人,但架不住模型可以批量生产、以量取胜啊。

在我眼里,不承认 ChatGPT 效果的人只有一种:极度的懒人,只接受它给你一个百分之百的可用方案!明明模型已经帮我们做了 90% 的工作了,已经十分接近最终成果,我们只需要再加上自己的筛选或简单修改,就可以完工了,难道就因为这 10% 的工作不想自己亲手做,所以选择自己从零开始做吗?我实在难以理解这种行为。

卖 ChatGPT 账号的、调戏 ChatGPT 然后做成视频的、使用 ChatGPT 生图的、利用 ChatGPT 大量生产文章的……很多人已经赚到了钱,不会用 ChatGPT 提高生产效率的,真的会最先被淘汰!

llm 把所有人拉到了同一起跑线
2023 年之前,没有几个人用过 megatron、deepspeed,没有几个人研究过 DPO、PPO、MOE,没有几个人知道 reward_model 怎么训,也没有几个方向的数据 piepeline 是需要花大价钱清洗才能运转的,就连“sft 数据要追求质量而不是数量”也是过了半年才达成共识的。在这个新的技术范式之下,我一个新人可以和工作十年的 nlp 组长进行激烈辩论,我一个小白可以告知苏剑林这样的大佬我对 rope 的认知和实验结果。

去年,我最喜欢说的一句话就是:“都是2023年开始学的,谁又能比谁能强多少呢?”。今年这句话依然生效,只不过同时我也意识到了,2023年已经在逐渐远去,凭借着天赋、财力、努力,deepseek 与 qwen2 团队的同学很明显已经开始和我们拉开距离了。每个 llm 的从业者都要有比去年更大的忧患意识:好不容易回到同一起跑线,怎么能这么轻易再次被拉开?

我们的公司可以做不过 deepseek,但是我们要努力让自己的认知和能力不要被他们甩开太远!

llm 带来了黄金的技术时代
公司愿意花钱去买卡租卡来让我实践学习,领导看见我工作时间读论文会感到满意,同事之间每天都在讨论新的 idea 或者是 Meta / OpenAI / Google 的新技术报告。我不得不说,这样的工作氛围,在 ChatGPT 出现之前,我从来没有遇到过。

可惜的是,如今大部分的公司开始拥抱应用,琐碎杂活再次多起来了。因此,如果真的感觉工作太忙有些力不从心,我从一个打工人的视角出发,真的建议大家可以利用周末多学学习跑跑实验。想一下吧,公司租着 4W / 月(1机8卡,粗略估计)的机器,来培养我们的认知,我想不到比这两年更适合提升自我技术的时机啦。

这种黄金时代在“人均只有十年的程序员生涯”中,应该是很难再有了!

llm 是泡沫?
回归正题,llm 会是一场泡沫吗?我不太理解这个问题为什么会被反复拿出来提问。这个答案对我们程序员来说真的重要吗?它是不是泡沫又能怎么样呢?毕竟,我既不在乎 AIGC 会通往何方,也不在乎 llm 是不是一条正确的技术路线,我只想在这场 llm 浪潮中,向我的组长、领导、未来的面试官证明一件事:我愿意去研究最新的技术方向,我有能力去复现最新的技术成果,仅此而已!

当 Google 再提出一个新的技术范式,难道各大公司会因为曾经研究过 llm 就不愿意招我们了吗?他们一定还是会选择“ llm 工作做的最好的那群人”,来组建新的研究团队去跟随新的前沿技术。

所以,llm 是泡沫吗?这是企业家们考虑的问题吧,程序员无需多想,我们只需享受这场技术革新的盛宴。

最后,我想再额外分享一个观点:在 llm 这个赛道,真的没必要羡慕别人的工作,做好自己的工作即可。

举个例子,文本工作的同学天天在想:

做 pretrain 的觉着自己的工作就是爬数据和洗数据、亦或者是和工程一样无休止的优化训练框架;
做通用 sft 的觉着跷跷板问题根本无法解决,觉着评测集根本反应不出模型能力,羡慕领域模型可以不在乎其他能力;做领域 sft 的又觉着自己没任何技术含量,想去解决跷跷板问题,想去训 reward_model;
做 rlhf 的觉着自己根本拿不到任何收益,动不动就训练崩了,远不如 sft 的洗洗数据就能提很多点。
图像工作的同学则天天在想:

做 stable difusion 的认为多模态才是未来的方向;
做图像文本多模态的认为 sora 太过于惊艳,一定是 AIGC 的未来;
做 sora 的又觉着老板脑子有问题才会相信 OpenAI 画的技术大饼。
说实话,没必要抱怨自己的工作内容,我们有卡用,我们就领先了大多数的同行。即使是当下最具含金量的“pretrain / scaling law”工作,未来也可能在求职时一文不值,毕竟难道曾经有公司招 nlp 方向的人要求会训出一个 BERT 吗?以应用为导向会是 llm 的必由之路。

在这场 AIGC 的浪潮下,工作没有高下之分,眼下的工作大概率都会像 BERT 一样成为时代的眼泪。我们只需要做好当下, 培养自己鉴别论文价值的能力、复现开源项目的能力、debug 代码的能力,坐等真正的“AIGC”出现即可。

(没卡的同学,我这里还是建议多去找实习,读再多的论文,刷再多的技术文章,也不如一次 debug 多机通讯报错带来的认知深刻)

在这里插入图片描述

大模型&AI产品经理如何学习

求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。

1.学习路线图

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

在这里插入图片描述

在这里插入图片描述

(都打包成一块的了,不能一一展开,总共300多集)

因篇幅有限,仅展示部分资料,需要点击下方图片前往获取

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
在这里插入图片描述

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2092817.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

个微管理撤回删除的消息都可以查看

有没有经历过误删微信消息的尴尬时刻?😅或者想知道撤回的消息到底是什么内容?今天,我要向大家推荐一个多功能微管理神器,帮你轻松解决这些问题!💪💌 1️⃣ 多个账号同时在线 &#x…

nefu暑假集训3 并查集与最小生成树 个人模板+例题汇总

前言&#xff1a; 并查集与最小生成树的训练。 正文&#xff1a; 链接&#xff1a;并查集与最小生成树 - Virtual Judge (vjudge.net) 题目&#xff1a; A - 关押罪犯&#xff1a; #include <bits/stdc.h> using namespace std; const int N200005; int fa[N],d[N]; …

实现一个能设置MaxLine的LayoutManager

实现一个能设置MaxLine的LayoutManager 有时候&#xff0c;我们会遇到这种需求&#xff1a;一个线性的列表布局&#xff0c;当item量很少的时候&#xff0c;就是wrap_content直接展示完所有item&#xff0c;但是当item数量超过某个数时就要固定高度&#xff0c;让其变成可滑动…

AOP 面向切片编程

目录 1. 什么是AOP 2. AOP的应用场景 3. AOP在Java中的实现 4. Spring AOP概述 5. Spring AOP的配置 1.在pom.xml文件中添加Spring AOP的依赖&#xff1a; 2. 定义切面 3. 启用AOP 4. 目标类 5. 测试AOP 6. AOP与其他技术的对比 面向切面编程&#xff08;AOP, Aspec…

SPI通信(软件模拟)

1 软件SPI程序框架 2 软件SPI交换一个字节的先后顺序 3 读取W25q64芯片厂商ID,设备ID 4 宏定义W26q64指令码 5 页缓冲区最大256字节&#xff0c;超过就会忙碌 6 页编程

生产环境中变态开启devtools(强制)

写到最前面 首先&#xff0c;你已经下载了google的插件【vue devtools】&#xff0c;不知道怎么下载&#xff0c;留言博主 如果你想看的项目中的vuetools插件打开是这样的 Vue.js is detected on this page. Devtools inspection is not available because it’s in product…

【中学教资-信息技术】多媒体文件大小的存储

图像/音频/视频文件大小的计算 1 图像文件2 音频文件3 视频文件4 例题5 总结 视频讲解&#xff1a;音频文件大小/视频文件大小计算-失舵之舟 1 图像文件 压缩比原始大小/被压缩之后大小 颜色深度&#xff1a;指图像中每个像素所占的二进制位数&#xff08;bit&#xff09; n位…

BioXM一款实用的生物小软件

软件介绍 BioXM是一款非常简单明了的分子生物学软件&#xff0c;全中文操作界面非常友好。 DNA序列分析、蛋白质序列分析、多序列比对、氨基酸相似性计算、酶切位点分析、ORF分析、分子量和等电点预测、序列数据库等。 软件下载 https://pan.quark.cn/s/84df485efd6e安装教…

Vxe UI vue vxe-table 如何在表格中使用上传附件、上传图片

Vxe UI vue vxe-table 如何在表格中使用上传附件、上传图片 效果图 在表格中显示缩略图模式上传附件或图片 点击更多按钮查看全部 鼠标拖动上传 代码 <template><div><vxe-grid v-bind"gridOptions"></vxe-grid></div> </tem…

第九周:机器学习

目录 摘要 Abstract 一、RNN 1、引入 2、RNN的分类 二、LSTM 1、基本结构 2、具体步骤 3、举例说明 4、原理理解 总结 摘要 本周主要围绕RNN进行探讨&#xff0c;从为什么需要这类”循环网络“入手&#xff0c;提到了”slot filling“技术&#xff0c;接着又对R…

大模型赋能风控运营:效率跃升的密码

一、大模型助力风控运营的背景与趋势 大模型兴起的背景 随着金融行业的迅速发展和数据量的爆炸式增长&#xff0c;传统的风控运营手段逐渐难以满足复杂多变的风险形势。大数据、人工智能等技术的不断进步&#xff0c;为大模型在风控运营领域的应用提供了技术支撑。金融机构面…

海洋大地测量基准与水下导航系列之一引子

海底大地基准网是一组布放在海底的声学基准站&#xff0c;组建类似GNSS星座的定位系统&#xff0c;既可以对水面及水下的各类设备提供时间和空间信息&#xff0c;也可用来监测海底板块及水体环境的动态变化。海底声学基准站与海面GNSS、海底重力站联合打造立体的观测控制网&…

十道MySQL必问面试题

你是如何理解最左前缀原则的&#xff1f;你是如何理解行锁、GAP锁、临键锁的&#xff1f;你是如何理解MVCC的&#xff1f;你是如何理解count(*)和count(1)的&#xff1f;你是如何理解Online DDL的&#xff1f;你知道哪些情况下会导致索引失效&#xff1f;你是如何理解filesort的…

fastmock使用

FastMock 是一个在线工具&#xff0c;用于快速创建和管理模拟 API&#xff08;Mock API&#xff09;。它主要用于前端开发&#xff0c;允许开发者在没有真实后端服务的情况下&#xff0c;模拟 API 响应&#xff0c;从而加速开发和测试过程。 FastMock网址&#xff1a;fastmock.…

Java多进程调用dll程序和exe程序

&#x1f3af;导读&#xff1a;本文介绍了使用Java调用本地DLL及EXE程序的方法。针对DLL调用&#xff0c;文章提供了基于Java Native Access (JNA) 库的具体实现方案&#xff0c;包括定义Java接口以映射DLL中的函数&#xff0c;并展示了如何加载DLL及调用其中的方法。对于EXE程…

Python 数据可视化:工具与实践

文章目录 数据可视化可视化库特点对比实例&#xff1a;绘制基本数据分布图评估维度 交互式可视化与静态图表实例&#xff1a;创建交互式折线图评估维度 实时数据可视化实例&#xff1a;展示实时股票数据评估维度 图表设计原则实例&#xff1a;设计适合展示销售数据的条形图评估…

论文辅助笔记:LP_BERT

1 train_task1.py 1.1 main部分 读取命令行参数&#xff0c;调用task1函数 1.2 task1 train 1.3 task1 valid 1.3 collate_fn 2 Dataset 2.1 train dataset 2.2 valid dataset 3 LPBERT 3.1 不同的embedding day-of-week embedding和time-of-day embedding X位置和Y位置的…

色彩与笔触的交响:广州米塔在线科教技术有限公司揭秘PS绘画秘籍!

在数字艺术的广阔天地里,PS无疑是一颗璀璨的明星&#xff0c;它不仅在图像处理领域独领风骚&#xff0c;更以其强大的功能成为了众多艺术家和设计师进行数字绘画的首选工具。广州米塔在线科教技术有限公司&#xff0c;作为致力于艺术教育与技术分享的平台&#xff0c;深知掌握P…

sealos快速搭建k8s集群

一&#xff0c;环境准备 1&#xff0c;三台&#xff08;搭建一主两从集群&#xff09;或五台&#xff08;三主两从集群&#xff09;虚拟机&#xff0c; 安装alimaLinux系统 &#xff0c;相同的root密码&#xff0c;不要安装docker。 如果是alimaLinux-mini版本操作系统&#xf…

PMP–知识卡片--SCQA金字塔表达

SCQA模型通过四个关键元素&#xff1a;情景冲突疑问答案&#xff0c;建立了一个精确而有逻辑的表达框架。同时&#xff0c;它也能够帮助你构建合理的逻辑链条&#xff0c;让别人更容易理解和接受你的观点。 情景&#xff1a;通过描述背景和现状引入话题&#xff0c;这个元素帮助…