llm 论文淘金,大模型精选论文解读,让你从大模型零基础到进阶

news2025/1/17 4:43:22

技术报告

没啥说的,当下最最最有含金量的论文,值得反复阅读。重点留意:数据清洗方法、pretrain 数据配比、pretrain 超参数、退火阶段、sft 的 task 种类、sft 的数据量级、dpo / ppo 训练技巧,合成数据方法等。

我个人觉着,国外 llama、mistral 是最大方的,国内 deepseek、minicpm 是最大方的。

OpenAI

OpenAI 2023 年以前的论文都属于百年陈酿,值得反复品味。它们那时候没名气,还很真诚、需要技术影响力。现在发布的东西,要么在秀肌肉,要么让人感觉哪里不太对劲。

评估 > 训练

这个观点我重点分析一下。大模型发展到现在,除非 OpenAI 挤出来更多的牙膏,或者是某大佬再提出 flash_attention、rope 等惊为天人的创举,否则 pretrain、sft、dpo、ppo 等的训练方法和技巧基本都快定型了。搞来搞去,大抵都是 scaling_law、数据配比、学习率、优化器、退火阶段、数据多样性、裁剪、正则、调整正负例 loss,引入或移除某网络,等等。

那么,如何确定自己该不该加入某个技巧呢?如何确定某个技巧的正确使用方法呢?学习率、数据配比到底该该用什么数值?sft 又该使用多少数据?这些问题全都只能靠“经验”回答,几乎毫无理论可言。

我们需要一个鲁棒的评估结果来帮助做实验分析,倒果为因,解释某个训练技巧是否使用正确。

计算机作为经验学科,倒果为因并不是一个贬义词,谁有更丰富的经验谁就是更好的程序员。几年前,分析 BERT 结构相比于 GPT 结构更优越还属于 nlp 的八股文;当下,分析 decoder-only 结构的优异性也属于 nlp 的八股文。

可话说回来,业界目前基本没有高效全面且快速的评估,目前最常用评估方式大概是下面几种。

  1. 刷 benchmark:怎么说呢,信白盒 benchmark 的结果不如信我是秦始皇。大家都刷了 ceval、mmlu,你不刷你就比不上人家,你的模型就没人关注,这已经成为了一个死循环,无可奈何;
  2. GPT4 评估:效果十分不稳定,alignbench、MTbench 这种榜,用 GPT4 跑 10 次,最好结果和最坏结果能差十几个点;
  3. 跑具体 case 然后由人来评估:好用,有用,但是又慢又贵,且不适合指导 pretrain 模型。

(评估还有一个问题是,做题不太能反映出来模型的真实能力,可能要从 logits 分布等更深层次的内容来分析模型能力。作为大模型不具有任何数据学能力的坚定支持者,即使 gsm8k,mathQA 等这些评测集没有被模型提前训过,我也不认可它们等价于数学能力,我觉着模型“纯在靠背”。这段话完全是个人观点,无任何出处。)

因此, 评估依旧是当下最大的瓶颈。谁评估快、谁评估准,谁就能积攒更多的训练经验。所以也引出了我这个奇葩的观点:评估工作的论文含金量比训练工作的论文更高。看见是做评估工作的论文,无论是提出方法,还是构建评测集,都别跳过,认真读读,万一真的很有效果,能拿来做成自动化评估 pipeline 呢。

这里插入一段范大将军关于开源模型刷榜的点评:

范大将军:你说 benchmark top1, benchmark top1 一届一届一届易主了个多少个开源模型了,效果真的好吗,换汤不换药啊!人家 Meta 也有理由说的,我对标的是什么啊,我对标的是 OpenAI 啊。你这批模型是抄谁的网络结构啊,你拿我当垫脚石。开源社区现在什么水平?就 llama 一个网络结构,你 qwen2 什么的都是最好的开源模型,他能对标 GPT4 吗?对标不了,没这个能力知道吗?再下去要刷赢 Llama3.1 了,Claude3.5 赢完赢 Llama3.1,再刷赢 GPT4o,接下来没公司赢了。

女记者:另一方面说,pretrain 训 benchmark 是为了更好的宣传模型。

范大将军:欧呦,谢天谢地了,呵~我已经说了,你这样子内卷本身就衡量不了模型的能力,你能跟我保证在明年或者后年,openAI 不纰漏技术了你能找到 AGI 的方向吗?务实一点,我劝你们,我把自己的模型评估、scaling_law 的这个理念先搞懂。这些评测集建的挺好的,你把它拿去训了干什么?你告诉我。在 gsm8k 数据集上拿了 99.9% 的准确率,你倒告诉我,怎么解释呢?那啥都不要了。

(热知识:gsm8k 测试集的实际准确率大概在 98% 左右)

arxiv > 顶会

很倒反天罡,但事实确实如此,怪只怪顶会论文的投稿周期太长了,拖拖沓沓的半年才发布,半年都够大模型行业重新洗牌了。

各公司里做的有意义的工作,都要抓紧时间发表来提高技术影响力,即使发表在顶会上了,大概率也在几个月前已经纰漏在 arxiv 上了。

企业 > 高校

只有清华有足够的机器去实操大模型训练,清华大佬们还全都在 kimi 和智谱当实习生。由于缺乏机器、缺乏批量访问 GPT4 的资金,高校的工作大多集中在:lora 微调,小模型微调,尝试解决幻觉,数据集构造,prompt engine 等工作。

说实话,对实际工作的指导意义不大,有一种华而不实的感觉,不如听听企业讲的洗数据的启发式规则。企业写出来的文章,最起码是玩过百卡规模的人写出来的, 对解决实际问题往往更有帮助。

多模态 > 纯文本

大势所趋,纯文本才能做几个产品?多模态有不能做的产品吗?

学有余力的时候,早早了解多模态技术肯定没坏处。

可解释性工作

建议当课外读物,这种论文读起来非常有意思,感觉醍醐灌顶,自己开悟了,马上就可以把大模型玩弄于股掌之中了,但实际情况是连手头的模型过拟合问题都解决不了。

我个人非常推崇可解释性的工作,但我觉着我不能太把它们当回事,这不是我该考虑的方向。

网络结构 / 训练方法工作

这两种论文我把其并在一起来谈,它们的特点很相似:鱼龙混杂。这种工作的上限可以很高,类似于 ROPE、DPO 等均是类似的论文,但同时也可以是纯灌水的。

我的建议是:国内外大厂的可以看,名校大佬的可以看,有数学证明的可以看。

有没有数学证明就是这类工作的分水岭,好的工作不仅仅是观察到了实验现象,而且一定有严格的推导去证明这个现象的的正确性。总之就是,我可以看不懂你的数学证明,但你不能没有数学证明。


以上,大抵就是我对论文实用度的判断方法,主打一个保守,“宁可错过,绝不滥读”。我觉着对于大多数人的普通人来说,不能老把自己代入伯乐的角色,总觉着自己能慧眼识珠发现有价值的工作。

就像 Meta 给 ROPE 证明一样,等大佬告诉我们什么是有价值的工作就行了,再学也来得及。

 

 如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。


👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。


1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2218844.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java项目实战II基于Spring Boot的毕业就业信息管理系统设计与实现(源码+数据库+文档)

目录 一、前言 二、技术介绍 三、系统实现 四、文档参考 五、核心代码 六、源码获取 全栈码农以及毕业设计实战开发,CSDN平台Java领域新星创作者,专注于大学生项目实战开发、讲解和毕业答疑辅导。获取源码联系方式请查看文末 一、前言 随着高校扩…

014_django基于大数据运城市二手房价数据可视化系统的设计与实现2024_3ahrxq75

目录 系统展示 开发背景 代码实现 项目案例 获取源码 博主介绍:CodeMentor毕业设计领航者、全网关注者30W群落,InfoQ特邀专栏作家、技术博客领航者、InfoQ新星培育计划导师、Web开发领域杰出贡献者,博客领航之星、开发者头条/腾讯云/AW…

【C++】编码最全详解

✨ Blog’s 主页: 白乐天_ξ( ✿>◡❛) 🌈 个人Motto:他强任他强,清风拂山冈! 🔥 所属专栏:C深入学习笔记 💫 欢迎来到我的学习笔记! 一、什么编码? 编码&am…

DDR Study - LPDDR Initial

参考来源:JESD209-4B 在之前的DDR Study - Basic Understanding中介绍了DDR的基础概念,从这篇文章开始,会基于LPDDR4依次按照如下顺序对LPDDR内容进行简单分析: LPDDR Initial → LPDDR Write Leveling and DQ Training → LPDDR …

【Jenkins】windows安装步骤

【Jenkins】windows安装步骤 官网使用WAR包方式运行浏览器访问Jenkinswindows-installer安装安装过程问题解决This account either does not hava the privilege to logon as a service or the account was unable to be verified 安装成功修改jenkins.xml启动jenkins访问jenki…

如何测试IP速度?

了解代理的连接速度是否快速是确保网络使用效率和体验的关键因素之一。本文来为大家如何有效地评估和测试代理IP的连接速度,以及一些实用的方法和工具,帮助用户做出明智的选择和决策。 一、如何评估代理IP的连接速度 1. 使用在线速度测试工具 为了快速…

阿里云云盘在卸载时关联到PHP进程,如何在不影响PHP进程情况下卸载磁盘

1.问题: 在使用umount /dev/vdc1 卸载磁盘时,提示如下,导致无法在Linux系统下卸载磁盘 umount /dev/vdc1 umount: /var/www/html/*/eshop/IFile3: target is busy.(In some cases useful info about processes that usethe device is found…

鸿蒙Next设备上的ProxyMan、Charles网络抓包配置教程

一、Proxyman配置 1. 导出证书 ProxyMan菜单栏依次点击 证书—>导出—>根证书为PEM 然后保存.pem文件传送(如hdc命令<下文会有介绍>)至鸿蒙Next设备存储任意位置 2. 安装证书 系统设置搜索“证书”&#xff0c;结果列表中点击“证书与凭据” 点击“从存储设备…

AI周报(10.13-10.19)

AI应用-清华校友用AI破解162个高数定理 加州理工、斯坦福和威大的研究人员提出了LeanAgent——一个终身学习&#xff0c;并能证明定理的AI智能体。LeanAgent会根据数学难度优化的学习轨迹课程&#xff0c;来提高学习策略。并且&#xff0c;它还有一个动态数据库&#xff0c;有效…

数据结构练习题4(链表)

1两两交换链表中的节点 给你一个链表&#xff0c;两两交换其中相邻的节点&#xff0c;并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题&#xff08;即&#xff0c;只能进行节点交换&#xff09;。 示例 1&#xff1a; 输入&#xff1a;head [1,2,3,4]…

Sqli-labs less-27

Sqli-labs less-27 过滤union\select绕过方式 ### 1. 逻辑绕过 例&#xff1a; 过滤代码 union select user,password from users 绕过方式 1 && (select user from users where userid1)‘admin’### 2.十六进制字符绕过 select ——> selec\x74 union——>un…

AutoFixture:.NET 的假数据生成工具

上次推荐过《Bogus&#xff1a;.NET的假数据生成利器》方便我们制造假数据测试。今天继续推荐另外一个也是非常流行的工具。 01 项目简介 AutoFixture 是一个用于 .NET 的测试工具&#xff0c;它允许开发者在单元测试中自动生成随机的测试数据。它支持广泛的数据类型&#xf…

充电桩高压快充发展趋势

一、为什么要升级充电电压 1、新能源发展的困境 随着电动汽车加快发展&#xff0c;用户对电动汽车接受度不断提高&#xff0c;充电问题是影响电动车普及的重要因素&#xff0c;用户快速补能的需求强烈&#xff0c;例如节假日经常会遇到&#xff0c;高速充电1小时&#xff0c;…

编码方式知识整理【ASCII、Unicode和UTF-8】

编码方式 一、ASCII编码二、Unicode 编码三、UTF-8编码四、GB2312编码五、GBK编码 计算机中对数据的存储为二进制形式&#xff0c;但采用什么样的编码方式存储&#xff0c;效率更高。主要编码方式有 ASCII、Unicode、UTF-8等。 英文一般为1个字节&#xff0c;汉字一般为3个字节…

智联云采 SRM2.0 testService SQL注入漏洞复现

0x01 产品简介 智联云采是一款针对企业供应链管理难题及智能化转型升级需求而设计的解决方案,针对企业供应链管理难题,及智能化转型升级需求,智联云采依托人工智能、物联网、大数据、云等技术,通过软硬件系统化方案,帮助企业实现供应商关系管理和采购线上化、移动化、智能…

Pytorch复习(二)

一、非线性回归 import torch import matplotlib.pyplot as plt from torch import nn,optim from torch.autograd import Variable import numpy as npx_data np.linspace(-2,2,200)[:,np.newaxis] noise np.random.normal(0,0.2,x_data.shape) y_data np.square(x_data) …

.Net自动更新程序GeneralUpdate,适用于wpf,winfrom,控制台应用

GeneralUpdate是基于.net framwork4.5.2开发的一款&#xff08;c/s应用&#xff09;自动升级程序。 第一个版本叫Autoupdate 有人会奇怪为什么会改名称&#xff0c;稍微解释一下是因为在nuget上有重名的项目再者就是新版本更新功能不仅限于wpf程序的更新。 将更新的核心部分抽…

VS Code开发qt项目

没整明白&#xff0c;尴尬 安装扩展 设置cmake路径 前提是已经安装了QT 报错 用msvc选windows启动&#xff0c;用mingw则选gdb启动

pandas处理时间序列-基础入门

公众号&#xff1a;尤而小屋编辑&#xff1a;Peter作者&#xff1a;Peter 大家好&#xff0c;我是Peter~ Pandas 是一个强大的 Python 数据分析库&#xff0c;它提供了非常灵活和高效的方式来处理时间序列数据。 时间序列数据是指按照时间顺序排列的数据点集合&#xff0c;通…

LabVIEW示波器通信及应用

基于LabVIEW平台开发的罗德与施瓦茨示波器通信与应用系统实现了示波器的远程控制及波形数据的实时分析&#xff0c;通过TCP/IP或USB接口与计算机通信&#xff0c;利用VISA技术进行指令传输&#xff0c;从而实现高效的数据采集与处理功能。 项目背景 随着现代电子测试需求的日益…