llm 论文淘金，大模型精选论文解读，让你从大模型零基础到进阶

技术报告

没啥说的，当下最最最有含金量的论文，值得反复阅读。重点留意：数据清洗方法、pretrain 数据配比、pretrain 超参数、退火阶段、sft 的 task 种类、sft 的数据量级、dpo / ppo 训练技巧，合成数据方法等。

我个人觉着，国外 llama、mistral 是最大方的，国内 deepseek、minicpm 是最大方的。

OpenAI

OpenAI 2023 年以前的论文都属于百年陈酿，值得反复品味。它们那时候没名气，还很真诚、需要技术影响力。现在发布的东西，要么在秀肌肉，要么让人感觉哪里不太对劲。

评估 > 训练

这个观点我重点分析一下。大模型发展到现在，除非 OpenAI 挤出来更多的牙膏，或者是某大佬再提出 flash_attention、rope 等惊为天人的创举，否则 pretrain、sft、dpo、ppo 等的训练方法和技巧基本都快定型了。搞来搞去，大抵都是 scaling_law、数据配比、学习率、优化器、退火阶段、数据多样性、裁剪、正则、调整正负例 loss，引入或移除某网络，等等。

那么，如何确定自己该不该加入某个技巧呢？如何确定某个技巧的正确使用方法呢？学习率、数据配比到底该该用什么数值？sft 又该使用多少数据？这些问题全都只能靠“经验”回答，几乎毫无理论可言。

我们需要一个鲁棒的评估结果来帮助做实验分析，倒果为因，解释某个训练技巧是否使用正确。

计算机作为经验学科，倒果为因并不是一个贬义词，谁有更丰富的经验谁就是更好的程序员。几年前，分析 BERT 结构相比于 GPT 结构更优越还属于 nlp 的八股文；当下，分析 decoder-only 结构的优异性也属于 nlp 的八股文。

可话说回来，业界目前基本没有高效全面且快速的评估，目前最常用评估方式大概是下面几种。

刷 benchmark：怎么说呢，信白盒 benchmark 的结果不如信我是秦始皇。大家都刷了 ceval、mmlu，你不刷你就比不上人家，你的模型就没人关注，这已经成为了一个死循环，无可奈何；
GPT4 评估：效果十分不稳定，alignbench、MTbench 这种榜，用 GPT4 跑 10 次，最好结果和最坏结果能差十几个点；
跑具体 case 然后由人来评估：好用，有用，但是又慢又贵，且不适合指导 pretrain 模型。

（评估还有一个问题是，做题不太能反映出来模型的真实能力，可能要从 logits 分布等更深层次的内容来分析模型能力。作为大模型不具有任何数据学能力的坚定支持者，即使 gsm8k，mathQA 等这些评测集没有被模型提前训过，我也不认可它们等价于数学能力，我觉着模型“纯在靠背”。这段话完全是个人观点，无任何出处。）

因此，评估依旧是当下最大的瓶颈。谁评估快、谁评估准，谁就能积攒更多的训练经验。所以也引出了我这个奇葩的观点：评估工作的论文含金量比训练工作的论文更高。看见是做评估工作的论文，无论是提出方法，还是构建评测集，都别跳过，认真读读，万一真的很有效果，能拿来做成自动化评估 pipeline 呢。

这里插入一段范大将军关于开源模型刷榜的点评：

范大将军：你说 benchmark top1， benchmark top1 一届一届一届易主了个多少个开源模型了，效果真的好吗，换汤不换药啊！人家 Meta 也有理由说的，我对标的是什么啊，我对标的是 OpenAI 啊。你这批模型是抄谁的网络结构啊，你拿我当垫脚石。开源社区现在什么水平？就 llama 一个网络结构，你 qwen2 什么的都是最好的开源模型，他能对标 GPT4 吗？对标不了，没这个能力知道吗？再下去要刷赢 Llama3.1 了，Claude3.5 赢完赢 Llama3.1，再刷赢 GPT4o，接下来没公司赢了。

女记者：另一方面说，pretrain 训 benchmark 是为了更好的宣传模型。

范大将军：欧呦，谢天谢地了，呵～我已经说了，你这样子内卷本身就衡量不了模型的能力，你能跟我保证在明年或者后年，openAI 不纰漏技术了你能找到 AGI 的方向吗？务实一点，我劝你们，我把自己的模型评估、scaling_law 的这个理念先搞懂。这些评测集建的挺好的，你把它拿去训了干什么？你告诉我。在 gsm8k 数据集上拿了 99.9% 的准确率，你倒告诉我，怎么解释呢？那啥都不要了。

（热知识：gsm8k 测试集的实际准确率大概在 98% 左右）

arxiv > 顶会

很倒反天罡，但事实确实如此，怪只怪顶会论文的投稿周期太长了，拖拖沓沓的半年才发布，半年都够大模型行业重新洗牌了。

各公司里做的有意义的工作，都要抓紧时间发表来提高技术影响力，即使发表在顶会上了，大概率也在几个月前已经纰漏在 arxiv 上了。

企业 > 高校

只有清华有足够的机器去实操大模型训练，清华大佬们还全都在 kimi 和智谱当实习生。由于缺乏机器、缺乏批量访问 GPT4 的资金，高校的工作大多集中在：lora 微调，小模型微调，尝试解决幻觉，数据集构造，prompt engine 等工作。

说实话，对实际工作的指导意义不大，有一种华而不实的感觉，不如听听企业讲的洗数据的启发式规则。企业写出来的文章，最起码是玩过百卡规模的人写出来的，对解决实际问题往往更有帮助。

多模态 > 纯文本

大势所趋，纯文本才能做几个产品？多模态有不能做的产品吗？

学有余力的时候，早早了解多模态技术肯定没坏处。

可解释性工作

建议当课外读物，这种论文读起来非常有意思，感觉醍醐灌顶，自己开悟了，马上就可以把大模型玩弄于股掌之中了，但实际情况是连手头的模型过拟合问题都解决不了。

我个人非常推崇可解释性的工作，但我觉着我不能太把它们当回事，这不是我该考虑的方向。

网络结构 / 训练方法工作

这两种论文我把其并在一起来谈，它们的特点很相似：鱼龙混杂。这种工作的上限可以很高，类似于 ROPE、DPO 等均是类似的论文，但同时也可以是纯灌水的。

我的建议是：国内外大厂的可以看，名校大佬的可以看，有数学证明的可以看。

有没有数学证明就是这类工作的分水岭，好的工作不仅仅是观察到了实验现象，而且一定有严格的推导去证明这个现象的的正确性。总之就是，我可以看不懂你的数学证明，但你不能没有数学证明。

以上，大抵就是我对论文实用度的判断方法，主打一个保守，“宁可错过，绝不滥读”。我觉着对于大多数人的普通人来说，不能老把自己代入伯乐的角色，总觉着自己能慧眼识珠发现有价值的工作。

就像 Meta 给 ROPE 证明一样，等大佬告诉我们什么是有价值的工作就行了，再学也来得及。

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。