机器学习中的数学底蕴与设计模式

news2025/12/22 5:48:50

在说机器学习设计模式之前，想多说几句，在进入软件行业最初的10年，那时候耳熟能详的基本就是多线程编程，互斥同步锁，设计模式，OOA，OOP，常规数组，tree，图的数据结构及相关网络编程等。那时高等数学总觉得没有太多用武之地，慢慢的开始了解机器学习，你会发现数学在机器学习中占有举足轻重的地位。数学好的人，机器学习上手非常快，并且你不会浮于表面，只会那些所谓的 fine tune，我不是说 fine tune不重要，这件事肯定要做，只是现阶段是人工来完成，但未来 fine tune 这种事迟早会被机器替代。因为机器学习后阶段人工fine tune会逐步消失，取而代之的是机器的全自动校正完成。但如果你有深厚的数学功底，你将是创建模型或改造模型的人，你将真正凌驾在machine learning 之上。

举个例子，如果你有很深的微积分造诣，那么你理解神经网络中的梯度下降，损失函数的构建及训练，调优等过程，你会轻车熟路，在较短时间内完美驾驭。如果你有较深的线性代数造诣，理解卷积神经网络，CNN, RNN，LSTM，GRU或者是Attention等transformer 机制，你会比别人更胜一筹。如果你有较好的概率论相关know-how，你将对softmax 等输出，损失函数等有很好的理解。当然我说的都是比较基础的理解部分。你甚至可以创建基于自己的super data AI model，这些idea或专利的源泉大部分来自你较好的数学功底，所以，如果你想在机器学习中有较好的可持续发展，Math is very important.

下面还是说干货，AI的设计模式。 Andrew Ng 在人工智能峰会（AI Ascent）上发表了《Agentic Reasoning》的演讲。虽然时间不长，但information 很多。主要包括反思、工具调用、规划和多智能体协作4种设计模式，你会发现AI的模式和人类的思考维度越来越接近，作为工作或生活中人类经常使用的PDCA模式在AI中得到了极致体现，同时已能印证我前面说的人工 fine tune迟早会被终结。

Zero-shot Prompting VS Agentic Workflow

在当下，不论是国外的AI工具如ChatGPT、Claude、谷歌的Gemini，还是国内的Kimi、通义千问和文心一言，我们大多数人的使用方式还是以“zero-shot prompt”直接对话的形式，也就是我们直接抛给ChatGPT一个问题，比如“写一篇关于xx主题的论文”，让它一次性给出回复。在这个过程中，LLM模型只会执行“生成”这一个动作。

然而，这与我们在真实世界中完成工作任务的流程是截然不同的。还是以写论文为例，一般我们会起草一个初稿，然后评估、分析、修订，迭代出第二、第三个版本，直到我们满意为止。其他工作和学习任务也是如此，我们通常会将其分解为一个一个的流程，然后按照流程来操作，以保证结果的质量。LLM模型也理应如此为我们服务。

Agentic Workflow赋能LLM模型

吴恩达教授的团队对“Zero-shot prompting”以及添加了不同设计模式的AI Agent的表现做了数据分析和对比，详情如下图。图中的纵坐标分别表示基座模型是GPT-3.5和GPT-4，横坐标表示在“Coding benchmark”下各模型/Agent的正确率（表现），百分比越高表现越好。

Zero-shot模式：
GPT-3.5的Zero-shot性能为48%。
GPT-4的Zero-shot性能显著提升，为67%。
结论：Zero-shot模式下，模型在没有具体任务示例的情况下，仅依赖于其预训练的知识来执行任务。这种情况下比拼的是模型的通用基础能力，可以理解为模型的“智商”，GPT-4表现好是意料之中的。
AI Agent（智能体）模式：
Reflection反馈模式通过模型自身的反思与调整来改进任务执行。
Tool Use工具调用模式涉及模型调用外部工具或库来帮助解决任务。
Planning规划模式通过提前计划和组织任务步骤来提高效率和准确性。
Multiagent多智能体协作模式涉及多个智能体的协同工作，以提高整体任务执行能力。
结论1：添加了Agentic Workflow的AI Agent在任务执行中的表现显著提升，不论基座模型是GPT-3.5还是GPT-4。
结论2：即使基座模型是GPT-3.5，通过添加Agentic Workflow将其设计为AI Agent后，性能表现也超过了Zero-shot模式下的GPT-4！

其实这种结论也很好理解，对于一项工作或学习任务来说，光有“智商”是不足以保证任务完成质量的，更重要的，与如何完成这项任务的方式方法有关系。“智商”（即大脑，LLM模型）可能起到一定作用，但合理的规划，完善的流程设计在后期任务执行过程中也起到关键的作用，虽然这常常被我们忽略。