Copilot是GPT的理想应用模式吗？

news2025/4/20 7:44:04

自OpenAI发布ChatGPT以来，LLM持续火热，各大公司纷纷入场。但近一段时间以来，我观测到的LLM应用场景，基本都是Copilot的形式，即以对话为基础的辅助应用。尽管体验起来十分的高大上，但我能明确感受到，这种Copilot的形式并不解决当前的诉求。因此，本篇尝试探讨一下，Copilot模式的优劣，以及我到底会需要什么样的LLM应用。

本篇内容包含着内心深处对大模型的抗拒，仅以下图表达个人心情。

1、Copilot模式解读

Copilot，本意是助手的意思，它的作用是辅助主角更高效的完成任务。这个模式在各行各业广泛存在，比如飞机的副驾驶、赛车的领航员、秘书/助理等等。之所以会存在Copilot这样一个角色，是由于处理的工作过于复杂，一些底层的信息处理/决策过程相对繁琐，如果事事亲力亲为，是对精力的极大浪费。因此，形成了一个多级的管理体系，以方便主角更高效的完成最终决策。

毫无疑问，Copilot是提效的一种最佳实践，在日常生活中得到了广泛验证。

但从另一方面来说，也需要看到，决策链的基础是信任链。前置环节的决策失误，可能会导致整个事情的崩盘，比如“挥泪斩马谡”。在实际工作中，会通过管理手段——追责——去保障信任链的稳固。但是当你的Copilot是个机器/算法时，往往无法有效追责（自动驾驶出车祸了，想让汽车公司赔偿是很难的）。因此，责任又重新汇集到了最终决策者自身。这其实就要求着，使用Copilot的人必须要能够理解和判断Copilot给到的信息。

2、为什么Copilot会是GPT的主要应用场景

在这一轮AI浪潮中，除了吹捧算法本身，实际得到落地的应用场景，基本都属于Copilot模式。比如：OpenAI本身推出的问答机器人、Bing集成进搜索引擎、Github Copilot编程助手、各种客服机器人、以及各类分析工具（安全报表、论文研读）。

这些场景大体会具备如下特性：

非专业场景：对专业性的要求不高，大都是简单的问答模式。虽然近期出现了“决策链”的概念，可以通过递进式的问答，让ChatGPT回答更复杂的数学问题，但仍然需要人来进行引导，因此个人并不认为这代表了ChatGPT自身具备复杂的逻辑思考能力来应对各类专业问题。
高容错率：以Github Copilot为例，其生成代码的采纳率约在30%-40%左右。换一句话说，一半以上的代码，都是存在BUG或者不符合预期的，仍然需要程序员依靠自身的知识来进行判断处理。但值得注意的是，尽管出错概率不低，但Github Copilot仍然大幅度提升了开发效率。这是因为编码本身是个高容错率场景，程序员可以在开发过程中不断的调试发现并解决问题，并不会因为生成了错误的代码，导致严重性后果。

在这些场景中，大家并不会依赖算法的结果进行最终决策，大都是作为一种信息的收集来源和参考。对比传统的搜索引擎，更多的是效率上的提升，形态其实没有发生本质变化。

从另一方面来说，大家似乎并没有把GPT用于分类、评分、排序等决策类型的场景中。

如果单纯从能力上看，GPT是能够被用于完成特定任务的（OpenAI本身也提供了用于分类的API微调接口）。通过Prompt Engineering（zero-shot/few-shot），或者进行一定的fine-tuning，同样能够取得高准召的表现。

那为什么大家不使用呢？基于一段时间的使用探索，我能够得出的推论是：在固定的决策场景上，过去的模型已经够用了。盲目的应用GPT，并不会带来额外的增强，反而其庞大的性能开销和不确定性的结果，会产生额外的负面影响。