大模型时代，开发者怎么办

随着ChatGPT的出圈，基于大模型开发的应用也不断涌现，不管是不是相关方向的从业人员，在这一年多总能听到很多新名词，从LLM、Prompt、RAG到Fine-tuning、Agent，各个大企业都在讲All in AI，一些技术会议也明显感觉到AI占用的篇幅越来越多。

无论企业还是个人，好像不使用大模型就落伍了，更甚者我们会不会被AI取代，最近听到一种说法挺认同的：

❝

AI不会取代人类，只是会用AI的人会取代不会用的

❞

AI或者说大模型是不是正在掀起一场新的工业革命，我不好说，但大模型的影响力比以往近10年产生的新技术都大，譬如区块链、Web3、云原生，所有行业都值得用大模型重新做一遍，上一次有这个待遇的还是互联网，之前常说互联网+，那么现在是不是到了AI+的时代。

人生又能遇到几次这样的浪潮，在大模型时代，我们要怎么做呢？

我的大模型之路

22年12月，ChatGPT横空出世，当时注册卡的很严，借了个账号体验体验，感觉回答的很像真人，比以往所谓的语音助手要好很多，但仅此而已，还没有很深刻的体会。

23年开始尝试用New Bing来解决工作中遇到的问题，确实比搜索引擎体验好很多。后来趁着出国度假申请了ChatGPT的账号，工作基本是离不开它了，让它来写代码、替代搜索引擎、文章润色。也尝试过其他Github Copilot、LLama3、千问等等，各种LLM发布时号称怎么怎么打败OpenAI，到头来发现还是ChatGPT最好用。

23年底，公司组织了AI相关的竞赛，借机开始研究怎么基于大模型（LLM）做开发，当时基于llama-index开发了一个RAG+自动执行的小应用。后来也开始不断地了解相关知识，LangChain、Agent等。

接触的越多越发觉得大模型太厉害了，能解决以往不敢想象的事情，虽然还有很多局限性。那么作为开发者，怎么样才能更好地利用大模型呢？

大模型的能力

如果我们要使用一种技术，必须能清晰地了解这种技术的边界。那么大模型能做什么，不能做什么？

「LLM能做的事」

「自然语言的理解和生成」，可以理解并生成文本、代码生成、摘要等
「多语言支持」，在多种语言间进行转换，翻译、代码转换等
「简单的推理」，能够进行一定程度的逻辑推理，如情感识别、问答、修复Bug
「多模态的能力」，识别图像、语言等

「LLM的局限」

「幻觉」，倒不如说是大模型的特性，大模型给出的答案可能不准确也不可靠，不能使用的在医疗等准确度要求较高的场景
「推理能力有限」，对于复杂任务效果不好
「深层次的上下文理解」，大模型在需要深层次上下文理解或常识推理的任务中仍会遇到困难
「数据的准确性与时效性」，大模型本身的训练数据可能会含有一些脏数据、政治倾向等，也不包含最新的实时数据
「物理世界的操作」，无法执行外部动作，比如帮你取快递、感知环境
「创造性思维」，虽然大模型能够生成新颖的内容，但内容都是基于训练数据的，并不是真的创新思考

尽管当前大模型有一些局限，但是随着技术的发展，大模型本身的能力也在不断发展。

大模型开发

我不是专业的LLM开发者，抛开底层的技术和优化（Pre-Training, Fine-Tuning等），基于大模型的应用开发可分为以下几个级别：

级别	技术	解释	应用
L0：无AI	Code	根据经验形成代码	计算器软件，报表系统
L1：Prompt	LLM + Prompt	通过合适提示词得到想要的结果，如Few-Shot、COT	对话机器人，日报生成，小红书模板
L2：RAG	LLM + Prompt + VectorDB	通过嵌入外部相关数据发送给LLM，得到更准确的回答	企业问答系统，智能客服
L3：Workflow	(LLM + Prompt) * Workflow	组织多个LLM链实现更复杂的应用，如LangChain Chain	报表分析、意图识别
L4：Agent	LLM + Reflection + Tools + Memory	智能体可以借助外部工具自动地执行人类布置的多步骤复杂任务，如MetaGPT	自动故障处理、私人助理
L5：Autonomous Agents	Agents + Awareness + Collaboration	超级智能体可以感知环境，自动做出决策，并可以与其他智能体协作	斯坦福小镇

类似自动驾驶的分类级别，根据用户参考程度不同，从L0用户全程参与到L5完全不需要用户参与，中间包含有提示词工程Prompt、RAG应用、基于工作流的LLM应用、AI智能体。

往靠近底层，实现的功能简单，越往上层自动化程度更高，实现的应用越复杂，上层应用可以使用下层的技术，比如Agent一般都会结合RAG、Prompt等，可以根据自己的需求使用场景，选择合适的应用。

Prompt

Prompt即提示词工程，是指大模型提供的输入提示，用来引导LLM生成特定的输出。通过设计不同的提示词，可以控制模型生成的内容和行为。

通常我们使用大模型的路径如下:

INPUT -> LLM -> OUTPUT + %

提供一个输入，大模型会给出一个带有随机性的输出，怎么样使得这个输出更符合我们的要求呢，那就需要一定技巧的提示词。

❝

不是所有输入都是Prompt，只有携带系统指令的问题才是。比如hi, how are you这不是提示词，而answer my question use chinese, question: 'how are you'包含了指令和问题，其中的前面的指令才算作Prompt。

❞

通过Prompt可以让大模型输出特定的内容，比如生成小红书的爆款文案、返回JSON格式、生成工作日报等等。

「技术」

Prompt有很多类型，比如Zero-Shot（无样本提示词）、Few-Shot（少样本提示词）、COT（思维链，可以实现一些较复杂的推理，数学计算等），更多的可以参考Prompt Engineering。

「示例」

下面是一个简单Few-Shot例子:

---
Prompt: 你是一个情感识别专家，根据用户的输入，判断句子是"消极"还是"积极"，下面是一些例子：
这场比赛好极了! // 积极
今天天气热死了 // 消极
这个电影真难看 // 消极
樊振东好样的 //
---
LLM: 积极
---

「局限」

依赖大模型本身的功能，只能实现相对简单的应用
基于提示词的应用很难形成壁垒，通过特定手段可以获取到应用的提示词

RAG

RAG(Retrieval-Augmented Generation, 检索增强生成)是一种将信息检索与生成模型结合的方法。首先根据用户输入从一个大型文档集合中检索相关信息，然后将用户问题与检索信息发送到大模型，大模型生成对应答案。

RAG可以借助外部知识源，从而提升回答的准确性和信息丰富度，相当于为LLM配置了一个书架，虽然有些知识不知道，但可以参考相关书籍从而获取不错的答案。可以用来做文档问答系统、客服系统、企业内私有数据的问答系统。

「技术」

实现一个基础的RAG应用，如上图所示，一般包含如下步骤：

将知识库拆分成固定大小的块
选择合适的Embedding模型将数据块向量化，存放在VectorDB(向量数据库)中
用户查询时，在VectorDB中匹配相关内容
将用户输入与检索信息发送给大模型
大模型整理后返回结果

图中也展示一些知识来提升RAG的效果，比如：

混合搜索，通过多路召回，综合VectorDB、DB与其他数据源中的数据以提升回答的准确性
数据清洗，RAG应用的效果依赖于高质量的数据
效果评估，引入评估系统

借助llama-index与LangChain等工具，可以方便地实现RAG应用。

「与Fine-tuning的区别」

在使用中，RAG经常会与Fine-tuning（微调）做比较。

RAG可以借助外部数据集，通过检索数据发送给大模型以提升回答效果，大模型本身不知道这些外部知识。RAG成本更低，适合频繁更新的场景，新闻摘要、实时回答等。
Fine-tuning是在较小的数据集上继续训练大模型，使其参数更好地适应任务需求。有助于模型理解任务的细微差别，通常用于情感分析、法律文档分析和医学报告生成等需要特定领域术语和风格的任务。微调的上限更高，成本也更高，但不适合频繁更新数据的场景。

两者并不互斥，可以结合一起以实现更好的效果。

「局限」

检索相关性，检索的相关性直接影响最终的效果，通过向量检索来匹配TopK内容，比如问你吃了吗，正确的应该是去搜索我吃了...而不是直接搜索问题
汇总信息，无法进行对比和汇总，比如分析近10天关于AI的新闻
Token限制，每个LLM都有Token数限制，一些长上下文可能无法全量发送给LLM

Workflow

对于一些复杂任务，LLM并不能很好处理，可以将这些任务拆分成多个步骤，每个步骤使用LLM实现一个简单的任务，将这些任务串起来便是Workflow。

比如可以实现一个歌词应用，拆分为作词与评论，作词链只负责作词，根据用户输入输出对应的歌词；评论链负责给出歌词的修改建议。

INPUT -> [LYRICIST CHAIN(LLM) ] -> LYRIC -> [REVIEWER CHAIN(LLM)] -> OUTPUT

「技术」

Workflow是将复杂任务分解为更小的、可管理的单元，结合LLM实现一个多步骤的复杂任务。可以是链式的、或者更复杂的有向无环图。比如LangChain的名字本身就指的是大模型链，其中的SimpleSequentialChain就是顺序调用链、RouterChain路由链，可以动态选择下一个路径形成更复杂的工作流。

「局限」

工作流的调用关系在代码中是写死的，无法灵活处理，只适合特定任务
误差累积，初期步骤的错误可能导致执行失败
上下文丢失，链条过长造成上下文模糊甚至丢失

Agent

Agent本意是代理人，比如房屋中介，能代替人做部分事情。具体到LLM Agent目前没有一个统一的定义，常翻译为智能体，通常指能够能够感知环境、进行决策并执行动作的智能实体。

「技术」

![外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传](https://img-

Agent可以用公式定义为：

Agent = LLM + Planning + Action + Tools + Memory

智能体能够实现复杂任务的规划，可以借助外部工具执行每一个步骤，根据执行结果不断调整，并将结果记录存储起来，最终完成任务。拆开来看：

LLM：LLM作为智能体的**「大脑」**，可以实现任务的规划、根据执行结果进行反思。
Tools：由于LLM本身的局限，借助外部工具赋予智能体**「双手」**，可以根据任务步骤做出行动，如查询天气、执行代码、搜索内容。
Memory：智能体可以**「记忆」**过去的经验，这对学习至关重要，可以根据这些先前的经验调整未来的行动。

借助智能体我们可以实现更加智能化、多步骤的任务，相比Workflow具体的执行流是由LLM制定的，并不是人类经验的硬编码。使用Agent可以实现数据分析、智能个人助手、自动运维工具等。

更进一步多智能体（Multi-Agent）可以视为一个智能社会，不同Agent分工协作实现更加复杂的场景，例如一个软件公司包括**「产品经理 / 架构师 / 项目经理 / 工程师」**多个智能体，一起协作来实现复杂的软件。当前也有一些多智能体的框架，如MetaGPT、LangGraph等。

「局限」

依赖LLM，Agent的推理、反思、规划能力都依赖大模型，不同模型效果有差异
很难脱离人类单独运行，一些危险操作（修改数据），无法保证Agent的精确性，需要人类参与
复杂性，实现更复杂，尤其是多智能体，很难测试验证

总结

大模型时代，作为开发者我们可以借助大模型的能力实现更加智能的应用，本文介绍了多个大模型的开发级别，从简单的提示词到智能体，每一个级别都有其特点和局限，选择合适的技术来适配不同场景，你也可以转化为一个AI加持的开发者。

展望一下未来，随着AI技术的发展，真正的智能有没有可能实现呢？各种智能体可以替代我们做事，甚至做一些人类做不到的事情。

在这里插入图片描述

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述