目录
1 前言
1.1 课程链接
1.2 名词解释&前置知识
2 大模型应用的技术架构
2.1 Prompt-Response架构
2.2 Agent + Function Calling 架构
2.3 RAG(Retrieval-Augmented Generation)架构
2.4 Fine-tuning架构
1 前言
本文为知乎知学堂课程《AI 大模型全栈工程师》的学习笔记,文章中涉及的一些名词解释,数据表格,流程图、框图等大都来自于课程课件。
课程公开课链接是可以打开的,未购买培训课程时正式课程链接是无法打开的。
本文作者不提供视频、课件等与培训课程一切相关的资料,请知悉!!!
本文是作者个人的理解,不保证正确性,有任何疑问欢迎留言交流讨论。
1.1 课程链接
大模型应用开发技术体系串讲 - 程序员的AI大模型进阶之旅1226期 (zhihu.com)
大模型应用开发基础 - AI 大模型全栈工程师培养计划(第五期) (zhihu.com)
1.2 名词解释&前置知识
- 大模型:全称「大语言模型」,英文「Large Language Model」,缩写「LLM」
- 区分开 对话产品 VS 大模型
国家 | 对话产品 | 大模型 | 链接 |
---|---|---|---|
美国 | OpenAI ChatGPT | GPT-3.5、GPT-4 | https://chat.openai.com/ |
美国 | Microsoft Copilot | GPT-4 和未知 | Microsoft Copilot: 你的日常 AI 助手 |
美国 | Google Bard | Gemini | https://bard.google.com/ |
中国 | 百度文心一言 | 文心 4.0 | 文心一言 |
中国 | 讯飞星火 | 星火 3.5 | 讯飞星火认知大模型-AI大语言模型-星火大模型-科大讯飞 |
中国 | 智谱清言 | GLM-4 | 智谱清言 |
中国 | 月之暗面 Kimi Chat | Moonshot | Kimi Chat - 帮你看更大的世界 |
中国 | MiniMax 星野 | abab6 | 星野_星野ai_星野app_星野官网_AI聊天_智能ai |
-
大模型没有联网能力,它的联网能力是通过应用程序获得的
-
使用对话产品时的重要原则:把AI当人看,把AI当人看,把AI当人看
-
大模型原理的通俗解释
- 训练:大模型阅读了人类曾说过的所有的话「机器学习」
- 参数(权重):把一串 token 后面跟着的不同 token 的概率存入「神经网络」。保存的数据就是「参数」,也叫「权重」
- 生产(推理):当给它若干 token,大模型就能算出概率最高的下一个 token 是什么。
- 迭代输出:用生成的 token,再加上上文,就能继续生成下一个 token。以此类推,生成更多文字
2 大模型应用的技术架构
2.1 Prompt-Response架构
这种架构是最容易理解的。当我们使用文心一言或者智谱清言等对话类产品时,在对话框中输入一串文字,它作出回应。
这里提一点Prompt 的表达形式,在使用AI时,我们一定要把AI当人看。既然AI是人,那就要说人能听懂的话。提问时要给出具体明确的指示,明确AI的角色,可参照智谱清言“灵感大全”中的示例:
2.2 Agent + Function Calling 架构
个人理解:
- 当通过Prompt给大模型发出负责指令时,大模型当前无法回答时,会触发其Agent能力,对应用程序反向提问
- 应用程序通过调用API获取相关信息,并通过Prompt再次输入给大模型
- 大模型依据输出给出Response
举一个简单的例子:
我想要知道杭州市民中心停车费时,但是大模型训练时并不包括关于杭州市民中心停车费相关的数据,此时触发其Agent能力。通过Function Calling 向应用程序索要相关信息,应用程序调用api或者上网查询,将得到的信息再次以Prompt形式给到大模型,大模型处理后作出反馈。
下面截图是通过智谱清言测试的过程:
2.3 RAG(Retrieval-Augmented Generation)架构
- Embeddings:把文字转换为更易于相似度计算的编码。这种编码叫向量
- 向量数据库:把向量存起来,方便查找
- 向量搜索:根据输入向量,找到最相似的向量
大模型中的RAG(检索增强生成)技术,是近年来在自然语言处理领域迅速发展的一项技术。它主要解决的是大语言模型(Large Language Model, LLM)在实际应用中遇到的一些问题。
首先,大语言模型虽然在处理语言任务时表现出色,但它们存在着一些固有的局限性。例如,它们可能产生“幻觉”,即在回答问题时提供不准确或误导性的信息。这是因为模型的训练数据是有限的,它们可能无法涵盖所有的事实和信息。此外,模型的知识是固定的,无法实时更新,这使得它们在处理最新的信息时可能产生误差。
RAG技术的核心思想是通过检索技术来增强生成过程。具体来说,它首先从各种数据源中检索出与待解答问题最相关的信息,然后将这些信息作为背景知识融入到问题的生成过程中。这样,大语言模型在生成答案时就可以参考这些真实、准确的信息,从而提高答案的质量和可靠性。
RAG技术在实际应用中表现出色,受到了广泛关注。它不仅可以应用于问答系统,还可以用于聊天机器人、文本生成等众多领域。同时,RAG技术也推动了向量搜索领域的发展,很多初创公司基于RAG技术提供了向量数据库服务。
总的来说,大模型中的RAG技术,通过结合检索和生成技术,有效地解决了大语言模型在实际应用中遇到的一些问题,提高了模型的性能和可用性。
2.4 Fine-tuning架构
大模型的Fine-tuning是指在使用大规模预训练模型(如GPT-3、LLaMA、GPT-4等)的基础上,通过少量的样本进行微调,以适应特定的任务或数据集。这种方法可以充分利用预训练模型中的通用知识,同时避免从头开始训练一个全新的模型,从而节省计算资源和时间。
在大模型上进行Fine-tuning通常面临以下挑战:
1. 计算资源消耗:大模型通常具有数十亿甚至千亿的参数,直接进行Fine-tuning需要大量的计算资源,如GPU或TPU集群。
2. 存储需求:训练大量的模型副本会占用大量的存储空间。
3. 模型调整复杂性:大模型可能有复杂的结构和多个层,对模型的调整和管理也更为复杂。
为了解决这些问题,可以采用以下策略:
1. 参数高效Fine-tuning:通过仅微调模型中的一部分参数(如Adapter Tuning、Prefix Tuning、Prompt Tuning等),减少需要更新的参数数量,从而降低计算资源的需求。
2. 知识蒸馏:将大模型的知识通过蒸馏过程转移到一个小模型中,这样可以在保持性能的同时减少模型的规模和计算需求。
3. 模型剪枝和量化:通过剪枝去除模型中不重要的参数,并进行量化以减少模型的复杂性和计算资源的需求。
4. 动态Fine-tuning:根据任务的动态需求调整模型的规模和计算资源,例如,在任务繁忙时增加模型规模,闲暇时减少。
大模型的Fine-tuning是一个平衡通用性和任务特异性的过程,需要根据具体的任务需求和计算资源限制来权衡不同的策略。