AI名词扫盲

本篇章主要介绍一些AI研究方向的名词以及解释，后续会持续补充，名词解释与时间顺序无关，欢迎各位大佬们在评论区查漏补缺。

AI（Artificial Intelligence，人工智能）
卷积神经网络（CNN，Convolutional Neural Network）
深度学习（Deep Learning）
OCR（Optical Character Recognition，光学字符识别）
TensorFlow
PyTorch
RAG（Retrieval-Augmented Generation 检索增强生成）
LangChain
Dify
GPT（Generative Pre-trained Transformer）
CoT（Chain of Thought）
AIGC（AI Generated Content，AI生成内容）
AGI（Artificial General Intelligence，通用人工智能）
NLP（Natural Language Processing，自然语言处理）
LLM（Large Language Model，大型语言模型）
Embedding（嵌入）
向量化（Vectorization）
参数（Parameters）
微调（Fine-tuning）
预训练（Pre-training）
Hugging Face
无监督学习（Unsupervised Learning）
Ollama
Function Call（函数调用）
Agent
Prompt（提示词工程）
召回（Recall）
Rerank（重排序）
大模型发展史
- 萌芽期（1950 年-2005年）：以CNN为代表的传统神经网络模型阶段
- 探索沉淀期（2006年-2019年）：以Transformer为代表的全新神经网络模型阶段
- 迅猛发展期（2020年-至今）：以GPT为代表的预训练大模型阶段
- 不断进化的大模型家族
大模型开发之道
- 路径一：从头构建完整大模型
- 路径二：基于开源通用大模型的调优
大模型评测之法

AI（Artificial Intelligence，人工智能）

在这里插入图片描述

时间：1950年代
概念：AI的起源，侧重于符号逻辑和问题求解的早期尝试，奠定了机器智能的理论基础。
与后续概念的关系：AI的发展推动了深度学习、神经网络等技术的探索，形成了现代AI技术的基础。

卷积神经网络（CNN，Convolutional Neural Network）

时间：1990年代初
概念：CNN是一种专门用于处理图像数据的神经网络架构，利用卷积层提取图像中的局部特征。其设计灵感来源于生物视觉系统，通过使用卷积操作和池化层，逐步缩小图像尺寸，同时保留重要特征。
重要事件：1998年，Yann LeCun等人提出了LeNet-5，这是最早期应用于手写数字识别的CNN架构。2012年，AlexNet在ImageNet竞赛中的成功推动了CNN在图像识别、物体检测等任务中的广泛应用。
与深度学习的关系：CNN是深度学习在图像处理领域的核心算法之一，直接推动了图像识别、计算机视觉等领域的突破。

深度学习（Deep Learning）

时间：2000年代后期至2010年代初
概念：多层神经网络的引入和大数据的兴起使得深度学习成为主流。特别是在卷积神经网络（CNN）在图像识别中的成功。
重要事件：2012年，AlexNet在ImageNet竞赛中获胜，标志着深度学习的崛起。
图像识别：卷积神经网络（CNN）在图像识别中起到关键作用，极大提升了计算机视觉领域的表现。
与PyTorch、TensorFlow的关系：深度学习框架如TensorFlow（2015年）和PyTorch（2016年）为开发者提供了易于使用的工具，推动了深度学习模型的快速实验和部署。

OCR（Optical Character Recognition，光学字符识别）

时间：1990年代至2000年代
概念：OCR是一种将图片中的印刷或手写文字转换为机器可读文本的技术。其广泛应用于文档处理、表单识别、证件识别等领域。
重要事件：1990年代，OCR技术已经能够识别基本的印刷体文本。随着CNN的引入，现代OCR系统在处理复杂字体和手写体时取得了显著的进展。
与卷积神经网络（CNN）的关系：CNN大大提高了OCR的识别精度，特别是在处理复杂图像和非标准字体时。现代OCR系统广泛采用深度学习技术，使得字符识别更加精准和高效。

TensorFlow

时间：2015年
概念：由Google开发的开源深度学习框架，广泛用于构建和训练神经网络。其优势在于分布式训练和跨平台兼容性。
与其他概念的关系：TensorFlow简化了复杂神经网络模型的构建过程，是推动AI应用广泛落地的重要工具，特别是在图像识别、语音识别等任务中。

PyTorch

时间：2016年
概念：由Facebook开发的深度学习框架，以动态计算图著称，更适合研究和实验，逐渐成为深度学习领域的主流框架。
与TensorFlow和深度学习的关系：PyTorch与TensorFlow齐头并进，为深度学习的研究和产业化提供了两大主流工具。它的动态特性使得模型调试和实验更加灵活。

RAG（Retrieval-Augmented Generation 检索增强生成）

时间：2020年代初
概念：RAG是一种结合了信息检索与生成式模型的新技术，通过先从外部知识库或文档中检索相关信息，再利用生成式模型生成答案。
重要事件：随着生成式语言模型的兴起，RAG被广泛用于增强NLP系统的表现，特别是在知识问答、对话系统等场景中，RAG能够利用外部知识提升模型的准确性和知识覆盖范围。
与GPT、搜索增强的关系：RAG结合了GPT等生成式模型和传统的信息检索技术，用于增强生成模型在特定任务中的表现，特别是在需要结合外部知识库的场景中。

LangChain

时间：2020年代初
概念：LangChain是一个用于构建语言模型应用的框架，支持将大语言模型（LLM）与外部数据源、工具集成，以实现复杂的NLP任务。它允许开发者将LLM与外部API、数据库和文件系统连接，构建具有动态知识交互的AI应用。
重要事件：LangChain的出现使得基于LLM的应用更加模块化和灵活，支持文本生成、搜索增强、知识库问答等任务，推动了语言模型在实际应用中的扩展。
与GPT、RAG的关系：LangChain常与GPT、RAG等技术结合，构建具备外部数据增强能力的语言模型系统。

Dify

时间：2020年代中期
概念：Dify是一个生成式AI开发平台，旨在帮助开发者快速构建和部署生成式AI应用。它通过提供模块化的工具集和API接口，简化了生成式AI项目的开发流程。Dify支持与大模型、LLM集成，能够高效实现文档生成、对话系统等任务。
重要事件：Dify帮助开发者迅速将GPT等生成式AI模型应用到具体场景中，推动了AIGC的应用普及。
与AIGC、GPT的关系：Dify直接面向AIGC（AI生成内容）应用，基于GPT等生成式模型，帮助开发者快速实现自动化内容生成和对话系统。

GPT（Generative Pre-trained Transformer）

时间：2018年（GPT-1），2019年（GPT-2），2020年（GPT-3）
概念：由OpenAI开发的基于Transformer架构的大型语言模型，通过无监督学习大规模文本数据，具备强大的生成能力。
与深度学习、PyTorch的关系：GPT模型的训练依赖PyTorch框架。GPT-3的出现进一步展示了生成式AI的潜力，为AIGC（AI生成内容）的发展铺平了道路。
GPT是NLP领域中的一个重要模型，它是基于Transformer架构构建的预训练语言模型。GPT（Generative Pre-trained Transformer）通过预先训练大量文本数据，学习到语言的基本结构和模式，从而能够理解自然语言文本的意义和语义。
而ChatGPT从名字上就可以看出来，ChatGPT是GPT在对话生成领域的特定应用。

CoT（Chain of Thought）

时间：2022年
概念：一种改进大模型推理能力的技术，强调通过生成多步推理链提升模型的逻辑推理能力。
与GPT、搜索增强的关系：CoT在大语言模型的推理和复杂任务处理中展现了强大能力，特别在NLP和搜索增强领域得到了应用。

AIGC（AI Generated Content，AI生成内容）

时间：2020年代
概念：利用AI生成文本、图像、视频等内容，广泛应用于娱乐、广告等领域。

与GPT、Transformer的关系：AIGC依赖于生成式预训练模型，如GPT、DALL·E等，通过大规模数据生成高质量内容。

1.  文本生成：可以用于自动生成新闻报道、广告文案、产品描述等。
2.  图像生成：可以用于自动生成图像素材、艺术创作、设计等。
3.  音频生成：可以用于自动生成音乐、电台广播等。
4.  视频生成：可以用于自动生成视频剪辑、电影预告片等。

又称生成式AI，被认为是继专业生产内容（PGC）、用户生产内容（UGC）之后的新型内容创作方式。
互联网内容生产方式经历了PGC——UGC——AIGC的过程。

AGI（Artificial General Intelligence，通用人工智能）

概念：AGI目标是开发具备人类通用智能的AI，能够自主完成广泛任务。
与深度学习的关系：AGI的实现可能需要进一步突破当前的深度学习和AI技术，跨越特定领域限制，实现通用智能。
AGI的目标是创造一个能像人类一样思考、学习、执行多种任务的系统。想象一下，如果有了AGI，它可能会成为全能的“超级大脑”，能在任何领域都超越人类。
AGI与AIGC（Artificial Intelligence Generated Content，人工智能生成内容）有显著区别。AIGC指的是利用AI技术，尤其是机器学习和深度学习模型，自动生成内容，如文本、图像、音乐或视频。AIGC通常专注于特定的创作任务，而不具备AGI的广泛智能和通用学习能力。

NLP（Natural Language Processing，自然语言处理）

时间：1950年代至现在
概念：NLP是人工智能的一个分支，旨在使计算机能够理解、解释和生成自然语言。其目标是实现人与计算机之间的自然语言交互。
重要事件：早期的NLP研究集中在机器翻译和语音识别，1960年代，ALPAC报告引发了对机器翻译的质疑。1990年代，统计学习方法（如隐马尔可夫模型）开始流行，显著提升了NLP任务的性能。近年来，深度学习技术的引入（如RNN、CNN、Transformer）使NLP取得了革命性进展。
与深度学习的关系：NLP依赖于深度学习技术，特别是基于Transformer的模型（如BERT、GPT）在文本生成、情感分析、问答系统等任务中表现出色。

LLM（Large Language Model，大型语言模型）

时间：2020年代初
概念：LLM是指参数数量极为庞大的语言模型，能够处理和生成自然语言文本。大型语言模型的训练通常基于海量的文本数据，具备强大的上下文理解和生成能力。
重要事件：GPT-3（2020年）是最著名的LLM之一，拥有1750亿个参数，展现了极强的文本生成和理解能力。其成功推动了LLM在各类自然语言处理任务中的广泛应用。
与NLP的关系：LLM是现代NLP技术的核心组成部分，广泛应用于文本生成、对话系统、翻译等任务，极大提升了自然语言处理的效果。

Embedding（嵌入）

时间：2010年代初
概念：Embedding是一种将离散数据（如词语、字符或图像）转换为连续向量表示的技术。这种表示方法能够捕捉数据之间的语义关系，使得相似的元素在向量空间中相近。
重要事件：2013年，Word2Vec的提出标志着Embedding技术的广泛应用。通过训练词向量，Word2Vec能够有效捕捉词语之间的语义关系。随着GloVe和FastText等模型的发展，Embedding技术在NLP中得到进一步普及。
与NLP、LLM的关系：Embedding是NLP和LLM中不可或缺的部分，通过将词语或句子转化为向量，模型能够更好地理解和处理文本数据。

向量化（Vectorization）

时间：2010年代
概念：向量化是将数据（如文本、图像等）转换为数值向量的过程，便于计算机进行处理。向量化常用于机器学习和深度学习中，以便将离散的输入数据转换为可以进行数学运算的形式。
重要事件：随着深度学习的普及，向量化技术在NLP、图像处理等领域的应用日益增多。例如，通过TF-IDF、Word2Vec等方法对文本进行向量化，提升了模型的性能。
与Embedding、NLP的关系：向量化与Embedding密切相关，Embedding通常是向量化的一种形式，通过将词语或句子表示为向量，进一步支持NLP任务的处理。

参数（Parameters）

时间：2000年代至现在
概念：在机器学习模型中，参数是模型在训练过程中学习到的权重和偏置。这些参数决定了模型对输入数据的反应，影响其预测能力。
重要事件：近年来，随着深度学习的发展，模型的参数规模显著增加，例如，GPT-3有1750亿个参数。
案例：在图像分类任务中，一个卷积神经网络（CNN）可能包含数百万个参数，通过训练，模型能够学习到特征，从而对新的图像进行分类。

微调（Fine-tuning）

时间：2010年代中期至现在
概念：微调是在预训练模型的基础上，利用较小的特定数据集对模型进行再训练的过程。这种方法可以让模型适应特定任务，提高性能。
重要事件：BERT和GPT系列模型的出现使微调技术得到广泛应用，研究人员可以在通用预训练模型的基础上，快速实现各种下游任务。
案例：在情感分析任务中，研究人员可以首先使用BERT进行大规模语料的预训练，然后在特定的情感标注数据集上进行微调，最终得到能够有效识别文本情感的模型。

预训练（Pre-training）

时间：2010年代中期至现在
概念：预训练是指在大规模数据集上对模型进行初步训练，使其学习到通用特征和知识。在完成预训练后，模型通常会在特定任务上进行微调。
重要事件：BERT（2018年）和GPT系列（2018年、2019年、2020年）的出现使预训练方法成为NLP领域的标准做法。
案例：一个文本生成模型可以在海量文本数据上进行预训练，使其了解语言的结构和用法，然后在特定的对话数据集上进行微调，以适应客服聊天的需求。

Hugging Face

时间：2016年成立至今
概念：Hugging Face是一个开源社区和平台，提供多种预训练模型的库（Transformers），支持NLP任务的快速实现和部署。它促进了模型共享和社区合作。
重要事件：Hugging Face的Transformers库迅速成为NLP研究和应用的标准工具，涵盖了BERT、GPT、T5等多种模型。
案例：开发者可以使用Hugging Face提供的API快速加载BERT模型，进行文本分类或情感分析，无需从头开始训练模型。

无监督学习（Unsupervised Learning）

时间：2000年代至现在
概念：无监督学习是机器学习的一种类型，模型在没有标签的情况下学习数据的结构和分布。这种方法适用于大规模未标注数据的处理。
重要事件：随着自监督学习的兴起，无监督学习在NLP中变得越来越重要，特别是在预训练模型的构建中。
案例：Word2Vec就是一种无监督学习方法，通过分析大量未标注的文本数据，学习到词语之间的关系，从而生成高质量的词向量。

Ollama

时间：2020年代中期
概念：Ollama是一个旨在简化大型语言模型的使用和部署的平台，允许用户在本地或云环境中快速运行和管理AI模型。
重要事件：Ollama致力于降低使用复杂模型的门槛，使开发者能够更方便地集成和应用大型语言模型。
案例：通过Ollama，开发者可以在本地环境中快速部署GPT等模型，进行文本生成或对话系统开发，避免了复杂的设置过程。
与hugging face的区别：可以在Hugging Face的模型库中找到许多预训练模型，下载后在自己的代码中使用。你需要自己管理模型的加载和使用过程。对于Ollama则，可以通过Ollama提供的命令行工具快速下载和运行模型。Ollama会处理模型的下载和环境配置，让用户可以更方便地在本地或云端使用。

Function Call（函数调用）

时间：2020年代初
概念：在自然语言处理（NLP）和生成式模型中，函数调用是指将特定功能或操作作为模型生成输出的一部分。通过定义特定的函数和其参数，模型可以生成结构化的响应，执行特定任务。
重要事件：随着大型语言模型（LLM）的发展，函数调用逐渐被集成到对话系统和智能助手中，使得模型能够更有效地完成复杂任务。
案例：在一个对话系统中，用户请求查询天气，系统可以调用一个名为getWeather(location)的函数，通过输入位置参数来获取天气信息并返回给用户。
大模型（如GPT系列）可以生成自然语言文本，但通过Function Call，模型能够执行具体的操作，如调用API或运行特定的函数，从而扩展其能力，使其不仅仅是文本生成。
Agent利用大模型的强大上下文理解能力，能够解析用户请求并决定何时以及如何调用相应的函数。这种结合使得Agent能够在复杂场景中做出智能决策。

Agent

时间：2020年代初
概念：在LangChain和其他框架中，Agent是一种智能体，能够在特定环境中自主执行任务。这些任务可能涉及调用外部API、获取信息或与用户交互。Agent可以根据环境的变化和用户的输入做出动态响应。
重要事件：LangChain的Agent概念旨在将LLM与外部数据源和工具结合，使得模型能够在更复杂的上下文中运行，提升其实际应用能力。
案例：一个智能客服代理（Agent）可以在用户询问产品信息时，通过调用fetchProductDetails(productID)函数获取产品数据，随后将其格式化并返回给用户。

LangChain中的Agent：

在LangChain中，Agent的使用通常涉及以下步骤：

定义任务：指定Agent需要执行的任务类型。
选择工具：为Agent选择可用的工具或API（例如，数据查询、外部API调用）。
配置功能：配置Agent的函数调用，以便其能够正确执行并获取所需信息。
动态响应：Agent根据用户的输入动态选择适当的工具，并进行相应的函数调用。

Agent通常包含多个Function Call，允许它根据需要选择和执行特定的函数。这使得Agent能够处理多种任务，并根据上下文动态调整其行为。
Agent依赖Function Call来实现动态响应。根据用户的输入或环境的变化，Agent可以实时决定调用哪个函数，从而完成任务。

Prompt（提示词工程）

时间：2010年代中期至现在
概念：Prompt是指在与大型语言模型（LLM）交互时，提供给模型的输入文本或指令。提示词工程是设计和优化这些输入，以获得更准确和相关的输出的过程。
重要事件：随着大模型的广泛应用，提示词的设计变得至关重要。研究人员和开发者发现，调整提示词的格式、内容和风格可以显著影响模型的响应质量。
案例：在请求生成一篇文章时，可以使用不同的提示词。例如，“写一篇关于气候变化的文章”与“简要概述气候变化对生态系统的影响”会导致模型生成不同深度和风格的文本。

召回（Recall）

时间：2000年代至现在
概念：在信息检索和机器学习中，召回是衡量模型性能的一个指标，表示模型正确识别的相关实例占所有实际相关实例的比例。高召回率意味着模型能够找到大多数相关信息。
重要事件：召回通常与精确度（Precision）一起使用，形成F1分数等综合评估指标。在实际应用中，尤其是在搜索引擎和推荐系统中，召回是评估系统效果的重要指标。
案例：在一个情感分析模型中，如果模型正确识别了80个积极评论，但实际上有100个积极评论，那么召回率为80%（80/100）。这表明模型虽然准确，但仍有20%的积极评论未被识别。

Rerank（重排序）

时间：2010年代中期至现在
概念：Rerank（重排序）是指对初步搜索结果或预测结果进行再排序，以提升结果的相关性或准确性。通常在信息检索、推荐系统或NLP任务中，初步排序是基于简单的相关性评分完成的，接着使用更复杂的模型对结果进行精细化的重排序。
重要事件：随着搜索引擎、推荐系统和问答系统的进步，Rerank成为提高系统精度的重要手段。通常Rerank会结合大模型、上下文理解等复杂技术，对初始排序结果进行二次优化。
案例：在搜索引擎中，用户输入“如何学习机器学习”，搜索系统会先展示初步的结果，然后利用Rerank模型将最相关的、最权威的资源（如高质量教程）移到前排，提升用户体验。

大模型发展史

大模型发展主要经历了三个阶段，分别是萌芽期、探索沉淀期和迅猛发展期
在这里插入图片描述

萌芽期（1950 年-2005年）：以CNN为代表的传统神经网络模型阶段

1956 年，从计算机专家约翰·麦卡锡提出“人工智能”概念开始，AI发展由最开始基于小规模专家知识逐步发展为基于机器学习。

1980年，卷积神经网络的雏形CNN诞生。

1998年，现代卷积神经网络的基本结构LeNet-5诞生，机器学习方法由早期基于浅层机器学习的模型，变为了基于深度学习的模型，为自然语言生成、计算机视觉等领域的深入研究奠定了基础，对后续深度学习框架的迭代及大模型发展具有开创性的意义。

探索沉淀期（2006年-2019年）：以Transformer为代表的全新神经网络模型阶段

2013年，自然语言处理模型Word2Vec诞生，首次提出将单词转换为向量的“词向量模型”，以便计算机更好地理解和处理文本数据。

2014年，被誉为21世纪最强大算法模型之一的GAN（对抗式生成网络）诞生，标志着深度学习进入了生成模型研究的新阶段。

2017年，Google颠覆性地提出了基于自注意力机制的神经网络结构——Transformer架构，奠定了大模型预训练算法架构的基础。

2018年，OpenAI和Google分别发布了GPT-1与BERT大模型，意味着预训练大模型成为自然语言处理领域的主流。在探索期，以Transformer为代表的全新神经网络架构，奠定了大模型的算法架构基础，使大模型技术的性能得到了显著提升。

迅猛发展期（2020年-至今）：以GPT为代表的预训练大模型阶段

2020年，OpenAI公司推出了GPT-3，模型参数规模达到了1750亿，成为当时最大的语言模型，并且在零样本学习任务上实现了巨大性能提升。随后，更多策略如基于人类反馈的强化学习（RHLF）、代码预训练、指令微调等开始出现，被用于进一步提高推理能力和任务泛化。

2022年11月，搭载了GPT3.5的ChatGPT横空出世，凭借逼真的自然语言交互与多场景内容生成能力，迅速引爆互联网。

2023年3月，最新发布的超大规模多模态预训练大模型——GPT-4，具备了多模态理解与多类型内容生成能力。在迅猛发展期，大数据、大算力和大算法完美结合，大幅提升了大模型的预训练和生成能力以及多模态多场景应用能力。如ChatGPT的巨大成功，就是在微软Azure强大的算力以及wiki等海量数据支持下，在Transformer架构基础上，坚持GPT模型及人类反馈的强化学习（RLHF）进行精调的策略下取得的。

不断进化的大模型家族

大模型作为新物种，一直在快速进化，目前已经初步形成包括各参数规模、各种技术架构、各种模态、各种场景的大模型家族
在这里插入图片描述
从参数规模上看，大模型经历了预训练模型、大规模预训练模型、超大规模预训练模型三个阶段。据统计，每年参数规模至少提升10倍，实现了从亿级到百万亿级的突破。目前千亿级参数规模的大模型成为主流。

从技术架构上看，Trans former架构是当前大模型领域主流的算法架构基础，其上形成了GPT和BERT两条主要的技术路线，其中BERT最有名的落地项目是谷歌的AlphaGo。在GPT3.0发布后，GPT逐渐成为大模型的主流路线。综合来看，当前几乎所有参数规模超过千亿的大型语言模型都采取GPT模式，如百度文心一言，阿里发布的通义千问等。

从模态上来看，大模型可分为自然语言处理大模型，CV大模型、科学计算大模型等。大模型支持的模态数量更加多样，从支持文本、图片、图像、语音单一模态下的单一任务，逐渐发展为支持多种模态下的多种任务。

从应用领域来讲，大模型可分为通用大模型和行业大模型两种。通用大模型是具有强大泛化能力，可在不进行微调或少量微调的情况下完成多场景任务，相当于AI完成了“通识教育”，ChatGPT、华为的盘古都是通用大模型。行业大模型则是利用行业知识对大模型进行微调，让AI完成“专业教育”，以满足在能源、金融、制造、传媒等不同领域的需求，如金融领域的BloombergGPT、法律领域的LawGPT_zh，以及百度基于文心大模型推出的航天-百度文心、辞海-百度文心等。

大模型开发之道

在这里插入图片描述

目前大模型的开发主要有两种路径，一种是从头构建完整大模型；

另一种是在开源的通用大模型之上调优。前者所需数据、算力、时间投入较大，但大模型的性能更为突出。后者模型的参数和能力受限于开源模型，但成本较低，可以快速形成所需的大模型。

路径一：从头构建完整大模型

构建完整大模型一般分为四个步骤：
在这里插入图片描述
首先是训练构建基座模型。基座模型已经初步具备良好的知识框架和认知能力，但需要复杂指令的准确引导才可以生成正确内容，因而一般不能直接用于作为日常交互。从模型算法角度看，目前主流的GPT类基座模型均基于Transformer的decoder思路设计。从数据角度看，基座模型是实现涌现能力（参数达到一定规模时出现意想不到的能力）的基础，训练需要用到大量的数据，GPT3.0用到了45TB的文本语料，GPT4中还增加了图像数据等。从算力资源角度看，训练一个基座模型需要大量的算力和较长周期，为了提高效率，ChatGPT用到了近万张英伟达A100的GPU卡。基座模型可以理解为小孩已经生硬地背了大量古诗，但还不会熟练运用。你跟他说“举头望明月”，他能对出“低头思故乡”。但你让他背一首“思乡”的诗，他就不会了。

其次是策略精调。目的是让模型具备适用性，能与人类正常交流，即让基座模型理解用户想问什么，以及自己答的对不对。这个环节主要通过高质量的人工标注<指令，答案>（即prompt工程）优化模型。ChatGPT的标注数据集主要由一个3 0-50名Op en A I员工组成的团队和从第三方网站雇佣的50-100名标注员共同完成。这个过程可以理解为老师给学生上课，讲解很多诗句的含义。引导他看到“孤独（prompt)”可以写“拣尽寒枝不肯栖，寂寞沙洲冷（答案）”，看到“豪情（prompt)”，可以写“愿将腰下剑，直为斩楼兰（答案）”

第三步是训练一个独立于基座模型的判别模型，用来判断模型生成结果的质量，为下一步的强化学习做准备。由专门的标注人员对模型生成的结果按照相关性、富含信息性、有害信息等诸多标准进行排序，然后通过判别模型学习标注好排名的数据，形成对生成结果质量判别能力。这一步是为小朋友培养一个伴读。通过给定一组题目（prompt），让小朋友为每一个题目写多篇古诗。由老师为每一首诗打分（结果标注），然后将结果告诉伴读。伴读需要学会判断哪首诗更符合题目，写的更有意境。

最后一步是利用奖励机制优化基座模型，完成模型的领域泛化能力。本阶段无需人工标注数据，而是利用强化学习技术，根据上一阶段判别模型的打分结果来更新内容生成模型参数，从而提升内容生成模型的回答质量。（第三和最后一步相当于大人去纠正小孩对话，告诉孩子哪句话是对的，哪句话不能这么回答，比如“爸爸好不好？”，回答“爸爸是坏蛋”就要进行“惩罚”，回答“爸爸很好，我很喜欢爸爸”就比较符合要求。类似的做法，实际的工作比这个要复杂的多，需要大量的专家投入）。这一步则是让伴读提升小朋友的水平，而老师则可以休息了。伴读告诉小朋友，如果用“未若柳絮因风起”描写雪则可以有糖葫芦吃，如果用“撒盐空中差可拟”描写则没有糖吃。通过反复练习，最后就可以培养出一位“能诗会赋”的高手（成品大模型）。

路径二：基于开源通用大模型的调优

基于开源通用大模型进行调优是低成本的选择，也是大模型下游玩家最常见的选择，利用开源大模型，玩家可在1张高性能显卡中，约5小时就可完成包含200万条数据的参数微调。参数高效微调方法是目前业界主流的调优方式，在保持原有大模型的整体参数或绝大部分参数不变的情况下，仅通过增加或改变参数的方式获得更好的模型输出，影响的参数量可仅为大模型全量参数的0.1%以下，典型代表为微软提出的LoRA技术。

大模型评测之法

短短几个月，国内外AI大模型数量激增，良莠不齐，尤其如何对开源大模型进行评估成为新的课题，对于开源大模型选择、促进大模型的发展具有非常重要的价值。未来，对于2B客户来说，需要从诸多行业大模型选择适合自己需要的大模型，第三方独立评估结果具有重要的参考价值。

目前业界还没有形成统一的权威第三方评测方法，主要的评测手段有两类:

一类是深度学习常用的语言理解数据集与评测指标，即通过运行标准的数据集，来评测大模型的深度学习性能，常用的指标有准确率、召回率等。Meta、谷歌和华盛顿大学等合作推出的SuperGLUE（超级通用语言理解评估）包含7个任务的集合，能够测试大模型在回答问题和常识推理等多方面的能力。
另一类是面向大模型的文本生成、语言理解、知识问答等能力，设计专门评估指标体系，然后通过提问（prompt）的方式，根据生成的结果对模型进行评价。具体操作上又分为人工评测和裁判大模型评测两种方式，人工评测由语言学家和领域专家根据主观判断来评价模型各个指标的表现，如OpenAI等机构邀请研究人员评测GPT系列模型；科大讯飞牵头设计了通用认知大模型评测体系，从文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力和多模态能力这7个维度481个细分任务类型进行评估。裁判大模型评测是指用一个较强大的语言模型来评测其他语言模型。例如，用GPT-4模型作为“老师”，通过“老师”出题及评判其他模型的答案来实现机器评测。北大和西湖大学开源的裁判大模型pandaLM也实现了自动化、保护隐私和低成本的评估方式。

上述方式各有优缺点，语言理解数据集适用于初步评估大模型的基本性能，如翻译质量、语言表达能力等；人工评测适用于评估大模型的高层语言表达能力、情感理解力和交互性能等；机器裁判评测适用于对大规模数据和模型进行快速评测，评估大模型的稳定性和一致性。