大白话70个你必须知道的AI重要概念

本文按英文起首字母顺序，整理了70个常用的生成式AI领域常用概念，试图以大白话进行诠释，如果你不求甚解、但也求略解的话，欢迎收藏。第一部分从A到I，第二部分从L到P，第三部分从Q到Z。

A

1 Agents: 代理人。能够独立感知环境并在环境中采取行动以达成目标的软件机器人,例如订机票或浏览虚拟世界。你可以想象它是一个帮助你管理网上生活的小AI助手。

2 AGI (Artificial General Intelligence): 通用人工智能。这是一种假想的AI系统，人类可以完成的任何智力任务，它也能够理学习理解和掌握，并且在多个不同领域达到人类水平的表现，而不是仅仅能够处理一些单一任务。你可以把它想象成一个可以写诗、诊断疾病以及创作交响乐的超级智能机器。

3 Alignment: 对齐。这指的是确保AI系统的目标和价值观与人类的价值观兼容,以防止产生有害或意外的后果。这有点像训练小狗理解什么样的行为对家人有益，什么样的行为有害。

4 Attention: 注意力机制。这指的是神经网络中可以选择性地聚焦于输入数据的关键部分的机制，这就像一群朋友在嘈杂环境中聊天时，你要专注聆听一个人的话，过滤其他人的背景杂音一样。神经网络里的注意力机制，也会挑选输入数据中最重要的部分，忽略无关信息，更精准地完成任务。

5 Autoencoders: 自动编码器。这是一种可以学习数据压缩表达的神经网络，之后可以从这些表达中重构原始数据，就像是精通密码的侦探，能用一串简短的密码记录所有案件细节，并随时根据密码还原出完整案件信息。

B

6 Back Propagation: 反向传播。这是一种算法，可以让神经网络通过计算出根据执行任务的表现来调整其内部连接的幅度，从而实现学习，有点像学生根据反馈来纠正自己的错误。

7 Bias: 偏见。这指的是无意中“烘焙”进AI模型的假设，可能导致不公平或歧视性的结果。这有点像一个出厂时就不精准的天平总是略微倾斜到一边，使结果产生偏差。正如某些日常生活中的遭遇（“训练数据”）让某些人的大脑形成刻板印象一样，往往是无意识的，但会导致不公平或歧视的结果

8 BigGAN: 大型生成对抗网络。这是一种强大的GAN（生成对抗网络，一种算法模型），以生成异常逼真和高分辨率的图像而闻名，有点像为你绘制一幅如此逼真的画，让你感觉可以走进画中。

C

9 Capsule Networks: 胶囊网络。如果神经网络是“只见树木，不见森林”的话，胶囊网络则是“既见树木，也见森林”。传统的神经网络，如卷积神经网络（CNN），会将图像分解为一个个像素，然后通过特征提取和分类来识别物体。而胶囊网络则不同，它将图像分解为一个个“胶囊”，每个胶囊负责识别物体的某个部分，如椅子的腿、背或扶手，从而捕获对象的空间关系。胶囊网络更加像是人类的视觉系统的模拟。

10 Chain of Thought: 思维链。这是一种为AI模型解释其推理过程而提出的方法,它通过展示一系列中间结论，来引导最终的决策。就像是人类在解决问题时，会一步一步地推理，直到得出最终答案。例如，如果当AI 模型被要求回答“北京的首都是什么？”这个问题，它可能会先判断出北京是一个城市，然后判断出中国只有一个首都，最后得出北京是中华人民共和国的首都。思维链可以帮助人们更好地理解 AI 模型的决策过程，并提高 AI 模型的可信度。

11 Chatbot: 聊天机器人。这可能是普罗大众最熟悉的与AI打交道的人机交互方式，它实现相当程度的人格化，从而让人类对计算机产生“智能”的直观感觉。

12 ChatGPT: OpenAI的大型语言模型，以其生成人类质量文本并进行开放式对话的能力而闻名，有点像与智慧和知识渊博的朋友聊天。

13 CLIP（Contrastive Language-Image Pretraining）: 对比语言-图像预训练。这是一种AI模型，就像是一位“翻译家”，可以将文字和图片相互翻译。例如，如果给 CLIP 一张猫的图片，它可能会生成以下文字描述：“这张图片是一只猫，正在玩一根逗猫棒。猫的毛发是白色的，眼睛是蓝色的。逗猫棒是红色的，上面有一条白色的条纹。”。或者，如果给 CLIP 一段文字“一只猫正在玩一根逗猫棒”，它可能会生成对应的图片。

14 CNN: 卷积神经网络。专门处理以网格布局的数据（例如如图像就这这样的数据），识别其中的模式和特征。它通过使用卷积运算来识别图像中的模式和特征。卷积运算类似于你的眼睛扫描图像时，将视线聚焦在特定区域的过程。CNN 可以用于识别和分类图像中的物体，例如猫、狗、汽车等。它还可以用于生成新的图像，例如虚拟人物、风景等。CNN 在图像处理领域取得了巨大的成功，它已经成为图像处理领域的事实标准。

15 Conditional GAN: 条件对抗生成网络。一种可以根据特定附加信息生成数据的GAN，例如创建符合某个年龄或情绪的脸，有点像一个拥有无限面料和想象力的时装设计师，可以根据特定的信息，例如年龄、风格、场合等，设计出不同的服装。

16 CycleGAN: 循环生成对抗网络。一种在不需要成对示例的情况下将图像从一种风格转换为另一种风格的模型，例如，它可以将一张城市风光照片转换为水彩画。

D

17 Data Augmentation: 数据增强。这是一种通过人为增加训练数据的数量和多样性来使AI模型更加稳健和通用的技术，就像给学生做各种练习题准备考试一样，可以通过人为增加训练数据的数量和多样性，让 AI 模型更强大、更通用。

18 DeepSpeed: DeepSpeed是一个在分布式系统上训练大型语言模型的系统。它使用各种技术来提高训练的效率和可扩展性,如ZeRO-Offloading、Megatron-Turing NLG和混合精度训练。已经证明，DeepSpeed可以显着减少训练大型语言模型的时间和成本。这就像一个训练运动员的教练团队，可以用各种技巧提高训练效率和扩展性，让运动员更快、更强。

19 Diffusion Models: 扩散模型。这是一种通过逐渐添加然后反转噪声来生成数据的技术，这个过程可以类比于慢慢擦掉画布上的随机笔触。一开始，画布上是一片混乱，但随着你擦掉更多的笔触，图像逐渐显露出来。它在图像生成方面取得了特别成功，可以生成逼真、有创意的图像。可以用于生成新的艺术作品，例如绘画、雕塑、音乐等；可以用于生成新的虚拟世界，例如游戏、电影、动画等；还可以用于生成新的科学数据，例如医学图像、天文图像等。Diffusion Models 是一项新兴技术，具有巨大的潜力。它有可能改变我们生成数据的方式。

20 Double Descent: 双降。是一种现象，在这种现象中，随着 AI 模型复杂度的增加，其性能会先下降，然后再上升。这种现象通常在分类任务中观察到，但在其他任务中也可能发生。就像过山车在到达顶峰之前会先有起伏一样，增加 AI 模型的复杂度可能会先让它的表现变差，然后再提升。

E

21 Emergence/Emergent Behavior: 涌现/涌现现象。这指的是AI系统中简单规则交互产生的复杂和意料之外的行为。涌现是一种现象，在这种现象中，系统的整体行为比其组成部分的行为更复杂。作为类比，例如蚂蚁可以遵循简单的规则，“跟随同伴”和“避免障碍”，但它们可以形成复杂的图案，例如蚁丘。在日常生活中，可以类比为以下现象：

群体智慧：由许多人共同做出的决定往往比由一个人做出的决定更明智。
自然界：许多自然现象，例如飓风、雪花和生命，都是涌现现象的结果。

22 Expert Systems: 专家系统。这是使用特定领域深度知识构建的AI应用系统，这些系统通常使用规则引擎来推理和做出决策，在许多领域包括医疗、金融和法律都有应用场景。例如，医疗诊断系统可以利用大量医疗数据来诊断疾病。

F

23 Few-Shot Learning: 少样本学习。这种方法在非常少量的数据上训练模型，通常每个类别只有几个示例。它旨在利用有限信息快速适应新任务，在准确性和数据匮乏之间达到平衡。就像是一个人可以通过看几张照片就学会识别新的动物一样。在日常生活中，Few-Shot Learning 可以类比为以下场景：

一个人可以通过看几张照片就学会识别新的动物。
一个孩子可以通过看几次就学会一个新的游戏规则。
一个医生可以通过看几次病人的病历就诊断出疾病。

24 Fine-tuning: 微调。是一种机器学习技术，用于将预先训练的模型调整到特定任务。它通过在较少数量的相关数据上进一步训练模型来实现，有点像把一个通用工具进一步定制优化来处理特定工作。Fine-tuning 可以类比为将一把螺丝刀定制为特定类型的螺丝、将一把扳手定制为特定大小的螺栓。

25 Forward Propagation: 前向传播。神经网络中输入数据通过网络层流动的过程,将其转换并生成最终输出；就像是食谱中，原料经过不同步骤才能制作出菜肴一样，在神经网络中，输入数据会流经网络层，转换并生成最终输出。

26 Foundation Model: 基础模型。一个大型、可适配的AI模型，通常具有从数十亿到乃至数万亿个参数的规模。这使得它们能够学习复杂的关系和模式，从而具备更强通用性。为进一步订制出应用场景更纵深、专业性导向更强的应用程序提供基础。

G

27 GAN: 生成对抗网络。在一种AI中设立两个相互竞争的模型，一个负责生成数据，另一个试图判断这些生成结果的“逼着”程度，在相互“对抗”过程中，导致所产生的输出越来越逼真和复杂，就像两位艺术家相互砥砺，创作出更好的作品一样。例如，第一个模型（生成器）会从随机噪声中生成图像，而第二个模型（鉴别器）会尝试将生成图像与真实图像区分开来。随着生成器和鉴别器不断相互竞争，生成器会变得越来越擅长生成逼真的图像，而鉴别器会变得越来越擅长识别生成图像。

28 Generative AI: 生成式AI。相比之下，传统的 AI 模型通常用于分析或分类数据。例如，它们可以用于识别物体、翻译语言或回答问题。而生成式 AI 则专注于创造性探索和输出。例如，它可以像一位艺术家那样创作出各种风格的画作，或者像一位作家那样创作出各种类型的文学作品、或者像一位音乐家那样创作出各种类型的音乐作品

29 GPT（Generative Pretrained Transformer）: 它是一种大型语言模型。其中“Generative” 表示“生成的”，指的是 GPT 可以生成文本、翻译语言和编写不同类型的创意内容。“Pretrained” 表示“预先训练的”，指的是 GPT 是经过大量文本和代码数据集训练的。这使它能够学习语言中的复杂模式和关系。“Transformer” 是一种神经网络架构，它是 GPT 的基础。可以翻译为“生成式预训练变换器”，但大家已经约定俗成的使用其英文缩写。在OpenAI引领下，GPT几乎成为生成式AI的代名词。

30 GPU: 图形处理单元。一种起源于处理图形渲染加速、广泛应用于游戏领域的专用微处理器，弥补大众所熟知的CPU的一些运算处理上的不足。GPU特别适合做**矩阵计算，**例如卷积和矩阵乘法。显然，GPU的本行是图像和视频处理，高性能计算图像和视频数据更是它的强项。GPU 的并行处理能力强，也使它们非常适合处理计算密集型任务。AI 训练和推理正是涉及大量需并行处理的矩阵计算，GPU 从作为CPU某些工作的“外包”，趁势走到前台，成为AI领域不可或缺的算力支撑。

31 Gradient Descent: 梯度下降法。是一种优化算法，用于改进机器学习模型的性能。它通过迭代地沿损失函数最小化的方向调整模型的内部参数工作，损失函数测量模型的预测和真实值之间的差异。这好比一个人下山的时候，假设不用担心危险，只追求最快到达山谷最低处，他以一定的步伐向下走，每一步总是在找下一个最陡峭的落脚点。梯度下降法对模型的准确性、稳定性以及其训练速度有重大影响。

H

32 Hallucination/Hallucination: 幻觉。由于模型训练数据、偏见或任务理解不完整的局限性，AI模型生成非现实或无意义内容。这可能包括生成现实世界中不存在的东西的影像、没有意义的胡言乱语、或凭空编造的事件。这就就像人类做梦的时候，大脑会根据记忆片段创造出不存在的场景，模型也会“做白日梦”。

33 Hidden Layer: 隐藏层。神经网络中没有直接连接到输入或输出的层。这些层通过学习捕获数据中的隐藏模式和关系的内部表达，就像我们大脑中承担认知功能但又不直接面对外界输入和输出的部分，对数据执行复杂的转换。隐藏层的数量和结构在神经网络的能力和性能中起关键作用。

34 Hyperparameter Tuning: 超参数调优。调整机器学习模型中的参数设置,如学习率、隐藏层数量或正则化参数，以达到最佳性能。调优这些超参数对于在模型复杂性和泛化能力之间找到平衡至关重要。这好比调试一台机器，要调整各种参数才能达到最佳状态，机器学习模型也需要调整超参数。或者想象调节一台音响：音响的音量、音调、均衡等参数，可以根据个人喜好进行调整，以获得最佳的听音体验。超参数调优也类似，可以根据数据集的特点和模型的性能需求，调整超参数，以获得最佳的模型性能。

I

35 Instruction Tuning: 指令调优。是一种用于精调大型语言模型的技术，通过在包含特定指令或指南的数据集上进一步训练预训练机器学习模型来进行微调。它的核心思想是将任务转化为指令，然后通过对模型进行监督学习来提高模型的性能。类比地说，可以将Instruction tuning看作是一种训练模型的方式，就像教练训练运动员一样。教练会给运动员一些指令，例如“跑得更快”或“跳得更高”，然后通过不断的训练来提高运动员的表现。Instruction tuning也是一样的，它会给模型一些指令，例如“生成更逼真的图像”或“回答问题”，然后通过监督学习来提高模型的性能。

现在AI绘画还是发展初期，大家都在摸索前进。

但新事物就意味着新机会，我们普通人要做的就是抢先进场，先学会技能，这样当真正的机会来了，你才能抓得住。

如果你对AI绘画感兴趣，我可以免费分享我在学习过程中收集的各种教程和资料。添加下方即可免费领取！