打破AI壁垒-降低AI入门门槛

news2026/2/9 2:57:47

AI和AGI

AI（人工智能-Artificial Intelligence）：先说说AI，这个大家可能都不陌生。AI，就是人工智能，它涵盖了各种技术和领域，目的是让计算机模仿、延伸甚至超越人类智能。想象一下，你的智能手机、智能家居设备，这些都是AI技术的应用。

AGI（通用人工智能）： 然后我们来看AGI，即Artificial General Intelligence，中文叫通用人工智能。这可比一般的AI高级多了。AGI的目标是创造一个能像人类一样思考、学习、执行多种任务的系统。

Token

什么Token

在大语言模型领域，Token 通常用来表示文本数据中的一个单元。在不同的语境下，一个 token 可能代表一个字一个词，或者是一个句子。在英文中，一个 token 通常是一个词或者是标点符号。在一些汉语处理系统中，一个token 可能是一个字，也可能是一个词。Token 是处理和理解文本数据的基本单元。

误区

很多同学把 token 理解为中文语义里的“字节”，对于这种理解，只能说从类比关系上有一定的相似度，因为"字节"是计算机存储和处理数据的基本单元，而"token" 则是语言模型处理文本信息的基本单元。

但是token并不是 “字节”

"Token"在语言模型中的作用比"字节"在计算机中的作用更加复杂和多元。在大语言模型中，"token"不仅代表文本数据中的一个单位，而且每个"token"都可能携带了丰富的语义信息。比如，在处理一句话时，"token"可能表示一个字，一个词，甚至一个短语，这些都可以被认为是语言的基本单元。同时，每个"token"在模型中都有一个对应的向量表示，这个向量包含了该"token"的语义信息、句法信息等

如何计算使用了多少Token

在下图可以看到实时生成的 tokens 消耗和对应字符数量(基于 GPT3)

如果我们想要直观的査看 GPT 是如何切分 token 的话，我们可以打开 :https://platform.openai.com/tokenizer

在这里值得注意的是，英文的 token 占用相对于中文是非常少的，这也是为什么很多中文长 prompt 会被建议翻译成英文设定，中文输出的原因。

Tokens（开发者食用）

作为开发者，我们会把发送给大模型的数据的容量叫做tokens，比如：我们之间会交流说这次发送了多少tokens给大模型，会不会tokens太大，导致爆token。这个token的最大值在大模型的接口文档中会有说明。

Prompt

什么是Prompt

简单点说：我们询问ai的问题就是prompt的一部分。作为开发者，在开发应用时，很大一部分是在优化prompt，我们在使用大模型时，prompt起很大的作用。

prompt有哪些组成

我理解：

prompt = 问题的背景 + 与问题相关的供AI参考的数据 + 我们对问题的要求/我们希望ai做的事情

例如：

当然prompt还会包含很多其他的内容，比如自定义的知识库，并且有很多prompt优化的方法。但是上述三个基本是必须要包含的内容。

AI的回答是不可控的，ChatGPT是单词接龙，通过概率论判断下一个接龙的单词是什么，所以我们的prompt可以更好的约束ChatGPT 下一个接龙的单词，所以一个好的prompt，才能更好的使用大模型的生成、推理能力。

多模态

什么是多模态

多模态大模型

能够同时处理和理解多种类型的数据，如文本、图像、音频和视频。它通过联合建模Language、Vision、Audio等不同模态的信息，使模型能够从更原始的视觉、声音、空间等开始理解世界，而不仅仅是通过文字这一中间表示。这种能力使得多模态模型在处理复杂场景时更为有效，例如，它不仅能处理文本信息，还能处理文本与图像、语音等复合场景。

单模态大模型：

专注于处理单一类型的数据，如纯文本或纯图像。这类模型在特定领域内表现优异，如文本生成、图像识别等，但当面对需要跨模态理解的场景时，其能力受限。

:::info
总结：简单点说，单模态只处理一种类型的数据，但是多模态可以同时处理多种类型的数据。

:::

多模态前景：

随着技术的发展，多模态大模型经历了从传统单模态模型到通用单模态，再到通用多模态的发展过程。当前的多模态大模型通常以LLM（Large Language Model）为核心，具备多种模态输入和输出的能力，这在某种程度上预示了AGI（Artificial General Intelligence）的曙光。