生成式人工智能的第一课，揭开她那神奇的面纱

news2026/2/19 2:48:24

一、人工智能（Artificial Intelligence）

从1940年代开始，科学家们在数学推理的基础上发明了可编程数字计算机，这一突破激发了他们对创建“电子大脑”的探索热情，为后续的人工智能发展奠定了坚实的基础。1956年，由约翰·麦卡锡等人组织的达特茅斯会议，正式标志着人工智能作为独立研究领域的诞生，参会者预测机器将在一代人内达到人类智能的水平。然而，1974年至1980年间，由于Lighthill报告的批判，人工智能研究经历了第一次“AI寒冬”，资金和热度骤减，但逻辑编程和常识推理等新观念仍在不断涌现，为未来指明了新的方向。

到了1980年代，随着专家系统的发展，人工智能迎来了复兴期，取得了里程碑式的成就。1997年，IBM的深蓝击败了国际象棋冠军加里·卡斯帕罗夫，成为这一时期的标志性事件。同样在1986年，恩斯特·迪克曼斯发明了第一辆自动驾驶汽车，进一步展示了人工智能的潜力。进入2010年代，机器学习和深度学习的崛起使得人工智能技术迅猛发展，成为各类应用的核心。如今，AI系统不仅能生成富有创意的回应，处理大规模数据，还能完成过去被认为无法实现的任务，推动了智能客服等领域的革命性进步。

在人工智能中，“人工”一词源自英文单词“artificial”。在日常用语中，“artificial”意为合成的，往往带有负面意味，意味着“人造物体仅仅是真实物体的次要形式”。但实际上，人造物体常常优于真实或者自然物体。“智能”（intelligence）指的是个体从经验当中学习、进行正确推理、记住重要信息，以及应对日常生活需求的认知能力。

史蒂芬•卢奇在《Artificial Intelligence》中认为，人工智能是由人（people）、想法（idea）、方法（method）、机器（machine）和结果（outcome）等要素构成的。首先，构成人工智能的核心是人。人拥有想法，并将这些想法转化为方法。通过算法、启发式方法、程序或计算核心的系统，这些想法得以表达。最终，我们获取了这些机器（程序）所产生的产物，称之为“结果”。每一个结果都能够依据其价值、效果和效率进行衡量。

二、生成式人工智能（Generative AI）

生成式人工智能（Generative AI）是人工智能的一个子集，是一种能够根据用户提示创建新内容的人工智能技术，包括文本、图像、音频和视频等。这一能力通过复杂的机器学习模型，尤其是称为生成模型的深度学习模型来实现。这些模型从大量的训练数据中学习模式和结构，能够生成与输入数据具有相似特征的原创内容。

你可能已经在电子邮件或文本编辑器中的自动完成功能中遇到过其早期形式，自动完成以惊人的准确度预测你的句子结尾。这种变革性技术不仅仅是数据分析；它是在完全新的创造中注入生命，打破我们对机器所能实现的边界。静态、预编程响应的日子已经过去。生成式人工智能模型通过学习和适应，模仿人类观察、理解和创造的能力。这些模型通过分析大量的图像、文本、音频等数据集，破译定义每个领域的潜在模式和关系。凭借这些知识，它们不仅能模仿，还能超越模仿，生成完全新颖的内容，这些内容感觉新鲜、原创，并且常常与现实世界的内容非常相似。

生成式人工智能的应用范围广泛，涵盖了各个行业和领域。以下是一些典型应用：

1. 文本生成

生成式人工智能在文本生成领域表现尤为出色。通过大规模数据预训练，生成模型可以生成高质量的文本内容。

例如，文心大模型4.0在输入和输出阶段都进行知识点增强。一方面，对用户输入的问题进行理解，并拆解出回答问题所需的知识点，然后在搜索引擎、知识图谱、数据库中查找准确知识，最后把这些找到的知识组装进prompt送入大模型，准确率好，效率也高。另一方面，对大模型的输出进行反思，从生成结果中拆解出知识点，然后再利用搜索引擎、知识图谱、数据库，以及大模型本身进行确认，进而对有差错的点进行修正。

2. 图片生成

生成式人工智能在艺术和设计领域展现了巨大的创造力。通过学习大量的艺术作品和设计样式，生成模型可以创作出独特且富有创意的艺术作品。

Midjourney 是由位于美国加州旧金山的同名研究实验室开发的人工智能程序，由 Leap Motion 的创办人大卫·霍尔兹（David Holz）领导。它可以根据文本生成图像，于 2022 年 7 月 12 日进入公开测试阶段，用户通过 Discord 的机器人指令操作。其核心功能是把文本提示转换为图像，能生成涵盖建筑物、场景、艺术插画、写实照片和人物画等多种风格和主题的高质量图像。算法不断改进，相继发布了多个版本，第二版于 2022 年 4 月推出，第三版于 2022 年 7 月 25 日发布，第四版的 alpha 迭代版于 2022 年 11 月 5 日发布，第五版的 alpha 迭代版于 2023 年 3 月 15 日发布。

另外，Stable Diffusion是一个由Stability AI开发的文本到图像的深度学习模型，属于潜在扩散模型（Latent Diffusion Model, LDM）的一种变体。它能够根据用户提供的文本描述生成高质量的图像，广泛应用于艺术创作、设计和其他视觉内容生成领域。

3. 音乐创作

在音乐创作领域，生成式人工智能同样展现了惊人的潜力。通过学习大量的音乐数据，生成模型可以创作出风格多样的音乐作品。例如，Suno AI是一个生成式人工智能音乐创作平台，旨在让用户根据文本提示生成逼真的歌曲。自2023年12月20日上线以来，Suno已吸引了大量关注，以其创新的方法将音乐创作民主化，使从普通用户到专业艺术家都能轻松上手，无需任何乐器或深厚的音乐理论知识。

4. 视频生成

生成式AI视频生成是指利用人工智能算法创建视频内容的过程。这些系统可以从文本描述、图像或短视频剪辑等各种输入中生成视频。如Leonardo等工具可以将静态图像转换为短视频剪辑，用户可以调整运动强度等参数来自定义输出效果。Runway ML（Gen-2）等平台提供编辑现有视频或基于视频输入生成新内容的功能，可以延长剪辑、改变风格或向视频添加新元素等等。

Sora是一个能以文本描述生成视频的人工智能模型，由美国人工智能研究机构OpenAI开发。Sora这一名称源于日文“空”（そら sora），即天空之意，以示其无限的创造潜力。其技术基础是在OpenAI的文本到图像生成模型DALL-E上开发的。模型的训练数据既包含公开可用的视频，也包括专为训练目的而获授权的视频，但OpenAI没有公开训练数据的具体数量与确切来源。

OpenAI于2024年2月15日向公众展示了由Sora生成的多个高清视频，称该模型能够生成长达一分钟的视频。同时，OpenAI也承认了该技术的一些缺点，包括在模拟复杂物理现象方面的困难。《麻省理工科技评论》报道称演示视频令人印象深刻，但指出它们可能是经精心挑选的，并不一定能代表Sora生成视频的普遍水准。