AIGC新时代，注意政策走向，产业方向，拥抱可信AI。需要了解基本理论，基础模型，前沿进展，产品应用，以及小小的项目复现

news2025/7/17 10:43:19

AIGC（AI-Generated Content，AI生成内容）是指基于生成对抗网络（GAN）、大型预训练模型等人工智能技术的方法，通过对已有数据进行学习和模式识别，以适当的泛化能力生成相关内容的技术。类似的概念还包括合成式媒体（Synthetic media），它主要指基于人工智能生成的文字、图像、音频等媒体内容。AIGC是AI大模型，特别是自然语言处理模型的一种重要应用；ChatGPT则是AIGC在聊天对话场景的一个具体应用。AIGC可以生成的内容很多，具体的种类和范围可能随着技术的发展而不断扩大。目前，一些常见的AIGC内容包括：
- 文字：最基本的AIGC内容，可以与人类进行实时对话，生成不同风格的文字，诗歌、故事，甚至计算机代码等。
- 图像：可以由文字或者图片，直接生成各种类型的图片。可以辅助人类进行绘画设计和发散想象力，大致可以分为图像自主生成工具和图像编辑工具两类。
- 视频：可以通过文字描述，生成一段情节连贯的视频。比如广告片、电影预告片、教学视频、音乐视频等。也可以当作视频的剪辑工具。
- 音频：可以生成逼真的音效，包括语音克隆、语音合成、文本生成特定音，音乐生成、声音效果等。
- 游戏：游戏的剧情设计、角色设计、配音和音乐、美术原画设计、游戏动画、3D模型、地图编辑器等都可以让AIGC帮助完成。
- 虚拟人：可以生成虚拟明星、虚拟恋人、虚拟助手、虚拟朋友等。指存在于非物理世界(如图片、视频、直播、一体服务机、VR)中，并具有多重人类特征的综合产物。
常见的AIGC应用
- ChatGPT是由OpenAI开发的一款大型预训练语言模型，就像一个会聊天的机器人。
- Midjourney是由美国旧金山的一家独立研究实验室创立的图片类AIGC应用程序，可以通过语言描述来生成图片。
- Stable Diffusion，图片生成类AI大模型，可以在给定的任何提示词下生成图像，并支持根据关键词和图片检索。
- Bing AI就是搭载了GPT-4的Bing浏览器，它能够更好地理解用户意图，提供更加智能化、个性化的搜索和服务体验。
AIGC由三个关键组件组成：数据、硬件和算法。音频、文本和图像等高质量数据是训练算法的基本构建块。数据量和数据源对预测的准确性有着至关重要的影响。硬件，尤其是计算能力，构成了AIGC的基础设施。随着对计算能力的需求不断增长，更快、更强大的芯片以及云计算解决方案变得至关重要。硬件应该能够处理具有数百万个参数的数兆字节的数据和算法。加速芯片和云计算的结合在提供高效运行大型模型所需的计算能力方面发挥着至关重要的作用。最终，算法的性能决定了内容生成的质量，而数据和硬件的支持对于实现最佳结果至关重要。
- 数据：ChatGPT的功能表明，数据是云计算和智能人工智能业务迭代的基础和基础。
- 硬件：在海量数据为大数据和人工智能应用提供重要支持的同时，新的存储需求也迫在眉睫。
- 算法：在当前智能数据挖掘算法的帮助下，可以通过迭代优化学习范式和网络结构内的参数来独立学习数据中固有的潜在规则。

AIGC的基础模型

模型名称	提出时间	应用场景
深度变分自编码（VAE）	2013年	图像生成、语音合成
生成对抗神经网络（GAN）	2014年	图像生成、语音合成
扩散模型（Diffusion Model）	2015年	图像生成
Transformer	2017年	语言模型
Vision Transformer（ViT）	2020年	视觉模型

VAE分为两部分，编码器与解码器。编码器将原始高维输入数据转换为潜在空间的概率分布描述；解码器从采样的数据进行重建生成新数据。
GAN包含两个部分：生成器，学习生成合理的数据。对于图像生成来说是给定一个向量，生成一张图片。其生成的数据作为判别器的负样本。判别器：判别输入是生成数据还是真实数据。网络输出越接近于0，生成数据可能性越大；反之，真实数据可能性越大。
扩散是受到非平衡热力学的启发，定义一个扩散步骤的马尔科夫链，并逐渐向数据中添加噪声，然后学习逆扩散过程，从噪声中构建出所需的样本。扩散模型的最初设计是用于去除图像中的噪声。随着降噪系统的训练时间越来越长且越来越好，可以从纯噪声作为唯一输入，生成逼真的图片。

虽然过去各种模型层出不穷，但是生成的内容偏简单且质量不高，远不能够满足现实场景中灵活多变以高质量内容生成的要求。预训练大模型的出现使AIGC发生质变，诸多问题得以解决。大模型在CV/NLP/多模态领域成果颇丰，并如下表的经典模型。诸如我们熟知的聊天对话模型ChatGPT，基于GPT-3.5大模型发展而来。

计算机视觉（CV）	自然语言处理（NLP）	多模态
微软Florence（SwinTransformer）	谷歌Bert/LaMDA/PaLM	OpenAI的CLIP/DALL-E
	OpenAI的GPT-3/ChatGPT	微软的GLIP
		Stability AI的Stable Diffusion

基础模型与预训练大模型的发展，促使AIGC迎来质变期与大规模应用期，未来随着核心技术演进、产品形态丰富、场景应用多元化、生态建设的日益完善，AIGC将充分释放应用价值与商业潜力。
人工智能生成内容（AIGC）白皮书（2022年）–中国信通院 (caict.ac.cn)
AIGC发展趋势报告（2023） (qq.com)
清华大学：2023年AIGC发展研究报告1.0版_极客网 (fromgeek.com)
fromgeek.com)](https://www.fromgeek.com/report/1231-533442.html)