当AI学会创作,是否应该感到担忧?
- 0. 前言
- 1. 人工智能与 AIGC
- 1.1 人工智能简介
- 1.2 人工智能与 AIGC
- 1.3 步入 AIGC 时代
- 2. 文本生成模型
- 3. 代码生成模型
- 4. 图像生成模型
- 小结与展望
0. 前言
近来,随着 Open AI
发布的新一代 AI
聊天机器人 ChatGPT
火遍科技圈,人工智能生成内容( Artificial Intelligence Generated Content
, AIGC
)这一领域开始受到学术界、工业界甚至普通用户的更广泛关注。AIGC
凭借其独特的“创造力”与人类无法企及的创作生成速度掀起了一股人工智能狂潮,甚至在新闻报道中已经出现了 AI
作品参赛获奖、AI
画作被拍出上百万的高价;与此同时,诸如昆仑万维等国内外公司开始争相布局 AIGC
,推动 AI
作画、AI
作曲等产品广泛应用于艺术、教育以及文化等内容创作领域,成为独角兽公司。当人类引以为傲的“创造力”开始被 AI
所染指,在感到振奋的同时,我们是否会产生人工智能将取代人类的担忧?
为了回答这一问题,我们首先需要了解人工智能、了解 AIGC
及其最新研究进展。因此,本文中,我们将介绍何为人工智能与 AIGC
,并讲解目前业界领先的昆仑万维 AIGC
模型与产品,最后,进一步回答我们是否应该为人工智能表现出的“创造力”感到担忧。
1. 人工智能与 AIGC
1.1 人工智能简介
人工智能 (Artificial Intelligence
, AI
) 是研究用于模拟和扩展人类智能的理论、方法及应用的一门系统性科学技术,其令计算机根据可用数据执行相应策略而无需以明确的编程方式执行策略,AI
通过使用计算机程序模拟人类行为从而使机器实现智能。 在过去几十年间,由于可用数据的数量和质量呈指数级增长,同时高性能的计算设备也得到了快速发展,人工智能在图像识别、自然语言处理、推荐系统和自动驾驶等领域都取得了突破性进展。人工智能的目标是构建强大的智能模型,可以操纵输入数据以预测输出,同时随着新数据的增加不断更新模型。
人工智能的目标是创造能与人类思维相似的智能机器,或者通过人工智能技术来扩展人类智能从而解决实际问题。在过去几年里,许多人工智能系统取得了突破性进展,已经可以应用于解决各种复杂问题。深度神经网络模型,已经可以以近乎医生的水平对人体 X 射线图像进行病理学分析,在围棋等经典棋盘游戏以及多人竞技电脑游戏中击败人类大师级选手,但实际上,人工智能的应用远不止这些。
1.2 人工智能与 AIGC
目前我们可以将人工智能模型分为两大类,判别模型与生成模型。AI
判别模型需要一组输入数据,例如英文文本、X 射线图像或者游戏画面,经过一系列计算得到相应目标输出结果,例如单词翻译结果、X 光图像的诊断结果或游戏中下一时刻要执行的动作。判别模型可能是我们最熟悉的一类 AI
模型,其目的是在一组输入变量和目标输出之间创建映射。目标输出可以是一组离散(例如预测接下来出现的单词向量)或者连续的值(例如预测客户接下来一定时间段内在商店的花销)。
而生成模型,并不会不会对输入变量计算分数或标签,而是生成新数据,这类模型可以接受与实际值无关的向量(甚至是随机向量),生成复杂输出,例如文本、音乐或图像。人工智能生成内容( Artificial Intelligence Generated Content
, AIGC
) 泛指应用 AI
技术生成的内容,包括文字、图片,甚至是代码和视频等。
1.3 步入 AIGC 时代
AIGC
是继专业生成内容 (Professionally Generated Content
, PGC
) 和用户生成内容 (User Generated Content
, UGC
) 之后的新一代内容生成方式,是一种通过人工智能技术来自动或辅助生成内容的内容生成方式,具有高效性和自动化的特点。自然语言生成技术 (Natural Language Generation
, NLG
) 和 AI
模型的快速发展,推动了 AIGC
走向落地应用。
时代 | 内容生成方式 | 特点 |
---|---|---|
Web 1.0 | PGC | 专业性强、质量较高 |
Web 2.0 | UGC | 内容丰富、创作自由 |
Web 3.0 | AIGC | 高效性、自动化 |
AIGC
在当前时间节点能够爆火,并不是一种偶然,而是技术发展和内容生产需求变革的必然结果。当元宇宙的相关概念提出后,元宇宙发展过程中也浮现出了一个重要问题,即如何生成元宇宙中大量的数字内容?而随着 AIGC
的快速发展,以及资本市场的加入 AIGC
赛道,AIGC
将能够极大的助力元宇宙的发展和落地,AI
将能够生成或辅助生成元宇宙中海量的内容。
深度学习生成模型在过去的十几年间取得了日新月异的进展,几乎每天都有大量的相关论文发表,2014
年,对抗生成网络 (Generative Adversarial Networks
, GAN
) 及其变体的出现第一次引发了关于人工智能创作能力的讨论;2021
年,CLIP
模型被提出,同年 OpenAI
推出了 DALL-E
模型,其具备了文本与图像交互生成内容的能力;2022
年,深度学习模型 Diffusion
出现,直接推动了 AIGC
技术的突破性发展,其解决了生成对抗网络训练困难、生成结果较为粗糙的弊端,许多基于 Diffusion
模型的应用呈现出井喷之势,因此,许多人将 2022
年称为 AIGC
元年。
在 AIGC
这条赛道上,目前位于头部的 OpenAI
已估值超 200
亿美元,而据《中国 AI
数字商业展望 2021-2025
》报告预测,中国 AI
数字商业核心支柱产业链规模将在 2025
年达到 1853
亿元,其中 AI
数字商业内容产业规模将达到 495
亿元,占整个产业链的近 27%
。
作为中国领先的互联网平台出海企业昆仑万维,一直以来都对市场和创新业务有着敏锐的洞察力,更是早早的布局了 AIGC
业务,在 AIGC
绘图、文本、编程和音乐等领域都处于业界领先水平,逐渐在全球范围内形成了海外信息分发及元宇宙平台 Opera
、海外社交娱乐平台 StarX
、全球移动游戏平台 Ark Games
、休闲娱乐平台闲徕互娱等板块,为全球互联网用户提供了丰富的社交、娱乐等信息化服务,与合作伙伴奇点智源合作推出了“昆仑天工”全系列 AIGC
模型与算法,“昆仑天工”的 AI
生成能力涵盖图像、音乐、编程、文本等全模态领域。
2. 文本生成模型
文字是最基本也是最重要的内容形式,在 AI
生成文字方面,目前AI模型已经可以完成许多之前被认为是人类特权的创作活动,例如作诗、写广告、剧本、小说,甚至心灵鸡汤。目前,OpenAI
的 GPT-3
模型是 AI
生成文字中最流形和最成熟的模型,甚至有机构进行实验,让 GPT-3
与本科生同时根据指定提示进行写作,并交由教授组进行打分,结果 GTP-3
模型生成的文章通过了大部分课程的写作测试,而且仅仅需要 3-20
分钟,并且其中大部分时间用于对文本的输出长度和重复文本进行编辑。
最近,已经有许多基于 GPT-3
模型的商业化产品,其中佼佼者包括昆仑万维与奇点智源联合推出的瑶光和天枢模型,这两种模型均可以理解和生成自然语言,前者的性能相对更强,适用于需要生成大量内容的应用,而后者适用于对实时性要求更高的场景。
瑶光模型相较而言只需要较少的上下文就可以完成任务,同时能够解决一些涉及因果关系的最具挑战性的人工智能问题,其生成的长文本内在逻辑性更强,在包括分类、问答以及聊天等任务中均有出色的表现。而天枢虽然在复杂文本生成任务中表现略逊色与瑶光,但其在小样本任务中同样表现出色,并且速度更快。
昆仑天工模型针对中文领域构建了千亿级别的高质量数据集,通过高性能 a100-GPU
集群训练得到了百亿参数量的 GTP-3
生成模型,其几乎可以应用与任何涉及理解或生成自然语言或代码的任务,同时提供了一系列具有不同参数级别的模型,根据同任务进行适配,同时,也可以微调模型的得到适合需求的生成模型。下表在多个数据集中对比了当前流行的中文文本生成领域的模型,可以看到,瑶光在多个文本生成任务中有明显优势。
同时,昆仑天工的 AI
文本生成模型可以应用于多种下游任务,例如续写、对话、中英翻译、内容风格生成、推理、诗词对联等,几乎涵盖了文本内容生成的大部分应用场景。
以内容续写为例,文本生成模型提供了一个非常简单的文本输入、文本输出界面,在保证灵活性的同时提供了强大的内容生成能力。我们只需要输入一些文本作为提示,模型将自动生成一个文本续写,用于尝试匹配我们提供的输入上下文或模式,除此之外,我们还可以从生成的文本长度等方面对生成结果进行调整。
在续写无言律诗的应用中,昆仑天工 AI
模型甚至可以非常准确的给出标点。如下图所示,当引导语句后应当紧接逗号时,模型准确的生成了逗号,并得到对仗工整的续写诗句。
感受了昆仑天工文本生成深度学习模型的强大之后,我们当然会想迫不及待将其应用到项目实践中去,昆仑天工提供了丰富的文本生成 API 用于不同的专业性下游任务,支持 JSON
、Python
和 shell
等多种编程语言,并且提供了详尽的 API
功能描述与使用示例,方便我们将其应用于项目中去。以生成五言诗为例,使用 Python API
调用昆仑天工文本生成深度学习模型的代码非常简单方便:
import requests
import json
url = "https://openapi-dev.singularity-ai.com/api/generateByKey"
headers = {
"Content-Type": "application/json",
"App-Key": "your apiKey" # 替换为自己的 API Key
}
data = {
"model_version": "模型版本",
"prompt": "闻道巴山里,春船正好行。都将百年兴,一望九江城。\n水槛温江口,茅堂石笋西。移船先主庙,洗药浣沙溪。\n迟日江山丽,春风花草香。泥融飞燕子,沙暖睡鸳鸯。\n寒食少天气,东风多柳花。小桃知客意,春尽始开花。\n清风入堂来",
"param": {
"generate_length": 100,
"top_p": 0.1,
"top_k": 10,
"repetition_penalty": 1.3,
"length_penalty": 1,
"min_len": 2,
"temperature": 1,
"end_words": [
"[EOS]",
"\n"
]
}
}
response = requests.post(url=url, headers=headers, json=data)
dt = json.loads(response.text)
print(dt)
3. 代码生成模型
代码生成一直以来都被认为是一项复杂的挑战,这是由于代码生成具有很高的内在逻辑性,不仅需要做到能够生成,还要做到能够运行,否则仅仅生成一堆无法运行的代码是完全本末倒置的,代码生成的最重要的目的就是能够辅助人类程序员减少代码编写的任务量,如果生成的代码没有任何意义,反而会增加程序员的负担。
但是,随着 AlphaCode
的问世,让人类看到了代码编写或许不再是程序员的专属领域,在 AlphaCode
参加 Codeforces
算法比赛的数十次结果中,其能力超越了 50%
以上的程序员,下图显示了 AlphaCode
的模型架构图。
在 AI
代码生成的赛道中,昆仑万维训练了全球第一款多语言开源编程大模型 Sky-code 代码生成工具,其支持各种主流编程语言,包括 java
、javascript
、c
、c++
、python
、go
和 shell
等编程语言,可以帮助开发人员更快更好的编码,甚至模型每秒可以输出百字以上的代码量。Sky-code
具有优秀的代码续写能力,不仅可以根据代码注释续写代码,解决算法问题,让深度学习模型刷题不再只是幻想,同时它也支持根据中文注释续写代码,这对于大部分外语能力较差的开发人员而言更是雪中送炭。并且 Sky-code
模型的代码质量非常高,下表对比了 Sky-code
模型与其他代码生成模型的性能:
模型 | 机构 | 参数量 | 函数级代码生成任务的数据集 | |||||||
Human-Eval 164 (OpenAI 发布) | 40 Simples (40 个贴近实际场景的 case,奇点自制数据集) | |||||||||
k=1 | k=10 | k=100 | 编辑距离 (ED) | k=1 | k=10 | k=1100 | ED | |||
GPT-J | EleutherAI | 60亿 | 11.62% | 15.74% | 27.74% | 35.83 | 27.00%(t0.2) | 57.06%(t0.6) | 80.00%(t0.6) | 44.31 |
SKY-CODE | 奇点智源(昆仑天工) | 26亿 | 10.37%(t0.2) | 18.52%(t0.6) | 30.69%(t0.6) | 37.32 | 35.45%(t0.2) | 60.38(t0.6) | 84.77%(t0.6) | 51.1 |
模型的生成通过率是代码生成模型最重要的能力衡量指标,根据数据集中的不同问题,模型生成的代码需要通过单元测试才会被认为生成正确结果。在上表中,根据运行次数的不同,指标分为单次运行通过率 (k=1
)、十次运行通过率 (k=10
),百次运行通过率 (k=100
)等,可以看出在 40 Samples
数据集中 Sky-code
模型的百次模型通过率甚至接近 85%
,并且相较于其他模型具有更少的模型参数量,这也就不难得出 Sky-code
模型运行效率较高的原因。
Sky-code 可以在编码的过程中对代码进行智能补全,使用该模型,我们只需要通过一段函数功能描述或者想要实现的程序结果,Sky-code
就可以分析当前编辑代码文件的上下文环境,给出代码补全或建议。
以补全 Python
代码为例,在上图中可以看出,我们只提供了代码的注释部分,Sky-code
模型就可以自动补全整个函数,更加友好的是,我们可以使用中文注释。补全后代码如下所示,能够节约大量的时间,令我们可以更加专注于算法的逻辑流程。
import Flask
# 一个简单的基于 Flask框架的 webserver
class SimpleServer(object):
def __init__(self, ip, port, server_name):
self.ip=ip;
self.port=int(port);
self.name=server_name
def run(self):
app = Flask(__name__)
@app.route("/")
def hello():
return "Hello, %s!"%(self.name);
print(app.url_for('index'))
if __name__=="__main__":
srvr=SimpleServer(192.168.0.100,8081,'server1');
srvr.run()
Sky-code 已经支持在 Visual Studio Code
上使用插件扩展, 后续也会陆续支持 Visual Studio
、Neovim
和 JetBrains
等一系列常见 IDE
和编辑器。
4. 图像生成模型
在 AI
生成图片方面,随着算法模型的不断迭代升级,AI
作画无论是在质量还是速度上都有了飞跃性发展,在 2014
年发布的 GAN
模型不仅生成图片质量较差且易陷入模式坍塌,在 2022
年初提出的 Disco Diffusion
模型能够生成更加多样性的图片,而随之发布的 DALL-E2
模型可以生成完整的图像内容,而到 8
月由 StabilityAI
发布的 Stable Diffusion
模型更是取得质的突破,甚至已经可以生成能够媲美专业画师的作品,生成图片的效率也从数小时缩短到几分钟甚至数十秒, Stable Diffusion
模型主要采用的扩散模型 (Diffusion Model
),简单理解,扩散模型就是去噪自编码器的连续应用,逐步生成高质量图像的过程,下图显示了 Stable Diffusion
模型的架构图。
昆仑天工的 AI
图片生成模型天工巧绘 SkyPaint
基于 Stable Diffusion
模型,在保留原始 Stable Diffusion
模型那个能够根据英文提示词输入实现文字生成图像的基础上,实现中文提示词输入能力,SkyPaint
使用 1.5
亿级的平行语料优化提示词模型实现中英文对照,不仅涉及翻译任务语料,还包括了用户使用频率高的提示词中英语料,古诗词中英语料,字幕语料,百科语料,图片文字描述语料等多场景多任务的海量语料集合,对模型进行了深度优化,以令中文输入提示语得到更高质量的图片。
在文本生成图像以及图片生成文本两种应用中,昆仑天工的天工巧绘 SkyPaint
模型均与 AI
作画领域最先进模型相当,下表对比了不同模型在 Flickr30K-CN
数据集上的性能表现。
数据集 | 模型 | Text-to-Image | Image-to-Text | MR | ||||
Zero-shot | Zero-shot | |||||||
R@1 | R@5 | R@10 | R@1 | R@5 | R@10 | |||
Flickr30K-CN | Taiyi-CLIP-Roberta-large-326M-Chinese | 53.84(53.7) | 79.9(79.8) | 86.56(86.6) | 64.0(63.8) | 90.4(90.5) | 96.1(95.9) | 78.47(78.39) |
Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese | 55.3(58.32) | 81.58(82.96) | 88.5(89.40) | 67.2 | 92.7 | 96.9 | 80.37 | |
Wukong ViT-L/14 | 51.86(51.7) | 78.6(78.9) | 85.88(86.3) | 75(76.1) | 94.4(94.8) | 97.7(97.5) | 80.57(80.89) | |
R2D2 ViT-L/14 | 42.6(60.9) | 69.46(86.8) | 78.64(92.7) | 63.0(77.6) | 90.10(96.7) | 96.40(98.9) | 73.37(85.6) | |
CN-CLIP ViT-L/14 | 68.08(68.0) | 89.66(89.7) | 94.46(94.4) | 80.2(80.2) | 96.6(96.6) | 98.2(98.2) | 87.87(87.85) | |
AltCLIP-XLMR-L(AltCLIP) | 50.66(69.8) | 75.42(89.9) | 83.14(94.7) | 73.4(84.8) | 92.8(97.4) | 96.90(98.8) | 78.72(89.24) | |
prev_online(昆仑天工) | 61.52 | 84.72 | 90.62 | 76.7 | 95.6 | 98.7 | 84.64 | |
hide77_gpt2(online)(昆仑天工) | 58.82 | 82.62 | 89.58 | 78.8 | 96.1 | 98.3 | 84.04 |
模型训练时同时采用了模型蒸馏与双语对齐方案,使用教师模型对学生模型蒸馏的同时辅以解码器语言对齐任务辅助模型训练,以更加贴近中文语言习惯。更加可贵的是,SkyPaint
已经发布了微信小程序预览版,相信马上我们都可以在微信上体验到该模型的强大。
非常有幸能够体验到天工巧绘 SkyPaint
体验版的强大性能,可以看到即使我们只给出关键词也能够生成纹理清晰、质量上乘的图像,并且同时支持中英文提示词输入,如果我不告诉你这是 AI
创作的图像,可能会有很多人认为这就是人类画家的作品。
小结与展望
最后,关于“当AI学会创作,是否应该感到担忧?”这一问题,我们可以借助 ChatGPT
的回答进行总结。目前,人工智能可以辅助人类完成许多复杂任务,但它们仍然需要人类来监督和指导,这些人工智能模型仍然依赖于算法和数据的训练,因此,人工智能和人类在很多方面是互补的,而不是相互竞争的。但是,AIGC
可能会存在一些潜在的隐患,例如人工智能创作出的内容可能侵犯个人隐私或者产生其他不良影响。因此,人类需要对人工智能进行适当的监督和管理,以确保它不会对人类造成危害。总体而言,随着诸如昆仑万维等公司的 AI
工程师不断深入研究,AIGC
会不断纠偏完善,不断朝着有利于人类的方向发展,我们有理由期待未来各个行业都会配备高水平的 AIGC
助手。