AIGC领域介绍,及一些比较优秀的应用,和论文,开源项目汇总。
AIGC大纲
一、AIGC概念
AIGC,全名“AI generated content”,又称生成式AI,意为人工智能生成内容。例如AI文本续写,文字转图像的AI图、AI主持人等,都属于AIGC的应用。
AIGC也被认为是继PGC(Professionally Generated Content,专业生产内容)和UGC(User Generated Content,用户生产内容)之后的新型内容生产方式,AI绘画、AI写作等都属于AIGC的具体形式。
二、AIGC发展过程
AIGC的发展历程可以分为三个阶段:早期萌芽阶段(上世纪50年代至90年代中期),沉淀累积阶段(上世纪90年代至本世纪10年代中期),快速发展阶段(本世纪10年代中期至今)。
在早期萌芽阶段(1950s~1990s)
由于技术限制,AIGC仅限于小范围实验与应用,例如1957年出现首支电脑创作的音乐作品《依利亚克组曲(Illiac Suite)》,80年代末至90年代中由于高成本及难以商业化,因此资本投入有限导致AIGC无较多较大成绩。
在沉淀累积阶段(1990s~2010s)
AIGC从实验性转向实用性,2006年深度学习算法取得进展,同时GPU,CPU等算力设备日益精进,互联网快速发展,为各类人工智能算法提供海量数据进行训练。2007年首部人工智能装置完成的小说《I The Road》(《在路上》)问世,2012年微软展示全自动同声传译系统,主要基于“深度神经网络”(Deep Neural Network,DNN)自动将英文讲话内容通过语音识别等技术生成中文。
在快速发展阶段(2010s~至今)
2014年深度学习算法“生成式对抗网络”(Generative Adversarial Network, GAN)推出并迭代更新,助力AIGC新发展。2017年微软人工智能少年“小冰”推出世界首部由人工智能写作的诗集《阳光失了玻璃窗》,2018年NVIDIA (英伟达)发布StyleGAN模型可自动生成图片,2019年DeepMind发布DVD-GAN模型可生成连续视频。2021年Open AI推出DALL-E并更新迭代版本DALL-E-2,主要用于文本、图像的交互生成内容。
2023年
而2023年更像是AIGC入世元年,AIGC相关的话题爆炸式的出现在了朋友圈、微博、抖音等社交媒体,正式被大众所关注。其中令人印象深刻的是微软全系融入AI创作和OpenAI GPT-4的发布:
2023年1月,微软必应搜索(Microsoft Bing Search)推出了一项创新的功能,即聊天模式(Chat Mode)。这项功能允许用户通过聊天框与必应搜索进行交互,获取信息、娱乐、创意等各种内容。必应搜索利用了先进的自然语言处理(NLP)和生成技术,能够理解和回答用户的各种问题和请求,同时提供相关的网页搜索结果、建议、广告等。必应搜索还能够根据用户的选择,切换不同的模式,如平衡模式(Balanced Mode)、创意模式(Creative Mode)和精确模式(Precise Mode),以满足用户的不同需求和偏好。必应搜索的聊天模式是AIGC领域的一个突破,展示了人工智能与人类交流的可能性和潜力。
OpenAI在2023年3月发布了GPT-4模型:基于GPT-3改进的新一代预训练语言模型,参数达到2000亿,能够生成高质量的文本内容,支持多种语言和任务。GPT-4模型通过OpenAI Playground和OpenAI Codex等平台向公众开放,也通过受控API向企业提供服务。
三、AIGC应用
(这一代AIGC的应用)
AIGC通过让机器模仿人类的思维和创造力,使用自然语言处理、深度学习、图像处理等技术生成具有一定逻辑性和创意性的内容。相比于人工创作,AIGC具有自动化、高效、大规模生产、可定制等优势,可以应用于新闻报道、广告、文案撰写、音乐创作、影视制作等领域。在新闻报道领域,AIGC可以自动生成新闻摘要、事件报道、体育赛事等内容。在广告营销领域,AIGC可以根据用户画像和需求,自动生成广告文案、海报、短视频等广告素材。在音乐创作领域,AIGC可以自动生成音乐曲谱、和声、旋律等,也可以将不同的音乐元素组合起来生成新的音乐作品。在文学创作领域,AIGC可以自动生成诗歌、小说、散文等文学作品,甚至可以生成对话、情节、人物等元素。在视觉艺术领域,AIGC可以自动生成图像、视频、动画等作品。
举例一些应用功能:
应用技术的成熟度:
我们使用技术准备水平(TRL)来评估每种技术的成熟度。它的定义接近NASA的TRL概念。从1到9,其中9是最成熟的技术。
- 报告的基本原则
- 制定技术概念和/或应用
- 关键功能概念证明
- 可用的研究工作
- 研究原型验证
- 样机由专业用户操作
- 由最终用户操作的原型
- 由最终用户完成并验证的实际产品
- 经过大量终端用户日常验证的实际产品
这个列表中的大多数技术应该属于4或以上
文本生成(nlp)
文本-文本
Name | TRL | More Links |
---|---|---|
Brad | 5-6 | |
ChatGPT | 8-9 | [API] [Paper] |
Claude | 5-6 | [Paper] |
Copilot (Code only) | 8-9 | |
GPT-4 | 7-8 | [API] [Paper] |
LLaMA | 6-7 | [Paper] [Code] |
New Bing | 7-8 | |
StableLM | 5-6 | [Code] |
文本-图片
Name | TRL | More Links |
---|---|---|
DALL·E 2 | 7-8 | [API] [Paper] |
MidJourney | 8-9 | |
Stable Diffusion | 7-8 | [Paper] [Code] |
TEXTure (Texture only) | 4-5 | [Paper] [Code] [Demo] |
文本-视频
Name | TRL | More Links |
---|---|---|
Fliki | 8-9 | [API] |
Make-A-Video | 4-5 | [Paper] |
Phenaki | 4-5 | [Paper] |
文本-网格(3D)
Name | TRL | More Links |
---|---|---|
DreamFusion | 4-5 | [Paper] [3rd Party Code] |
DreamFields | 4-5 | [Paper] [Code] |
Magic3D | 4-5 | [Paper] |
Text2Mesh | 4-5 | [Paper] [Code] |
文本-语音
Name | TRL | More Links |
---|---|---|
Murf | 7-8 | [API] |
文本-音乐
Name | TRL | More Links |
---|---|---|
Mubert | 8-9 | [API] |
图片生成
图片-文本
Name | TRL | More Links |
---|---|---|
BLIP-2 | 4-5 | [Paper] [Code] |
图片-图片
Name | TRL | More Links |
---|---|---|
img2img | 6-7 | [Paper] [Code] |
图片-网格(3D)
Name | TRL | More Links |
---|---|---|
GET3D | 4-5 | [Paper] [Code] |
nvdiffrec | 5-6 | [Paper] [Code] |
pix2pix3D | 5-6 | [Paper] [Code] |
图片-视频
Name | TRL | More Links |
---|---|---|
Make-A-Video | 4-5 | [Paper] |
表格来源:
git-hub: awesone-aigc
感兴趣的可以点击查看