回顾2022,那些令人印象深刻的AI突破

news2024/12/25 13:48:54

564736b15274a76b03a6544abc896da0.png

文 | 付奶茶

2022年是令人印象深刻的一年。

在这一年中,我们目睹了许多前所未有的AI模型的出现,这些模型不断刷新着人类对AI力量的认知。关于这一年中最好的工作,每个人都有自己不同的看法。在这篇文章中,我们跟随Alan D. Thompson在回顾这神奇的一年,并由他来告诉我们我们这一年中给他最深刻印象的工作是什么。

文章标题《Integrated AI: The sky is infinite》源自于作者在2022年年中对AI发展的一次报道中的一句话:

"天空比我们想象的更大,在大规模语言模型的发展历程中,我们见证了AI的快速扩展,一切变得更加美好。
2022年下半年,请你睁大眼睛,人类将经历人工智能的革命,天空的浩瀚将被展现出来。"

现在回看过去,事实证明Alan D. Thompson的预期是正确的。直到2022年下半年,大规模语言模型呈现出爆炸式增长。不仅在任务的表现上有了巨大的飞跃,还有许多令人眼目一新的工作出现,同时大规模语言模型的商业化落地也在以惊人的速度前进。

Best of 2022

3c34419cda0efd4163a2d3b215d5fb02.png

在这篇博客文章的开头,作者列举了他心目中2022年最优秀的五项研究工作。这些工作代表了当年在AI领域取得的最大进展,并且展示了AI的潜力和持久的影响力。作者对这五项工作的选择是基于他个人的经验和观察,并不一定代表全面的研究界共识。

  1. 具有插入文本能力的text-davinci-003

  2. Pathways的第一个作品PaLM

  3. ai作图的Midjourney v4

  4. 规模最大的文生图模型Parti

  5. 人工智能聊天软件艾默生。

AI模型带来的商业价值

2022年下半年,数十家公司在短短几个月内实现了数十亿美元的估值,这在商业上是一个巨大的成功。

e35c03c351ff42a30f0392ee5ed3dd15.png

除了我们熟知的OpenAI、DeepMind、HuggingFace等,还有被Spotify收购的Sonantic等公司也值得关注。数字背后,显然还有更多的投资者和更广的商业应用场景。

例如,DeepMind以Chinchilla预训练语言模型为基础创造Dramatron,这一模型被用来协助共同创作剧场或电影剧本。由Dramatron生成的剧本已被改编成戏剧,并在2022年8月在北美最大的艺穗节上由真人表演。这表明,"AI写剧本"从幻想变成了现实,并且大规模语言模型已经走向了更为广阔的应用舞台。

文生图模型的商业化应用

文本转图像模型的商业化速度非常快。全球最大的玩具制造商之一美泰(芭比娃娃之父)已在DALLE-2的协助下发布了风火轮系列。通过将文本转图像模型生成的设计应用到公司的概念中。美泰的产品设计总监解释说,使用文本转图像模型可以提高创意的质量和丰富度,并且可以从模型中得到之前从未想到过的组合。

ebee5ec229366d577da8fee94eb551c9.png

在2022年11月,德国啤酒制造商Brauquadrat10使用最近发布的Midjourney v4为他们的酸啤酒系列制作包装。他们只提供了几个简单的提示——"覆盆子,蓝绿色背景,飞溅,多汁",但最终得到的设计令人惊讶。Midjourney v4的能力使得Brauquadrat10能够在短时间内得到高质量的包装设计,并且这种方法对他们的商业成功产生了重要的贡献。

45cb8a988b29b4f8a0c20574427107c5.png

同月,Stability.ai宣布,其最大的开源文本转图像模型Stable Diffusion已获得超过20万软件开发人员的许可。这表明文本转图像技术在软件开发领域的应用正在迅速扩展。

此外,Adobe也正在将文本转图像模型嵌入到当前的应用软件中,包括Photoshop和AutoCAD,并计划在2023年发布正式版本。例如,在Photoshop中圈定的区域块中输入文本,就可以生成对应描述的图块,展示了文本转图像技术在实际应用中的能力。

a5de9ca9de63c553e9ee704daf95d9d8.png

一幅图胜过千言万语

在过去的两年中,虽然预训练语言模型已经取得了惊人的成就,但是它们并不像视觉图片和视频那样直观。文本转图像模型很好地“可视化”了人工智能的力量,它们能在几秒内生成出来的图像让人惊叹。

下面的表格列出了这一年出现的文本转图像模型,每一个模型都代表了数百万或数十亿个文本图像对,以及数十亿美元的潜在收益:

14b6becd04ddc4d09a8aaece48a70b0d.png

开源征途携手前进

在过去的一年中,AI模型的开源工作也在不断发展。

俄罗斯的谷歌公司Yandex发布了一个100B参数的模型,能够同时分析英语和俄语。中国向全球开放了GLM-130B模型和WeLM模型。

在美国,亚马逊承诺开放他们最新的Alexa 20B模型。Meta也向公众开放了GAL 120B模型,但因为被恶意的行为故意输入辱骂性的提示,而被迫将界面隐藏。

AI进入企业化应用

大规模语言模型逐渐渗透在企业级的应用中,例如英语到SQL语句的转换器。以下是一些已经公开商用GPT-3的企业:

639d3b65123e062ca02547b0d42fa5f4.png

硬件上的探索

AI已经证明其能够优化流程和效率,甚至产生未知的协同效应。谷歌利用AI设计了TPU芯片,而NVIDIA在H100 Hopper芯片上也有所借鉴。使用AI帮助设计GPUs,NVIDIA的实验结果表明AI不仅能学习设计电路,而且设计更精细且效率更高。

87fdf9b9549f746dc5aa77b1a1fcf1f4.png

关于数据的爆炸消息

在2022年3月,DeepMind的Jordan Hoffmann和其他研究人员发表了一篇关于Chinchilla的文章,在文章中,他们指出人们原来一直在使用约9%的数据量来训练模型,这个发现震惊了AI界。

0c81b6d81e49c7eef213b8710d6faaa6.png

我行我素,岂管他哉

“The dogs bark, and the caravan moves on”
虽然狗吠声音不止,但是商队一直前进。

在当前的AI发展中,虽然有许多批评的声音,但是科学家们并没有停止前进的脚步。现在的情况就像洪流无法阻挡,伦理争论就像石头在流动的水中,无法阻挡技术前进的步伐。在过去的历史中,没有任何争论能够阻挡技术的发展。

AI领域的发展不仅仅是技术的前进,还包含着巨大的道德责任。我们目前还有数以亿计的人正在遭受疾病和贫困的困扰,因此解决这些问题比起解决伦理和政策上的质疑更为重要。

模型智商的进化

大规模语言模型在测试任务中的表现优于人类,如谷歌4月发布的PaLM和随后的Minerva等。这些模型在最新的基准测试中表现出色,甚至在从未训练过的数学问题中也表现出惊人的能力。例如,使用谷歌的Minerva模型在波兰国家数学测试中也取得了惊奇的表现:

da44648373cc4c923d119b4dedccdb54.png

在选定的问题子集中,谷歌的Pathways30的表现惊人,其在测试任务中的表现优于人类:

  1. 在2022年5月的波兰国家数学考试中,Minerva 540B的成绩比学生平均分高出14%。

  2. 在2019年英国国家数学考试中,Minerva 540B的成绩比学生平均分高出79%左右。

  3. PaLM 540B和其他模型在SuperGLUE测试上的表现集皆超过了人类。

  4. Flan-PaLM 540B在MMLU基准上实现了平均人类性能的两倍。

5d3ee03780808e5a2fbd660b16ac544f.png

大规模语言模型的成长已经超过人类智力的进化速度。

即将到来的2023

在这里作者列举了他在2023最期待的工作:

1. DeepMind Gato2

Gato是一个多模态、多任务、多具身的通才智能体,它的出现是一个未预见的创新。DeepMind的首席执行官Demis Hassabis透露,公司正在为AGI培养下一代通用智能体。

2. Google Pathways扩展

Pathways的模型家族的扩展速度是非常惊人的,正在扩展以覆盖更多的语言。Jeff Dean表示未来将支持1000种最终用的语言,为全球数十亿边缘的国度的人带来更大的包容性。pathways的扩展是一项多年的计划。已经取得了有意义的进展,前路已经清晰可见。

3. OpenAI GPT-4

GPT-3的后续研究预计将极大地影响人工智能领域的发展。

4. Text-to-video模型

在22年下半年我们看到了一些文本转视频的模型,期待更高分辨率和帧率的模型出现。

征途的中点

在2022年初,OpenAI的首席科学家预测:

“在未来,很明显,科学的唯一目的是建立AGI”。

而我们现在在某种意义上正处于这个未来之路的中点。

在过去的几个月中,我们看到了数十亿美元的投资、十几个新的文本转图像模型的出现,以及AI领域的快速发展。虽然AI正在蓬勃发展,但是我们的社会并没有从其带来的优化中受益,我们还有很多可以被AI优化的问题:

  1. 手动驾驶

按照数据的显示,在每24秒就有一个人在驾驶中死亡,而每秒钟又会有两人严重受伤。

  1. 无用教育

当前的教育模式浪费了大量的时间,大概在11000个小时(以及额外的课下时间,几千个小时的学习市场),仅仅是用来学习如何记住已发生的事实、解决问题和创造事物。

  1. 笼子里一样的职场

大多数成年人几乎清醒的时间都在为工作效力,然而他们的生产力和效率达不到当前AI的50%,也达不到未来AGI的1%。

  1. 不劳而获

CEO与同公司最低工资员工之间的薪酬的差距是670:1,这意味着CEO平均每获得1万美元的薪酬,就能获得670万美元的薪酬。

  1. 摄入与身体之间的关系

用 AI 来分析身体健康问题可能有助于解决全球 32% 的死亡是由心脏病引起的问题,相较于当前大多数基于人为、研究和推测的饮食模式,这是一种更具有效率的做法。

  1. 黑盒的人际关系。

大多数成年人在处理人际关系时没有受过科学训练,其中有一半以上的人在经历心理健康问题。

而AI明明已经准备好为这些问题提供一个有益的解决方案

总结

2022年是AI的一年,Alan D. Thompson总结了其中的亮点。这一年标志着AI全面爆发,我们看到了AI在许多领域的快速发展和令人惊叹的进展。随着更多人关注和从事AI领域,我们期待在2023年看到更多的新模型。

过去一年的工作表明,我们可能已经看到了通用人工智能(AGI)的辉煌前景。AGI一直是AI领域的指导性愿景,而现在的模型似乎已经具备了推理能力、想象能力和记忆能力等,但从真正的AGI到通过AI看世界的新方式,前路的天空也是无限的。

与此同时2022年也是背负更多希望的一年,我们能够更清晰地看到AI背后的潜力是无限的,可是其对人类世界改变的速度着实有些缓慢。我们坚定地相信AI的愿景是改善地球上每一个人的生活,期待着在未来看到AI在真实应用中的更多落地,使AI在帮助人类的愿景下飞翔得更高。

66e492fdbd649fdb070aa52ff4bd80d7.png

卖萌屋作者:付奶茶

新媒体交叉学科在读Phd,卖萌屋十级粉丝修炼上任小编,目前深耕多模态,希望可以和大家一起认真科研,快乐生活!

作品推荐

1.在斯坦福,做 Manning 的 phd 要有多强?

2.史上最大多模态图文数据集发布!

3.MSRA-万字综述 直击多模态文档理解

4.ICLR’22 最佳脑洞奖提名:《GPT 如何进行布朗运动?》

5.大模型时代,我们真的不再需要分词了吗

6.Batch size 没必要设为2的次方!?

a74d2cace8a138cc00c3ec0cbe9022ad.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

 6978c3b35e55ca3bf3e6382598a4b2de.png

[1]https://lifearchitect.ai/the-sky-is-infinite/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/138274.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

对Mysql 超时配置项进行深入理解!

1 JDDB超时JDBC 是 Java 应用程序中用于访问数据库的一套标准 API类型4驱动是通过socket来处理字节流的。如果socket超时设置不合适,类型4驱动也可能有同样的错误(连接被阻塞)。1.2 JDBC超时层次应用程序WAS与数据库间的超时的层次更上层的超…

STL模拟实现——string

前言 STL(standard template libaray-标准模板库):是C标准库的重要组成部分,不仅是一个可复用的组件库,而且 是一个包罗数据结构与算法的软件框架。 STL有六大组件:算法,容器,迭代器,仿函数&am…

从0搭建一个WebRTC,实现多房间多对多通话,并实现屏幕录制

这篇文章开始会实现一个一对一WebRTC和多对多的WebRTC,以及基于屏幕共享的录制。本篇会实现信令和前端部分,信令使用fastity来搭建,前端部分使用Vue3来实现。 为什么要使用WebRTC WebRTC全称Web Real-Time Communication,是一种实…

安全狗重磅发布数据安全解决方案·数垒

一、 势在必行的数据安全 近年来,随着《网络安全法》、《数据安全法》、“数据二十条”等多部法律、意见法规等的相继颁布,数据安全管理与防护在国家政策上成为势在必行的行动之一。与此同时,伴随着数字经济时代的到来,数以万计…

Java基础语法-学习笔记

目录 01Java语言的发展 02Java的三大平台 03Java的主要特性 04JRE和JDK 1. 注释 使用的技巧 注意点 2. 关键字 2.1 概念 2.2 第一个关键字class 3. 字面量 区分技巧 4. 变量 4.1 什么是变量? 4.2 变量的定义格式 5. 数据类型 5.1 Java语言数据类型的…

STM32——TIM输出比较

文章目录一、TIM输出比较输出比较简介PWM简介输出比较通道(高级)输出比较通道(通用)输出比较模式控制器工作原理PWM基本结构参数计算三、PWM驱动LED呼吸灯电路设计关键代码关键函数与参数引脚重映射取消默认调试功能函数极性选择决定占空比,周期的三个函数四、PWM驱…

Design pattern-js的设计模式(一)

前言 什么是设计模式?(Design pattern)代表了最佳的实践,通常被有经验的面向对象的软件开发人员所采用。设计模式是软件开发人员在软件开发过程中面临的一般问题的解决方案。这些解决方案是众多软件开发人员经过相当长的一段时间…

【youcans 的 OpenCV 例程 300篇】254.OpenCV 绘制图像标记

『youcans 的 OpenCV 例程300篇 - 总目录』 【youcans 的 OpenCV 例程 300篇】254. OpenCV 绘制标记 7.1 绘图函数基本参数 OpenCV提供了绘图功能,可以在图像上绘制直线、矩形、圆、椭圆等各种几何图形。 函数 cv.line()、cv.rectangle()、cv.circle()、cv.polyli…

深度学习:08 训练、测试和验证集的说明

目录 用于深度学习的数据集 训练集 验证集 测试集 总结 用于深度学习的数据集 接下来,我将在这篇里面讨论在训练和测试神经网络期间使用的不同数据集。 出于模型的训练和测试目的,我们应该将数据分解为三个不同的数据集。这些数据集将包含以下内容…

【小f的刷题笔记】(JS)阶乘 - 阶乘后的零 LeetCode172 阶乘函数后K个零 LeetCode793

【阶乘】 一、阶乘后的零: LeetCode172 链接: 172.阶乘后的零 题目: 思路: 0的产生是一定是因为2*5产生的,所以就是找因数 并且,可想而知,找的到因数5,必然找的到因数2与之搭配…

【MySQL】深入理解B+树索引

文章目录1. 前言2. 索引方案3. InnoDB的索引方案4. 索引的分类4.1 聚簇索引4.2 二级索引4.3 联合索引5. InnoDB中的B树索引的注意事项5.1 内节点中目录项记录的唯一主5.2 一个页至少容纳2条记录6. MyISAM中的索引⽅案简单介绍1. 前言 索引,是MySQL快速查询的秘籍。…

ARMv8/ARMv9:深入理解MPIDR_EL1寄存器中的affinity

快速链接: . 👉👉👉 个人博客笔记导读目录(全部) 👈👈👈 付费专栏-付费课程 【购买须知】:【精选】ARMv8/ARMv9架构入门到精通-[目录] 👈👈👈官方文档(ARM ARM文档)的介绍如下所示 翻译一下MPIDR_EL1相关的英文,如下所示: 作用: 在多处理器系统中,为调…

Xshell 连接虚拟机(Ubuntu、CentOS)

对于一些linux的初学者来说,在没有自己的服务器时可以选择使用虚拟机来代替(如ubuntu、centos等)进行相关的学习。下面介绍下如何使用xshell来远程连接虚拟机。 注意:下面我以Ubuntu来举例说明。 1、创建虚拟机 虚拟机的创建网络…

1、数据库安装修改root密码管理自启服务

MySQL的下载和安装 登录MySQL官网下载MySQL.zip包 MySQL :: Download MySQL Community Server 下载完毕可自行选择存储位置,进行解压 解压后配置环境变量 完成配置后在MySQL目录下新建一个my.ini配置文件 文件写入以下内容 [client] # 设置mysql客户端默认字符集…

面向对象2(static修饰变量和方法、Javabean类、测试类和工具类、对main方法的理解、继承、子类继承父类构造方法变量和方法)

1、static修饰变量和方法 JDK8以前,静态区在方法区里面,JDK8开始,静态区挪到了堆内存当中 理解: 因为静态方法没有this,而非静态方法是有一个隐含的参数this的,所以想在静态方法里面调用非静态变量或方法就…

电子招标采购系统源码之传统采购模式面临的挑战

采购类型多 采购制度:采购金额、部门、品类的差异导致管理标准不同。 采购流程:从供应商管理、寻源操作到合同签订、订单执行,业务流程长,审批节点多,传统管理透明度低,联动性差。 供应商管理难 寻源&#…

亚马逊云科技 Build On - Serverless助力企业降本增效

亚马逊云科技 Build On - Serverless开启零售新篇章梅开三度活动体验实验问题总结一点建议咖啡案例实验Serverless学习总结梅开三度 Hi,作为一名Builder,这也是第三次参加由AWS&CSDN共同举办的Build On活动,跟前几期一样,活动举办方也是…

Java集合ArrayList-学习笔记

目录 ArrayList 集合和数组的优势对比: 1.1 ArrayList类概述 1.2 ArrayList类常用方法 1.3 ArrayList存储字符串并遍历 1.4 ArrayList存储学生对象并遍历 1.5 查找用户的索引 1.6 判断用户的是否存在 ArrayList 集合和数组的优势对比: 集合长度可…

Ardupilot EKF3核心算法《状态量速度与位置预测方程》

目录 文章目录 目录摘要1. Ardupilot EKF3核心算法《状态量速度预测方程》2. Ardupilot EKF3核心算法《状态量位置预测方程》3. Ardupilot EKF3核心算法《状态量速度与位置预测方程》摘要 本节主要记录Ardupilot EKF3核心算法《状态量速度与位置预测方程》的过程,欢迎批评指正…

mysql生产数据库被误删

23年的头一天上班安装数据库,因为ssh工具来回切换失误,犯下不可饶恕的错误,居然将生产数据库全部删除,工作十几年头一次干这种蠢事,第一时间反应是一世英名毁于一旦,赶紧跑路。第二反应还是想办法看能否挽回…