OpenAI 发布多模态 GPT-4 模型,会开创哪些新的研究方向?

news2025/1/22 18:02:38

作者:JioNLP
链接:https://www.zhihu.com/question/589640227/answer/2936760622
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
 

短期看GPT4 就是个终结者 。开创不了什么新的方向,倒是把小科研机构,小公司,小实验室的计算机视觉(CV)算法相关人员全都卷死了。没活路了。

之前我写过一篇ChatGPT 如何把 NLP 相关从业人员的手头工作卷没了的文章,获得了很多认可。但我发现还是有很多 CVer 不够清醒:GPT4 对图像的冲击同理

ChatGPT这么强,会影响NLPer的就业环境吗1527 赞同 · 135 评论文章

一、ChatGPT 对 NLP 行业的冲击

几个月前 ChatGPT 出来之后,已经证明了一件事,传统NLP 分领域、分任务进行finetune 构建的模式已经完全被丢弃了。

ChatGPT 在模型结构原理上并无特别突出的不同,通过超大规模的算力+数据,外加强化学习模式,几乎把传统 NLP 的各种任务、各种领域都吊打了一遍。

上面这套打法,OpenAI 只不过又用在了 CV 身上,提现在了 GPT4

二、CV 行业的现状

最早的 CV 的学习例子就是对数字的分类任务,主要依赖 MNIST 数据集。这是很多算法工程师和研究人员的入门课程。这个数字分类任务就是一个非常典型的分领域(阿拉伯数字识别)、分任务建模(图像分类)的模型。

时至今日,产业界的图像算法依然是按此方式来推进的。

确定特定的任务 => 收集数据 => 标注数据 => 训练模型

有非常多的任务,猫狗分类、图像分割、安全帽检测、火灾检测、人群密度检测。每一个都需要按照上面的方式来一遍。简而言之,就是AI模型的定制化,手工业化

图像也有领域问题,给猫狗分类的模型输入一张狐狸的照片,模型依然会强行给狐狸分类成猫、或狗。换句话说,模型对输入的图像数据有分布限制,模型也不具有对各种图像有充分的泛化能力。

但是图像里面有几个非常捉急的问题,这些问题比 NLP 还要严重:

1、数据过于难获取

比如,我们做一个火灾检测的模型,需要将图片中的火灾情况按框进行标注。

为了提升模型的准确性和召回等指标,就需要大量的火情场景数据集,楼房着火、平房着火、厂房着火、山林火灾、农地烧荒等等。每一种场景都需要大量的数据集。

但是火灾的发生频率是非常低的,即便真的有火灾,也很难有人实地拍摄(会被骂为何不帮忙救火,而站在一旁拍照);站在平地拍摄,和无人机在空中拍摄的视角又有不同,造成数据分布不同;我们不可能真的为了寻找火情数据集,真的把一栋房子点燃。以上这些原因,造成图像的数据获取的极为困难

2、任务复杂度过高

传统的常见的图像任务,一个是分类,一个是检测。这两者是在实际当中应用最多的任务,一个YOLO系列模型,不知养活了多少公司。

一般认为,图像任务多停留在感知,而 NLP 则聚焦于认知。针对火灾识别,一般标注逻辑是:见到火焰,则认为模型存在火灾。那么,下图存在火灾吗?

很明显,图片中压根没看见任何火焰,火焰也无固定形状,想要做检测任务都非常难,这体现了传统 图像 模型的建模的局限性

另一方面,这说明了,图像任务和人的逻辑认知、推断是分不开的。还是例子:

如何判断图片中是否存在火灾?非要看到火焰才确定是火灾吗?有烟也可以确定是火灾吗?只有烟就可以确定存在火灾?那么,下图呢?这里到底有没有发生火灾?

3、算力

ChatGPT 证明了一件事,哪有什么人的智能?只要模型大,数据量多,模型就能充分理解人类的语言,那个文字组织能力,翻译能力,绝对强过绝大多数人类。

GPT4 只是更进一步证明了这一点,包括图像和语言。

你想做复杂的任务,理解更深的语义联系,就需要 更大的模型。更强的算力。这几乎是个铁律。

确实有边端智能这个方向,但是它无法完成复杂的AI 智能任务。仅仅能围绕人脸识别、车辆检测、人的检测等等简单任务上开展业务。

目前很多公司里的 CV 项目依然停留在几张卡、几十张卡,分门别类,针对不同任务、不同数据集,训练很多个任务的阶段。这种做法就是定制化,堆叠人力,从而容纳了大量的 CV 从业者,高效开办了各种 CV 实验室

GPT4 对传统 CV 的冲击

通过图文多模态模型,我相信过去的那种定制化建模的 CV 业态将会彻底改变。

任何任务,都可交给 GPT4 输出结果。从此,有任何理解任务,交给 GPT4 就可以了。我们不用担心针对特定任务的数据量难以获取、数据量少,任务太复杂,等等。

我非常清楚,现在市面上很多的中小型公司,定制化了非常多的模型,对外宣称业界领先(反正很少有人真的去验证),效果仅限于训练和验证数据集,完全不可以拿到工业界去测试,一旦测试露出马脚,就以数据量少,数据分布不均衡,测试方法不对做defence。

实际上,这些情况,大家也都心知肚明。CV 的定制化阶段,更多地像是吹出的漂亮的泡沫,一戳就破。

这个泡泡,被GPT4 戳破了。

对 CV 人员的影响

1、大模型的限制

算法人员有两个非常强的依赖,算力和数据。我相信绝大多数从业人员都明白这个道理。

GPT4 用了多少数据呢?技术报告里是这么讲的,他们的小模型训练所用的算力要比GPT4 小了1000~10000倍。

那 GPT4 的算力是多少呢?(●^◡^●)这个体量的模型有多少公司玩得起?评论区有人讲

我看了都想笑,怎么会这么拎不清?不是你算法牛逼,论文牛逼,产出的产品就牛逼。

2、新工业革命

CV 算法工程师,在未来,一定是需求锐减的。这就是一次工业革命,是机器替代人的脑力的工业革命

这次的工业革命,称其为 第四次工业革命,毫不为过。它和 蒸汽机替代纺织女工毫无区别。中小公司的算法工程师们,高校里的科研教授、副教授、研究生们,都是那群即将被替代的纺织女工。

这就是旧泡沫的破裂,新模式的诞生。人工智能行业,人人都可以了解,人人都可以使用。但只有极少数人可以参与其中。这就是一个高度垄断的行业。

是只有微软、google、Openai、国内百度等垄断巨头能参与的领域。

前段时间,中国成立了国家数据局,很明显,人工智能比拼的就不是算法和论文。GPT4 的所谓论文,标题就非常直接,自称为技术报告,就不称之为论文

这就是在明确告诉全世界,人工智能不是谁发个论文就算是参与了,领先了。人工智能就是数据和算力的比拼。

未来发展方向

1、CV 和 NLP 的未来

不论是中国人、美国人、法国人、日本人、埃及人,见到苹果,虽然叫法不同,但是大家都能认出,那是一个苹果,可以吃。见到火灾,大家都会惊呼救火。见到杀人场景,都会发出愤怒和悲叹。

换句话说,全世界所有人,共享了一套世界观。

而人工智能所作的工作,就是在替人类理解这个世界。既然世界观一致,那么,一个 GPT4 模型,就足够全世界的人使用了。

所以,CV 领域的继续研究、NLP 的研究,很难再找到别的路径了。就算找到了,想实践,那也得能进入巨头企业才行。

2、机器人

第一次、第二次、第三次工业革命,其实都在替代人的体力,第四次工业革命,也就是人工智能,替代了人的脑力。它并非100%替代一个人,但它能替代程序员的20%、替代客服的50%、替代材料编写员的80%,就已经意味着社会的变革

网上有图,程序员失业了该怎么办:

大家有没有想过,为什么营业员、保洁、快递员这些岗位没有被替代?

因为这就是几次工业革命没能成功的地方。也就是,机器人接到通用多模态 AI 上面。

AI+机器人+某个细分应用场景,可能是小团队或公司可以做的,AI只是提升某个具体场景应用中的机器人专业智能,而不是通用智能,竞争没那么激烈,又可以借AI和机器人的风口,就像之前的 互联网+的套路

机器人完成的功能多种多样,各有不同,定制化就意味着手工业化,意味着容纳大量的工作岗位

看明白了吗,各位?我的另一篇文章有评论如下,自从ChatGPT 出来后:

同样的话,送给各位 CVer 们。可以关注我的公众号 JioNLP。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1840778.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Redis学习|Jedis、SpringBoot整合Redis

Jedis 我们要使用Java 来操作 Redis,知其然并知其所以然,授人以渔!学习不能急躁,慢慢来会很快!什么是Jedis 是 Redis 官方推荐的java连接开发工具!使用java 操作Redis 中间件!如果你要使用 java操作redis,那么一定要对Jedis 十分的熟悉! 1、…

C++初学者指南第一步---7.控制流(基础)

C初学者指南第一步—7.控制流(基础) 文章目录 C初学者指南第一步---7.控制流(基础)1.术语:表达式/语句Expressions表达式Statements语句 2.条件分支3.Switching(切换):基于值的分支4.三元条件运算符5.循环迭代基于范围的循环   C…

STM32人工智能检测-筛选机器人

前言 本文描述了一种使用STM32进行机器人筛选的办法。筛选对象是我的粉s,删选办法是瞪眼法。 问题现象 每次当我的STM32 向外界发出一篇新的的报文,总能在1H之内得到focus,格式如下 [title][body][tail]于是我对各个focus 我报文的对象进…

Midjourney和Stable Diffusion哪个更适合商业应用?

midjourney的绘画,在撰写有效的prompt需要精确地定义你想要展现的画面,详细描述越准确,生成出的图片结果也会越吻合你的预期。为了提升你midjourney的写作prompt的技巧,可以通过模仿他人的成功案例,亲自尝试编写&#…

UWA发布 | Unity手游性能年度蓝皮书

UWA本次发布的《2023-2024年度Unity手游性能蓝皮书》将汇总游戏行业使用Unity引擎进行手游开发过程中及游戏上线后的性能表现,从测试机型分布、引擎各模块开销、内存占用等方面剖析定位Unity手游性能瓶颈和趋势,反映了Unity手游行业的现状,帮…

202483读书笔记|《牵牛花浮世无篱笆:千代尼俳句250》——被红叶染红的只有一侧山坡之山 啊,单恋

202483读书笔记|《牵牛花浮世无篱笆:千代尼俳句250》——被红叶染红的只有一侧山坡之山 啊,单恋 春之句夏之句秋之句冬之句 历史读过的俳句列表: 202318读书笔记|《芭蕉芜村一茶:俳句三圣新译300》——樱花——让一整个春夜亮起来&#xff0…

MPLS静态配置实验(初学版)

实验拓扑 配置接口地址 配置OSPF协议 测试网络连通性 配置静态MPLS AR1: [R1]mpls lsr-id 1.1.1.1 [R1]mpls [R1-GigabitEthernet0/0/0]mpls [R1]static-lsp ingress wps destination 4.4.4.4 32 nexthop 10.1.12.2 outgoing-interface g0/0/0 out-label 100AR2 [R2…

【第20章】Vue实战篇之Vue Router(路由)

文章目录 前言一、使用Vue-Router1.安装2. 创建路由器实例3. 注册路由器插件4. 根组件 二、访问路由器1.理论2.使用3. 展示 三、嵌套路由(子路由)1. 准备文件2. 配置路由3. 菜单配置4. 展示 总结 前言 Vue Router 是 Vue.js 的官方路由。它与 Vue.js 核心深度集成,…

VMware RedHat虚拟机磁盘扩容(添加磁盘和扩展磁盘)

前言 自己的电脑上配一个虚拟机还是很有必要的,用起来比双系统方便一点,之前搞了100g的ubuntu没用到,后面重装redhat觉得随便搞个20g就够用了,后面用到之后就遇到磁盘不够用的情况,只能说情况允许的话,磁盘…

SambaLingo——教会大模型新语言

在当今数字化时代,语言不仅是沟通的桥梁,也是信息和知识传递的核心。尽管大模型(LLMs)在处理英语等主流语言方面取得了显著进展,但它们在理解和生成其他语言内容方面的能力却参差不齐。这种不平衡限制了技术在全球范围…

广告权重及出价解析

由于算法一直在不断改变,所以公式只能作为参考,不过核心是不变的。一、广告权重及出价解析 链接质量分CTR分值**CR分值(点击率*转化率)广告质量分广告出价*链接质量分我们的出价下一名产品的广告质量评分/我们的链接质量分0.01 …

SUSE linux的快照和恢复

snapper用于创建和管理文件系统快照,并在需要时实现回滚,它还可以用于创建用户数据的磁盘备份。snapper使用btrfs文件系统或者精简配置的被格式化成XFS或EXT4的LVM卷。snapper可以通过命令行或YaST来进行管理。 btrfs是一种copy-on-write文件系统&#x…

LoRA用于高效微调的基本原理

Using LoRA for efficient fine-tuning: Fundamental principles — ROCm Blogs (amd.com) 大型语言模型的低秩适配(LoRA)用于解决微调大型语言模型(LLMs)的挑战。GPT和Llama等拥有数十亿参数的模型,特定任务或领域的微…

easyexcel和poi版本冲突报错深入解析v2

easyexcel报错解决 问题 项目由poi改用easyexcel,报错如下: java.lang.NoSuchMethodError: ‘org.apache.poi.ss.usermodel.CellType org.apache.poi.ss.usermodel.Cell.getCellType()’ 原因 easyexcel中的poi和项目原本的poi版本冲突问题。 由于之前做…

双指针问题2

文章目录 1. 有效三角形的个数(611)2. 查找总价格为目标值的两个商品(LCR179)3. 三数之和(15)4. 四数之和(18) 1. 有效三角形的个数(611) 题目描述&#xff…

单元测试很难么?

前言 你可能会用单元测试框架,python的unittest、pytest,Java的Junit、testNG等。 那么你会做单元测试么!当然了,这有什么难的? test_demo.py def inc(x): return x 1 def test_answer(): assert inc(3) 4 i…

【计算机毕业设计】211校园约拍微信小程序

🙊作者简介:拥有多年开发工作经验,分享技术代码帮助学生学习,独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。🌹赠送计算机毕业设计600个选题excel文件,帮助大学选题。赠送开题报告模板&#xff…

行为树行为树行为树

行为树由一个个节点组成 结构:树状结构运行流程:从根节点开始自顶向下往下遍历,每经过一个节点就执行节点对应的功能。 我们规定,每个节点都提供自己的excute函数,返还执行失败/成功结果。 然后根据不同节点的执行结…

从0到1使用vite搭建react项目保姆级教程(持续更新中)

一、vite创建react项目 要使用Vite创建一个React项目,你需要按照以下步骤操作: 1、确保你已经安装了Node.js(建议使用最新的稳定版本)。 2、 使用npm命令安装Vite CLI工具,再来创建项目 npm create vitelatest my-vi…

【pytorch01】简单回归问题

1.梯度下降(Gradient Descent) y x 2 ∗ s i n ( x ) yx^{2}*sin(x) yx2∗sin(x) y ′ 2 ∗ x ∗ s i n ( x ) x 2 ∗ c o s ( x ) y2*x*sin(x) x^{2}*cos(x) y′2∗x∗sin(x)x2∗cos(x) 求最小值要求导 梯度下降定义:梯度下降要迭代计…