视觉大模型应该长什么样

news2024/9/23 17:17:09

背景

最近朋友圈一直可以看到一个论调,视觉没有一个chatgpt一样强大的模型。似乎确实如此,视觉确实是缺一个通用能力的大模型;有些小伙伴可能就会讲了数据怎么能讲没有大模型:diffusion、della、muse、sam、controlnet一堆的大模型你要什么样功能的都有。然后这是这一对的不同功能的模型,而不是一个模型覆盖全视觉能力就说明了视觉确实缺一个和chatgpt一样的语言航母级别模型。

那么如果真要造这么个视觉大模型,他应该具备什么样的能力点呢。参照LLM模型个人觉得应该这个视觉模型也是要把历史上存在的各种专用模型能力全部具备,并且有在往上的两到三层的综合能力才算。也就是这个视觉模型必须具备:

1.物体识别能力:object detector、segment

2.画面描述能力:image caption

3.画面理解能力:VQA、

4.生成能力:生成能力、图片改写能力、图片多样化能力

5.有状态生成能力:图片续生成

如果说要具备上面所有这些能力的视觉大模型,市面上确实是不存在的。但是上面的技术点的专用模型和数据集其实是有不少积累的。那么有没可能像gpt系列模型一样用一个模型把所有的能力收到一个模型里面来呢。

个人觉得是有可能的,gpt之所以能把所有能力收到一个模型,原因有四:

1.把能力做了抽象分层,每层能力通过不同训练方式激活

2.通过prompt方式把所有问题统一到一个上下文的前向生成任务

3.找到一种自监督方式让模型可以提高整体能力

4.在下游任务端,可以通过prompt方式把各种任务,统一在:条件、上下文、生成要求下生成这样统一框架

那么对比gpt,视觉大模型是否也具备把各种能力收口到统一的模型条件,个人觉得是具备的:

1.一样可以做分层:感知理解能力层,根据任务自动适配能力搭配层、适配人类需求的精细调整层

2.把图片当成和图一样的信息输入(无非就是多一些结构信息),通过prompt方式把各种能力收口,输出就是图片的信息组,装成带prompt的生成方式

3.一样可以通过图文、图图、文图抽象成信息,通过自监督方式提高各种能力

4.下游任务也是通过prompt方式把各种任务,来适配到应用

技术点

这部分会给大家介绍下现在模型需要具备的能力,一些论文的做法:

增删改:通过text的方式,来对图里面需要改增删改的地方做修改,这其实是有序列的,需要对输入的图和修改指令做增量预测。

根据输入的图片和控制条件,生成同一角色不同姿势。

通过文字方式控制下一帧动画的增量变化。

模型结构可以如下,只要增加一个上一帧图片作为输入,文本可以通过session方式来写动作变化。训练数据可以来源于:二维动画的作画、每一帧增量变化的动作画面、动作描述语言。

小结

1.从现在视觉模型,结合chatgopt的能力发现现在视模型,缺少一个和chatgpt类似的通用大模型

2.现在的视觉生成模型框架有望把各种视觉能力汇总到一个框架,发展出类似chatgpt的通用大模型

3.展望了通用视觉通用大模型需要具备什么能力

4.展望如何通过生成视觉模型框架来统一各种能力,数据和任务搞如何设置

5.对现在通用大模型能力,特别是有状态的增删改能力做了些论文小结

个人预测真正有通用能力的视觉大模型应该离我们不远了,最快明年年初应该就会出来一个类似模型。试想一下如果模型具备通过文本方式生成图、可以同一个模型用文本方式来做内容增上改,可以通过文本方式来实现内容续生成(也就是可以生成下一帧画面),可以感知画面结构通过文本方式来改变布局。如此可见现在的视觉生成大模型还只是一个专用模型,并非通用大模型。真正视觉大模型出来应该是需要具备有状态的,那么对内容的创作会有质和量的飞跃。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/697116.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

springboot在启动时做点什么

Component public class ApplicationInitListener implements ApplicationListener<ContextRefreshedEvent> {Overridepublic void onApplicationEvent(ContextRefreshedEvent contextRefreshedEvent) {System.out.println("ContextRefreshedEvent.....容器初始化完…

Java 集合继承关系图

Java 容器类库的用途是“保存对象”&#xff0c;并划分为两大类,序列Collection和健值对 Map Collection接口&#xff1a;一个独立元素的序列&#xff0c;衍生的2个子类接口 List接口&#xff1a;存储有序的、可重复的数据 实现类: ArrayList、LinkedList、Vector Set接口&am…

SSMP整合案例(9) 统一表现层数据返回格式

上文 SSMP整合案例(8) Restful开发表现层接口 我们就已经是把表现层的接口写完了 但是 我们会发现 现在前端人员拿到我们的数据 格式看着非常的乱 我们 数据库 添加 修改 删除 就是但数据的格式 一个 布尔值 查询 就是 查多个 一个集合 查询 全部 则就是 一个对象的格式 还有分…

Linux 学习记录41(C++篇)

Linux 学习记录41(C篇) 本文目录 Linux 学习记录41(C篇)一、C中的引用1. 引用的定义2. 引用的注意事项3. 引用的基本使用4. 引用作为函数的入口参数5. 引用作为函数的返回值6. 常引用7. 结构体引用8. 指针和引用的区别 二、C中的动态内存分配1. new关键字(1. 申请单个类型的空间…

AI建模工具对比:如何选择适合你的工具套件

在人工智能&#xff08;AI&#xff09;的浪潮下&#xff0c;越来越多的企业和科研机构开始应用AI技术进行建模和分析。然而&#xff0c;选择哪种AI建模工具套件一直是一个让人挠头的问题。市面上存在着众多的AI建模工具&#xff0c;它们各有特点和优势&#xff0c;但如何找到适…

SpringBoot启动失败,也不报错

1&#xff09;将启动类添加try-catch捕获信息 在springboot的启动类中添加try-catch即可出现具体错误信息&#xff1b; try {SpringApplication.run(ConverterApplication.class, args);} catch (Exception e) {System.out.println("e.getMessage() " e.getMessage…

海运费查询:了解国际海运费的方法与注意事项

国际贸易中&#xff0c;海运是一种常见的货物运输方式。而对于企业或个人来说&#xff0c;了解和查询国际海运费是非常重要的。本文将介绍一些查询国际海运费的方法和注意事项&#xff0c;帮助您更好地掌握海运费用信息。 一、国际海运费的计算方法 FCL&#xff08;整箱&#…

祖冲之算法

祖冲之算法 1.题目描述 π 3.1415926~3.1415927之间 4/1-4/34/5-4/74/9-4/114/13.......... 通过关系,来计算 运算多少次之后,才会得到3.1415926~3.1415927之间2.代码 public class Main2 {public static void main(String[] args) {double ltargetPi3.1415926;double rtarg…

两两交换链表中的节点(LeetCode 24)

题目 24. 两两交换链表中的节点 思路 最开始自己画&#xff0c;越画越复杂比较复杂&#xff0c;写不出来&#xff01;&#xff08;呜呜&#xff09;去看了解题思路&#xff0c;发现只需要三步。&#xff0c;按以下思路写了代码&#xff0c;循环停止那里的条件我还以有更好的写…

android逆向开发之Frida逆向基础

Frida是一款功能强大的动态分析和逆向工程工具&#xff0c;可用于在运行时修改和监控应用程序。它支持多个平台&#xff0c;包括Android、iOS、Windows、macOS等&#xff0c;提供了JavaScript API&#xff0c;使用户能够在目标应用程序中直接执行自定义的脚本代码。 基础知识 …

CSS_高度自动过渡 auto height

方法一 grid 布局中的 fr 单位&#xff08;推荐使用&#xff09; <div class"wrap"><button class"trigger">鼠标放上来试试</button><div class"grid"><div><p>高度自动过渡</p></div></d…

leedcode-只出现一次的数字-异或

题目 题目 代码 class Solution { public:int singleNumber(vector<int>& nums) {int ansnums[0];for(int i1;i<nums.size();i){ansans^nums[i];}return ans;} };

【力扣】144、二叉树的前序遍历

力扣、144 给你二叉树的根节点 root &#xff0c;返回它节点值的 前序 遍历。 // 递归遍历 var preorderTraversal function(root){let arr [];var fun &#xff08;node&#xff09;>{if(node){//先根节点&#xff1a;arr.push(node.val);fun(node.left);//遍历左子树…

IT必备的技能,看看你掌握了吗?

目录 架构知识技术与业务场景的结合数据库知识操作系统知识网络知识存储知识云计算知识编程语言知识软件产品知识硬件知识信息安全知识IT前沿技术知识。 今天在看一本书叫做《一本书讲透售前》&#xff0c;这本书分为了两部分&#xff1a; 第一部分描述了售前的工作篇&#xff…

Python图像高光调整

看了这个文章&#xff0c;里面有专门的c的实现&#xff0c;我这边简单的使用python进行了实现&#xff0c;实现了两个版本&#xff0c;一个是python遍历像素&#xff0c;一个是使用numpy加速&#xff0c;代码如下&#xff1a; import time import numpy as np import cv2def l…

软考高级系统架构设计师(六) 企业应用集成电子商务

目录 企业应用集成(重点) 电子商务 企业应用集成(重点) ps: 数据集成&#xff0c;比如 数据中间件 业务流程集成&#xff1a;过程集成&#xff0c;B2B--企业之间 企业门户&#xff1a; ps: 重构需求 电子商务

在教育领域中使用ChatGPT有哪些优点?

人工智能在教育领域的应用正在迅速增加。OpenAI于2022年11月开发的聊天机器人ChatGPT在全球范围内广受欢迎。 由于其受欢迎程度以及生成类似人类问题的回答的能力&#xff0c;ChatGPT正在成为许多学习者和教育工作者值得信赖的伴侣。然而&#xff0c;与任何新兴技术一样&#x…

机器学习——Word2Vec

参考资料&#xff1a; https://zhuanlan.zhihu.com/p/114538417https://www.cnblogs.com/pinard/p/7243513.html 1 背景知识 1.1 统计语言模型 统计语言模型是基于语料库构建的概率模型&#xff0c;用来计算一个词串 W ( w 1 , w 2 , ⋯ , w T ) W(w_1,w_2,\cdots,w_T) W…

计网实验第二章:TCP与UDP实验

TCP 1.服务器绑定端口号启动服务器欢迎socket。 2. 等待客户端发送请求。 3.等到客户端发送请求之后&#xff0c;服务器与客户端重新建立一个socket&#xff0c;但是客户端的目标端口不变。 java代码如下 客户端 客户端代码图解 import java.io.*; import java.net.*; clas…

《JavaScript 权威指南》犀牛书阅读详解

前言&#xff1a; 《JavaScript 权威指南》&#xff08;JavaScript&#xff1a;The Definitive Guide&#xff09;是一本由David Flanagan所著的JavaScript领域的经典书籍&#xff0c;它是学习和开发JavaScript应用不可或缺的参考书之一。该书分为两个部分&#xff0c;第一部分…