多模态应用展望——看图聊天、BLIP2

news2024/7/4 5:11:45

看图聊天

BLIP2 是 salesforce 公司开源的多模态模型,其大致的原理,可以类比看图写作,当前 AI 在文生图模式之外,也支持图生文模式,可以将照片中的核心元素识别出来。然后把这些元素作为上下文,交给 ChatGPT 类似的大语言模型进行扩展写作和对话。

BLIP2 在线试用地址为:https://huggingface.co/spaces/Salesforce/BLIP2,在线 demo 使用 BLIP2-OPT-6.7B 模型来获取图片信息,使用 BLIP2-FlanT5xxl 模型来支持文本聊天。

我们用两个实际的小任务,来测试一下 BLIP2 的能力,也顺带通过任务过程,介绍它的原理。

PPT 修改建议

某天,小辛很苦恼,在制作 PPT 时觉得 ChatGPT 只能提供内容建议,不能帮助格式优化。而他又很难把格式优化的需求通过纯文本的方式描述清楚。小辛更想直接手指着屏幕说:"这个地方和这个地方怎么对不齐啊?"

这其实就是一个多模态的内容理解和生成。我们把过程拆解一下:

  1. 要从截图中识别出来这是一个 PPT,并且其中有若干个挂件。
  2. 要从问题文本中理解出来问的是两个挂件和对齐。
  3. 要把两个模态的信息关联起来:问的是截图里 PPT 的哪两个挂件的对齐。
  4. 从 PPT 知识中推理出最终回答。

这里第一步是 CV 的图像识别能力,第二步是 NLP 的语义分析能力,第四步是 LLM 的对话能力,只要第三步能合理的生成 LLM 的 prompt,就可以构建出完整的多模态能力。

我们在 BLIP2 的在线 demo 上做一次实验。我把自己一份 PPT 截图,上传到 demo 上,开始询问PPT 上两个图表是否对齐?BLIP2 回答:没有。再第二轮问答,询问:应该如何让图表对齐呢?BLIP2 回答:把左边的图表往下挪。

全过程如截图所示,可以说表现非常惊艳。如果加强第四步,引入 ChatGPT 能力,没准还能具体介绍 PPT 操作中,左边的图表往下挪时,出现红色对齐线就算真正对齐了吧。

竞争情报分析

第二个例子,我们用一个更实际的场景。作为产品经理,竞对分析和市场情报收集是非常重要的工作。某天,我们发现友商公众号上,发布了他们公司年会的全员大合影。数出来全体员工的数量,将有助于我们推断友商的竞争投入力度。

人脸识别其实是已经非常完善的领域,直接在微信平台中,我们都能找到现成的"帮你数"小程序完成这次统计。不过这次,用完"帮你数"以后,我们打算再考验一次 BLIP2 的水准:

有趣的现象发生了:多次重复运行,BLIP2 面对"图中有多少人"这种直接询问时,都只能给出"大于 100 人"这种模糊的回答。

这到底是是 CV 阶段的问题,还是 Chat 阶段的问题?我们引入 CLIP Interrogator 这个目前最主流的图生文工具来看看。CLIP Interrogator 在主流的 stable-diffusion webui 里有内置页面可用,也可以直接使用在线 demo:https://huggingface.co/spaces/pharma/CLIP-Interrogator。将图片加载到 CLIP Interrogator 中,得到的图像是:

看起来确实不会数数?

我们换一个思路,这次给 BLIP2 的新问题是:"图中的人数是否大于 125",BLIP2 却很直接表示:NO。再问:"图中人数是否大于 120",BLIP2 也很直接表示:YES!

我们可以看到,BLIP2 实际上获取了比 CLIP-interrogator 输出更丰富的信息,但需要一定的文本输入引导,才会正确的说出来。

可惜的是,T5 是谷歌开源的上一代大语言模型,文本生成对话能力和 ChatGPT 有较大差距。让我们期待 ChatGPT 接入图生文能力的那天吧。到时候,甚至我们可以想象,让 ChatGPT 把对话再转换成 DallE2 prompt,然后自动生成应答图片。人机之间,愉快的斗图~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/575735.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MYSQL 8 中间字段有NULL 值,还是无法走索引,所以我高估了MYSQL 的查询智商

开头还是介绍一下群,如果感兴趣polardb ,mongodb ,mysql ,postgresql ,redis 等有问题,有需求都可以加群群内有各大数据库行业大咖,CTO,可以解决你的问题。加群请联系 liuaustin3 ,在新加的朋友会分到2群(共…

并查集(算法)

目录 一、并查集的概念二、并查集的使用合并集合连通块中点的数量食物链带权并查集扩展域并查集 一、并查集的概念 最裸并查集: 将两个集合合并。 询问两个元素是否在一个集合当中 ,近乎 O ( 1 ) O(1) O(1) 时间内支持两个操作 基本原理&#xff1a…

chatgpt赋能python:Python文件大小:如何优化和管理您的文件大小

Python 文件大小:如何优化和管理您的文件大小 Python 是世界上最流行的编程语言之一,被广泛用于各种不同的应用程序。但是,随着项目变得越来越复杂,并且在需要处理大量数据的情况下,文件大小经常成为一个问题。因此&a…

数据包伪造、替换、劫持,https劫持之探索和测试

(一)数据包替换攻击 该攻击过程如下:伪造服务器响应客户端的数据包。监听客户端的数据包,用预先伪造的数据包,伪装成服务器返回的数据发送给客户端。 因为攻击者跟目标在同一个局域网,所以攻击者发送的数…

算法27:最长公共子序列——样本模型(4)

目录 简介 题目: 思路: 递归版本: 根据递归 分析推导 动态规划版本: 简介 前面刷了几道题目,都是从暴力递归到递归动态规划的版本,最后演变成纯动态规划的版本。接下来的题目,将会跳过 递…

chatgpt赋能python:Python找出列表中出现最多的元素

Python找出列表中出现最多的元素 介绍 在Python的编程过程中,经常需要处理列表,而处理列表时最常见的问题之一就是如何找出列表中出现最多的元素。在某些情况下,我们可能需要确定列表中重复出现最多的元素,并将其提取出来。Pyth…

[机器学习]线性回归

准备入门一下机器学习算法。 今天学习了线性回归,都是理论的东西,没有对于代码的实现,代码也会跟着进度好好搞一下。 对于线性回归的基础概念,我感觉很依靠概率论和线性代数两门课,作为刚准备完数学一考研的我&#xf…

Systrace系列12 —— CPU Info 解读

本文主要是对 Systrace 中的 CPU 信息区域(Kernel)进行简单介绍,简单介绍了如何在 Systrace 中查看 Kernel 模块输出的 CPU 相关的信息,了解 CPU 频率、调度、锁频、锁核相关的信息。 CPU 区域图例 下面是高通骁龙 845 手机 Systrace 对应的 Kernel 中的 CPU Info 区域(底下…

人工智能轨道交通行业周刊-第46期(2023.5.22-5.28)

本期关键词:数字孪生、AI铁路人、道岔、施封锁、图像质量评价、大模型小型化 1 整理涉及公众号名单 1.1 行业类 RT轨道交通人民铁道世界轨道交通资讯网铁路信号技术交流北京铁路轨道交通网上榜铁路视点ITS World轨道交通联盟VSTR铁路与城市轨道交通RailMetro轨道…

在VIVADO下烧写ZC706板载FLASH的操作步骤

1,原理图分析 首先看原理图,我们兼容ZC706的板子有两片 FLASH,型号是S25FL128A,连接方式如下: 可以看到两片是分别接在了XC7Z045芯片的引脚上,是互不相干的并联方式,每个FLASH芯片支持X4模式,也…

Systrace系列11 —— Triple Buffer 解读

本文主要是对 Systrace 中的 Triple Buffer 进行简单介绍,简单介绍了如何在 Systrace 中判断卡顿情况的发生,进行初步的定位和分析,以及介绍 Triple Buffer 的引入对性能的影响。 怎么定义掉帧? Systrace 中可以看到应用的掉帧情况,我们经常看到说主线程超过 16.6 ms 就会…

第一个Vue程序

什么是MVVM MVVM是Model-View-ViewModel的缩写,是一种软件架构模式,用于将用户界面(UI)的开发与业务逻辑和数据分离开来。 在MVVM架构中,Model代表数据模型层,View代表用户界面层,ViewModel充…

基于Java+控制台实现教材管理系统

基于Java控制台实现教材管理系统 一、系统介绍二、功能展示1.教材订购2.教材出售3.教材统计4.库存管理 四、其它1.其他系统实现2.获取源码 一、系统介绍 系统主要包括了教材订购、教材出售、教材统计、库存管理几大部分; 其中功能主要包括: 一、教材订购…

English Learning - L3 作业打卡 Lesson3 Day22 2023.5.26 周五

English Learning - L3 作业打卡 Lesson3 Day22 2023.5.26 周五 引言🍉句1: He would never pour salt on a wound, or make someone feel worse about something that was already a painful experience.成分划分弱读连读爆破语调 🍉句2: However, some…

字符串最后一个单词的长度

描述 计算字符串最后一个单词的长度,单词以空格隔开,字符串长度小于5000。(注:字符串末尾不以空格为结尾) 输入描述: 输入一行,代表要计算的字符串,非空,长度小于500…

JavaScript处理移动web交互

touch对象和touchevent touch事件 touch对象 每一次发生touch事件时就会产生一个touch对象&#xff0c;类似事件处理函数中的事件对象。 <div class" "><button class"child" style"height: 400px; width: 400px">我是按钮</b…

OneNote:隐藏OneNote笔记右边的作者和更新时间

OneNote在其他电脑登录后同步笔记&#xff0c;会在笔记右边显示用户名称和更新时间&#xff0c;消除方法如下&#xff1a; 在顶部找到历史记录&#xff0c;点击隐藏作者即可&#xff1a; 隐藏后效果&#xff1a; 说明&#xff1a; 1、用于window10系统。

Mybatis源码的理解

文章目录 0.核心的包1.1 配置文件mybatis-config.xml1.2 配置文件解析将配置文件转化为输入流,将 xml转化Configuration类.解析配置对应的标签为Configuration的属性Configuration的核心类的属性 1.3 解析完成查询之后的configurationenvironment类sqlFragments类mapperRegistr…

(转载)基于量子遗传算法的函数寻优算法

8.1 理论基础 8.1.1 量子遗传算法概述 量子遗传算法(quantum genetic algorithm,QGA)是量子计算与遗传算法相结合的产物&#xff0c;是一种新发展起来的概率进化算法。遗传算法是处理复杂优化问题的一种方法&#xff0c;其基本思想是模拟生物进化的优胜劣汰规则与染色体的交…

结构型设计模式02-代理模式

✨作者&#xff1a;猫十二懿 ❤️‍&#x1f525;账号&#xff1a;CSDN 、掘金 、个人博客 、Github &#x1f389;公众号&#xff1a;猫十二懿 代理模式 1、不使用代理模式 举例说明&#xff1a;小明喜欢一个女生&#xff08;小红&#xff09;&#xff0c;因为小红不认识小明…