MiniGPT-4开源了:看图聊天、教学、创作、搭网站

news2024/11/26 0:31:41

深度学习系列文章


文章目录

  • 深度学习系列文章
  • 前言
  • MiniGPT4
  • 效果展示


前言

一个月前,OpenAI 总裁 Greg Brockman 向世人展示了 GPT-4 令人惊讶的多模态能力,如从手写文本直接生成网站和识别图像中的幽默元素等。

尽管目前 OpenAI 暂未对 GPT-4 用户开放这一能力,但具有多模态能力的视觉语言模型令人充满了想象力。

近日,来自阿卜杜拉国王科技大学的研究团队,便提出了一个具有类似 GPT-4 图像理解与对话能力的 AI 大模型——MiniGPT-4,并将其开源。

据介绍,MiniGPT-4 具有出色的多模态能力,如从手写草稿创建网站、生成详细的图像描述、根据图像创作故事和诗歌、为图像中描述的问题提供解决方案,以及根据食物照片教对话对象如何烹饪一道美味的菜品等。

MiniGPT4

MiniGPT4 是来自阿布杜拉国王科技大学的几位博士做的,它能够提供类似于GPT4的图像理解,以及对话的能力,抢先一步感受图像对话的强大之处。那我们先来看一下它的演示视频,这个项目有几个特点:

第一就是多模态 也就是能够读懂图片 在这个示例中呢 它可以回答图片是关于什么内容的 有多少种颜色甚至能够说明这个图片是属于什么风格的。GPT-4 先进的多模态生成能力的主要原因在于使用了更先进的大型语言模型 (LLM)。MiniGPT-4,它仅使用一个投影层将冻结的视觉编码器与冻结的 LLM Vicuna 对齐。我们的研究结果表明,MiniGPT-4 拥有许多类似于 GPT-4 所展示的功能,例如详细的图像描述生成和从手写草稿创建网站。此外,我们还观察到 MiniGPT-4 中的其他新兴功能,包括根据给定的图像写故事和诗歌,为图像中显示的问题提供解决方案,教用户如何根据食物照片做饭等。

第二点 高级大型语言模型,增强视觉语言理解。

第三点 低成本,仅仅用了4块的A100GPU, 训练了仅仅10个小时,绝对称得上是迷你。

第四点就是整个项目是开源的。
在这里插入图片描述
它使用了更先进的大模型语言,也就是说未来在图像声音视频等等领域呢,基于这些大模型所制造出来的应用 ,实际的效果呢应该都不会太差。 这个项目也证实了 ,大语言模型在图像领域的可行性。 接下来呢相信应该会有不少的开发者跑步入场 ,将GPT4的能力进一步的往音频视频等等领域延伸, 让我们可以看到更多有趣令人惊艳的AI应用程序。

试用地址:https://3228d8146e5c39b4be.gradio.live/

效果展示

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在技术层面上,MiniGPT-4 由一个带有预训练的 ViT 和 Q-Former 的视觉编码器、一个单一的线性投影层和一个 Vicuna 大语言模型组成。而且,MiniGPT-4 只需要训练线性层,使视觉特征与 Vicuna 保持一致。

有 Y Combinator 用户这样评价 MiniGPT-4,“在技术层面上,他们正在做一些非常简单的事情…但结果非常惊人。最重要的是,它在 OpenAI 的 GPT-4 图像模态之前出现。(这是)开源 AI 的真正胜利。”

也有用户表示,“我认为他们为一个不相关的项目使用 GPT-4 名称是一种糟糕的形式。毕竟,底层的 Vicuna 只是一个微调的 LLaMA。另外,他们使用了较小的 13B 版本。然而,结果看起来很有趣。”

项目地址:
https://minigpt-4.github.io/

GitHub地址:
https://github.com/Vision-CAIR/MiniGPT-4

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/459822.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

农业灌溉以电折水测控终端-开启用水计量新模式

产品概述 农业灌溉以电折水测控终端(MGTR-W)是一款拥有“最强大脑”的农业水资源计量管理终端,内置以电折水逻辑运算,主要研究耗电量与取水量之间的关系,分析水电折算系数,进而通过计算耗电量与水电折算系数…

如何在个人web项目中使用Servlet监听器?

编译软件:IntelliJ IDEA 2019.2.4 x64 操作系统:win10 x64 位 家庭版 服务器软件:apache-tomcat-8.5.27 目录 一. Servlet监听器是什么?二. Servlet监听器有哪些作用?2.1 监听域对象的创建和销毁2.1.1 ServletContextListener接口…

zabbix自定义监控项脚本

以下脚本具体如何使用可参考以下文章 配置zabbix自定义监控项_Apex Predator的博客-CSDN博客 1.检测url是否存活 vi /opt/zabbix_jb/check_url_status.sh #!/bin/bash acurl -s -o /dev/null -w "%{http_code}" "$1" bcurl -s -o /dev/null -w "%…

heic的照片怎么转化jpg格式,3个工具分享

heic的照片怎么转化jpg格式?当我想要把照片进行人物抠像的话那我们得需要使用专业图片软件PS。因为人物抠像是一种常见的图像处理技术,它在我们职场中有广泛的需求,它可以将人物从照片中提取出来放置到其他地方,使得照片更具专业性…

如何在 Cockpit 中管理虚拟机

Cockpit 是一个很将整个服务器置于一个集中的控制面板中,并对它们进行相当程度的控制。还可以在Cockpit中创建和管理虚拟机。 环境 Centos8 安装Cockpit 要使用 Cockpit 创建和管理虚拟机,必须在运行 Cockpit 的计算机上安装 cockpit-machines 模块&…

【传统方式部署Ruoyi微服务】

IP机器与部署组件 部署思路顺序: 1 安装mysql wget https://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm rpm -ivh https://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm rpm --import https://repo.mysql.com/RPM-GPG-K…

排序 - 快速排序(Quick Sort)

文章目录 快速排序介绍快速排序实现快速排序时间复杂度和稳定性快速排序稳定性快速排序时间复杂度 代码实现核心&总结 快速排序介绍 它的基本思想是: 选择一个基准数,通过一趟排序将要排序的数据分割成独立的两部分;其中一部分的所有数据都比另外一…

使用QToolButton和QStackedWidget的侧边栏(SideBar)的实现与实现原理解析

使用QToolButton和QStackedWidget的侧边栏(SideBar)的实现与实现原理解析 原文链接:https://blog.csdn.net/qq153471503/article/details/128528072 Demo下载:https://gitee.com/jhuangBTT/QtSideBar 1、简介 侧边栏是一个很常用…

ModStartBlog v7.2.0 暗黑模式,超级搜索,富文本升级

ModStart 是一个基于 Laravel 模块化极速开发框架。模块市场拥有丰富的功能应用,支持后台一键快速安装,让开发者能快的实现业务功能开发。 系统完全开源,基于 Apache 2.0 开源协议。 功能特性 丰富的模块市场,后台一键快速安装会…

Spring Security Ldap 登录认证流程的源码梳理

一、通过请求Controller开始登录认证 通过authenticationManager调用authenticate()方法开始登录认证,因为authenticationManager是通过Bean注入,因为SecurityLdapConfig是继承的WebSecurityConfigurerAdapter类,所以authenticationManager的…

【Unity+MySQL】实现注册登录系统(封装版)

目录 1 MySQL封装2 用户注册、登录方法封装3 Unity交互 接着 上篇文章的注册登录系统,这篇文章将MySQL相关操作封装,在Unity交互脚本中直接调用封装的方法。 1 MySQL封装 编写一个DBConnector脚本,封装MySQL中常用的操作,如连接…

【已解决】SpringBoot 工程 war包服务部署与调用测试

1.开发环境:IDEA,JDK1.8 2.服务打包类型: war包 3.war包部署环境:Linux系统,tomcat服务器,端口号:8081 4.war包部署位置:tomcat-8081/webapps/temp.war 5.服务名为:t…

Java版本企业电子招投标采购系统源码——功能模块功能描述+数字化采购管理 采购招投标

功能模块: 待办消息,招标公告,中标公告,信息发布 描述: 全过程数字化采购管理,打造从供应商管理到采购招投标、采购合同、采购执行的全过程数字化管理。通供应商门户具备内外协同的能力,为外部供…

Postman轻松签名,让SHA256withRSA保驾护航!

postman接口签名教程:https://www.bilibili.com/video/BV1r14y1A7MQ/? 目录:导读 前言 获取pmlib 引入依赖bundle.js,有以下两种方式: 使用Pre-request Script对请求进行加签(具体加签字段请看自己项目) 结语 前言 在接口测…

荔枝派Zero(全志V3S)开启alsa,测试codec

文章目录 前言一、ALSA 简介二、ALSA 框架三、buildroot 配置四、烧录到 SD 卡五、测试1、查看 CODEC 设备2、alsa-utils 使用①、查看设备②、调节音量③、查看控制器④、录音测试⑤、播放测试 前言 默认 dts 中使能了 codec 需要使用的话,在 buildroot 中勾选 a…

2023年五月份图形化四级打卡试题

活动时间 从2023年5月1日至5月21日,每天一道编程题。 本次打卡的规则如下: 小朋友每天利用10~15分钟做一道编程题,遇到问题就来群内讨论,我来给大家答疑。 小朋友做完题目后,截图到朋友圈打卡并把打卡的截图发到活动群…

开放式耳机有什么好处,盘点几款性能不错的开放式耳机

随着人们对生活质量要求的提高,大家在运动的时候都喜欢戴上耳机,享受运动的乐趣。但是传统耳机戴久了之后就会出现耳朵酸痛的情况,这是因为传统耳机佩戴方式是通过空气振动来传递声音,而人在运动时就会伴随着大量的汗水&#xff0…

基于ResNet-attention的负荷预测

一、attention机制 注意力模型最近几年在深度学习各个领域被广泛使用,无论是图像处理、语音识别还是自然语言处理的各种不同类型的任务中,都很容易遇到注意力模型的身影。从注意力模型的命名方式看,很明显其借鉴了人类的注意力机制。我们来看…

GB/T28181-2022相对2016版“基于TCP协议的视音频媒体传输要求“规范解读和技术实现

规范解读 GB/T28181-2022和GB/T28181-2016规范,有这么一条“更改了附录 D 基于 TCP 协议的视音频媒体传输要求(见附录 D,2016 年版的附录 L)。”。 本文主要是针对GB/T28181-2022里面提到的“基于 TCP 协议的视音频媒体传输要求…

chmod 命令 (chmod 0660)

chmod的作用: 用于设置文件所有者和文件关联组的命令,就是控制用户的权限命令 注意事项: chown 需要超级用户 root 的权限才能执行此命令。 自己常用chmod 命令是 chmod 777 * 给所有文件权限 chmod 777 文件名 给单独文件权限 这个777 是怎么来的, 或者chmod 0660 这…