【原创】用 VisualGLM 进行AIGC多模识别和内容生成

news2024/11/26 18:34:16

最近几个月,整个AI行业的LLM(大语言模型)蓬勃发展,除了过去传统的纯文字的多模态能力的视觉语言模型,如 GPT-4,ImageBind等表现令人印象深刻。

ChatGLM-6B是中文用户使用非常舒服的一个开源中文LLM。2023年5月17日,智谱AI和清华大学KEG实验室开源了基于ChatGLM-6B的多模态对话模型VisualGLM-6B——不仅可以进行图像的描述及相关知识的问答,也能结合常识或提出有趣的观点。智谱在 ChatGLM-6b基础上,开源了多模识别的大模型 VisualGLM-6b。VisualGLM-6B 是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。

VisualGLM-6B 依靠来自于 CogView 数据集的30M高质量中文图文对,与300M经过筛选的英文图文对进行预训练,中英文权重相同。该训练方式较好地将视觉信息对齐到ChatGLM的语义空间;之后的微调阶段,模型在长视觉问答数据上训练,以生成符合人类偏好的答案。

今天我们就简单安装使用一下VisualGLM-6b,然后再了解一下其背后核心工作原理。

VisualGLM-6b 使用安装

系统环境(我的环境)

GPU:NVIDIA A30 24G

OS:Windows 11

Python: 3.8.13

PyTorch: 1.12.1+cu113

Transformers: 4.29.1

附:读取环境信息代码:

import sys
import torch   # pip install torch
import pynvml  # pip install pynvml


# 获取GPU信息
def get_gpu_info(gpu_id=0):
    pynvml.nvmlInit()
    handle = pynvml.nvmlDeviceGetHandleByIndex(gpu_id)
    gpu_name = pynvml.nvmlDeviceGetName(handle)
    handler = pynvml.nvmlDeviceGetHandleByIndex(gpu_id)
    meminfo = pynvml.nvmlDeviceGetMemoryInfo(handler)
    gpu_mem_total = round(meminfo.total / 1024 / 1024, 2)
    gpu_mem_used = round(meminfo.used / 1024 / 1024, 2)
    gpu_mem_free = round(meminfo.free / 1024 / 1024, 2)
    print("GPU型号:\t",  gpu_name)
    print("显存总量:\t", gpu_mem_total, "MB")
    print("已用显存:\t", gpu_mem_used,  "MB")
    print("剩余显存:\t", gpu_mem_free,  "MB")


# 输出env信息
print("Python版本: \t", sys.version)
print("Pytorch版本: \t", torch.__version__)
print("Cuda版本: \t",    torch.version.cuda)
print("Cudnn版本: \t",   torch.backends.cudnn.version())
print("Cuda是否可用:\t", torch.cuda.is_available())
print("GPU数量: \t",     torch.cuda.device_count())
get_gpu_info()

如果想要顺利使用VisualGLM,建议Python版本3.6+,个人推荐 3.8.x或者3.10.x 更稳妥,然后依赖的cuda版本最好是11.3以上;GPU显存不能低于16G,否则无法正常运行。

操作系统推荐 Windows 或 Ubuntu 比较稳妥。

如果要监测NVIDIA显卡的内存情况,使用nvidia-smi命令:(每隔10秒显示一次显存剩余)

nvidia-smi -l 10

安装使用VisualGLM-6b

如果只是简单直接在命令行里测试VisualGLM-6b,可以直接下载调用源码和基础模型就可以了。如果想要运行web界面,还会依赖一个SAT模型,会自动下载安装。

调用源码:GitHub - THUDM/VisualGLM-6B: Chinese and English multimodal conversational language model | 多模态中英双语对话语言模型

基础模型:THUDM/visualglm-6b · Hugging Face

SAT模型:https://cloud.tsinghua.edu.cn/f/348b98dffcc940b6a09d

快速安装步骤:(以为Windows环境为例)

git clone https://github.com/THUDM/VisualGLM-6B
cd VisualGLM-6B
pip install -i https://mirrors.aliyun.com/pypi/simple/ -r requirements_wo_ds.txt
pip install -i https://mirrors.aliyun.com/pypi/simple/ --no-deps "SwissArmyTransformer>=0.3.6"

VisualGLM-6b 效果测试

手工模型测试代码:

from transformers import AutoModel, AutoTokenizer
import torch


# 模型文件和图片路径
# model_name = "THUDM/visualglm-6b"
model_path = "C:\\Data\\VisualGLM-6B\\visualglm-6b"
# pic_path = "C:\\Users\\mat\\Pictures\\test\\kld00.jpg"
# pic_path = "C:\\Users\\mat\\Pictures\\test\\cat00.jpg"
# pic_path = "C:\\Users\\mat\\Pictures\\test\\sl00.jpg"
# pic_path = "C:\\Users\\mat\\Pictures\\test\\kh00.jpg"
pic_path = "C:\\Users\\mat\\Pictures\\test\\code00.jpg"


# 加载模型
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModel.from_pretrained(model_path, trust_remote_code=True).half().cuda()
image_path = pic_path


# 进行提问
response, history = model.chat(tokenizer, image_path, "描述这张图片。", history=[])
print(response)
response, history = model.chat(tokenizer, image_path, "这张图片可能是在什么场所拍摄的?", history=history)
print(response)

代码中的 pic_path 就是需要测试的图片文件路径,可以支持 JPG/PNG/WEBP 等格式,提前把文件下载好指定目录。

如果基础模型下载到了本地,在Windows系统上面记得 model_path 必须后面路径中斜线必须是 \\,如果是 / 则无法找到模型文件。

模型代码调用测试

人物识别:

动物环境识别:

猫咪识别:

室内场景识别:

代码识别:

Web界面交互测试

执行步骤代码:

git clone https://github.com/THUDM/VisualGLM-6B
cd VisualGLM-6B
pip install -i https://mirrors.aliyun.com/pypi/simple/ -r requirements_wo_ds.txt
pip install -i https://mirrors.aliyun.com/pypi/simple/ --no-deps "SwissArmyTransformer>=0.3.6"
python web_demo.py

然后等待自动下载安装SAT模型,完成后就会自动加载了,然后访问本地的:

http://127.0.0.1:7860

就可以通过Web界面访问本地的 VisualGLM 了,如果交互很多次,可能GPU显存占用很大,记得点击“清除”清理一下,能够减少显存占用。

动物识别:

名人识别:

代码识别:

图片推理:

人物着装识别:

VisualGLM背后的技术原理

VisualGLM 能够进行图像的识别和针对图像进行相关 交互,本质也是一个LLM(大语言模型),但是整个基于图像的大语言模型,跟传统的的ChatGPT这种还是有点不同,要了解神奇之处,就需要关注背后的核心技术:BLIP-2。

对于多模的大语言模型,除了常规的基于Transformer的LLM学习,VisualGLM中比较重要的是图像-文本的对应关系处理,有点类似于Stable Diffusion中的CLIP的关系,而VisualGLM-6b中主要使用的技术是 BLIP-2的训练方法来进行图片-文本的处理。

BLIP(Bootstrapping Language-Image Pre-training),引导式语言图像预训练方法,主要属于视觉语言预训练(Vision-language pre-training)的方式。

传统的视觉模型和方法还存在两个主要的缺陷:

1、从模型角度来看,大多数方法要么采用基于编码器的模型,要么采用编码器-解码器模型。然而,基于编码器的模型不太容易直接迁移到文本生成的任务中,如图像标题(image captioning)等;而编码器-解码器模型还没有被成功用于图像-文本检索任务。

2、从数据角度来看,大多数sota的方法,如CLIP, ALBEF, SimVLM 都是对从网上收集的图像-文本对(image-text pair)进行预训练。尽管可以通过扩大数据集的规模来获得性能上的提高,但研究结果显示,有噪声的网络文本对于视觉语言学习来说只能得到次优的结果。

为此,Junnan Li等人提出了一个新的模型BLIP(Bootstrapping Language-Image Pre-training)。

BLIP-2 一种通用的、计算效率高的视觉-语言预训练方法,它利用了冻结的预训练图像编码器和LLM,性能优于Flamingo、BEIT-3等网络。

BLIP2大概由这么几个部分组成,图像(Image)输入了图像编码器(Image Encoder),得到的结果与文本(Text)在Q-Former(BERT初始化)里进行融合,最后送入LLM模型。

BLIP-2 通过在冻结的预训练图像编码器和冻结的预训练大语言模型之间添加一个轻量级 查询 Transformer (Query Transformer, Q-Former) 来弥合视觉和语言模型之间的模态隔阂 (modality gap)。在整个模型中,Q-Former 是唯一的可训练模块,而图像编码器和语言模型始终保持冻结状态。

LLM(比如GLM和GPT)本质上是个语言模型,自然无法直接接受其他模态的信息。所以如何把各个模态的信息,统一到LLM能理解的特征空间,就是第一步要解决的问题。为此,BLIP中就提出了Q-Former。

其中的Q-Former 是一个 transformer 模型,为了融合特征,那Transformer架构是最合适不过的了,Q-Former它由两个子模块组成,这两个子模块共享相同的自注意力层:

与冻结的图像编码器交互的图像 transformer,用于视觉特征提取文本 transformer,用作文本编码器和解码器。

对于Q-Former模型的训练,就是由以上三个任务组成,通过这几个任务,实现了对于特征的提取与融合,但现在模型还没见过LLM。

Q-Former的三个训练任务分别是:

Image-Text Contrastive Learning (ITC),图片文本对比学习

Image-grounded Text Generation (ITG),基于图像的文本生成

Image-Text Matching (ITM),图像文本的匹配

这几个任务都是以Query特征和文本特征作为输入得到的,只不过有不同的Mask组合。图像 transformer 从图像编码器中提取固定数量的输出特征,这里特征的个数与输入图像分辨率无关。同时,图像 transformer 接收若干查询嵌入作为输入,这些查询嵌入是可训练的。这些查询还可以通过相同的自注意力层与文本进行交互。

通过第一阶段的训练,Query已经浓缩了图片的精华,现在要做的,就是把Query变成LLM认识的样子。

为什么不让LLM认识Query,而让Query变成LLM认识呢?这里的原因有两:

(1)LLM模型的训练代价有点大;

(2)从 Prompt Learning 的观点来看,目前多模态的数据量不足以保证LLM训练的更好,反而可能会让其丧失泛化性。如果不能让模型适应任务,那就让任务来适应模型。

BLIP-2针对两类不同LLM设计了不同的任务:

(1) Decoder类型的LLM(如OPT):以Query做输入,文本做目标;

(2) Encoder-Decoder类型的LLM(如FlanT5):以Query和一句话的前半段做输入,以后半段做目标;

经过整个训练过程,最后形成了图片-文本的核心关联关系模型,就能够“图文交互”了。

本质来说,BLIP-2 是一种零样本视觉语言模型,可用于各种含图像和文本提示的图像到文本任务。这是一种效果好且效率高的方法,可应用于多种场景下的图像理解,特别是当训练样本稀缺时。

该模型通过在预训练模型之间添加 transformer 来弥合视觉和自然语言模态之间的隔阂。这一新的预训练范式使它能够充分享受两种模态的各自的进展的红利,也算是一种非常好的模型算法的创新。

结束

今天概要学习了国内最新开源的 VisualGLM-6b,体验了一下多模的大语言模型,虽然很多人没法体验GPT-4,但是通过本文的基本学习,对于一般LLM的文本交互、图文交互 有了直观感觉,也可以进行自己的更深入的学习。

目前也有人基于VisualGLM-6b在医疗行业进行了深度学习探索,做出了可以自动识别X片和进行诊断报告的模型开源项目XrayGLM,也算是让VisualGLM-6b产生跟过价值贡献。

也希望本文能够带给你进入多模大语言模型,给自己技术学习和工作应用一些帮助,或者按照自己业务场景,迭代自己的中文多模大模型。

##End##


想关注更多技术信息,可以关注"黑夜路人技术” 公众号,后台发送“加群”,加入GPT和AI技术交流群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/608244.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Nginx的Rewrite的运用

Rewrite 一、常用的Nginx正则表达式二、lication三、rewrite$request_uri:包含请求参数的原始URI,不包含主机名,如:http://www.kgc.com/abc/bbs/index.html?a1&b2 中的 /abc/bbs/index.php?a1&b2 $uri:这个变…

chatgpt赋能python:Python去除重复字符并排序

Python去除重复字符并排序 在日常编程工作中,我们常常需要对列表或字符串中的重复字符进行去除,并将剩余字符进行排序。Python是一门非常适合进行此类操作的语言,其内置的数据结构和函数可以让我们轻松应对这一需求。 介绍 当我们需要对一…

【六一】【海思SS528】GPIO寄存器操作 - 使能GPIO管脚输出高、低电平

目录 一、概述二、配置复用控制寄存器,使能GPIO功能三、配置GPIO_DIR寄存器,选择输出四、配置GPIO_DATA寄存器,输出高电平五、测试 一、概述 这篇文章根据海思SS528芯片提供的《22AP30 H.265编解码处理器用户指南.pdf》文档(文档路径&#xf…

MIT6.042学习笔记(一)——强归纳法,数论(1)

如果学生在学校里学习的结果是使自己什么也不会创造,那他的一生永远是模仿和抄袭。——列夫托尔斯泰 文章目录 引言强归纳法例题:拆积木游戏证明 数论(第一节)整除运算例题:取水证明 公约数例题证明 Eucild算法 引言 …

C语言-static的用法

1、static 关键字 C 语言中 static 关键字修饰变量和函数。 static有三种不同的用法: 1.修饰局部变量; 2.修饰全局变量; 3.修饰函数 局部变量:当函数第一被调用,函数中的静态局部变量被初始化,再次调用这个函数&…

gcc/g++

文章目录 sudo 提权添加白名单gcc / g预处理编译汇编链接 sudo 提权添加白名单 1.寻找root用户 在 /etc/sudoers 文件中修改 添加普通用户的白名单 :/root找到root的白名单所在行数 2.wq!强制保存退出,即可添加成功 gcc / g 推荐写法 gcc mycode.c -o mytest预…

Python绘制柱状图堆叠图

本文详细介绍如何使用 Matplotlib 绘制柱状堆叠图 文章目录 一、引入库二、数据准备三、绘制基本柱状堆叠图1.绘制基本图形2.设置柱子宽度、添加刻度标签和旋转角度 四、完整代码五、运行结果六、python绘图往期系列文章目录 一、引入库 import matplotlib.pyplot as plt imp…

Hyperledger Fabric 超级账本学习【14】Fabcar实例——通过 Nodejs命令 调用链码

文章目录 Hyperledger Fabric2.X 网络 以后对应的 Node Npm 版本需要升级,默认版本太低,后面会报错启动 Fabcar 网络报错运行以下命令来杀死当前运行或者活跃的容器:清除所有缓存网络:添加映射文件进入javascript目录在此文件夹内…

初阶数据结构(7)(树形结构的概念和相关重要定义、树的表示形式、树的应用、二叉树【两种特殊的二叉树、性质、存储、遍历、基本操作、二叉树相关的 OJ 题】)

接上次博客:初阶数据结构(6)(队列的概念、常用的队列方法、队列模拟实现【用双向链表实现、用数组实现】、双端队列 (Deque)、OJ练习【用队列实现栈、用栈实现队列】)_di-Dora的博客-CSDN博客 目录 树形结构的概念 …

DPDK官方文档说明

目录 1、Release Notes 2、Getting Started Guide for Linux/FreeBSD/Windows 3、Programmer’s Guide 4、API Reference 5、Sample Applications User Guide 6、DPDK Tools User Guides 7、Testpmd Application User Guide 8、Network Interface Controller Drivers …

网站优化,如何挖掘长尾关键词?

做网站优化来说,挖掘一些长尾关键词的重要性是非常大的,因为长尾关键词给我们带来的流量可能会超过我们的主关键词。如何挖掘长尾关键词,挖掘长尾关键词的的方式有哪些是一个重要的问题。 长尾词挖掘方式: 【1】使用长尾词挖掘工…

机器学习——线性回归、梯度下降

文章目录 一、机器学习的分类二、线型回归Linear regression(单变量线性回归)三、代价函数3.1 建模误差3.2 平方误差代价函数 Squared error cost function3.3 梯度下降3.4 梯度下降与线性回归相结合 一、机器学习的分类 监督学习:学习数据带…

生成模型之高斯判别分析(GDA)和贝叶斯

生成模型与判别模型的区别 判别模型的学习算法学习给定x下的条件分布p(y|x; θ), 例如,Logistic Regression(对数几率回归)将p(y|x; θ)建模为,g是sigmoid函数。 考虑一个分类问题,基于动物的某些特征想…

电商数据监测:如何获取想要的电商平台数据?

随着电商行业的发展,越来越多的企业开始通过电商平台销售商品。为了更好地掌握市场信息和消费者需求,企业需要获取电商平台上的数据。这些数据可以帮助企业制定营销策略、优化产品设计和提高竞争力。本文将介绍如何使用电商API获取想要的电商平台数据。 …

数据库的增删改查(一)

1、CRUD *注释:在SQL中可以使用"--空格描述"来表示注释说明 *CRUD即增加(Create)、查询(Retrieve)、更新(Update)、删除(Delete)四个单词的首字母缩写 2、新增(Create) 语法: insert [into] table_name [(column[,column] ...)…

【红队靶场】暗月五月考核靶场sunday

红队靶场 🎉B站配套视频:【顺手挂个三连呗】 https://www.bilibili.com/video/BV1xu4y1Z71y/?share_sourcecopy_web&vd_source0e30e09a4adf6f81c3038fa266588eff🔥系列专栏:红队靶场 🎉欢迎关注🔎点赞…

【MySql】ProxySQL

文章目录 ProxySQL运行机制ProxySQL安装ProxySQL的Admin管理接口和admin管理接口相关的变量admin-admin_credentialsadmin-stats_credentialsadmin-mysql_ifaces 读写分离环境信息部署步骤 负载均衡连接池自动摘除宕机的DB动态加载配置访问控制查询缓存ProxySQL 集群来源 Proxy…

送礼物 dfs 双向dfs 剪枝 java

🍑 送礼物 达达帮翰翰给女生送礼物,翰翰一共准备了 N N N 个礼物,其中第 i i i 个礼物的重量是 KaTeX parse error: Undefined control sequence: \[ at position 2: G\̲[̲i\]。 达达的力气很大,他一次可以搬动重量之和不超…

有效的括号——力扣20

题目描述 思路 1.判断括号的有效性可以使用「栈」这一数据结构来解决 2.遍历给定的字符串 s。当遇到一个左括号时,我们会期望在后续的遍历中,有一个相同类型的右括号将其闭合。由于后遇到的左括号要先闭合,因此我们可以将这个左括号放入栈顶。…

2.项目中的文件

项目的路径是这样的 目录 1 pages 1.1 json 1.2 wxml 1.3 wxss 1.4 js 2 utils 3 .eslintrc.js 4 app.js 5 app.json 6 app.wxss 7 project.config.json 8 project.private.config.json 9 sitemap.json 1 pages pages 用来存放所有小程序的页面&am…