使用blip2进行图片输入文本输出

news2024/9/24 5:32:45

多模态的重要模型blip2,官方提供模型可以直接用来图片生成文本
github地址:https://github.com/salesforce/LAVIS/tree/main/projects/blip2

个人相当于跑了一下blip2的demo,记录下过程,供今后需要参考:
1、首先是环境安装,跟着官网走:https://github.com/salesforce/LAVIS/tree/7f00a0891b2890843f61c002a8e9532a40343648#installation
在这里插入图片描述
其中,salesforce-lavis我装的时候遇到了问题,可能是服务器网络问题,如果安装有问题,可以尝试pypi下载压缩包进行安装:
pypi网址:https://pypi.org/project/salesforce-lavis/

在这里插入图片描述
安装命令:

pip install salesforce-lavis-1.0.2.tar.gz

期间如果提示缺什么库,按要求装上就可以了
我装的版本:

conda install pytorch==1.10.0 torchvision==0.11.0 torchaudio==0.10.0 cudatoolkit=11.1 -c pytorch
pip install salesforce-lavis
cd /.../.../LAVIS-main/
pip install -e .
pip install accelerate

期间碰到了transformer的问题,从transformer库导入有问题,我降低了版本,我目前的版本是
transformer==4.35.2

环境装完后,需要下载blip2的模型:
网址:https://huggingface.co/models?other=blip-2
在这里插入图片描述
一般是下载上面这个模型,也有其他的可以下载,
具体网址:https://huggingface.co/Salesforce/blip2-opt-2.7b/tree/main
在这里插入图片描述
把上面页面中的所有文件下载下来,放到blip2的工作空间中
然后就可以跑官方提供的demo了。

from PIL import Image
import requests
from transformers import Blip2Processor, Blip2ForConditionalGeneration
import torch

device = "cuda" if torch.cuda.is_available() else "cpu"

processor = Blip2Processor.from_pretrained("my_blip2/blip2-opt-2.7b")
model = Blip2ForConditionalGeneration.from_pretrained(
    "my_blip2/blip2-opt-2.7b", torch_dtype=torch.float16
)
model.to(device)
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(images=image, return_tensors="pt").to(device, torch.float16)

generated_ids = model.generate(**inputs)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0].strip()
print(generated_text)

上面的image可以换成自己的图片:

imgfile = '../../xxx.jpg'
image= Image.open(imgfile).convert('RGB')

或者根据个人需求改成批量化生成文本的代码也可以

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1313001.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Spring上下文之注解模块ConfigurationMethod

博主介绍:✌全网粉丝5W+,全栈开发工程师,从事多年软件开发,在大厂呆过。持有软件中级、六级等证书。可提供微服务项目搭建与毕业项目实战,博主也曾写过优秀论文,查重率极低,在这方面有丰富的经验✌ 博主作品:《Java项目案例》主要基于SpringBoot+MyBatis/MyBatis-plus+…

如何实现免费的文档翻译

文中有彩蛋,请一定要看完。 目录 文中有彩蛋,请一定要看完。 一、问题的提出 二、文档翻译现状 三、如何免费海量文档翻译 1. 采用CAT工具机器翻译API法 2. 采用小牛文档翻译 四、学后反思 一、问题的提出 随着互联网和人工智能技术的飞速发展&…

【力扣】19. 删除链表的倒数第 N 个结点

19. 删除链表的倒数第 N 个结点 相比于昨天,感觉刷题越来越轻松了~ 我进步了! 以后刷题力度要加快了,因为我报了蓝桥杯!加油~ 法一:计算链表长度 思路: 首先用个函数来计算出该链表的长度,然…

接口返回HTML页面详解

import requests from bs4 import BeautifulSoup import re import jsonurl https://listado.mercadolibre.com.mx/hogar-muebles-jardin/cocina/almacenamiento-organizacion/organizadores-cocina/_CustId_570995983_PrCategId_AD# 添加 headers 和 cookies headers {User-…

批量解压imagenet1k数据集中的zip文件

导言: 最近在处理imagenet1k数据集时,面对大量的zip包,手动一个一个解压显然不是明智的选择。作为程序员,我们可以采用批量解压的方法来提高效率,下面就是解决这一问题的方法和原因分析。 问题背景: image…

拆解大语言模型 RLHF 中的PPO算法

为什么大多数介绍大语言模型 RLHF 的文章,一讲到 PPO 算法的细节就戛然而止了呢?要么直接略过,要么就只扔出一个 PPO 的链接。然而 LLM x PPO 跟传统的 PPO 还是有些不同的呀。 其实在 ChatGPT 推出后的相当一段时间内,我一直在等…

11月,1Panel开源面板项目收到了这些评论

2023年11月24日,1Panel开源面板项目(https://github.com/1Panel-dev)发布了题为《10月,1Panel开源面板收到了这些评论》的社区评论合集。在该文章的评论区,很多社区用户跟帖发表了自己对1Panel开源项目的使用感受和意见…

【思考】只有实对称矩阵才能正交对角化吗?【矩阵的合同】

1:命题改写(A可以正交对角化) 2:左乘Q右乘Q逆(Q转置) 3:取转置 4:得证 总结 可以看到,矩阵如果可以正交对角化,那么一定是实对称矩阵。 另外,这…

stm32项目(12)——基于stm32f407zgt6的频率计设计

1.项目功能 配置stm32自带的定时器,以一定的周期产生中断,在中断服务函数里面,对某个IO口进行取反,这样就在该管脚上产生了一定频率的方波(频率可以用按键调节)。然后再使用stm32的捕获功能,对产…

Python语言学习笔记之十一(DotEnv)

本课程对于有其它语言基础的开发人员可以参考和学习,同时也是记录下来,为个人学习使用,文档中有此不当之处,请谅解。 1、认识Python DotEnv dotenv是Python中的一个工具包,它主要用于谈取项目中的.env文件&#xff0…

科研论文中PPT图片格式选择与转换:EPS、SVG 和 PDF 的比较

当涉及论文中的图片格式时,导师可能要求使用 EPS 格式的图片。EPS(Encapsulated PostScript)是一种矢量图格式,它以 PostScript 语言描述图像,能够无损地缩放并保持图像清晰度。与像素图像格式(如 PNG 和 J…

VR智慧眼:为各行业打造3D数字化业务协同平台

自改革开放以来,城镇化建设一直在不断推进实施,如今各城市化速度虽然在不断加快,但随之而来的部分城市开始出现资源短缺、环境污染、交通拥堵、安全隐患等问题,因此为了满足智慧城市大型区域场景数字化升级需求,助力区…

SQL Server数据库使用T-SQL语句简单填充

文章目录 操作步骤:1.新建数据库起名RGB2.新建表起名rgb3.添加三个列名4.点击新建查询5.填入以下T-SQL语句,点击执行(F5)6.刷新之后,查看数据 操作环境: win10 Microsoft SQL Server Management Studio 20…

【项目管理】CMMI对项目管理有哪些个人启发和思考

导读:本人作为项目经理参与公司CMMI5级评审相关材料准备工作,现梳理CMMI有关知识点,并结合项目给出部分示例参考,以及本人对于在整理材料过程中一些启发和体验思考。 目录 1、CMMI定义 2、CMMI-5级 3、CMMI文档清单 4、示例-度…

【Spring Boot】Starter机制的使用及案例

一、引言 1、什么是SpringBoot Starter SpringBoot中的starter是一种非常重要的机制(自动化配置),能够抛弃以前繁杂的配置,将其统一集成进starter,应用者只需要在maven中引入starter依赖,SpringBoot就能自动扫描到要加载的信息并启…

7+m6A+分型+实验,甲基化方向的生信思路,没有思路的同学可参考

今天给同学们分享一篇生信文章“Landscape analysis of m6A modification regulators related biological functions and immune characteristics in myasthenia gravis”,这篇文章发表在J Transl Med期刊上,影响因子为7.4。 结果解读: MG相…

Notes Domino 14.0正式版发布

大家好,才是真的好。 经过12个月的等待,经过三个Beta版本的迭代,昨天晚上11:00,Notes Domino 14.0版本正式发布! 过去半年,经过我们对三个Beta版本不断的测试和介绍,一些新功能可能大家已经了…

基于Java的在线教育平台设计与实现论文

摘 要 互联网发展至今,无论是其理论还是技术都已经成熟,而且它广泛参与在社会中的方方面面。它让信息都可以通过网络传播,搭配信息管理工具可以很好地为人们提供服务。针对学生课程学习信息管理混乱,出错率高,信息安全…

人工智能如何改变未来的教育

人工智能(AI)正在以惊人的速度发展,并有可能彻底改变我们生活的方方面面,包括教育。AI 可以用于提高教学效率、个性化学习体验和扩大教育机会。 在教学效率方面,AI 可以用于自动化许多繁琐的教学任务,例如…

机器学习---音乐分类案例

1、傅里叶变换 时域分析:对一个信号来说,信号强度随时间的变化的规律就是时域特性,例如一个信号的时域波形可以表达信号随着时间的变化。 频域分析:对一个信号来说,在对其进行分析时,分析信号和频率有关的…