AIxBoard部署BLIP模型进行图文问答

news2025/1/17 4:40:18

一、AIxBoard简介

AIxBoard（X板）是一款IA架构的人工智能嵌入式开发板，体积小巧功能强大，可让您在图像分类、目标检测、分割和语音处理等应用中并行运行多个神经网络。它是一款面向专业创客、开发者的功能强大的小型计算机，借助OpenVINO工具套件，CPU、iGPU都具备强劲的AI推理能力，基于 AI 的产品进行原型设计并将其快速推向市场的理想解决方案。

二、多模态模型简介

近年来，计算机视觉和自然语言处理领域各自都取得了飞速发展。但许多实际问题本质上其实是多模态的，即它们同时涉及几种不同形式的数据，如图像和文本。因此，需要视觉语言模型来帮助解决一系列组合模态的挑战，我们的技术才能最终得到广泛落地。视觉语言模型可以处理的一些图生文任务包括图像字幕生成、图文检索以及视觉问答。图像字幕生成可以用于视障人士辅助、创建有用的产品描述、识别非文本模态的不当内容等。图文检索可以用于多模态搜索，也可用于自动驾驶场合。视觉问答可以助力教育行业、使能多模态聊天机器人，还可用于各种特定领域的信息检索应用。

目前常用的SOTA多模态语言模型有BLIP、BLIP2、LLAVA等。

三、部署openvino_notebooks中视觉问答demo

本文拟选取BLIP模型在AIxBoard上部署，实现一个视觉问答的功能demo，其余更先进的BLIP2、LLAVA、GPT-4V待下次有空来研究。

下载官方的demo，并启动jupyter-lab notebooks

git clone https://github.com/openvinotoolkit/openvino_notebooks.git

cd .\openvino_notebooks\notebooks

jupyter-lab notebooks

仔细阅读blip-visual-language-processing.ipynb文档里面的内容，逐次执行

得到结果输出：

实验完成，可以切换尝试其他图片

AIxBoard爱克斯板
使用 BLIP-2 零样本“图生文”

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2067693.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！