一、AIxBoard简介
AIxBoard(X板)是一款IA架构的人工智能嵌入式开发板,体积小巧功能强大,可让您在图像分类、目标检测、分割和语音处理等应用中并行运行多个神经网络。它是一款面向专业创客、开发者的功能强大的小型计算机,借助OpenVINO工具套件,CPU、iGPU都具备强劲的AI推理能力,基于 AI 的产品进行原型设计并将其快速推向市场的理想解决方案。
二、多模态模型简介
近年来,计算机视觉和自然语言处理领域各自都取得了飞速发展。但许多实际问题本质上其实是多模态的,即它们同时涉及几种不同形式的数据,如图像和文本。因此,需要视觉语言模型来帮助解决一系列组合模态的挑战,我们的技术才能最终得到广泛落地。视觉语言模型可以处理的一些 图生文 任务包括图像字幕生成、图文检索以及视觉问答。图像字幕生成可以用于视障人士辅助、创建有用的产品描述、识别非文本模态的不当内容等。图文检索可以用于多模态搜索,也可用于自动驾驶场合。视觉问答可以助力教育行业、使能多模态聊天机器人,还可用于各种特定领域的信息检索应用。
目前常用的SOTA多模态语言模型有BLIP、BLIP2、LLAVA等。
三、部署openvino_notebooks中视觉问答demo
本文拟选取BLIP模型在AIxBoard上部署,实现一个视觉问答的功能demo,其余更先进的BLIP2、LLAVA、GPT-4V待下次有空来研究。
下载官方的demo,并启动jupyter-lab notebooks
git clone https://github.com/openvinotoolkit/openvino_notebooks.git
cd .\openvino_notebooks\notebooks
jupyter-lab notebooks
仔细阅读blip-visual-language-processing.ipynb文档里面的内容,逐次执行
得到结果输出:
实验完成,可以切换尝试其他图片
- AIxBoard爱克斯板
- 使用 BLIP-2 零样本“图生文”