文章目录
- 概要
- 论文摘要
- 论文细节
- 获取方式
概要
面向区域级图像理解的端到端多模态大模型
带来了超越图像级理解的全新对话和交互体验
进行丝滑的人机互动,不仅仅是文字级别的人机互动
论文摘要
本文提出对感兴趣区域进行Instruction Tuning,并提出GPT4RoI: 一种区域级视觉-语言模型,带来了超越图像级理解的全新对话和交互体验,代码刚刚开源
论文细节
![在这里插入图片描述](https://img-blog.csdnimg.cn/730f57f739ad4a758641d94abf9642af.jpeg#pic_center
获取方式
关注微信公众号:CV算法小屋 发送:多模态大模型 获取代码和论文