【多模态大模型】的正确打开方式——图片

【多模态大模型】的正确打开方式——图片

news2026/2/16 3:08:18

早期痛点

识别图片中的物体，早期可以使用Yolo
但是缺点也很明显：

训练时间长
成本高
泛华性能差
通用识别领域覆盖有限

优点：

特殊领域识别

大模型出现

大模型出现后，一些大模型对接了图片识别相关的模型，实现了图片识别，然后转换成文本再返回给大模型。

这样，基本实现了识别图片中存在的物体，但是仍然无法代替一般的Yolo应用，因为它无法提供物体在图片中的坐标信息。

因为图片模型“转换成文本再返回给大模型”，丢失了很多信息，无法完成这样的需求。

多模态大模型如何代替Yolo

主要逻辑是这样的：

建立坐标系
使用prompt规范模型输出

建立坐标系

先对图片进行预处理，在图片上覆盖一层浅白色的遮罩
然后用绿色的线条，将图片划分为网格，比如18x18
然后在网格的边缘添加红色的数字代表坐标
输出处理后的图片

使用prompt规范模型输出

要求模型输出json
要求识别图片中特定物体，然后输出其坐标系

有时间我会更新ipynb到文章

Deng-Xian-Sheng. (2024). 【多模态大模型】的正确打开方式——图片 [The correct way to open [multimodal large models] - pictures]. CSDN. https://blog.csdn.net/Deng_Xian_Sheng/article/details/141820139

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2098961.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

利用衍射进行材料分析--Muad

利用衍射进行材料分析--Muad

软件介绍 MAUD是一款免费软件，使用组合 Rietveld 方法分析衍射数据。其功能不仅限于衍射，还包括荧光和反射率。它可以分析来自 X 射线源以及中子、TOF 和 TEM 电子的数据。相含量和晶体结构、微观结构特征（如尺寸和应变）、晶体…

阅读更多...

沉浸式体验亚马逊云科技上私有化部署零一万物AI大模型

沉浸式体验亚马逊云科技上私有化部署零一万物AI大模型

小李哥将继续带大家沉浸式体验亚马逊云科技上的国产AI大模型。最近亚马逊云科技的机器学习模型管理平台Amazon SageMaker JumpStart 上线了由零一万物提供的基础模型 Yi-1.5 6B/9B/34B，这也是首批登陆中国区 Amazon SageMaker JumpStart 的中文基础模型，…

阅读更多...

【多线程】并发编程wait和sleep的区别

【多线程】并发编程wait和sleep的区别

notyfy、notifyAll、wait的使用：sleep/wait/notify/notifyAll分别有什么作用背景：之前的博客讲解到了notify的使用，那并发编程的时候，到底该用 sleep还是notify呢？本篇我们来一起梳理一下区别所属类与方法类型 wait…

阅读更多...

vscode+django开发后端快速测试接口(轻量版，免postman安装)

vscode+django开发后端快速测试接口(轻量版，免postman安装)

目录背景步骤安装插件编写测试文件示例一：get接口类型示例二：post接口类型示例三：delete接口类型如何运行test.http测试文件背景在最近工作中涉及到使用Django框架开发后端，写完接口后，不可避免需要…

阅读更多...

php法律事务综合管理系统Java律师事务所业务流程管理平台python法律服务与案件管理系统（源码、调试、LW、开题、PPT）

php法律事务综合管理系统Java律师事务所业务流程管理平台python法律服务与案件管理系统（源码、调试、LW、开题、PPT）

💕💕作者：计算机源码社 💕💕个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流&…

阅读更多...

Java八股文总结一

Java八股文总结一

Java基础一、JDK、JRE、JVM之间的关系？ 1、JDK(Java Development Kit):Java开发工具包，提供给Java程序员使用，包含了JRE，同时还包含了编译器javac与自带的调试工具Jconsole、jstack等。 2、JRE(Java Runtime Environment):Ja…

阅读更多...

蔡司小乐圆镜片：自由环面与微柱镜排布助力兼顾舒适与效果

蔡司小乐圆镜片：自由环面与微柱镜排布助力兼顾舒适与效果

从学习到休闲娱乐，孩子们的日常生活已与电子设备密不可分，视力面临日益严峻的挑战。为了让孩子拥有全视野清晰视觉体验的同时，更有效管理孩子的近视发展，让孩子佩戴蔡司小乐圆镜片，也成为不少家长的首选。数据统计&am…

阅读更多...

opencv图像形态学（边缘检测算法实例）

opencv图像形态学（边缘检测算法实例）

引言图像形态学是一种基于数学形态学的图像处理技术，它主要用于分析和修改图像的形状和结构。在OpenCV中，图像形态学操作通过一系列的数学运算来实现，如腐蚀、膨胀、开运算、闭运算等。这些操作在图像处理、计算机视觉和模式识别等领域有着…

阅读更多...

Python自动化必会技能-Excel文件读取

Python自动化必会技能-Excel文件读取

01 重点在自动化测试过程中，经常需要使用excel文件来存储测试用例，那么在表格内设计好了测试用例数据后，如何通过自动化读取呢？此时就需要测试小姐姐动手写“代码”了~ 本文主要介绍通过python来读取表格数据。Python读取表格的…

阅读更多...

C语言的函数递归

C语言的函数递归

目录前言一、递归是什么？ 1. 递归的思想 2. 递归的限制条件二、递归举例 1. 求n的阶乘 1.1 思路分析 1.2 画图推演 2. 顺序打印⼀个整数的每⼀位 2.1 思路分析 2.2 画图推演三、递归与迭代四、求第n个斐波那契数总结前言我们在函数上已经非常…

阅读更多...

《父母爱情》：找结婚对象，别只看有房有车有颜，这4个特点更重要！

《父母爱情》：找结婚对象，别只看有房有车有颜，这4个特点更重要！

点击上方△腾阳关注转载请联系授权你好，我是腾阳。最近，我重温了电视剧《父母爱情》，不禁被剧中人物的情感纠葛和生活琐事深深吸引。在当今社会，许多人在选择结婚对象时，往往只关注房子、车子、颜值&#xff0…

阅读更多...

2020年B题高穿越沙漠教社杯全国大学生数学建模竞赛题目与分析

2020年B题高穿越沙漠教社杯全国大学生数学建模竞赛题目与分析

↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓…

阅读更多...

DHECDH密钥交互算法

DHECDH密钥交互算法

1. 引言在现代通信中，数据的安全性至关重要。无论是网络浏览、电子邮件，还是移动支付，保护数据不被窃听和篡改都是首要任务。密钥交换是保障通信安全的关键技术之一，其中最著名的两个算法是 Diffie-Hellman (DH) 和椭圆曲线 Di…

阅读更多...

用Python实现时间序列模型实战——Day 8: 季节性ARIMA模型 (SARIMA)

用Python实现时间序列模型实战——Day 8: 季节性ARIMA模型 (SARIMA)

一、学习内容 1. SARIMA 模型的定义与公式推导 SARIMA 模型： SARIMA 模型是扩展了 ARIMA 模型的一种方法，全称为季节性自回归积分滑动平均模型（Seasonal AutoRegressive Integrated Moving Average）。它结合了 ARIMA 模型的非季…

阅读更多...

和字符串有关的经典OJ题——字符串的逆置和字符串的翻转

和字符串有关的经典OJ题——字符串的逆置和字符串的翻转

学习完字符串有关的函数之后，那当然在这个章节有两道经典的子题也要给大家分享一下。分别是字符串的逆置和字符串的翻转。一、字符串的逆置： 1. 问题描述： 问题很容易理解：对于用户任意给定的字符串，就比如说是原…

阅读更多...

MFC自定义消息实例

MFC自定义消息实例

1、新建一个SHOW名称的对话框文件 2、在SHOWDlg.h中添加代码 #define WM_Display (WM_USER100)afx_msg LRESULT OnDisplay(WPARAM wParam, LPARAM lParam);3、在SHOWDlg.cpp中添加代码 BEGIN_MESSAGE_MAP(CSHOWDlg, CDialog)...ON_MESSAGE(WM_Display, OnDisplay) END_MESSA…

阅读更多...

全面解读 HTTP 缓存机制：200 内存与硬盘缓存、304 状态码

更多内容：孔乙己大叔在探讨网页性能优化时，HTTP 缓存机制是不可或缺的一环。它不仅能够减少数据传输量，降低带宽消耗，还能显著提升网页的加载速度和用户体验。本文将深入解析 HTTP 状态码 200 和 304 在缓存机制中的作用&#xf…

阅读更多...

不懂就问，净水器到底过滤了什么？

不懂就问，净水器到底过滤了什么？

在水质问题日益受到关注的今天，净水器已成为许多家庭的必备品。然而，对于净水器究竟能够过滤掉多少脏东西，很多人可能并不十分清楚。净水器的核心功能是去除水中的杂质和有害物质，确保我们饮用的水更加安全和健康。这就如同我们…

阅读更多...

【kafka】在Linux系统中部署配置Kafka的详细用法教程分享

【kafka】在Linux系统中部署配置Kafka的详细用法教程分享

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯，先赞后看哦~🎈🎈 🏆 作者简介：景天科技苑 🏆《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。 🏆《博客》：Python全…

阅读更多...

零工市场 Java 版源码开发：开启灵活就业新潮流

零工市场 Java 版源码开发：开启灵活就业新潮流

现如今，数字化经济发展的越来越迅速，那么灵活就业的方式也就更加受到大众的青睐。其中，零工市场的兴起为求职者和招聘方提供了更加便捷、高效的对接平台。系统概述零工市场系统是一个连接求职者和招聘方的在线平台，主要功能包…

阅读更多...

推荐文章

最新文章