自动化图像标注是否可靠?人人可尝试的方案

news2024/11/28 10:35:24

  一、背景

        随着大模型的崛起,多模态模型如雨后春笋一样快速发展。我们可以借助多模态大模型理解物理世界中的物体,在上篇文章大模型时代,图像描述生成(image caption)怎么走?中提到基于大模型的图像描述生成效果后,随着GPT-4v的出现,多模态大模型在内容理解、以及机器人环境感知决策等方面都有了不错的运用,但对于许多任务依旧离不开检测分割,目前GPT4V给出的目标坐标效果较差,个人觉得未来GPT4V一定会融入检测分割的能力。

        在日常工作或项目中有哪些开源的模型能够辅助我们完成对通用物品的识别分割与理解。近一段有一些不错的论文与开源模型值得借鉴,主要介绍个人实测效果突出的两个模型。

1)、GLEE是一个对象级的基础模型,用于定位和识别图像和视频中的对象。论文的主要贡献为:

  • 通过一个统一的框架,GLEE可以在开放世界场景中完成任意物体的检测、分割、跟踪、接地和识别,以完成各种物体感知任务。
  • 采用内聚学习策略,GLEE从不同监督级别的不同数据源中获取知识,以形成通用对象表示,擅长零次迁移到新数据和任务。

2)、Grounding Large Multimodal Model(GLaMM)

通过端到端的训练方法,实现对图像深层次理解的同时,提供了像素级别的地面分割和对话能力。对于空间理解有较大的提升。

        GLaMM 包含五个核心组件,以实现可视化地面对话:全局图像编码器、区域编码器、LLM、地面图像编码器、像素解码器。这些组件是一套协同设计,既可以处理文本输入,也可以处理可选的视觉提示(图像级别和感兴趣区域),从而允许在多个粒度级别进行交互,并生成具有地面文本响应。

        其他的模型如SPHINX、SceneVerse、GlaMM、智谱AI 新一代多模态大模型CogVLM、SAM系列的模型等。有了这些多模态大模型,似乎很多任务都可以用多模态来解决,但对于实际应用来说实时性与稳定性是必须兼顾的。目前工业场景中依旧是采用相对成熟的检测分割模型来实现,多模态大模型能否给日常项目带来收益呢,这个是必然可以的。数据标注的过程就是一个不错的收益,可以通过自动化的标注来减少数据成本。

二、开源工具与模型方案

        目前有一些开源的自动化工具如:X-Anylabeling,里面集成了目前开源的模型,通过prompt的方式可以实现自动化的标注。整个系统的组成框架如下:

        这种方式在一定程度上能给满足要求,但对于开发者来说prompt的撰写关系着最终的效果,往往合适的prompt也是需要花费很久去调试的。除此基于Python和OpenCV实现半自动标注工具为pyOpenAnnotate也开用来标注数据。很明显存在的问题就是传统方法实现,对于多数需要手动调整阈值,存在很大的弊端。

         学术界也有很多值得借鉴的前沿方法。 GenSAM号称一个提示实现批量图片分割,告别逐一标注。介绍了一种名为GenSAM的测试时自适应机制,通过给定简单的文本描述,结合图像信息推理出目标对象的详细语义信息,生成无歧义的视觉提示,从而指导分割过程,效果如下。

        此外还有一些不错的方法。如XMem,用户提供第一帧的注释,采用视频对象分割(VOS)在给定视频中突出显示指定的目标对象。Tracking-Anything-with-DEVA,AutoTrackingAnything采用跟踪的方法对物体实现分割。DEVA首先会分割连续的视频帧,提取目标像素级分割结果,然后在一个片段(滑窗)内将后面及帧的分割结果对齐到时间t上,之后利用片段一致性保留高支持性的目标分割结果,滤除IoU较低的分割结果(误检和低质量分割)。随后,对齐后的分割结果进行时序传播,进行固定帧数的传播以后再次和片段一致性分割结果进行融合(漏检),得到最终生成的视频分割结果。实际当中最大的问题是实时性,不过这个项目值得参考与借鉴。

  三、人人可实现实时方案与效果

        在实际项目中数据标注除了实例级别之外,较难的标注则是物体的某一部分,如工业零部件的端子,动物的耳朵等,这样的任务对物体的分割要求较高。具体实例如下:

        现需要将左上图中的绿色框的部分分割出来,右上图是适用SAM-HQ分割的结果,粗略的看分割效果还不错,但在细粒度分割任务中不能够满足要求,中间的插孔难以分割出来。为此采用如下的方案做自动化分割标注,整个流程如下所示:

        通过跟踪的方法对粗粒度与细粒度部分完成跟踪检测,结合检测结果分别进行粗细力度的分割,最终将结果整合,此方案在实测中标注质量与效率均不错。有其他想法的欢迎随时交流。

参考:

1、https://github.com/CVHub520/X-AnyLabeling

2、GitHub - jyLin8100/GenSAM: Code for AAAl 2024 paper: Relax Image-Specific Prompt Requirement in SAM: A Single Generic Prompt for Segmenting Camouflaged Objects

3、 GitHub - hkchengrex/XMem: [ECCV 2022] XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model​​​​​​4

4、GitHub - SysCV/sam-hq: Segment Anything in High Quality [NeurIPS 2023]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1599341.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ADB的基本语法及常用命令

学习网址 ADB命令的基本语法如下&#xff1a; adb [-d|-e|-s <serialNumber>] <command> 如果有多个设备/模拟器连接&#xff0c;则需要为命令指定目标设备。 参数及含义如下&#xff1a; 常用命令如下&#xff1a; 1. 启动ADB服务 adb start-server 2. 停止…

上网方法介绍

注册 https://www.cordcloud.biz/user 注册后先充值&#xff0c;充值后还要购买套餐&#xff0c; 充值之后&#xff0c;就可以看到流量了&#xff0c;然后复制订阅地址&#xff0c;到客户端去自动下载 URL拷贝到这个地方&#xff0c;然后点击下载

Vue.js前端开发零基础教学(六)

学习目标 了解什么是路由&#xff0c;能够说出前端后端路由的原理 掌握多种路由的使用方法&#xff0c;能够实现路由的不同功能 掌握Vue Router的安装及基本使用方法 5.1 初始路由 提到路由&#xff08;Route),一般我们会联想到网络中常见的路由器&#xff08;Router),…

清明三天,用Python赚了4万?

每年4月&#xff0c;是Python圈子里接私活的旺季&#xff0c;特别是在节假日这种数据暴增的时间段&#xff0c;爬虫采集、逆向破解类的私活订单会集中爆发&#xff0c;量大价高。几乎所有的圈内人都在趁着旺季接私活。 正好&#xff0c;我昨天就做了一单爬虫逆向私活&#xff…

Python统计分析库之statsmodels使用详解

概要 Python statsmodels是一个强大的统计分析库,提供了丰富的统计模型和数据处理功能,可用于数据分析、预测建模等多个领域。本文将介绍statsmodels库的安装、特性、基本功能、高级功能、实际应用场景等方面。 安装 安装statsmodels库非常简单,可以使用pip命令进行安装:…

SGI_STL空间配置器源码剖析(六)deallocate函数

deallocate函数是内存释放函数。源码及注释如下&#xff1a; /* __p may not be 0 */static void deallocate(void* __p, size_t __n) // __p指向要回收的内存起始地址&#xff0c;__n表示其大小{if (__n > (size_t) _MAX_BYTES)// 大于128字节&#xff0c;普通方式开辟和回…

男生穿什么裤子最百搭?适合男生穿的裤子品牌测评分享

每个伙伴们想必经常都会选择一些裤子&#xff0c;但现在市面上的裤子品牌也实在太多了&#xff0c;好不容易选到了几件好看的裤子&#xff0c;结果质量却很不好。主要就是因为现在有太多商家为了利润而使用一些舒适性、质量差的面料&#xff0c;那么今天就给大家分享一些质量上…

RAG 如何消除大模型幻觉

什么是大模型幻觉 假设我们有一个基于大型生成模型&#xff08;如GPT-3&#xff09;的问答系统&#xff0c;该系统用于回答药企内部知识库中的问题。我们向其提出一个问题&#xff1a;“阿司匹林的主要药理作用是什么&#xff1f;” 正确的答案应该是&#xff1a;“阿司匹林主…

无人棋牌室软硬件方案

先决思考 软件这一套确实是做一套下来&#xff0c;可以无限复制卖出&#xff0c;这个雀氏是一本万利的买卖。 现在肯定是有成套的方案&#xff0c;值不值得重做&#xff1f;为什么要重做&#xff1f; 你想达到什么效果&#xff1f;还是需要细聊的。 做这个东西难度不高&…

✌粤嵌—2024/3/18—搜索插入位置

代码实现&#xff1a; 二分法&#xff1a; 方法一&#xff1a;非递归&#xff0c;左闭右闭 int searchInsert(int *nums, int numsSize, int target) {int l 0, r numsSize - 1; // 左闭右闭int mid;while (l < r) {mid (l r) / 2;if (nums[mid] target) {return mid;}…

plc数据采集网关

在信息化与工业化深度融合的今天&#xff0c;数据采集成为了推动制造业智能化转型的重要基石。其中&#xff0c;PLC数据采集网关作为连接PLC设备与上层管理系统的桥梁&#xff0c;扮演着至关重要的角色。 一、PLC数据采集网关&#xff1a;定义与重要性 PLC数据采集网关是一种…

3D视觉引导麻袋拆垛破包 | 某大型化工厂

客户需求 此项目为大型化工厂&#xff0c;客户现场每日有大量麻袋拆垛破包需求&#xff0c;麻袋软包由于自身易变形、码放垛型不规则、运输后松散等情况&#xff0c;无法依靠机器人示教位置完成拆垛。客户遂引入3D视觉进行自动化改造。 工作流程&#xff1a; 3D视觉对紧密贴合…

论文略读:Window Attention is Bugged: How not to Interpolate Position Embeddings

iclr 2024 reviewer 打分 6666 窗口注意力、位置嵌入以及高分辨率微调是现代Transformer X CV 时代的核心概念。论文发现&#xff0c;将这些几乎无处不在的组件简单地结合在一起&#xff0c;可能会对性能产生不利影响问题很简单&#xff1a;在使用窗口注意力时对位置嵌入进行插…

基于ARX结构(模加运算循环移位异或运算)的密码杂凑算法Lemon512

基于ARX结构(模加运算&循环移位&异或运算)的密码杂凑算法Lemon512 黄金龙 QQ1435271638 密码杂凑算法 密码杂凑算法也称作“散列算法”或“哈希算法”,现在的密码行业标准统称其为密码杂凑算法,简称“杂凑算法”或“杂凑函数”。密码杂凑算法对任意长度的消息进行…

鱼哥推荐书籍第18期:《推荐系统》算法 案例与大模型

鱼哥推荐书籍第18期&#xff1a;《推荐系统》算法 案例与大模型 什么是推荐系统&#xff1f;推荐系统解决了哪些问题&#xff1f;推荐系统的应用领域常用的推荐算法&#xff1a;基于内容的推荐算法协同过滤算法&#xff1a; 如何系统学习推荐系统&#xff1a;第一部分&#xff…

【Java探索之旅】数组使用 初探JVM内存布局

&#x1f3a5; 屿小夏 &#xff1a; 个人主页 &#x1f525;个人专栏 &#xff1a; Java编程秘籍 &#x1f304; 莫道桑榆晚&#xff0c;为霞尚满天&#xff01; 文章目录 &#x1f4d1;前言一、数组的使用1.1 元素访问1.2 数组遍历 二、JVM的内存布局&#x1f324;️全篇总结 …

聚道云软件连接器助力企业实现滴滴出差报销自动化

一、客户介绍 某机械有限公司是一家在机械设备制造领域拥有深厚底蕴和卓越实力的企业。自公司成立以来&#xff0c;该公司始终秉承创新、务实、高效的发展理念&#xff0c;专注于机械设备的研发、生产和销售。经过多年的发展&#xff0c;公司已成为国内机械行业的佼佼者&#…

PyQt介绍——弹框介绍和使用

PyQt介绍——弹框介绍和使用 一、QMessageBox QMessageBox是一种通用的弹出式对话框&#xff0c;用于显示消息&#xff0c;允许用户通过单击不同的标准按钮对消息进行反馈 QMessageBox类提供了许多常用的弹出式对话框&#xff0c;如提示、警告、错误、询问、关于等对话框。这…

软考证书有用吗?软考证书的含金量大吗?

一、以考代评 通过考试并获得相应级别计算机专业技术资格&#xff08;水平&#xff09;证书的人员&#xff0c;表明其已具备从事相应专业岗位工作的水平和能力&#xff0c;用人单位可根据《工程技术人员职务试行条例》有关规定和工作需要&#xff0c;从获得计算机专业技术资格…

诺奖得主与巨资“铸剑”:两年内,Pasqal冲刺量子计算的商业化大关

PASQAL的量子计算机 几年前&#xff0c;中性原子技术似乎是最不可能取得突破的领域。因为它们没有电荷&#xff0c;这使得控制它们显得尤为困难。然而&#xff0c;随着哈佛大学和麻省理工学院的最新研究进展&#xff0c;以及像QuEra这样的私营初创公司的努力&#xff0c;中性原…