视觉检索(以图搜图)技术分享

news2024/12/23 17:56:54

视觉检索(Visual Retrieval)是一个涉及计算机视觉和图像处理的技术领域,主要目标是从大量的视觉数据中找到与查询图像或视频相关的内容。视觉检索技术在多个领域都有广泛应用,如医疗图像分析、安全监控、机器人视觉、电子商务等。

视觉检索适用于电子商务直播销售领域,特别是直播产品检索(Live Product Retrieval, LPR)。这里使用的技术包括:

  1. 文本引导的注意机制:这种机制使用销售人员的语言内容来引导模型关注目标产品,从而能够在复杂的背景中准确识别和突出显示目标产品。这有助于模型忽略背景噪声并集中于重要的视觉信息。

  2. 长距离时空图网络:设计用来处理视频数据中的时空错位问题。这种网络通过实例级交互和帧级匹配,解决了直播视频中因图像异质性(即直播图像与商店标准图像的差异)带来的挑战。

  3. 多模态难例挖掘:这是一个高级技术,旨在训练模型识别那些外观高度相似但具有微妙视觉差异的产品。这对于提高模型在复杂电子商务环境中的准确性至关重要。

视觉检索的意义在于提供一种高效的方式来处理和解析大量的视觉信息,使得用户可以快速准确地找到他们需要的信息或产品。在电子商务直播销售中,这意味着可以提高消费者的购物体验,增强销售效率,并最终推动销售业绩的提升。通过使用先进的计算机视觉技术,可以更好地理解和利用直播视频中的内容,为消费者提供更加精准和个性化的购物建议。

论文作者:Xiaowan Hu,Yiyi Chen,Yan Li,Minquan Wang,Haoqian Wang,Quan Chen,Han Li,Peng Jiang

作者单位:Tsinghua University, Shenzhen;Kuaishou Technology

论文链接:http://arxiv.org/abs/2407.16248v1

项目链接:https://github.com/Huxiaowan/SGMN

内容简介:

1)方向:视觉检索

2)应用:电子商务直播销售

3)背景:随着电子商务的快速扩展,越来越多的消费者习惯通过直播进行购买。在这种环境中,准确识别销售人员推销的产品,即直播产品检索(LPR),成为一个基础且艰巨的挑战。LPR任务面临三个主要问题:1) 识别背景中干扰产品的目标产品;2) 视频图像异质性,即直播中展示的产品外观通常与商店中的标准产品图像差异显著;3) 店铺中存在许多具有细微视觉差异的混淆产品。

4)方法:为应对这些挑战,作者提出了时空图谱多模态网络(SGMN)。首先,采用文本引导的注意机制,通过销售人员的语言内容引导模型关注目标产品,突出其重要性以区别于背景中的杂乱产品。其次,设计了长距离时空图网络,实现实例级交互和帧级匹配,以解决视频图像异质性引起的错位问题。第三,提出了多模态难例挖掘,帮助模型在视频-图像-文本领域区分具有细微特征的高度相似产品。

5)结果:大量的定量和定性实验,证明了所提出的SGMN模型在性能上优于现有的最先进方法,且超越幅度显著。相关代码:https://github.com/Huxiaowan/SGMN。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2093100.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《高等代数》“爪”字型行列式

说明:此文章用于本人复习巩固,如果也能帮助到大家那就更加有意义了。 注:1)“爪”字型行列式的第一种求解方法是利用初等行(列)变换,将第一列除第一行的第 一个数以外的其它数…

浅谈常见的分布式ID生成方案

一、UUID UUID是通用唯一标识码的缩写,其目的是让分布式系统中的所有元素都有唯一的辨识信息,而不需要通过中央控制器来指定唯一标识。 优点: (1)降低全局节点的压力,使得主键生成速度更快; &…

Llamaindex RAG实践

加入xtunert文档作为提示词 让大模型理解xtuner

【C++ Primer Plus习题】7.8

问题: 解答: #include <iostream> using namespace std;#define SEASONS 4typedef struct _Spend {double money[SEASONS]; }Spend;const char* Snames[SEASONS] { "Spring","Summer","Fall","Winter" };void fill(double* ex…

vue2表格显隐列的封装【升级缓存版】

背景 我们知道&#xff0c;若依后台有列表页、表格字段有显隐列的功能&#xff0c;但是&#xff0c;页面一旦刷新&#xff0c;就又回到初始状态了&#xff0c;但是有时候我们想要刷新后也保留我们设置的显隐列&#xff0c;就需要自己封装了 若依显隐列示例图如下&#xff1a; …

RK3568笔记五十八:基于SIP的视频通话测试

若该文为原创文章,转载请注明原文出处。 一、简介 记录SIP的视频通话测试过程,以前有做过GB28181了解过SIP协议,后面由于一些原因,没有在做了,在安防领域上,有很多终端设备使用SIP协议实现视频对讲等功能。 此篇记录交叉编译eXosip和osip,并编写检测的SIP客户端,通过…

【kubernetes】kubernetes Deployment 详解

Deployment 详解 kubernetes Deployment 详解创建与删除kubernetes Deployment更新/回滚/缩放/暂停/恢复部署操作 发布策略1、在zs命名空间下创建3个httpd副本并查看结果2、尝试删除其中一个副本并查看结果3、删除所有副本并查看结果4、使用k8s做金丝雀发布测试 kubernetes Dep…

teamtalk最近联系会话

最近联系人相关信令和协议设计 enum BuddyListCmdID {CID_BUDDY_LIST_RECENT_CONTACT_SESSION_REQUEST 513,CID_BUDDY_LIST_RECENT_CONTACT_SESSION_RESPONSE 514,};流程图 根据最新的时间戳查找最新的会话更新客户端的会话时间 /*** 获取最近会话接口** param pPdu …

Java数据结构(七)——优先级队列与PriorityQueue

文章目录 优先级队列与PriorityQueue堆基本概念和性质建堆堆的插入堆的删除堆的应用 PriorityQueuePriorityQueue的构造方法PriorityQueue的常用方法PriorityQueue的模拟实现 经典TopK问题 优先级队列与PriorityQueue 优先级队列是一种特殊类型的队列&#xff0c;其中元素按照…

聊聊 OceanBase 内存管理

内存配置管理是数据库日常管理中非常重要的工作&#xff0c;正确合理配置数据库内存是保障系统高效运行的前提条件。 OceanBase 数据库是一个支持多租户架构的准内存级的分布式数据库&#xff0c;对大容量内存的管理和使用提出了很高的要求。实际使用上&#xff0c;OceanBase …

1.【R语言】R语言的下载和安装

R语言是一种开源编程语言&#xff0c;它提供了丰富的统计模型和图形绘制功能&#xff0c;广泛用于数据科学、统计分析、数据挖掘和机器学习。R有一个活跃的社区和大量的包&#xff0c;可以满足各种需求&#xff0c;如数据清洗、绘图和报告生成。其强大的数据处理能力和灵活的可…

【ESP-IDF FreeRTOS】队列管理

先包含下头文件。 #include "freertos/queue.h" 队列大家应该不陌生&#xff0c;就是一个先进先出的容器。用在FreeRTOS里用途就多了。 首先是可以让任务与任务之间以及中断之间通信&#xff0c;任务A把数据塞进队列再让任务B取出&#xff0c;这样就可以传递数据了…

BMC lighttpd kvm数据分析(websocket)

1.说明 lighttpd源码: https://github.com/lighttpd/lighttpd1.4.gitlighttpd wiki: https://redmine.lighttpd.net/projects/lighttpd/wiki/libfcgi: https://github.com/toshic/libfcgi/tree/master 注意: 本章的代码仓库: https://gitee.com/wit_yuan/lighttpd_kvm 2.编…

3127.构造相同颜色的正方形

1.题目描述 给你一个二维 3 x 3 的矩阵 grid &#xff0c;每个格子都是一个字符&#xff0c;要么是 B &#xff0c;要么是 W 。字符 W 表示白色&#xff0c;字符 B 表示黑色。 你的任务是改变 至多一个 格子的颜色&#xff0c;使得矩阵中存在一个 2 x 2 颜色完全相同的正方形。…

无敌美少男和无敌美少女构建企业级私有仓库(harbor)

一&#xff1a;harbor简介 Harbor 是由 vmware 公司开源的企业级 Docker Registry 项目。 它提供了以下主要功能和特点&#xff1a; 基于角色的访问控制&#xff08;RBAC&#xff09;&#xff1a;可以为不同的用户和用户组分配不同的权限&#xff0c;增强了安全性和管理的灵…

Linux下的MySQL8.0报错:[Err]1055

Linux下的MySQL8.0报错&#xff1a;[Err]1055 报错信息解决办法 报错信息 在Linux环境下的MySQL里执行SQL语句报如下错误&#xff1a;[Err] 1055 - Expression #1 of ORDER BY clause is not in GROUP BY clause and contains nonaggregated column information_schema.PROFIL…

maven 父子工程创建详解

maven 父子工程创建详解 一、Maven工程继承关系 继承概念 maven继承是指的Maven的项目中&#xff0c;让一个项目从另外项目中继承配置信息的机制。继承可以让我们在多个项目中共享同一个配置信息&#xff0c;简化项目的管理和维护工作 继承作用&#xff1a;在父工程中统一管理…

Datawhale AI夏令营 第五期 CV方向 Task3笔记

Task3&#xff1a;上分思路——数据集增强与模型预测 Part1&#xff1a;数据增强 数据增强是机器学习和深度学习中的一种技术&#xff0c;通过在原始数据集上应用一系列变换来人工地增加数据样本的数量和多样性&#xff0c;从而提高模型的泛化能力&#xff0c;减少过拟合&…

简单的 nginx 学习

简单的 nginx 学习 1. nginx的安装 1.1 下载安装包 去官网下载对应的nginx包&#xff0c;推荐使用稳定版本&#xff0c;上传nginx到linux系统 1.2 安装依赖环境 安装gcc环境 yum install gcc-c安装PCRE库&#xff0c;用于解析正则表达式 yum install -y pcre pcre-develzlib压…

【立体匹配】双目相机外参自标定方法介绍

双目相机外参自标定方法 原理实践 双目相机外参自标定方法是一种无需固定标定板&#xff0c;在拍摄实际场景的两张图像时&#xff0c;通过计算两幅图像之间的匹配特征点对&#xff0c;结合相机的内参矩阵&#xff0c;来实时求解两个相机之间相对位置&#xff08;即外参&#xf…