《Counterfeiting Scalable Detection Image Based System for E-commerce》中文校对版

news2024/11/25 19:34:15

文章汉化系列目录


文章目录

  • 文章汉化系列目录
  • 摘要
  • CCS 概念:
  • 关键词
  • 1 引言
  • 2 E-CoS
    • 2.1 e-CoS架构
    • 2.2 e-CoS 模块
      • 2.2.1 图像相似度模块
      • 2.2.2 索引和搜索模块
      • 2.2.3 索引
      • 2.2.4 搜索
  • 3 性能考量
    • 3.1 示例 1
    • 3.2 示例 2
    • 3.3 示例 3
  • 4 结论
  • 致谢


摘要

 电子商务中的假冒问题通过本论文所提出的专门大型反向图像搜索引擎 e-CoS 得到了解决,该引擎基于无服务器架构,具有高性能。该系统在在线假冒检测领域进行了测试,并取得了令人鼓舞的结果。要推广该解决方案,需要电子商务各方前所未有的合作与信息共享,其中公众将发挥关键作用。随着现代消费者日益关注伦理问题,以及假冒带来的巨大负面社会和经济影响,这种大规模应用的前景变得可能。

CCS 概念:

  • 信息系统 → 网络搜索与信息发现;电子商务;网络服务;
  • 应用计算 → 面向服务的架构;
  • 计算机系统组织 → 云计算。

关键词

假冒,电子商务,图像相似性,大规模系统

1 引言

据估计,全球假冒市场将在2022年达到2.8万亿美元【11】,超越非法毒品交易和人口贩运的规模。更令人担忧的是,假冒不仅助长了奴工和松散的工人安全条件,导致大量工人死亡和受伤,还成为恐怖主义资助的主要来源。该市场的加速增长很大程度上归因于在线假冒的迅速发展。在跨境电子商务扩张和电子商务在零售业中所占比重的推动下,如今其年市场规模预计已达到0.5万亿美元【8】。
 研究表明,在亚马逊或阿里巴巴等市场上销售的商品中,每五件就有一件是假冒产品【7, 13】。这是由于此类平台上第三方卖家的增多所致。目前,第三方卖家占所有在线销售的50%以上。虽然有多种原因可以解释电子商务这种范式转变的发生,但其中一些原因与当前的方法尤其相关。
 首先,围绕让人们创办自己的电子商务业务,出现了一种“家庭产业”。通过一些值得怀疑的成功案例,声称人们只需在家每天工作几小时就能实现六位或七位数的收入,这些自称为电子商务专家的人创建了教程,甚至向热切的电商创业者销售昂贵的课程。他们教授如何利用 Shopify 和 Amazon 等平台来创建店铺,并通过 Facebook、Instagram 和 Google Ad Words 等广告网络来推广从 AliExpress 或阿里巴巴等网站采购的产品。整个过程甚至可以完全自动化,使得一切看起来荒谬地简单且有利可图。然而,进入市场的人很快发现现实要严酷得多,实现哪怕微薄的盈利都需要付出大量努力。其中大部分人最终的支出远高于收入,这迫使他们做出调整,试图通过不断提高价格来实现收支平衡。像 1000-2000% 这样的高额加价【6】难以应用于正品,因为消费者不愿支付如此高的金额。因此,他们唯一的选择是购买那些因缺乏监管、知识产权保护以及基本的劳动和税收合规而极其廉价的假冒产品。更令人不安的是,大多数在线卖家可能甚至不知道自己在销售假冒商品。目前的系统设置方式使得唯一在卖家盈亏之外持续获利的角色就是假冒制造商。
 其次,用于阻止掠夺性定价行为的在线工具,如产品比价网站或产品聚合网站,技术上尚未发展到足以解决这一问题的程度,此外,由于其商业模式,它们还被激励对问题视而不见。如果这些网站上的信息仅来自付费合作商店,且卖家可以通过付费进入搜索结果的前三名,那么这些服务的效用就会受到质疑。大量用户对这些服务的准确性表示怀疑。此外,有些网站在供应商报价上附加了自己的加价,从而进一步向潜在客户收取费用。即使假设这些服务出于最佳意图运作,技术障碍依然存在。目前,这些服务严重依赖关键词,而不道德的卖家可以选择错误标注甚至完全不标注商品,从而规避索引。例如,一个基于 Shopify 的商店从 AliExpress 进口商品,与商品相关的名称、描述或其他文本可以被修改,以便更好地排名或完全规避索引。
 第三,电子商务相关方之间缺乏知识共享以及隐含的信息偏差使得假冒者能够轻松作弊。如果某个卖家在多个平台上销售产品,消费者的举报通常仅限于最初举报的平台。同样,不道德的卖家可以利用评分和举报系统来针对竞争对手,将他们从亚马逊等平台移除,至少在滥用审查的等待期间是这样。另一方面,如果不道德的卖家成为正在调查的对象,他们通常会在几分钟内创建一个新店铺并继续运营。虚假产品评论和评分是一个常见问题,且往往由专门从事此类活动的第三方提供支持。一些解决方案供应商甚至以99%的折扣从卖家处订购未发货的商品,以便让评论获得“已验证”的状态。消费者保护机构和其他非政府组织对消费品的调查结果也仅限于这些组织可以通过社交媒体自行创建的平台。此外,相关警告信息往往在消费者购买和收到商品后才发布。即便到了这个阶段,假冒者也能避免退货,因为退货到中国的成本往往超过了购买商品的价值。这种恶性循环确保了假冒市场的持续增长。
 在本文中,我们提出了一种潜在的技术解决方案的一部分,以在合适的经济激励以及政府、供应链各方和消费者的大规模采用下减少在线假冒的程度。我们将探讨专门用于电子商务的反向图像搜索引擎的架构。这是任何解决在线假冒问题的关键组成部分,因为图像在电子商务自动化基础设施中最常被共享,且是任何卖家界面中不可避免的一部分。消费者需要查看即将购买商品的视觉呈现,缺乏这种展示无疑会引起怀疑并导致交易取消。

2 E-CoS

我们的基本前提是,将从原始供应商网站获取的产品原始图片作为基准。任何与原始图片有显著偏差的产品图片都将被视为假冒品。我们的结果中将描述两个示例:一个是修改的商标,另一个是插入的额外设计元素。为此,我们提出了一个可扩展的反向图像搜索引擎,称为 e-CoS(电子商务假冒品可扩展检测系统),该系统能够检测给定的产品图片是否存在类似的原始图片。

2.1 e-CoS架构

 在本节中,我们提供了系统功能的高层次概述,描述了图 1 所示的架构。与传统搜索引擎类似【2】,该系统分为两个阶段:索引和搜索。系统利用一系列数据源来收集数据,包括一个内置的 API,可信品牌可以通过该 API 推送其产品信息,以及一个通用的电子商务爬虫。每个获取的产品都会被发送到“产品处理器”,该处理器提取主要 URL、图像 URL 和元数据(如标题、价格、描述、运输时间等)等相关信息,并将其存储在一个名为“产品库”的数据库中。

 索引阶段的主要组件是“索引器”,它为每张产品图片执行多个功能。首先,索引器下载、预处理并将图像存储到一个存储库中。由于系统必须能够扩展到数十亿张图像,因此我们只需为每张图片索引少量数据(即“指纹”)。为此,系统使用“图像签名生成器”从提供的图片中计算出特征向量(签名)。最后,索引器将包含图像特征和指向“产品库”条目的指针的文档进行索引。

 在搜索阶段,给定查询图像后,我们通过查找系统中的所有重复或相似图片来检测产品是否为假冒品,并提供正品的替代推荐。利用从产品图片中提取的特征向量,我们检索所有可能匹配的文档,并应用基于最近邻的匹配方法【5, 12】。如果查询签名与索引图像的签名之间的距离(得分)小于或等于特定阈值,则视为完全匹配。最终结果被提取到“排序系统”中,该系统基于之前计算的分数对结果进行排序。最后,系统返回排名靠前的产品的所有详细信息。

2.2 e-CoS 模块

e-CoS 系统包含三个重要组件:索引、搜索和图像相似度模块。首先,我们介绍图像相似度模块,其中包括用于生成图像签名的算法和计算签名间相似度的方法。其次,我们描述索引和搜索模块,提供了一种侧重于系统大规模特性的实现方法。

2.2.1 图像相似度模块

该组件的主要目标是计算图像签名,用以衡量两张图像之间的相似度分数。考虑到需要处理的大规模图像数据库,我们希望签名足够小以支持高效搜索,足够敏感以有效地从数据库中过滤出可能的重复项,并且足够稳健以识别已被调整大小、裁剪或轻度压缩的重复图像。我们决定采用并实现一种快速算法来生成图像签名,该算法由文献【14】提出。此五步算法提出了一种通过对图像不同区域的相对亮度进行编码来计算签名的方法。
 首先,我们使用 scikit-image 库中的标准颜色转换算法【9】将图像转换为灰度图。接下来,通过在图像上设置一个 9 x 9 的网格点来大幅减少数据量。在电子商务中,大多数产品图片都有白色背景,这意味着它们包含无特征部分(如图像边缘)。因此,我们定义网格时,使其能够适应轻度裁剪。然后,我们遍历这些网格区域(以每个网格点为中心),获取一个灰度像素(该区域的平均灰度值)。对于每个像素,我们将其灰度值与周围八个邻居进行比较,并生成一个包含 8 个元素的数组。比较结果为预定义范围内的一个值 [-2, 2],其中 -2 表示“更暗”,2 表示“更亮”。最后,我们收集所有生成的向量并将其展平,以获得最终的图像签名。
 我们通过计算图像签名 μ \mu μ ν \nu ν 之间的归一化距离来确定图像的相似度,如文献【14】所述:

∥ μ − ν ∥ ∥ μ ∥ + ∥ ν ∥ \frac{\|\mu - \nu\|}{\|\mu\| + \|\nu\|} μ+νμν

当归一化距离低于一个固定阈值时,两张图像被认为是相似的。由于产品图像的白色背景,签名中可能包含许多零值,因此我们设置了一个较低的阈值(实践中确定约为 0.45),以提高检测效果。该算法的实现使用了 Python,主要依赖 numPy 库。由于其执行速度快,我们将其部署在 AWS Lambda 上,实现了成本效益。

2.2.2 索引和搜索模块

 如今,电子商务中的数据量在全球范围内以前所未有的速度增长。仅在 2019 年,美国亚马逊上就有大约 1.2 亿种产品,这为全球范围内的产品图片数量设定了预期【10】。
 在为电子商务设计高级反向图像搜索引擎时,首先需要考虑的是可扩展性,这是我们系统开发的基本理念。在本文中,我们提出的基于大规模实现的分层架构为高效检测假冒产品提供了基础。
 e-CoS 是一种基于微服务的架构,托管在 Amazon Web Services (AWS) 上(见图 2)。该系统使用了一系列云服务,包括 AWS Lambda、Amazon API Gateway、Amazon Simple Storage Service (S3)、Amazon DynamoDB 和 Amazon Elasticsearch Service【1】。
 设计微服务之间的通信是我们系统中的另一个关键概念。e-CoS 组件之间的交互利用了不同类型的触发器,包括资源生命周期事件(将对象上传到 S3 或在 DynamoDB 中创建新条目)、响应传入的 HTTP 请求(索引新产品)或定时事件(处理上传的产品数据流)。

2.2.3 索引

索引阶段的第一部分采用无服务器架构【3, 4】,使系统能够自动扩展,同时提供内置的可用性和容错功能。设计的工作流程结合了三个 AWS Lambda 函数,分别负责存储、预处理和索引产品图像。
 应用程序的主要入口点是通过 Amazon API Gateway 实现的,API Gateway 是一种全托管服务,允许我们在大规模下创建、维护和监控 API。API Gateway 将整个请求作为输入发送到后端的 Lambda 函数。第一个 Lambda 函数在我们提出的架构中作为“产品处理器” (Product Processor) 的实现。对于“产品库” (Product Store),我们选择了 Amazon DynamoDB,这是一个完全托管的 NoSQL 数据库服务,支持键值和文档数据结构。
 在数据库中创建新产品条目会触发第二个 Lambda 函数,该函数负责下载产品图像、预处理图像并将其上传到 Amazon S3。已发布的 Amazon S3 对象的创建事件会触发最后一个 Lambda 函数,该函数生成图像签名并创建要索引的文档。这个最后的函数是索引阶段的重要部分,因为它定义了我们高效的签名索引方法。我们使用这种方法来确保无论数据规模多大,搜索都能保持低延迟。
 图像签名由“签名生成器”函数生成(前一节已描述)。生成签名后,我们将其分成 N 段,每段 k 字节。接着,通过将范围从 [-2, 2] 压缩到 [-1, 1] 来简化这些段以限制搜索空间。然后,将每个值加 1 使其非负(结果范围为 [0, 2])。我们使用三进制系统将每一段转换为一个唯一整数,具体来说,就是将每个数值乘以 3 的幂。最后,我们收集所有这些整数并使用倒排索引数据结构将其索引到我们的引擎中。图 3 展示了该四步算法。
在这里插入图片描述
 对于每个整数,索引存储包含完整图像签名和指向产品详细信息的指针的文档。整个理念是,整数索引比数组索引更高效。Amazon Elasticsearch Service 的功能很好地满足了我们的数据建模需求,同时将成本降至最低【1】。

2.2.4 搜索

 如我们在提出的架构中所述,e-CoS 的搜索阶段分为四个步骤。首先,使用“签名生成器”函数计算图像签名,并按照索引部分描述的相同算法将签名分解为 N 个唯一整数。然后,使用 Elasticsearch API 在索引中搜索每个整数。为减少响应时间,我们限制了检索文档的数量。所有检索到的文档都是潜在匹配项,因为仅匹配部分签名段(整数)并不能确保图像之间的高度相似。因此,我们根据查询图像签名与引擎提取的签名之间的归一化距离/相似度(在图像相似度模块中已介绍)对文档进行排序。最后,我们返回排名靠前的产品的详细信息。整个过程部署在名为“搜索函数”的 AWS Lambda 函数上,由 Amazon API Gateway 端点触发。

3 性能考量

 传统上,反向图像搜索引擎从质量和性能两个维度进行描述。质量维度包含两个额外的要素:召回率和精确率。我们的研究证实了文献【14】中的质量发现。此外,由于我们专注于假冒检测这一特定领域,我们发现该算法能够以平均 95% 的准确率检测重复和近似重复图像。如果造假者调整大小、修改元素或更换商标,我们的检测算法依然有效。我们通过以下三个示例进行说明:

3.1 示例 1

 图 4 表示原始产品图片,而图 5 是同一图片的调整大小版本。两者之间的归一化距离为 0.12,低于 0.45 的阈值。这表明我们已成功识别出匹配。
在这里插入图片描述
在这里插入图片描述

3.2 示例 2

 图 6 表示原始产品图片,而图 7 包含了额外的设计元素。在这种情况下,两者之间的归一化距离为 0.30,低于 0.45 的阈值。这表明我们已成功识别出匹配。
## 3、
在这里插入图片描述

3.3 示例 3

 图 8 表示原始产品图片,而图 9 则包含修改后的商标和签名。在这种情况下,两者之间的归一化距离为 0.09,低于 0.45 的阈值。这表明我们已成功识别出匹配。

 在性能方面,我们使用索引和搜索延迟、索引插入率以及存储量作为指标。结果如表 1 和表 2 所示。出于测试目的,我们使用了内存为 128 MB 的 AWS Lambda 函数、t2.small.elasticsearch 实例(1 个 vCPU 和 2 GB 内存)以及 EBS(Amazon Elastic Block Store)存储类型(10GB SSD)。

在这里插入图片描述

 根据我们的结果,该系统证明了其在成本效益上的可扩展性。这扩大了其在商业企业和研究领域中的应用可能性。

4 结论

 我们的结果表明,电子商务反向图像搜索引擎在假冒产业中可以产生显著影响,前提是其得到广泛采用。值得探索的一个方向是将我们的解决方案集成到社交电商平台中。这为算法创建正反馈循环提供了视角,可以通过添加机器学习和信息众包来实现。鉴于现代消费者对伦理问题的关注不断增加,这样的报告系统将是任何电子商务供应商界面中受欢迎的功能。

 当前的解决方案只是一个系统中的小组成部分,该系统依赖于供应链中所有道德相关方的共同努力。这样的倡议需要各方之间前所未有的信任以及在财务和时间上的投资,以教育和激励公众始终购买品牌商品。中国最有条件在这一倡议中发挥主导作用,因为假冒商品的持续存在导致西方买家对中国产品质量的负面看法,中国因此损失最为严重。虽然这种看法并不准确,因为大多数原装产品也来自中国,但这种印象足以令持怀疑态度的买家却步,从而使中国经济失去大量商机。“危机”一词在中文中既代表“威胁”也代表“机遇”,因此中国拥有巨大的经济潜力,不仅可以作为廉价的制造和运输中心,还可作为西方在线市场的可靠替代者,主导全球电子商务市场。

致谢

本项目由研究与创新部在“计划 1 – 国家研发系统发展”之下的“子计划 1.2 – 机构绩效 – RDI 卓越资助项目”资助,合同编号为 34PFE/19.10.2018。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2228555.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

前端开发设计模式——观察者模式

目录 一、定义和特点 1. 定义 2. 特点 二、实现方式 1. 使用 JavaScript 实现观察者模式的基本结构 2. 实际应用中的实现示例 三、使用场景 1. 事件处理 2. 数据绑定 3. 异步通信 4. 组件通信 四、优点 1. 解耦和灵活性 2. 实时响应和数据一致性 3. 提高代码的可…

思科--交换网络综合实验

前言 之前一直在学华为ENSP的命令,最近来了个实验(被坑了),要求是用思科完成。没法子,就弄呗 拓扑图 实验目标 首先配置以太通道(逻辑上的)实现链路冗余和负载共享 在交换机接口配置trunk&#…

推荐一款开源的免费PDF编辑工具:CubePDF Utility

CubePDF Utility是一款功能强大的开源免费PDF编辑器,它采用了基于缩略图的界面设计,为用户提供了直观且高效的PDF编辑体验。该软件特别针对那些希望以简单直观方式编辑 PDF 文件的用户而设计,支持多种操作,如合并、提取、拆分、更…

探索C嘎嘎:初步接触STL

#1024程序员节|征文# 前言: 在前文小编讲述了模版初阶,其实讲述模版就是为了给讲STL提前铺垫,STL是C中很重要的一部分,各位读者朋友要知道它的份量,下面废话不多说,开始走进STL的世界。 目录&am…

【java】java的基本程序设计结构03-charboolean

char类型 代表 字符--符号---几何图形 大小由编码类型决定。 char是基本类型,但String不是。 String是Java中的一个类,属于引用类型; char中只能放一个字符。 char a‘a’; //任意单个字符,加单引号。 char a‘中’;//任意单个中文…

22-Carla AD 代理

CARLA AD agent是一种AD agent,它可以遵循给定的路线,避免与其他车辆相撞,并通过访问地面真实数据来遵守红绿灯的状态。CARLA AD demo使用它来提供一个如何使用ROS桥接的示例。 在内部,CARLA AD Agent使用单独的节点进行局部规划。…

Could not find the planner configuration ‘None‘ on the param server

moveit中运行demo.launch报错:Could not find the planner configuration ‘None’ on the param server 打开config文件夹下的config,找到ompl_planning.yaml文件,找到: arm: default_planner_config: None gripper: default_p…

微信支付宝小程序SEO优化的四大策略

在竞争激烈的小程序市场中,高搜索排名意味着更多的曝光机会和潜在用户。SEO即搜索引擎优化,对于小程序而言,主要指的是在微信小程序商店中提高搜索排名,从而增加曝光度和用户访问量。有助于小程序脱颖而出,提升品牌知名…

Servlet 3.0 注解开发

文章目录 Servlet3.0注解开发修改idea创建注解的servlet模板内容讲解 关于servlet3.0注解开发的疑问_配置路径省略了属性urlPatterns内容讲解内容小结 Servlet3.0注解开发 【1】问题 说明:之前我们都是使用web.xml进行servlet映射路径的配置。这样配置的弊端&…

如何把网页的图片批量下载?3批量下载方法有详细步骤

如何把网页的图片批量下载?在浏览网页时,我们经常会遇到内容丰富、图片繁多的页面,无论是欣赏美图集、研究设计案例,还是收集教学素材,这些图片往往都是宝贵的资源。然而,一张张手动保存不仅耗时费力&#…

Linux中SPI

参考资料 https://www.cnblogs.com/aaronLinux/p/6219146.html1.SPI 2.SPI传输 2.1传输示例 首先,CS0拉低选中的SPI Flash , 然后在每个时钟周期, DO输出对应的电平。 SPI FLASH会在每个时钟的上升沿读取D0的电平。2.2SPI模式 根据SCK的电平以及数据在…

状态机模型

文章目录 一、大盗阿福二、股票买卖 IV三、股票买卖 V四、设计密码4.1kmp题目4.2设计密码 一、大盗阿福 题目链接 #include<iostream> #include<cstring> #include<algorithm> using namespace std; const int N 1e5 10; int f[N][2]; int main() {int…

用户统计开发思路

1. 需求分析 所谓用户统计&#xff0c;实际上统计的是用户的数量。通过折线图来展示&#xff0c;上面这根蓝色线代表的是用户总量&#xff0c;下边这根绿色线代表的是新增用户数量&#xff0c;是具体到每一天。所以说用户统计主要统计两个数据&#xff0c;一个是总的用户数量&…

我开源了一个短视频应用(Go+React)|DouTok2.0 项目介绍

前言 大家好&#xff0c;这里是白泽&#xff0c;拖更了一段时间&#xff0c;抱歉。在 DouTok2.0 可以初步允许大家接入开发之后&#xff0c;这篇文章才得以出炉。 DouTok&#xff1a;一个开源的 web 端的短视频应用&#xff0c;采用微服务架构&#xff0c;包含前后端&#xff…

JavaEE初阶---网络原理之TCP篇(二)

文章目录 1.断开连接--四次挥手1.1 TCP状态1.2四次挥手的过程1.3time_wait等待1.4三次四次的总结 2.前段时间总结3.滑动窗口---传输效率机制3.1原理分析3.2丢包的处理3.3快速重传 4.流量控制---接收方安全机制4.1流量控制思路4.2剩余空间大小4.3探测包的机制 5.拥塞控制---考虑…

玩转HF/魔搭/魔乐社区

下载依赖 下载指定文件 玩转HF/魔搭/魔乐社区 1. 闯关任务 &#x1f600;Hello大家好&#xff0c;这节课为大家带来“玩转HF/魔搭/魔乐社区”的课程&#xff0c;课程任务请访问闯关任务 2. 课程内容 &#x1f600;Hello大家好&#xff0c;欢迎来到书生大模型实战营第四期…

ReactNative Fabric渲染器和组件(5)

ReactNative Fabric渲染器和组件 简述 Fabric是ReactNative中新架构最核心的模块&#xff0c;本章我们会来了解一下自定义一个Fabric组件&#xff0c;然后在JS文件中声明之后如何&#xff0c;是怎么映射到原生构建一个View的。 关于Fabric架构理念官网已经有说明了&#xff0…

DataSophon集成ApacheImpala的过程

注意: 本次安装操作系统环境为Anolis8.9(Centos7和Centos8应该也一样) DataSophon版本为DDP-1.2.1 整合的安装包我放网盘了: 通过网盘分享的文件&#xff1a;impala-4.4.1.tar.gz等2个文件 链接: https://pan.baidu.com/s/18KfkO_BEFa5gVcc16I-Yew?pwdza4k 提取码: za4k 1…

计算机网络-MSTP概述

一、RSTP/STP的缺陷与不足 前面我们学习了RSTP对于STP的一些优化与快速收敛机制。但在划分VLAN的网络中运行RSTP/STP&#xff0c;局域网内所有的VLAN共享一棵生成树&#xff0c;被阻塞后的链路将不承载任何流量&#xff0c;无法在VLAN间实现数据流量的负载均衡&#xff0c;导致…

字节青训-兔群繁殖之谜

问题描述 生物学家小 R 正在研究一种特殊的兔子品种的繁殖模式。这种兔子的繁殖遵循以下规律&#xff1a; 每对成年兔子每个月会生育一对新的小兔子&#xff08;一雌一雄&#xff09;。新生的小兔子需要一个月成长&#xff0c;到第二个月才能开始繁殖。兔子永远不会死亡。 小 R…