文章汉化系列目录
文章目录
- 文章汉化系列目录
- 摘要
- CCS 概念:
- 关键词
- 1 引言
- 2 E-CoS
- 2.1 e-CoS架构
- 2.2 e-CoS 模块
- 2.2.1 图像相似度模块
- 2.2.2 索引和搜索模块
- 2.2.3 索引
- 2.2.4 搜索
- 3 性能考量
- 3.1 示例 1
- 3.2 示例 2
- 3.3 示例 3
- 4 结论
- 致谢
摘要
电子商务中的假冒问题通过本论文所提出的专门大型反向图像搜索引擎 e-CoS 得到了解决,该引擎基于无服务器架构,具有高性能。该系统在在线假冒检测领域进行了测试,并取得了令人鼓舞的结果。要推广该解决方案,需要电子商务各方前所未有的合作与信息共享,其中公众将发挥关键作用。随着现代消费者日益关注伦理问题,以及假冒带来的巨大负面社会和经济影响,这种大规模应用的前景变得可能。
CCS 概念:
- 信息系统 → 网络搜索与信息发现;电子商务;网络服务;
- 应用计算 → 面向服务的架构;
- 计算机系统组织 → 云计算。
关键词
假冒,电子商务,图像相似性,大规模系统
1 引言
据估计,全球假冒市场将在2022年达到2.8万亿美元【11】,超越非法毒品交易和人口贩运的规模。更令人担忧的是,假冒不仅助长了奴工和松散的工人安全条件,导致大量工人死亡和受伤,还成为恐怖主义资助的主要来源。该市场的加速增长很大程度上归因于在线假冒的迅速发展。在跨境电子商务扩张和电子商务在零售业中所占比重的推动下,如今其年市场规模预计已达到0.5万亿美元【8】。
研究表明,在亚马逊或阿里巴巴等市场上销售的商品中,每五件就有一件是假冒产品【7, 13】。这是由于此类平台上第三方卖家的增多所致。目前,第三方卖家占所有在线销售的50%以上。虽然有多种原因可以解释电子商务这种范式转变的发生,但其中一些原因与当前的方法尤其相关。
首先,围绕让人们创办自己的电子商务业务,出现了一种“家庭产业”。通过一些值得怀疑的成功案例,声称人们只需在家每天工作几小时就能实现六位或七位数的收入,这些自称为电子商务专家的人创建了教程,甚至向热切的电商创业者销售昂贵的课程。他们教授如何利用 Shopify 和 Amazon 等平台来创建店铺,并通过 Facebook、Instagram 和 Google Ad Words 等广告网络来推广从 AliExpress 或阿里巴巴等网站采购的产品。整个过程甚至可以完全自动化,使得一切看起来荒谬地简单且有利可图。然而,进入市场的人很快发现现实要严酷得多,实现哪怕微薄的盈利都需要付出大量努力。其中大部分人最终的支出远高于收入,这迫使他们做出调整,试图通过不断提高价格来实现收支平衡。像 1000-2000% 这样的高额加价【6】难以应用于正品,因为消费者不愿支付如此高的金额。因此,他们唯一的选择是购买那些因缺乏监管、知识产权保护以及基本的劳动和税收合规而极其廉价的假冒产品。更令人不安的是,大多数在线卖家可能甚至不知道自己在销售假冒商品。目前的系统设置方式使得唯一在卖家盈亏之外持续获利的角色就是假冒制造商。
其次,用于阻止掠夺性定价行为的在线工具,如产品比价网站或产品聚合网站,技术上尚未发展到足以解决这一问题的程度,此外,由于其商业模式,它们还被激励对问题视而不见。如果这些网站上的信息仅来自付费合作商店,且卖家可以通过付费进入搜索结果的前三名,那么这些服务的效用就会受到质疑。大量用户对这些服务的准确性表示怀疑。此外,有些网站在供应商报价上附加了自己的加价,从而进一步向潜在客户收取费用。即使假设这些服务出于最佳意图运作,技术障碍依然存在。目前,这些服务严重依赖关键词,而不道德的卖家可以选择错误标注甚至完全不标注商品,从而规避索引。例如,一个基于 Shopify 的商店从 AliExpress 进口商品,与商品相关的名称、描述或其他文本可以被修改,以便更好地排名或完全规避索引。
第三,电子商务相关方之间缺乏知识共享以及隐含的信息偏差使得假冒者能够轻松作弊。如果某个卖家在多个平台上销售产品,消费者的举报通常仅限于最初举报的平台。同样,不道德的卖家可以利用评分和举报系统来针对竞争对手,将他们从亚马逊等平台移除,至少在滥用审查的等待期间是这样。另一方面,如果不道德的卖家成为正在调查的对象,他们通常会在几分钟内创建一个新店铺并继续运营。虚假产品评论和评分是一个常见问题,且往往由专门从事此类活动的第三方提供支持。一些解决方案供应商甚至以99%的折扣从卖家处订购未发货的商品,以便让评论获得“已验证”的状态。消费者保护机构和其他非政府组织对消费品的调查结果也仅限于这些组织可以通过社交媒体自行创建的平台。此外,相关警告信息往往在消费者购买和收到商品后才发布。即便到了这个阶段,假冒者也能避免退货,因为退货到中国的成本往往超过了购买商品的价值。这种恶性循环确保了假冒市场的持续增长。
在本文中,我们提出了一种潜在的技术解决方案的一部分,以在合适的经济激励以及政府、供应链各方和消费者的大规模采用下减少在线假冒的程度。我们将探讨专门用于电子商务的反向图像搜索引擎的架构。这是任何解决在线假冒问题的关键组成部分,因为图像在电子商务自动化基础设施中最常被共享,且是任何卖家界面中不可避免的一部分。消费者需要查看即将购买商品的视觉呈现,缺乏这种展示无疑会引起怀疑并导致交易取消。
2 E-CoS
我们的基本前提是,将从原始供应商网站获取的产品原始图片作为基准。任何与原始图片有显著偏差的产品图片都将被视为假冒品。我们的结果中将描述两个示例:一个是修改的商标,另一个是插入的额外设计元素。为此,我们提出了一个可扩展的反向图像搜索引擎,称为 e-CoS(电子商务假冒品可扩展检测系统),该系统能够检测给定的产品图片是否存在类似的原始图片。
2.1 e-CoS架构
在本节中,我们提供了系统功能的高层次概述,描述了图 1 所示的架构。与传统搜索引擎类似【2】,该系统分为两个阶段:索引和搜索。系统利用一系列数据源来收集数据,包括一个内置的 API,可信品牌可以通过该 API 推送其产品信息,以及一个通用的电子商务爬虫。每个获取的产品都会被发送到“产品处理器”,该处理器提取主要 URL、图像 URL 和元数据(如标题、价格、描述、运输时间等)等相关信息,并将其存储在一个名为“产品库”的数据库中。
索引阶段的主要组件是“索引器”,它为每张产品图片执行多个功能。首先,索引器下载、预处理并将图像存储到一个存储库中。由于系统必须能够扩展到数十亿张图像,因此我们只需为每张图片索引少量数据(即“指纹”)。为此,系统使用“图像签名生成器”从提供的图片中计算出特征向量(签名)。最后,索引器将包含图像特征和指向“产品库”条目的指针的文档进行索引。
在搜索阶段,给定查询图像后,我们通过查找系统中的所有重复或相似图片来检测产品是否为假冒品,并提供正品的替代推荐。利用从产品图片中提取的特征向量,我们检索所有可能匹配的文档,并应用基于最近邻的匹配方法【5, 12】。如果查询签名与索引图像的签名之间的距离(得分)小于或等于特定阈值,则视为完全匹配。最终结果被提取到“排序系统”中,该系统基于之前计算的分数对结果进行排序。最后,系统返回排名靠前的产品的所有详细信息。
2.2 e-CoS 模块
e-CoS 系统包含三个重要组件:索引、搜索和图像相似度模块。首先,我们介绍图像相似度模块,其中包括用于生成图像签名的算法和计算签名间相似度的方法。其次,我们描述索引和搜索模块,提供了一种侧重于系统大规模特性的实现方法。
2.2.1 图像相似度模块
该组件的主要目标是计算图像签名,用以衡量两张图像之间的相似度分数。考虑到需要处理的大规模图像数据库,我们希望签名足够小以支持高效搜索,足够敏感以有效地从数据库中过滤出可能的重复项,并且足够稳健以识别已被调整大小、裁剪或轻度压缩的重复图像。我们决定采用并实现一种快速算法来生成图像签名,该算法由文献【14】提出。此五步算法提出了一种通过对图像不同区域的相对亮度进行编码来计算签名的方法。
首先,我们使用 scikit-image 库中的标准颜色转换算法【9】将图像转换为灰度图。接下来,通过在图像上设置一个 9 x 9 的网格点来大幅减少数据量。在电子商务中,大多数产品图片都有白色背景,这意味着它们包含无特征部分(如图像边缘)。因此,我们定义网格时,使其能够适应轻度裁剪。然后,我们遍历这些网格区域(以每个网格点为中心),获取一个灰度像素(该区域的平均灰度值)。对于每个像素,我们将其灰度值与周围八个邻居进行比较,并生成一个包含 8 个元素的数组。比较结果为预定义范围内的一个值 [-2, 2],其中 -2 表示“更暗”,2 表示“更亮”。最后,我们收集所有生成的向量并将其展平,以获得最终的图像签名。
我们通过计算图像签名
μ
\mu
μ 和
ν
\nu
ν 之间的归一化距离来确定图像的相似度,如文献【14】所述:
∥ μ − ν ∥ ∥ μ ∥ + ∥ ν ∥ \frac{\|\mu - \nu\|}{\|\mu\| + \|\nu\|} ∥μ∥+∥ν∥∥μ−ν∥
当归一化距离低于一个固定阈值时,两张图像被认为是相似的。由于产品图像的白色背景,签名中可能包含许多零值,因此我们设置了一个较低的阈值(实践中确定约为 0.45),以提高检测效果。该算法的实现使用了 Python,主要依赖 numPy 库。由于其执行速度快,我们将其部署在 AWS Lambda 上,实现了成本效益。
2.2.2 索引和搜索模块
如今,电子商务中的数据量在全球范围内以前所未有的速度增长。仅在 2019 年,美国亚马逊上就有大约 1.2 亿种产品,这为全球范围内的产品图片数量设定了预期【10】。
在为电子商务设计高级反向图像搜索引擎时,首先需要考虑的是可扩展性,这是我们系统开发的基本理念。在本文中,我们提出的基于大规模实现的分层架构为高效检测假冒产品提供了基础。
e-CoS 是一种基于微服务的架构,托管在 Amazon Web Services (AWS) 上(见图 2)。该系统使用了一系列云服务,包括 AWS Lambda、Amazon API Gateway、Amazon Simple Storage Service (S3)、Amazon DynamoDB 和 Amazon Elasticsearch Service【1】。
设计微服务之间的通信是我们系统中的另一个关键概念。e-CoS 组件之间的交互利用了不同类型的触发器,包括资源生命周期事件(将对象上传到 S3 或在 DynamoDB 中创建新条目)、响应传入的 HTTP 请求(索引新产品)或定时事件(处理上传的产品数据流)。
2.2.3 索引
索引阶段的第一部分采用无服务器架构【3, 4】,使系统能够自动扩展,同时提供内置的可用性和容错功能。设计的工作流程结合了三个 AWS Lambda 函数,分别负责存储、预处理和索引产品图像。
应用程序的主要入口点是通过 Amazon API Gateway 实现的,API Gateway 是一种全托管服务,允许我们在大规模下创建、维护和监控 API。API Gateway 将整个请求作为输入发送到后端的 Lambda 函数。第一个 Lambda 函数在我们提出的架构中作为“产品处理器” (Product Processor) 的实现。对于“产品库” (Product Store),我们选择了 Amazon DynamoDB,这是一个完全托管的 NoSQL 数据库服务,支持键值和文档数据结构。
在数据库中创建新产品条目会触发第二个 Lambda 函数,该函数负责下载产品图像、预处理图像并将其上传到 Amazon S3。已发布的 Amazon S3 对象的创建事件会触发最后一个 Lambda 函数,该函数生成图像签名并创建要索引的文档。这个最后的函数是索引阶段的重要部分,因为它定义了我们高效的签名索引方法。我们使用这种方法来确保无论数据规模多大,搜索都能保持低延迟。
图像签名由“签名生成器”函数生成(前一节已描述)。生成签名后,我们将其分成 N 段,每段 k 字节。接着,通过将范围从 [-2, 2] 压缩到 [-1, 1] 来简化这些段以限制搜索空间。然后,将每个值加 1 使其非负(结果范围为 [0, 2])。我们使用三进制系统将每一段转换为一个唯一整数,具体来说,就是将每个数值乘以 3 的幂。最后,我们收集所有这些整数并使用倒排索引数据结构将其索引到我们的引擎中。图 3 展示了该四步算法。
对于每个整数,索引存储包含完整图像签名和指向产品详细信息的指针的文档。整个理念是,整数索引比数组索引更高效。Amazon Elasticsearch Service 的功能很好地满足了我们的数据建模需求,同时将成本降至最低【1】。
2.2.4 搜索
如我们在提出的架构中所述,e-CoS 的搜索阶段分为四个步骤。首先,使用“签名生成器”函数计算图像签名,并按照索引部分描述的相同算法将签名分解为 N 个唯一整数。然后,使用 Elasticsearch API 在索引中搜索每个整数。为减少响应时间,我们限制了检索文档的数量。所有检索到的文档都是潜在匹配项,因为仅匹配部分签名段(整数)并不能确保图像之间的高度相似。因此,我们根据查询图像签名与引擎提取的签名之间的归一化距离/相似度(在图像相似度模块中已介绍)对文档进行排序。最后,我们返回排名靠前的产品的详细信息。整个过程部署在名为“搜索函数”的 AWS Lambda 函数上,由 Amazon API Gateway 端点触发。
3 性能考量
传统上,反向图像搜索引擎从质量和性能两个维度进行描述。质量维度包含两个额外的要素:召回率和精确率。我们的研究证实了文献【14】中的质量发现。此外,由于我们专注于假冒检测这一特定领域,我们发现该算法能够以平均 95% 的准确率检测重复和近似重复图像。如果造假者调整大小、修改元素或更换商标,我们的检测算法依然有效。我们通过以下三个示例进行说明:
3.1 示例 1
图 4 表示原始产品图片,而图 5 是同一图片的调整大小版本。两者之间的归一化距离为 0.12,低于 0.45 的阈值。这表明我们已成功识别出匹配。
3.2 示例 2
图 6 表示原始产品图片,而图 7 包含了额外的设计元素。在这种情况下,两者之间的归一化距离为 0.30,低于 0.45 的阈值。这表明我们已成功识别出匹配。
3.3 示例 3
图 8 表示原始产品图片,而图 9 则包含修改后的商标和签名。在这种情况下,两者之间的归一化距离为 0.09,低于 0.45 的阈值。这表明我们已成功识别出匹配。
在性能方面,我们使用索引和搜索延迟、索引插入率以及存储量作为指标。结果如表 1 和表 2 所示。出于测试目的,我们使用了内存为 128 MB 的 AWS Lambda 函数、t2.small.elasticsearch 实例(1 个 vCPU 和 2 GB 内存)以及 EBS(Amazon Elastic Block Store)存储类型(10GB SSD)。
根据我们的结果,该系统证明了其在成本效益上的可扩展性。这扩大了其在商业企业和研究领域中的应用可能性。
4 结论
我们的结果表明,电子商务反向图像搜索引擎在假冒产业中可以产生显著影响,前提是其得到广泛采用。值得探索的一个方向是将我们的解决方案集成到社交电商平台中。这为算法创建正反馈循环提供了视角,可以通过添加机器学习和信息众包来实现。鉴于现代消费者对伦理问题的关注不断增加,这样的报告系统将是任何电子商务供应商界面中受欢迎的功能。
当前的解决方案只是一个系统中的小组成部分,该系统依赖于供应链中所有道德相关方的共同努力。这样的倡议需要各方之间前所未有的信任以及在财务和时间上的投资,以教育和激励公众始终购买品牌商品。中国最有条件在这一倡议中发挥主导作用,因为假冒商品的持续存在导致西方买家对中国产品质量的负面看法,中国因此损失最为严重。虽然这种看法并不准确,因为大多数原装产品也来自中国,但这种印象足以令持怀疑态度的买家却步,从而使中国经济失去大量商机。“危机”一词在中文中既代表“威胁”也代表“机遇”,因此中国拥有巨大的经济潜力,不仅可以作为廉价的制造和运输中心,还可作为西方在线市场的可靠替代者,主导全球电子商务市场。
致谢
本项目由研究与创新部在“计划 1 – 国家研发系统发展”之下的“子计划 1.2 – 机构绩效 – RDI 卓越资助项目”资助,合同编号为 34PFE/19.10.2018。