Adevinta,位于挪威奥斯陆的跨国在线分类广告公司,以其全球市场的图像处理API为特色。Adevinta的主要使命是构建全球买家和卖家之间的桥梁,其在线市场运营覆盖11个国家,拥有众多备受信任的品牌,如荷兰的marktplaats、德国的Mobile.de和法国的leboncoin等。其核心业务是在线分类广告领域,为用户提供发布和搜索各类商品和服务的平台,包括二手物品、住宅、汽车和招聘职位等。
该公司技术团队由数据科学家和机器学习(ML)工程师组成,专注于深度学习技术在图像领域的应用,致力于研发大规模基于图像的机器学习解决方案,以协助Adevinta公司构建卓越的产品和提升客户体验。Adevinta的全球在线市场运营与其强大的技术团队为其打造出一流的在线分类广告平台,然而,与此同时,Adevinta公司面临着海外分类广告行业共性挑战,这需要创新性的技术解决方案来克服,而飞桨PaddleOCR的引入推动了该公司在项目领域的显著技术进步。
海外分类广告行业的技术痛点
在广告分类领域,Adevinta和其同行在采用传统的光学字符识别(OCR)解决方案时,共同面临一系列引发技术挑战的问题,包括:
多语言支持:全球市场涉及多种语言,因此客户可能需要处理不同语言的广告内容。实现多语言支持是一个挑战,需要确保图像处理API能够准确地处理不同语言的文本,包括文本识别和翻译。
文本识别准确性:分类广告通常包含大量文本信息,如商品描述、价格等。客户需要确保图像处理API能够高度准确地识别文本,以避免错误或误导性的广告信息,Adevinta的技术负责人提到在使用其他OCR框架时,尽管图像已被平铺显示,但检测效果并不理想,很难准确识别图像中的内容。其次,特殊符号通常无法被正确识别,这导致在文本识别过程中丢失了一些重要信息。最重要的是,有时字符在文本的开头或末尾会丢失,因此无法与预定的搜索模式匹配,从而导致搜索或匹配文本时出现问题。
处理大规模数据:分类广告网站通常拥有庞大的广告库,需要高效处理大规模的图像和文本数据。例如,Adevinta目前每月处理3.3亿个请求,因此,图像处理API需要具备良好的扩展性和性能,以应对高流量和大规模数据处理的需求。
欺诈检测:广告平台需要确保发布的广告内容合规且没有欺诈性质。因此,图像处理API可能需要集成欺诈检测功能,以帮助客户自动识别和标记潜在的欺诈广告。
实时性要求:一些国外广告网站对实时性有较高要求,例如在线竞价广告平台。图像处理API需要能够在极短的时间内处理图像和文本,以满足实时广告发布的需求。
数据隐私和安全:处理广告数据需要高度的数据隐私和安全性。图像处理API需要满足数据隐私法规,并提供安全的数据传输和存储方式,以保护客户和用户的数据安全。
成本效益:Adevinta的技术团队认为使用商业OCR(典型的闭源或专有OCR解决方案)可能会带来一些成本效益上的痛点,而开源项目相对性价比更高。
飞桨对于Adevinta项目的技术加持
在Adevinta的技术团队评估了各种开源OCR项目,包括基于Pytorch的MMOCR、EASY OCR、和基于飞桨的PaddleOCR,基于其内部基准测试和边缘案例中考虑不同组合,Adevinta技术团队在一番学习和了解后,决定引入飞桨,因其提供了一套丰富的工具和模型库,支持构建和训练深度学习模型,而且飞桨提供的开发套件PaddleOCR不仅仅是一个算法,它包括一系列预训练模型和用于识别图像和文档中的文本,以及训练自定义OCR模型的工具。具备了强大的图像文字识别功能,可应用于广告分类领域,也是一款出色的多语言OCR工具包,支持80多种语言的识别,提供数据标注和合成工具,支持在服务器、移动设备、嵌入式系统和物联网设备之间进行训练和部署。利用飞桨PaddleOCR提供的模型训练、推理部署能力,Adevinta实现了广告平台的欺诈检测业务落地,帮助他们有效地识别潜在的欺诈行为,确保广告平台上的内容质量和合规性。飞桨不仅帮助该公司提高了广告平台的整体安全性,还为用户提供了更可信赖的广告体验。由于其支持多种语言,包括中文、英文以及其他主要语言,对于占据多国市场的跨国公司来说,多语种数据处理非常有价值。
PaddleOCR项目概览
Adevinta国际团队使用飞桨带来的业务增益
作为一家国际公司,每天为数百万用户提供服务,Adevinta的计算机视觉团队致力于改进OCR API。在经过多次框架测试后,他们创建了一个图像模拟器,用于找到与目标用户需求相匹配的算法。在仔细内部审核和改进后,他们选择了飞桨。现在,新API相对于基于FOTS的解决方案,延迟改进了7.5倍,同时服务成本减少了7%。此外,由于新API的价格比典型的外部解决方案(如GCP OCR)便宜12倍,因此他们也收到了用户对其“图像中的文本2.0”速度和准确性的积极反馈。除此之外,有以下几个显著的业绩方面改善:
基准改进:PaddleOCR在每张图片的平均召回率方面表现出色,达到了0.65,相比使用传统OCR的0.43平均召回率,有了显著提高,召回率提高了51%。这意味着可以更准确地提取和解释广告数据。
广告自动标记:通过使用PaddleOCR,Adevinta能够标记出7%的广告,使其更加安全和可信赖,提高了广告平台的内容质量。
市场扩展:引入了一个新的市场平台,使用飞桨实现的Cognition API得到了广泛采用,用户数量大幅增加了154%,这显示出飞桨帮助Adevinta扩大其服务范围和容量,以满足不断增长的需求。
成本节省:采用飞桨也在经济上带来了好处,相对于使用付费OCR解决方案,Adevinta通过使用Cognition API实现了可观的成本节省。
在技术方案中,Adevinta首先通过数据准备,Adevinta拥有来自市场的精选数据集,这些数据集包含了各种具有挑战性的例子,有助于验证模型在实际场景中的性能。其次是建模,其采用了预训练的飞桨模型,然后是训练,Adevinta编写了一个自定义的Python代码,用于创建模拟数据生成器,以训练不同情景下的PP-OCR模型,从而确保性能和准确性。最后是部署,使用飞桨提供的推理部署代码将PP-OCR模型部署到云端,以便该公司应用程序可以访问和使用该模型。这一系列步骤构成了Adevinta项目的关键环节,提供了一个更准确、更快速且更经济的AI解决方案,并且提高了其在线广告平台的质量和用户体验。
如何创建PP-OCR模型产线
为了更好的方便开发者,聚合了飞桨丰富模型(包括但不限于PP-OCR)的飞桨AI套件PaddleX已上线飞桨AI Studio星河社区,大家可通过项目大厅进入到PaddleX官网,在精选模型库中选择PP-OCRv4,创建属于你自己的PP-OCRv4模型产线。欢迎扫描下方二维码或点击阅读原文进入星河社区交流频道。
关注【飞桨PaddlePaddle】公众号
获取更多技术内容~