Microblink 是一家专门从事图像检测的 AI 公司。他们从 BlinkID、BlinkID Verify 和 BlinkCard 等产品开始进入身份空间。最近,他们的图像检测能力催生了可以处理其他类型图像的产品。例如,可以对收据执行产品检测,从而使用收据上的产品描述来查找产品 SKU 和其他详细信息。以下是 Microblink 产品的完整列表和描述。
BlinkID - 扫描和提取身份证件(如驾照和护照)中的数据。身份数据以 JSON 格式返回。
BlinkID 验证:确认身份证件的有效性。可以检查扫描的身份证件上任何条形码的真实性、人脸照片篡改、影印检测、数据不一致和屏幕检测,从而检测身份证件是否确实是显示在另一个屏幕上的图像。
BlinkCard:扫描并提取信用卡中的数据。它还通过检测屏幕的使用(用户实际上并不拥有信用卡)、卡上是否有手(用户实际上持有信用卡)和卡的复印件来检查信用卡是否存在欺诈。
BlinkReceipt:此产品将收据的图像转换为文本。然后,它可以获取产品描述或代码并查找 SKU 和 SKU 级数据。
BlinkShelf:产品识别,用户可以使用移动设备扫描杂货店货架并检测产品,包括产品的通用产品代码 (UPC)。
这些产品的核心都是为适当的图像识别任务训练的 AI 模型。但是,其中许多产品超出了简单的图像分类(欺诈或有效)。他们的许多产品都将图像转换为结构化数据。创建可以执行这种级别图像识别的 AI 模型需要数百小时的训练和多次遍历您的训练数据。最佳实践是进行多个实验来测试不同的模型架构和超参数选项。让我们来看看 Microblink 的数据基础设施多年来发生了怎样的变化,以处理需要不断增加的数据量的更苛刻的 AI 工作负载。
起初
当 Microblink 在 2012 年左右刚开始时,他们的基础设施是一组服务器,其数据驻留在这些服务器的各种文件系统上。如果驻留在多个服务器上的工作负载需要数据集,则会为每个工作负载创建数据集的副本。不幸的是,从来没有单一的真相来源。想象一下,一个数据集使用新数据进行更新,或者工程师为数据集找出一组更好的特征(一种通常称为特征工程的技术)。当这些更新发生时,无法确定谁需要更新。即使有谁需要更新的记录,仍然需要通过网络传输数据集的副本,这效率很低。每个 AI 工程团队都是以这种方式开始的,在使用文件系统手动管理数据时,拥有多个事实来源是一个常见问题。Microblink 决定尝试云供应商来解决他们的数据问题。
迁移到云
Microblink 的 AI 数据基础设施的下一个版本使用了 Google Cloud Platform (GCP)。目标是解决当必须将数据从一个服务器复制到另一个服务器时产生的“多个事实来源”问题。然而,随着数据的增长,GCP 成为摩擦的根源,因为 GCP 云存储无法满足训练模型的需求。此外,GPU 价格昂贵,无法按需使用,也无法按需扩展。您必须购买通常未得到充分利用的大型机器,从而产生大量成本。Microblink 决定将计算迁移到本地。
遣返计算
为了解决这个问题,Microblink 决定在 GCP 与其本地数据中心之间设置同步。我们的想法是 GCP 可以成为所有数据的单一事实来源,并且训练将在本地进行,其中将设置本地服务器以提供对数据的更快访问。换句话说,GCP 将容纳数据的主副本。当需要训练数据集时,同步会将其移动到本地,以便在模型训练期间进行高速访问。这最初提供了在训练实验期间更快地访问数据,并且还降低了成本,因为训练所需的计算现在在本地进行,并且云中的计算成本很高。不幸的是,在云和本地服务器之间同步数据带来了一系列新问题。同步的速度不是很好,同步本身不断崩溃。因此,Microblink 再次对他们处理数据的方式并不满意,他们的数据正在快速增长。大约在同一时间,Microblink 的本地数据中心开始配备 Kubernetes 集群。Microblink 决定现在是时候做一些强大而伟大的事情,一劳永逸地解决他们的数据问题了。“当我们的数据中心有了 Kubernetes 后,我告诉我的团队,现在是构建强大而伟大的东西的黄金时机。”Filip Suste,Microblink 平台团队工程经理
用于数据遣返的 MinIO
Microblink 决定实施一种云原生对象存储解决方案,该解决方案既可以是其所有数据的主副本,也可以是在训练模型时快速提供数据的平台。他们最初尝试使用 Ceph,但事实证明它太难维护了。然后他们来到了 MinIO。Microblink 更容易设置和维护 MinIO,但他们从 MinIO 获得的最大好处是性能得到提高。目前,他们有 75 TB(以每年 8 TB 的速度增长)的身份数据和来自世界各地的身份文件,这些数据和身份文件由小图像(低分辨率)和小文件组成,从而产生大量对象。MinIO 在模型训练期间提供的速度和带宽使他们每天可以运行更多实验。众所周知,您可以运行的训练实验越多,新想法得到验证的速度就越快,一旦新想法被证明可行,就可以更快地交付价值。Microblink 目前每天运行大约 30 个实验。“对我们来说,一个惊喜是,在网络升级后,我们注意到 MinIO 的性能提高了。” 节省成本也是一个重要的好处。使用 MinIO 来存储所有数据意味着云存储成本大大降低。此外,不再需要与云同步,因此入口和出口费用也大大降低。底线是节省了 62% 的成本。如今,Microblink 仅使用 GCP 进行数据获取。处理新数据并将其发送到 MinIO 后,它就会从云存储中删除。
未来
Microblink 存储的 75 TB 数据中,大约有一半是从客户扫描的各种图像中提取的结构化数据。为了改进这些结构化数据的存储并允许他们的产品利用它做更多的事情,Microblink 将构建一个现代数据湖(也称为数据湖仓一体)。现代数据湖是一半的数据湖(用于图像等非结构化数据)和一半数据仓库(用于结构化数据),两者都使用 MinIO。现代数据湖是通过 Netflix、Uber 和 Databricks 分别提出的 Apache Iceberg、Apache Hudi 和 Deltalake 开放表格式实现的。一旦 Microblink 建立了他们的现代数据湖,他们将拥有一个完整的平台来存储他们的所有数据。他们将能够使用现代 Datalake 数据仓库端的高级功能分析其结构化数据,并将使用其数据湖进行高速模型训练。