关于对象检测,我们以前分享的文章都是介绍的2D的对象检测,但是我们很多使用场景下,希望检测到的对象能够以3D的影像呈现出来,本期介绍的MediaPipe Objectron便是是用于日常对象的移动实时3D对象检测解决方案。它检测2D图像中的对象,并通过在Objectron数据集上训练的机器学习(ML)模型估计其3D姿势。
3D对象检测
对象检测是一个广泛研究的计算机视觉问题,但是大多数研究都集中在2D对象预测上。虽然2D预测仅提供2D边界框,但通过将预测扩展到3D,人们可以捕获物体在世界上的大小,位置和方向,从而可以使用在机器人技术,自动驾驶汽车,图像检索和增强现实中的各种应用。尽管2D对象检测相对成熟并且已在行业中广泛使用,但是由于缺乏数据以及类别中对象的外观和形状的多样性,从2D图像进行3D对象检测仍然是一个具有挑战性的问题。
MediaPipe Objectron
用于3D对象检测的ML管道
MediaPipe建立了两个ML管道来从单个RGB图像预测对象的3D边界框:一个是两阶段的管道,另一个是单阶段的管道。两级比单级快3倍,且精度相似或更高。单级擅长检测多个对象,而两级擅长于单个对象。
两级管道