4D数据标注,掀起了业界新风向。
一是以BEV为代表的感知技术,输出的空间从2D透视图像转换到了3D空间+时序维度,4D标注应运而生;二是4D标注借助点云级别或object级别的重建,通过人工标注积累原始数据,再投喂训练云端大模型逐步替换人工标注,可实现标注效率提升80%以上。
叠加国内车企对标特斯拉的数据闭环方案、自动驾驶往更高阶能力发展等因素,车企对数据标注提出了更高要求,比如数据标注准确率需达到99%以上、服务商要配备专门的自动化标注平台和标注工具等。
这也意味着“高质高效”成为了数据标注赛道竞争焦点,行业技术门槛进一步提升。
一方面,智能驾驶技术的迭代,依赖算法的持续优化,进而取决于数据养料的质量。尤其是智能驾驶感知方案及计算平台的趋同化下,高质量数据俨然成为主机厂和各智能驾驶方案商重点建设的护城河。
另一方面,传统人工标注在效率和成本方面,已经难以满足模型训练对海量数据集的需求,由此驱动数据标注行业逐渐向自动化数据标注看齐,一场市场淘汰赛也已经打响。而缺乏技术竞争优势的纯人力数据标注公司,以及难支撑量产车数据标注体量的玩家或率先出局。
“汽车市场的数据标注需求不断变化和增加,包括从常规场景走向长尾场景,数据复杂度也在不断提升(从2D、3D到4D要求),对标注准确度的要求达到了99.9%,长期来看将体现在对数据供应商的长期合作能力要求。”澳鹏(中国)销售总监张先雄表示。
据悉,成立于1996年、2019年正式跨入中国市场的AI数据服务商澳鹏,拥有业内领先的人工智能辅助数据标注平台、一体化的AI数据及资源管理平台,可提供图像、文本、语音、音频、视频等类型的数据标注服务。
面向自动驾驶场景数据标注的机遇和挑战,澳鹏通过“出海”“AI辅助”“人才梯队”等关键词,传递出了秣马厉兵的新信号。
全面布局自动化AI数据标注
自2021年起,自动驾驶成为国内数据标注服务商眼里的热门业务场景,不同传感器、不同车型、不同特殊情况的数据标注需求源源不断,将数据标注赛道推向了蓝海。
从行业需求来看,数据标注主要是根据车企和智能驾驶方案商的要求,对语音、点云、图像、视频等数据对象进行不同方式的标注,从而为算法迭代提供大量的训练数据。
不过,随着自动驾驶等级的提升,激光雷达、摄像头、4D成像雷达等传感器的规模化应用,以及高速路、城市快速路、停车场等应用场景的不断丰富,自动驾驶数据标注的量级呈指数型上升,纯人工标注难以应对100k、1000k甚至更大规模的数据标注。
据介绍,澳鹏将数据标注平台根据智能化及自动化水平,分为L0纯人工数据采集与标注、L1简单数据预处理、L2智能交互、L3半自动标注、L4全自动标注5个阶段。
数据标注平台的5个发展阶段
目前行业普遍处于L1或L2阶段,即通过批量处理的预标注结果作为原始的输入或通过简单的人机交互提升标注效率。
然而通用的预标注模型解决的问题通常是有限的,无法覆盖真实项目中定制化的需求,而L2阶段的交互智能对于模型精度的高要求也提升了交互模型的研发难度,限制了在各类项目中的广泛应用。
立足自动化标注的发展趋势和行业痛点,澳鹏从交互式智能标注、预标注大模型+微调两大板块全面布局,步入半自动化数据标注阶段,并不断向全自动化数据标注迈进。
澳鹏MatrixGo平台数据回环
比如,针对数据精度的高要求、强人工的依赖、复杂的工具使用逻辑等造成标注成本高的核心痛点,澳鹏自主研发的人工智能辅助数据标注平台MatrixGo——交互式智能标注,依靠简单点选取代稠密的轮廓绘制过程,相对纯人工标注可节省约50%的标注时间。
具体到3D点云数据中的车道线标注,其痛点在于车道线难以观察、3D点云数据的稀疏、车道线形状和反射率失真等,澳鹏交互式车道线辅助标注模型只需要进行简单的拉框,将完整车道线拉入范围,模型就能够做到实时返回对车道线的预测结果,标注员基于预测结果进行简单的修改或调整即可完成标注。
不过,在澳鹏看来,AI自动化是一个渐进的过程,目前在自动驾驶细分场景还难以实现完全自动化标注,主要原因是corner case的存在,还需要人工标注介入以保证标准结果的精度。
从技术的角度来看,只能通过特定场景的标注结果不断训练标注工具的算法能力,使其无限接近于全自动化标注。
“Corner Case是自动驾驶市场需要长期不断优化的问题,面临场景较少、数据的筛选存在难点等难题,需要优质的数据服务商借助数据采集、数据筛选、数据合成等技术,帮助客户不断进行处理和优化。”澳鹏(中国)产品及研发高级总监钱程向高工智能汽车表示。
据钱程介绍,Corner case的具体场景稀少,通过海量路采数据筛选几乎不现实,而仿真合成数据作为一种数据增强技术,可以填补潜在或边缘的使用场景、节省数据采集成本及满足隐私要求,是应对Corner case数据难题的可行方式之一。
目前,合成数据的创建方式主要有从分布数据中提取、将真实数据与分布数据拟合、以及深度学习。其中深度学习包括变分自编码器模型和生成对抗网络(GAN)模型,比如变分自编码器模型通过压缩初始数据集并将其发送至解码器,再用解码器输出该初始数据集。
事实上,基于合成数据在Corner case场景的巨大应用潜能,澳鹏已抢占先机。
早在2022年,澳鹏就收购了人工智能数据平台Mindtech的少数股权,双方开展深度合作,提升为客户提供合成数据的能力。值得一提的是,Mindtech是世界领先的AI视觉系统训练端到端合成数据创建平台的开发者,已经通过创建精确的神经网络实现数据合成。
在Mindtech的技术加持下,澳鹏可提供合成数据服务,并依据客户的应用诉求,分析合成数据是否适用于客户的各类模型,以助力其快速部署AI解决方案并投入市场。
白热化竞争加剧,淘金海外新市场
可以说,群雄鏖战的数据标注赛道,竞争已呈白热化态势。
尤其是在软件定义汽车趋势下,汽车行业的数据采集对象向量产车靠拢,且对数据采集的质量要求趋高,传统外采数据的需求在下降,加上部分自动驾驶公司也在尝试打造数据闭环工具链,数据采集、处理行业面临更多不确定性。
一方面,数据标注逐步从依赖人工,转向依赖高端技术人员研发自动化工具平台,且客户的数据标注需求变化大,规则面临着不确定性,这也意味着企业投入的研发成本将增加,毛利率面临下降风险。
另一方面,从长期主义角度考虑,主机厂还对数据标注服务商的资质设立了一系列门槛,比如服务商的体量、标注工具的智能化、定制化标注响应速度等,符合主机厂需求的数据服务商将获得更稳定的供应机会。
毕竟,主机厂与数据标注服务商“强绑定”有利于长期把控其数据安全,同时可以迅速抢占产能,降低自动驾驶相关项目的落地风险。
“澳鹏从单纯的自动驾驶数据服务提供商,蜕变为提供咨询、产品、运营等整体数据服务解决方案,与客户形成了更深层面的绑定;而近年来在研发方面的投入可以大幅提升效率,主要应用于大规模的效率提升而非单一场景,降本提效的效果已经显现。”张先雄表示。
澳鹏MatrixGo智能数据服务平台架构
顺应行业发展趋势,澳鹏凭借独立领先的研发技术、强大的交付能力和资源,已经建立起了一道护城河。
目前,澳鹏中国总部位于中国AI之都上海,在无锡、大连、重庆均设有大型交付中心,拥有超过1600名全职员工、1000+BPO(商务流程外包)资源、数万名高质量的本土众包人员并持续扩张中。
此外,澳鹏自主研发了行业领先的AI辅助智能数据标注平台,可灵活配置不同的标注工具,实现标注流程自动化,并提升数据采集和数据标注项目产能,确保为客户交付高质量的训练数据。
比如,由澳鹏中国团队开发的企业级AI数据标注平台MatrixGo,每年约有2000个项目在运行,平台在2D、3D图像标注领域技术领先,极大地增强中国本土企业AI项目的规模化扩展能力。
澳鹏MatrixGo平台2D图像/视频连续帧标注示例
除了加码抢占自动驾驶窗口期,快人一步的澳鹏,亦在拓展海外市场的确定性机会。
据介绍,在自动驾驶细分领域,海外的标注场景不如国内的标注场景复杂,但是各个不同国家和地区的法律法规,以及对数据安全性的高要求,是现阶段数据标注出海面临的重要挑战。
而澳鹏天生的国际化基因,将赋能其强大的海外竞争力。据悉,澳鹏全球总部位于澳大利亚,在美国、英国、菲律宾等国家和地区均设有办事处,其能力包括遍布全球 170 个国家/地区的 70,000 多个地点,超过100万名精通235种语言的众包资源,以及业界先进的人工智能辅助数据标注平台。叠加过往与全球各大头部车企的合作经验,将反哺澳鹏更强大的全球服务能力。
此外,对于数据的质量管控、安全管理及隐私保护,澳鹏始终致力于为客户提供最高级别的管理标准。除了ISO 9001、ISO 27001和ISO 27701认证之外,澳鹏亦通过GDPR,SOC 2 Type II,HIPAA等全球不同国家和地区的数据安全合规认证,确保数据来源和渠道正规、安全、合法。
未来,在数据标注赛道的确定性机遇和不确定市场变革下,澳鹏将进一步加固企业的护城河。
一是在人才资源方面,澳鹏将跟随行业人才趋势的变化,推动人才由“蓝领主导”转变为“白领主导”,储备更多的专业人才,通过技术红利释放自身成本优势的同时,可应对更高难度的数据服务项目。
二是在产品层面,短期内将加强算法团队的模型研发能力,支持更高规模的数据量、更快的数据流转效率、灵活度提升,赋能自动驾驶相关前沿工具能力,构建起行业技术壁垒。
澳鹏MatrixGo平台4D数据标注示例
例如,针对4D模型辅助功能、升级版的点云工具2.0等,实现更好的交互设计,支持更多复杂场景的数据,同时提升工具的智能化水平,高效助力客户构建数据闭环能力。
不难发现,属于澳鹏这家26年老兵的全球数据标注红利期才刚刚开启。