AI数据标注迈入自动化时代,26年老兵掘金全球智能汽车市场

news2024/11/15 15:59:25

4D数据标注,掀起了业界新风向。

一是以BEV为代表的感知技术,输出的空间从2D透视图像转换到了3D空间+时序维度,4D标注应运而生;二是4D标注借助点云级别或object级别的重建,通过人工标注积累原始数据,再投喂训练云端大模型逐步替换人工标注,可实现标注效率提升80%以上。

叠加国内车企对标特斯拉的数据闭环方案、自动驾驶往更高阶能力发展等因素,车企对数据标注提出了更高要求,比如数据标注准确率需达到99%以上、服务商要配备专门的自动化标注平台和标注工具等。

这也意味着“高质高效”成为了数据标注赛道竞争焦点,行业技术门槛进一步提升。

一方面,智能驾驶技术的迭代,依赖算法的持续优化,进而取决于数据养料的质量。尤其是智能驾驶感知方案及计算平台的趋同化下,高质量数据俨然成为主机厂和各智能驾驶方案商重点建设的护城河。

另一方面,传统人工标注在效率和成本方面,已经难以满足模型训练对海量数据集的需求,由此驱动数据标注行业逐渐向自动化数据标注看齐,一场市场淘汰赛也已经打响。而缺乏技术竞争优势的纯人力数据标注公司,以及难支撑量产车数据标注体量的玩家或率先出局。

“汽车市场的数据标注需求不断变化和增加,包括从常规场景走向长尾场景,数据复杂度也在不断提升(从2D、3D到4D要求),对标注准确度的要求达到了99.9%,长期来看将体现在对数据供应商的长期合作能力要求。”澳鹏(中国)销售总监张先雄表示。

据悉,成立于1996年、2019年正式跨入中国市场的AI数据服务商澳鹏,拥有业内领先的人工智能辅助数据标注平台、一体化的AI数据及资源管理平台,可提供图像、文本、语音、音频、视频等类型的数据标注服务。

面向自动驾驶场景数据标注的机遇和挑战,澳鹏通过“出海”“AI辅助”“人才梯队”等关键词,传递出了秣马厉兵的新信号。

图片

全面布局自动化AI数据标注

自2021年起,自动驾驶成为国内数据标注服务商眼里的热门业务场景,不同传感器、不同车型、不同特殊情况的数据标注需求源源不断,将数据标注赛道推向了蓝海。

从行业需求来看,数据标注主要是根据车企和智能驾驶方案商的要求,对语音、点云、图像、视频等数据对象进行不同方式的标注,从而为算法迭代提供大量的训练数据。

不过,随着自动驾驶等级的提升,激光雷达、摄像头、4D成像雷达等传感器的规模化应用,以及高速路、城市快速路、停车场等应用场景的不断丰富,自动驾驶数据标注的量级呈指数型上升,纯人工标注难以应对100k、1000k甚至更大规模的数据标注。

据介绍,澳鹏将数据标注平台根据智能化及自动化水平,分为L0纯人工数据采集与标注、L1简单数据预处理、L2智能交互、L3半自动标注、L4全自动标注5个阶段。

图片

数据标注平台的5个发展阶段

目前行业普遍处于L1或L2阶段,即通过批量处理的预标注结果作为原始的输入或通过简单的人机交互提升标注效率。

然而通用的预标注模型解决的问题通常是有限的,无法覆盖真实项目中定制化的需求,而L2阶段的交互智能对于模型精度的高要求也提升了交互模型的研发难度,限制了在各类项目中的广泛应用。

立足自动化标注的发展趋势和行业痛点,澳鹏从交互式智能标注、预标注大模型+微调两大板块全面布局,步入半自动化数据标注阶段,并不断向全自动化数据标注迈进。

图片

澳鹏MatrixGo平台数据回环

比如,针对数据精度的高要求、强人工的依赖、复杂的工具使用逻辑等造成标注成本高的核心痛点,澳鹏自主研发的人工智能辅助数据标注平台MatrixGo——交互式智能标注,依靠简单点选取代稠密的轮廓绘制过程,相对纯人工标注可节省约50%的标注时间。

具体到3D点云数据中的车道线标注,其痛点在于车道线难以观察、3D点云数据的稀疏、车道线形状和反射率失真等,澳鹏交互式车道线辅助标注模型只需要进行简单的拉框,将完整车道线拉入范围,模型就能够做到实时返回对车道线的预测结果,标注员基于预测结果进行简单的修改或调整即可完成标注。

不过,在澳鹏看来,AI自动化是一个渐进的过程,目前在自动驾驶细分场景还难以实现完全自动化标注,主要原因是corner case的存在,还需要人工标注介入以保证标准结果的精度。

从技术的角度来看,只能通过特定场景的标注结果不断训练标注工具的算法能力,使其无限接近于全自动化标注。

“Corner Case是自动驾驶市场需要长期不断优化的问题,面临场景较少、数据的筛选存在难点等难题,需要优质的数据服务商借助数据采集、数据筛选、数据合成等技术,帮助客户不断进行处理和优化。”澳鹏(中国)产品及研发高级总监钱程向高工智能汽车表示。

据钱程介绍,Corner case的具体场景稀少,通过海量路采数据筛选几乎不现实,而仿真合成数据作为一种数据增强技术,可以填补潜在或边缘的使用场景、节省数据采集成本及满足隐私要求,是应对Corner case数据难题的可行方式之一。

目前,合成数据的创建方式主要有从分布数据中提取、将真实数据与分布数据拟合、以及深度学习。其中深度学习包括变分自编码器模型生成对抗网络(GAN)模型,比如变分自编码器模型通过压缩初始数据集并将其发送至解码器,再用解码器输出该初始数据集。

事实上,基于合成数据在Corner case场景的巨大应用潜能,澳鹏已抢占先机。

早在2022年,澳鹏就收购了人工智能数据平台Mindtech的少数股权,双方开展深度合作,提升为客户提供合成数据的能力。值得一提的是,Mindtech是世界领先的AI视觉系统训练端到端合成数据创建平台的开发者,已经通过创建精确的神经网络实现数据合成。

在Mindtech的技术加持下,澳鹏可提供合成数据服务,并依据客户的应用诉求,分析合成数据是否适用于客户的各类模型,以助力其快速部署AI解决方案并投入市场。

图片

白热化竞争加剧,淘金海外新市场

可以说,群雄鏖战的数据标注赛道,竞争已呈白热化态势。

尤其是在软件定义汽车趋势下,汽车行业的数据采集对象向量产车靠拢,且对数据采集的质量要求趋高,传统外采数据的需求在下降,加上部分自动驾驶公司也在尝试打造数据闭环工具链,数据采集、处理行业面临更多不确定性。

一方面,数据标注逐步从依赖人工,转向依赖高端技术人员研发自动化工具平台,且客户的数据标注需求变化大,规则面临着不确定性,这也意味着企业投入的研发成本将增加,毛利率面临下降风险。

另一方面,从长期主义角度考虑,主机厂还对数据标注服务商的资质设立了一系列门槛,比如服务商的体量、标注工具的智能化、定制化标注响应速度等,符合主机厂需求的数据服务商将获得更稳定的供应机会。

毕竟,主机厂与数据标注服务商“强绑定”有利于长期把控其数据安全,同时可以迅速抢占产能,降低自动驾驶相关项目的落地风险。

“澳鹏从单纯的自动驾驶数据服务提供商,蜕变为提供咨询、产品、运营等整体数据服务解决方案,与客户形成了更深层面的绑定;而近年来在研发方面的投入可以大幅提升效率,主要应用于大规模的效率提升而非单一场景,降本提效的效果已经显现。”张先雄表示。

图片

澳鹏MatrixGo智能数据服务平台架构

顺应行业发展趋势,澳鹏凭借独立领先的研发技术、强大的交付能力和资源,已经建立起了一道护城河。

目前,澳鹏中国总部位于中国AI之都上海,在无锡、大连、重庆均设有大型交付中心,拥有超过1600名全职员工、1000+BPO(商务流程外包)资源、数万名高质量的本土众包人员并持续扩张中。

此外,澳鹏自主研发了行业领先的AI辅助智能数据标注平台,可灵活配置不同的标注工具,实现标注流程自动化,并提升数据采集和数据标注项目产能,确保为客户交付高质量的训练数据。

比如,由澳鹏中国团队开发的企业级AI数据标注平台MatrixGo,每年约有2000个项目在运行,平台在2D、3D图像标注领域技术领先,极大地增强中国本土企业AI项目的规模化扩展能力。

图片

澳鹏MatrixGo平台2D图像/视频连续帧标注示例

除了加码抢占自动驾驶窗口期,快人一步的澳鹏,亦在拓展海外市场的确定性机会。

据介绍,在自动驾驶细分领域,海外的标注场景不如国内的标注场景复杂,但是各个不同国家和地区的法律法规,以及对数据安全性的高要求,是现阶段数据标注出海面临的重要挑战。

而澳鹏天生的国际化基因,将赋能其强大的海外竞争力。据悉,澳鹏全球总部位于澳大利亚,在美国、英国、菲律宾等国家和地区均设有办事处,其能力包括遍布全球 170 个国家/地区 70,000 多个地点超过100万名精通235种语言的众包资源,以及业界先进的人工智能辅助数据标注平台。叠加过往与全球各大头部车企的合作经验,将反哺澳鹏更强大的全球服务能力。

此外,对于数据的质量管控、安全管理及隐私保护,澳鹏始终致力于为客户提供最高级别的管理标准。除了ISO 9001、ISO 27001和ISO 27701认证之外,澳鹏亦通过GDPR,SOC 2 Type II,HIPAA等全球不同国家和地区的数据安全合规认证,确保数据来源和渠道正规、安全、合法。

未来,在数据标注赛道的确定性机遇和不确定市场变革下,澳鹏将进一步加固企业的护城河。

一是在人才资源方面,澳鹏将跟随行业人才趋势的变化,推动人才由“蓝领主导”转变为“白领主导”,储备更多的专业人才,通过技术红利释放自身成本优势的同时,可应对更高难度的数据服务项目。

二是在产品层面,短期内将加强算法团队的模型研发能力,支持更高规模的数据量、更快的数据流转效率、灵活度提升,赋能自动驾驶相关前沿工具能力,构建起行业技术壁垒。

图片

澳鹏MatrixGo平台4D数据标注示例

例如,针对4D模型辅助功能、升级版的点云工具2.0等,实现更好的交互设计,支持更多复杂场景的数据,同时提升工具的智能化水平,高效助力客户构建数据闭环能力。

不难发现,属于澳鹏这家26年老兵的全球数据标注红利期才刚刚开启。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/973319.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Calico BGP通信分析

Calico BGP通信分析 BGP网络模型 BGP网络相比较IPIP网络,最大的不同之处就是没有隧道设备tunl0,pod之间的流量直接从宿主机通过arp下一跳到目的地宿主机,减少了tunl0环节 BGP两种模式: 全互联模式(node-to-node mesh)——全互联…

批量采集的时间管理与优化

在进行大规模数据采集时,如何合理安排和管理爬取任务的时间成为了每个专业程序员需要面对的挑战。本文将分享一些关于批量采集中时间管理和优化方面的实用技巧,帮助你提升爬虫工作效率。 1. 制定明确目标并设置合适频率 首先要明确自己所需获取数据的范…

陇剑杯2023WriteUp学习笔记【初赛】

文章目录 数据分析1、hard_webhard_web_1hard_web_2hard_web_3 2、sevrer savesevrer save_1sevrer save_2sevrer save_3sevrer save_4sevrer save_5sevrer save_6sevrer save_7sevrer save_8 3、WiresharkWireshark1_1Wireshark1_2Wireshark1_3Wireshark1_4 4、Incidentrespon…

C++信息学奥赛1187:统计字符数

#include <bits/stdc.h> using namespace std; int main() {string arr;cin >> arr; // 输入一个字符串int n, a, max; // 定义变量n, a, maxchar ArrMax; // 定义字符变量ArrMaxn arr.length(); // 获取字符串长度max a 0; // 初始化max和a为0// 外层循环&…

GPT引领前沿与应用突破之GPT4科研实践技术与AI绘图教程

详情点击链接&#xff1a;GPT引领前沿与应用突破之GPT4科研实践技术与AI绘图教程 前沿 GPT对于每个科研人员已经成为不可或缺的辅助工具&#xff0c;不同的研究领域和项目具有不同的需求。如在科研编程、绘图领域&#xff1a;1、编程建议和示例代码: 无论你使用的编程语言是Py…

Java多线程篇(1)——深入分析synchronized

文章目录 synchronized原理概述锁升级 初始状态偏向锁偏向锁获取/重入偏向锁的撤销/重偏向和升级批量重偏向和批量偏向撤销偏向锁的释放 轻量级锁轻量级锁获取/重入轻量级锁膨胀轻量级锁释放 重量级锁重量级锁获取/重入重量级锁释放重量级锁的降级 其他锁粗化、锁消除调用hashc…

Elasticsearch 中的向量搜索:设计背后的基本原理

作者&#xff1a;ADRIEN GRAND 实现向量数据库有不同的方法&#xff0c;它们有不同的权衡。 在本博客中&#xff0c;你将详细了解如何将向量搜索集成到 Elastisearch 中以及我们所做的权衡。 你有兴趣了解 Elasticsearch 用于向量搜索的特性以及设计是什么样子吗&#xff1f; …

【ROS】例说mapserver静态地图参数(对照Rviz、Gazebo环境)

文章目录 例说mapserver静态地图参数1. Rviz中显示的地图2. mapserver保存地图详解3. 补充实验 例说mapserver静态地图参数 1. Rviz中显示的地图 在建图过程中&#xff0c;rviz会显示建图的实时情况&#xff0c;其输出来自于SLAM&#xff0c;浅蓝色区域为地图大小&#xff0c…

SAP GUI登陆界面图片更换

导语&#xff1a;SAP登陆界面的图片不太好看&#xff0c;换一个客户需要的图片上去。 一、上传至SMW0 将准备好的图片&#xff0c;通过事物码SMW0进行上传。 二、更改配置表 事物码SM30&#xff0c;更改配置表【SSM_CUST】&#xff0c;以调用上传的图片 三、效果展示 作者…

Redis6搭建高可用的多主多从集群

Redis6搭建高可用的多主多从集群 环境准备搭建redis6集群安装redis6修改配置文件修改cluster-enabled修改cluster-config-file修改cluster-node-timeout 启动集群 环境准备 首先我们需要6台redis&#xff0c;那么为啥是6太呢&#xff1f;是因为我们要部署多master和多slaver集…

SpringCloudAlibaba之Sentinel介绍

文章目录 1 Sentinel1.1 Sentinel简介1.2 核心概念1.2.1 资源1.2.2 规则 1.3 入门Demo1.3.1 引入依赖1.3.2 集成Spring1.3.3 Spring中资源规则 1.4 Sentinel控制台1.5 核心原理1.5.1 NodeSelectorSlot1.5.2 ClusterBuilderSlot1.5.3 LogSlot1.5.4 StatisticSlot1.5.5 Authority…

ESP-C3入门23. I2C读写外部存储器

ESP-C3入门23. I2C读写外部存储器 一、准备工作1. 开发环境2. ESP32-C3 I2C资源介绍 二、主要函数1. 配置驱动程序2. 源时钟配置3. 安装驱动程序4. 通信5. 指示写入或读取数据 二、实现步骤1. 配置 I2C 总线&#xff1a;2. 初始化 I2C 总线&#xff1a;3. 与外部存储设备通信&a…

华为OD机试 - 找出经过特定点的路径长度 - 深度优先搜索(Java 2022 Q4 100分)

目录 专栏导读一、题目描述二、输入描述三、输出描述四、解题思路五、Java算法源码六、效果展示1、输入2、输出3、说明 华为OD机试 2023B卷题库疯狂收录中&#xff0c;刷题点这里 专栏导读 本专栏收录于《华为OD机试&#xff08;JAVA&#xff09;真题&#xff08;A卷B卷&#…

特征值,特征向量,SVD分解,PCD分解

特征值&#xff0c;特征向量&#xff1a; 对于n阶方阵A&#xff0c;在A张成的空间里&#xff0c;存在非零向量v&#xff0c; 该向量转换到A张成的空间时&#xff0c;方向不变&#xff0c;大小变为λ倍。 ① Av λv 变换一下&#xff1a; ② (A - λI)v 0 对于A向量&#x…

安全编程:初始化那些你忽略掉的东西

对于黑客来说&#xff0c;特权提升漏洞是令他感到非常兴奋的事情&#xff0c;而有时候这种漏洞的来源仅仅是因为开发者忘记将内存缓冲区中的垃圾数据进行初始化。此话怎讲&#xff1f; 我想&#xff0c;现在每个人都应该熟悉 SecureZeroMemory 函数的使用&#xff0c;它用来擦…

ESD实时监控监测系统包括哪些功能

ESD实时监控监测系统是一种用于监测和控制静电放电的系统。静电放电&#xff08;Electrostatic Discharge&#xff0c;ESD&#xff09;是指由于电荷的不平衡而引起的突发放电现象&#xff0c;可能对电子元器件、设备和工作环境造成损害。 ESD实时监控监测系统通常包括以下功能…

elmentui表单重置及出现的问题

一、表单&#xff1a; 二、代码——拿官方的代码举例(做了一些小改动)&#xff1a; 改动&#xff1a;model绑定的字段&#xff0c;由form改为queryParams ref绑定的字段form改为queryFrom 注&#xff1a;model绑定的这个字段用来做数据双向绑定的 注&#xff1a;ref绑定的这…

【TypeScript】一直提示 :无法重新声明块范围变量

【TypeScript】一直提示 &#xff1a;无法重新声明块范围变量 问题描述&#xff1a;在VSCode中编写ts代码时&#xff0c;编写保存完之后&#xff0c;通过tsc 文件名.ts编译就会看到变量名下面出现了红色的波浪线&#xff0c;提示的内容是无法重新声明块范围变量。 解决方法&am…

书单制作方法详细步骤,需要的小伙伴快来看看~

随着网络的发展&#xff0c;视频已经成为了人们获取信息的主要途径之一。书单视频作为一种特殊类型的视频&#xff0c;既能为观众提供阅读建议&#xff0c;又能为制作者带来收益&#xff0c;因此备受欢迎。本文将分享书单视频制作的详细步骤&#xff0c;帮助有兴趣的朋友们快速…

k8s基本概念

一、什么是Kubernetes二&#xff1a;Kubernetes部署方式的演变三、为什么要用K8S四、K8S的特性五、Kubernetes 集群架构与组件5.1 Master 组件① Kube-apiserver② Kube-controller-manager③ Kube-scheduler④ AUTH 认证模块 5.2 配置存储中心5.3 Node 组件① Kubelet② Kube-…