数据服务门槛再提升,这个“TOP1玩家”凭何再度领军?

news2025/1/18 19:11:18

在人工智能领域,数据的重要程度正在迅速提升。

根据ML大牛吴恩达提出的著名二八定律:80%数据+20%模型=更好的AI。他认为,一个机器学习团队80%的工作应该放在数据准备上,确保数据质量是最重要的工作,每个人都知道应该如此做,但没人在乎。如果更多地强调以数据为中心而不是以模型为中心,那么机器学习的发展会更快。

而随着中国自动驾驶产业商业化落地的高速推进,市场对于数据的需求也正在呈现急速上升的趋势。根据公开数据,预计至2030年,中国运营的自动驾驶车辆将达3000万辆,或将成为全球最大的自动驾驶市场。

总体来看,整个自动驾驶正处于L2级自动驾驶向L3级发展的阶段,场景越来越复杂的同时,也带来了对于3D等更高维度、更高质量数据的巨大需求。而另一方面,自动驾驶全产业链的企业数量正在飞速扩展,包括传统车企、车企相关互联网公司、跨界互联网公司、新型自动驾驶相关公司等在内的企业,也让我们看到了更大的数据需求。

自动驾驶数据的重要程度正在持续上升

如果说智能化1.0阶段,车企拼的是技术的快速落地和高阶能力的标杆效应,那么2.0阶段就是拼规模化搭载。

高工智能汽车研究院重磅发布《2023-2025年智能网联产业趋势报告》,报告显示,今年1-10月,前向ADAS(L2含NOA)同比上年增长67.11%。NOA(导航辅助驾驶)同比上年增长116.25%。

在具体车型方面,特斯拉Model Y/S、理想ONE、比亚迪汉、丰田亚洲龙排名L2全系标配搭载量前五。这意味着,一旦启用「影子模式」,大量实际驾驶数据采集的效果将会显现。

比如,在数据方面,特斯拉采集用户实际驾驶中产生的数据,用“影子模式”去学习用户的驾驶逻辑,辨识各种各样的驾驶场景,确保有充足的数据进行系统优化。

众所周知,数据贯穿了整个AI的生命周期,从数据获取,数据准备、模型训练和部署、再到人工模型评估。

当前,软件和数据已成为智能汽车的核心增量。在很多业内人士看来,打造一套可用的智能驾驶系统并不难,但开发和维护可扩展和可靠的完整数据驱动解决方案才是真正面临的挑战。这意味着,智能驾驶系统真正实现基于数据+软件定义的全新模式。

马斯克也曾公开表示,FSD可以让公司价值不菲。但同时强调,系统改进的唯一途径是收集数据。

可以看到,在中国市场,数据服务的价值也已然明朗。

高工智能汽车研究院监测数据显示,在前装市场,传感器的搭载量正处于上升周期。例如以整车搭载摄像头为统计口径,今年1-8月中国市场(不含进出口)乘用车新车标配交付摄像头合计为3329.86万颗,同比增长23.35%,单车搭载摄像头颗数为2.67颗(上年同期为2.05颗)。

高工智能汽车研究院预计,接下来两三年仍是摄像头上车的市场红利期,预计到2025年中国市场单车搭载摄像头将提升至7-8颗。同时前向双目、三目,周视等更多摄像头配置成为主流,基于数据认知的训练也成为刚需。

另一方面,4D毫米波雷达以及激光雷达的搭载也正处于最关键的导入期,这带来了一个全新的市场:多传感器感知的数据融合。此外,舱内人机交互的体验升级,也同样需要数据迭代支持。这也再次表明,无论是在自动驾驶还是辅助驾驶领域,数据标注的需求量都将迎来增长的高峰期。

以一辆搭载8个摄像头(前向3颗、周视4颗、后视1颗)的智能汽车为例,每个摄像头以30帧/秒的速度拍摄1小时,将会产生约86万帧的图片,按10万辆存量车计算,就是接近1000亿帧的数据。即便其中有大部分数据可以进行快速自动化过滤处理,剩下的需要精确标注的数量仍然非常惊人,这还不包括雷达的融合数据。

很明显,产业链迎来了新的商机。

自动驾驶数据标注当前面临的难点

作为产业链的重要一环,澳鹏同样深刻感受到自动驾驶市场需求的火热:尤其在今年,自动驾驶的数据标注需求更是呈现爆发式增长。

2020年澳鹏做到4.7m美金的营收,2021年是24.7m美金,实现了421%的增长;2021年上半年141%增长大部分是来自自动驾驶,目前自动驾驶占总业务量60%以上,澳鹏一半以上的客户来自自动驾驶。

然而,随着业界对于数据标注需求量的爆发,过去简单粗暴的“人力堆叠”已无法满足当前对于“高质高量”数据供不应求的行业痛点。

要知道,在自动驾驶领域,数据标注几乎没有出错的余地,也不容缺少关键用例。这就导致自动驾驶汽车的数据采集和标注是非常耗时的资源密集型过程。同时这也是为什么一直以来自动驾驶企业会面临上市时间延迟、产品性能堪忧以及推广困难等问题。

澳鹏相关负责人表示,伴随L3级自动驾驶的进阶升级,自动驾驶厂商对舱外数据服务的需求与日俱增,其中既包括数据需求量的增长,也有更复杂的数据类型的变化。行业对于激光雷达3D点云数据的大量需求,也让数据标注的工作变得更为复杂,数据成本急剧上升。

而对于下游企业而言,如何低成本获取高质量数据就成了他们在这个时代的刚需。

澳鹏认为,自动驾驶数据标注当前的技术主要面临以下难点:

1:随着自动驾驶市场的爆发式增长,总体数据量增大使得平台业务吞吐量增大,这对于工作流的数据流转效率、稳定性提出了更高要求;

2:采集到的数据精度提高、数据稠密度的提升,导致需要处理的单条数据变大,标注员设备可能比较低端,需要加大力度在研发上支持工具在各种高低端设备上的正常使用;

3:采集设备越来越多样化和复杂,使得数据类型增多,产生包括4D传感器数据等多传感器数据融合标注的需求;

4:数据成本和企业降本增效的需求,对标注效率和管理能力的要求越来越高,需要不断打磨和优化工具功能以及项目管理功能;

5:随着自动驾驶商业化落地进程的加快,客户需求也越来越细化和多变,需要加大投入模型辅助标注的研发并针对不同项目进行定制化的模型开发。

可以看到,为了解决以上难点,数据服务企业采用的数据标注技术已然从最早的单机标注工具演进为数据标注平台,继而升级为现阶段的智能数据标注平台/企业级AI数据标注平台。

目前,行业已涌现出多家较为优质的“平台”。然而如果论经验与深厚积淀的话,澳鹏则当属其中的第一梯队。

关于澳鹏

作为一家成立于1996年的元老级AI训练数据服务企业,澳鹏早已在智能驾驶的春风吹拂过神州大地之前,就将服务遍布于170个国家和70,000个地区中。

2019年,中国的智能驾驶行业进入了如火如荼的发展阶段。而彼时的澳鹏早已拥有了全球AI数据服务细分领域行业第一的光环。同年10月,澳鹏带着不足10人的原始团队来到中国市场。凭借20余年的深厚技术积淀,这只白手起家的团队仅历经短短3年时间,便完成了从“0”到“行业TOP1”的闪电般飞跃。

据2022年公开数据显示,澳鹏中国在专注于人工智能数据服务商中营收排名第一。在疫情肆虐的2021年依然实现了财年营收421%的爆炸性增长。

三年以来,澳鹏通过高质量、高效率的数据服务在自动驾驶领域积累了具有相当规模的客户群体,其中包括知名互联网企业、新势力造车、整车厂的创新研发部门等。究其缘由,技术、服务、资质、经验缺一不可。

澳鹏深谙,企业需要一套成熟的技术体系,如无缝的接口开发/API对接等。由此,澳鹏中国借鉴全球经验自主研发的MatrixGo高精度AI数据标注平台,专门面向企业本地部署环境,帮助CIO们以高度自动化、标准化和规模化方式建立AI标注数据供应链。

该平台可支持像素级语义分割、2D图像复合标注、3D点云拉框及语义分割等功能;同时采标一体的任务能够实现采集-质检-标注-质检-客户验收的双向协同流程,让整个数据生产线上的各个环节实现无缝衔接;内置的多轮质检模块可以按需配置,满足不同复杂度项目的需求;2D图像复合标注是全结构化的模型训练利器,支持点、线、框、多边型融合标注(常见工具是单模式的,点、线or折线,多边形)与连续帧;

总体上,其标注工具可实现99.9%的准确率,并达到5分钟一张、1秒一帧极速质检,在交互、超大数据加载、实时切帧进行渲染等方面都达到了行业第一。根据案例显示,可助力客户提升3倍效率的成功部署速度。

值得一提的是,在今年,其在自动驾驶领域的模型辅助标注(自动化标注)进一步取得了技术进展,如交互式语义分割、信号灯预标注、停车位自动识别等,经过不断迭代优化,大部分工具可使标注效率提升30%-50%。

目前,点云检测、2D障碍物检测等工具也在计划上线中,且平台版本平均每两周就会做一次迭代更新。

在服务方面,公司拥有专业的评估和项目团队全程跟进试标、采集、标注、质检、验收和交付流程。在自动驾驶领域,澳鹏中国单月的巅峰产值可达600万人民币以上,资源数目可达2000人以上。

同时,公司具备快速、低成本召集资源并灵活交付的能力:其在全球拥有超过100万名技能娴熟的众包资源,支持235+种语言和方言,遍布170+个国家和70,000个地区。澳鹏(中国)总部位于上海,在无锡、大连、重庆均设有大型交付中心。

目前,澳鹏(中国)拥有超过千余名全职员工、1000+BPO资源、数万名高质量的本土众包人员并持续扩张中。-管理问题/效率提升:澳鹏可以提供一套专业的项目管理方法论,尤其是在自动驾驶领域积累的大量实战经验,帮助企业在项目部署中快速应对如数据规则的对齐、数据波动、人员稳定性等问题。

在数据安全方面,澳鹏始终助力智能时代安全保障体系的构建,始终致力于为客户提供最高级别的管理标准:

目前,澳鹏中国已获ISO 27001, ISO 9001和ISO 27701认证,在信息安全管理、质量管控和数据隐私保护方面达到受国际认可的“黄金标准”。全球范围内,澳鹏亦通过GDPR,SOC 2 Type II,HIPAA等全球不同国家和地区的数据安全合规认证,确保数据来源和渠道正规、安全、合法。

此外,其自主研发的人工智能辅助数据标注平台MatrixGo也具有权限管控、数据加密传输、PII信息加密存储等严格的数据安全管控策略,并专门设有DPO进行数据安全管理,最大限度地保证客户的数据资产安全。澳鹏高水平的数据管理平台,数据通过阿里云存储,也可以做到在客户的平台上进行私有化部署。

在经验方面,针对自动驾驶诸多特有的数据类型和难点,澳鹏配备了具备相关经验和知识的专业人才。例如,澳鹏中国产研团队配备专门的算法人员负责自动驾驶等领域的算法研发,能够更好地理解自动驾驶客户的技术需求。

作为自动驾驶汽车的“燃料”,一个合格的数据合作伙伴提供的高质量数据能够帮助企业在自动驾驶领域乃至整个汽车行业占得先机。“我们致力于帮助企业完成全球最具创新性的自动驾驶汽车项目。”澳鹏相关负责人表示。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/93351.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

什么是元数据

元数据 元数据是描述数据的数据,关于数据的组织、数据域及其关系,本质上是关于数据的信息。元数据以数字化方式描述企业的数据、流程和应用程序,为企业数字资产的内容提供了上下文,使得数据更容易理解、查找、管理和使用。 元数据…

计算机毕设Python+Vue校园跳蚤平台(程序+LW+部署)

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

Nginx教程(1)

文章目录1.1 简介1.2 常见的服务器1.3 反向代理1.4 Nginx的安装与运行1.5 Nginx的进程模型1.6 Nginx处理Web请求机制解析1.7 Nginx核心配置文件nginx.conf解析1.8 Nginx常用命令解析1.9 Nginx日志切割1.10 Nginx为静态资源提供服务1.11 使用Gzip压缩提高请求效率1.12 location匹…

React源码分析(二)渲染机制

准备工作 为了方便讲解&#xff0c;假设我们有下面这样一段代码&#xff1a; function App(){const [count, setCount] useState(0)useEffect(() > {setCount(1)}, [])const handleClick () > setCount(count > count)return (<div>勇敢牛牛, <sp…

java计算机毕业设计基于安卓Android的急救服务APP

项目介绍 随着信息技术和网络技术的飞速发展,人类已进入全新信息化时代,传统管理技术已无法高效,便捷地管理信息。为了迎合时代需求,优化管理效率,各种各样的管理系统应运而生,各行各业相继进入信息管理时代,急救服务系统就是信息时代变革中的产物之一。 任何系统都要遵循系统设…

Android9.0 Fiddler 模拟器抓包

目录 一、生成Fiddler证书并安装 二、制作证书 三、adb的配置 四、安装证书到Android手机 五、抓包 六、总结 一、生成Fiddler证书并安装 1.到官网下载fiddler插件 https://www.telerik.com/fiddler/add-onshttps://www.telerik.com/fiddler/add-ons 2.官网插件工具很多&a…

TCP/IP HTTP WebSocket Socket 路由

最近在写一个上位机&#xff0c;需要将采集到的数据上传到云平台&#xff0c;然后就考虑到使用WebSocket实现&#xff0c;但是WebSocket和Socket有啥区别&#xff0c;这两个东西分别是个啥&#xff0c;咱也不清楚&#xff0c;然后就查资料&#xff0c;发现有好多之前想了解但是…

Java面试基础篇-IO

UNIX提供5种I/O模型 var code “7cfcb088-556d-478a-b21d-12b255236dbd” BIO模型 在进程空间调用recvfrom时被阻塞,直到有数据才返回。 NIO模型 调用recvfrom时先返回EWOULDBLOCK错误&#xff0c;然后轮询是否有数据。 I/O复用 linux提供select/poll&#xff0c;其支…

Minecraft 1.19.2 Forge模组开发 07.拼图建筑(jigsaw)

如果你看过之前的Minecraft 1.19.2建筑生成的话&#xff0c;想必会更好理解这篇教程。 效果演示效果演示效果演示 1.我们本期准备生成的建筑分为4块&#xff0c;所以首先需要用4个结构方块将整个建筑包括起来&#xff1a; 2.之后我们需要用指令拿出拼图方块: give p minecraf…

数据结构与算法——Java实现递归、迷宫回溯问题、八皇后问题

目录 一、递归 1.1 介绍递归 二、迷宫回溯问题 2.1 代码实现 三、八皇后问题 3.1 基本介绍 3.2 分析思路 3.3 代码实现 一、递归 1.1 介绍递归 简单的说&#xff1a;递归就是方法自己调用自己&#xff0c;每次传入不同的变量。 递归有助于编程者解决复杂的问题&#x…

Efficient Zero-shot Event Extraction with Context-Definition Alignment论文解读

Efficient Zero-shot Event Extraction with Context-Definition Alignment code&#xff1a;tencent-ailab/ZED: This is the repository for EMNLP 2022 paper “Efficient Zero-shot Event Extraction with Context-Definition Alignment” (github.com) paper&#xff1a;…

【手把手】分布式定时任务调度解析之Elastic-Job

1、这货怎么没怎么听过 经常使用Quartz或者Spring Task的小伙伴们&#xff0c;或多或少都会遇到几个痛点&#xff0c;比如&#xff1a; 1、不敢轻易跟着应用服务多节点部署&#xff0c;可能会重复多次执行而引发系统逻辑的错误&#xff1b; 2、Quartz的集群仅仅只是用来HA&…

业主应该重视装修中的“道”而不是“术”!极家精工装修好不好!

业主应该重视装修中的“道”而不是“术”&#xff01;极家精工装修好不好&#xff01;看了很多业主问了很多关于装修中很琐碎的事儿&#xff0c;比如“装修流程”、“装修应该注意什么”、“装修哪些必须要重视”、“某某材料和某某材料相比哪个好”、“家里装了什么是你最不后…

Lua中的基本数据类型

Lua中的数据类型一、Lua基本数据类型1.1、nil1.2、boolean1.3、number1.4、string1.5、function1.6、table二、Lua 通用数据结构的实现总结后言Lua是一门动态类型的脚本语言&#xff0c;这意味着同一个变量可以在不同时刻指向不同类型的数据。Lua代码中 一般采用一下两种做法相…

Dubbo-admin+Zookeeper 的环境搭建实操与 Could-not-extract-archive 报错踩坑

$ brew install zookeeper > Downloading https://homebrew.bintray.com/bottles/zookeeper-3.4.13.mojave.bottle.tar.gz ...先来看dubbo-admin的安装&#xff1b;我们先找到它在apache下的官方GitHub&#xff0c;官方也有相关介绍&#xff0c;中英文版都有(毕竟原本是中国…

[附源码]Node.js计算机毕业设计高校学科竞赛管理系统Express

项目运行 环境配置&#xff1a; Node.js最新版 Vscode Mysql5.7 HBuilderXNavicat11Vue。 项目技术&#xff1a; Express框架 Node.js Vue 等等组成&#xff0c;B/S模式 Vscode管理前后端分离等等。 环境需要 1.运行环境&#xff1a;最好是Nodejs最新版&#xff0c;我…

Kibana使用

简介 Kibana是通向 Elastic 产品集的窗口。 它可以在 Elasticsearch 中对数据进行视觉探索和实时分析。 Kibana通常用于项目log日志收集分析、数据可视化分析等。 一、【Discover】搜索查询 Discover模块用于全文搜索文档(doucument),支持索引筛选、时间筛选、字段筛选、支持…

linux下syslog使用说明

syslog 系统日志应用 1) 概述 syslog是Linux默认的日志守护进程。默认的syslog配置文件是/etc/syslog.conf文件。程序&#xff0c;守护进程和内核提供了访问系统的日志信息。因此&#xff0c;任何希望生成日志信息的程序都可以向 syslog 接口呼叫生成该信息。 几乎所有的…

读《深入浅出MySQL数据库开发、优化与管理维护(第2版)》笔记1

上面3图是书中MySQL帮助的使用小节; 实测: 我用DATE_FORMAT(date,format)函数的时候经常会记不清格式化的字符是啥,这个时候我会去求助度娘,然后从零散的帖子里找一个合适的,测试一下可用,就拿来用了,但没法马上找到一个比较完整系统一点的帖子,从看此书本章节,可知使用MySQL的…

acm是什么?你准备好去打了吗?

1.引言2.acm究竟是什么&#xff1f;3.acm的时间安排重点网络赛的作用1.名额分配2.校内选拔icpc省赛省赛选拔赛(校内)4.acm该如何准备1.前期的算法积累1.Acwing 平台算法基础课 -y总业界良心。算法提高课 基本囊括了蓝桥杯的知识范畴算法进阶课&#xff08;选&#xff09; 算法中…