互联网高科技公司领导AI工业化,MatrixGo加速人工智能落地

news2024/11/17 20:39:49

作者:吴宁川

AI(人工智能)工业化与AI工程化正在引领人工智能的大趋势。AI工程化主要从企业CIO角度,着眼于在企业生产环境中规模化落地AI应用的工程化举措;而AI工业化则从AI供应商的角度,着眼于以规模化方式为企业用户提供AI技术、方案和服务,从而在企业生产环境中能够规模化落地AI应用。AI工业化和AI工程化相当于一个硬币的两面,一面是AI技术供给和供应链的规模化,一面是AI技术使用和落地的规模化。

AI工程化已经连续两年入选Gartner的2021年及2022年重要战略科技趋势报告。在2021年,Gartner指出只有53%的项目能够从AI原型转化到生产环境,AI项目的扩展难度很大。而在2022年报告中,Gartner预测到2025年,10%建立了AI工程化最佳实践的企业,将比余下90%的企业实现至少高三倍的收益。AI工程化不足之处,AI工业化补足。作为AI模型生命周期高质量数据服务供应商,澳鹏中国高级产研总监张童皓指出:数据优化为AI推理带来的效果提升,要远比代码优化的效果强很多,企业到了建立AI数据供应链的时机。

AI工业化与AI工程化都包括了DataOps、ModelOps和DevOps三大实践,统称为AIOps。其中ModelOps和DevOps已经有众多成熟的自动化工具与平台以及相应的从业人员,而DataOps正处于快速上升期,AI数据标注是DataOps中的一个关键领域。2022年1月,澳鹏中国推出了MatrixGo高精度AI数据标注平台企业版,专门面向企业本地部署环境,帮助CIO们以高度自动化、标准化和规模化方式建立AI标注数据供应链。

MatrixGo的推出,标志着AI工业化迎来了一个全新里程碑,也将极大推动AI工程化进展。

AI数据工业化大趋势

以深度神经网络模型为代表的深度学习算法正释放人工智能产业的红利。自深度神经网络算法在2015年取得视觉识别的突破、在2017年取得语音识别的突破,以及2018年底BERT大规模预训练神经网络模型问世以来,深度学习算法就在互联网和高科技行业率先推动了一波大规模应用,包括自动驾驶、新闻汇聚、自然语言处理、虚拟助理、娱乐等应用领域,而其成果就是推高了互联网和高科技公司的市值。

除了互联网和高科技公司外,AI创业公司也是深度学习算法在各行各业落地的主力军。在全球市场,根据CB Insights统计,2010年到2021年,全球AI 100强共获得了117亿美元的股权融资,自动驾驶、医药研发、AI处理器等是最主要投融资领域,如今AI 100强在零售、快速消费品、游戏等18个行业领域推动着AI的落地。在中国,除了百度、阿里、腾讯、京东、滴滴、华为、科大讯飞等互联网和高科技巨头外,高校与科研机构、AI四小龙以及一批智能驾驶公司等在推动深度学习算法发展与落地。

近年来,人工智能领域在第三次浪潮爆发后经历了快速的发展,许多特定领域的专用人工智能算法已经大幅度超越了人类的水平,并在工业生产和社会生活中得到了广泛应用。目前,深度学习算法的本质是海量数据驱动的统计学习,是随着计算机算力和大数据可及性的快速提升而出现的产物。特别是近两年出现超大规模预处理自然语言模式,例如北京智源人工智能研究院的人工智能大模型“悟道2.0”参数规模就达到1.75万亿(注1)。

既然深度学习算法是算力与大数据的产物,那么深度学习算法模型的工业化优化,也就需要AI数据供应链的工业化。所谓“工业化”,即以自动化、标准化和规模化可扩展方式为标志。澳鹏Appen是一家有着超过25年历史的人工智能训练数据服务公司,澳鹏Appen近期发布的《2021年人工智能与机器学习现状调查报告》显示,随着深度学习算法越来越成熟,模型算法本身的迭代优化已经不能带来明显的效果,而AI数据的高质量优化是模型效果提升的下一个关键。AI数据即需要经过人工标注后的数据,才能用于AI模型的训练和推理及优化。此前,AI标注数据的供应基本以作坊式为主,难以保证AI标注数据的高质量供给,接下来AI标注数据的供给将迎来工业化爆发。

构建AI数据供应链能力

随着互联网高科技企业等越来越大规模地将AI嵌入到自己的商业运营、产品与服务等方方面面,大规模的AI项目对标注数据的快速和持续供给需求已经越来越迫切。以互联网高科技企业为代表的AI用户已经率先与外部的数据服务供应商合作,以解决持续的AI标注数据外包、数据准备、数据质量评估以及数据供给等挑战。但在AI标注数据的规模化供给方面,自动化、标准化和规模化可扩展仍然是需要解决的关键问题。

澳鹏中国高级产研总监张童皓表示,2022年将是AI标注数据供给产业的一个分水岭——之前的AI标注数据行业最佳实践逐渐沉淀为可复用的软件工具,以更为自动化、标准化和规模化可扩展的方式,为整个AI模型生命周期提供高精度和高质量的标注数据,满足数据采集、标注、数据版本更新、AI模型再训练等端到端过程,以工业化方式构建起完整AI标注数据供应链。在2019年进入中国市场之前,澳鹏Appen已经拥有业内先进的人工智能辅助数据标注平台、一体化AI数据及资源管理平台、全球100多万名众包资源以及丰富的实践。

将AI标注数据实践沉淀为方法论,这不是一件容易的事情。其中很多要解决的问题,包括:如何组织大规模的标注数据人员团队、如何保证数据质量、如何更有效地反馈模型训练结果、如何继续优化训练数据集等,同时还要应对用户业务中出现的各种复杂场景,甚至是业务出海场景中的地域差异等。这不仅要将AI标注数据的具体实践落地到一个强大而高效的工具集中,还要为项目管理、团队协作等设计灵活、高效、可扩展的工作流程,此外还要能够对外开放一定的API,将数据标注结果与各种AIOps流程相结合。

张童皓强调,数据标注平台非常复杂,在某种程度上是Office +数据仓库+AIOps的结合体,很多互联网高科技企业CIO们都意识到这并不属于自己核心研发部门所需要投入的研发方向和领域。当前,为了更好地训练和再训练AI模型以及AI推理,企业CIO们都构建了自己的数据资产管理平台,数据资产管理平台对接着两端——一端是数据供应链,一端是模型训练环境。对于专业的AI标注数据服务公司来说,将已有的方法论进行沉淀,再将行之有效的方式固化下来,形成能够复用且易用的产品级能力,就能大规模赋能AI模型迭代。

全场景覆盖AI模型生命周期

在意识到数据标注工具平台对于AIOps的重要性后,澳鹏Appen在2019收购了创立于硅谷的数据标注平台Figure 8,并将之与澳鹏全球上百万的众包工作者和团队相结合,澳鹏中国也于2022年1月推出了自研的面向中国大陆、港澳台及亚太区域的MatrixGo企业版。目前,这些地区的客户可以通过MatrixGo的公有云SaaS版或纯私有化部署企业版,构建自己的AI标注数据供应链。

MatrixGo作为AI标注数据的采标一体化平台,为企业AI模型优化实现端到端的数据深度整合,同时提供丰富的标注工具以及一套支持大规模生产和复杂协同的智能标注工作流,在保证企业数据安全的前提下,建立企业AI数据供应链能力。MatrixGo被定位于AI行业赋能者,它可覆盖丰富的场景——支持全领域数据类型及应用场景,承诺极致的数据质量——提供海量高质量、无偏见、多元化的AI训练数据生产服务,确保数据标注流程合规及隐私保护——通过了ISO27001等标准及各种安全测试、众包员工年度完成合规培训。MatrixGo沉淀了丰富的AIOps方法论,提供丰富的API能力,可以与上下游系统进行良好集成。

MatrixGo让数据标注团队获得极高的生产力,大幅降低标注数据人员的门槛。MatrixGo面向AI数据标注的项目经理、标注员/质检员、供应商管理员、供应商项目经理供应商团队标注员/质检员、系统管理员等多种角色提供了丰富的平台功能:项目管理、资源管理、标注工具箱(AI辅助引擎、工作流引擎)、标注引擎等四大模块,其中项目管理可完成项目配置、工作流配置、资源分配、质量控制、可视化分析等,资源管理则是企业自有团队管理、BPO管理,数据收集和标注工具箱则提供了手机端数据收集应用、一系列标注工具以及人工智能辅助标注功能,而核心引擎则提供了标注引擎、质检引擎、任务分发和数据服务等。

数据收集和标注工具是MatrixGo的核心亮点之一。数据收集包括:手机端应用,可完成视频图像、音频文本甚至是复杂的手写体数据收集等;数据收集后的分发、质检反馈、工作量结算等,可实现系统化的数据收集和分发。特色标注工具则有语音数据处理的语音切分转写,高精度完成长语音的切分,可引导标注员方便地浏览或在不同音频段之间跳转;图像通用关键点标注工具能让标注员一边接受培训一边上手做项目,提高项目冷启动时的效率;2D图像标注工具支持网格视图模式且将质量保证固化到工具中,3D点云工具与2D标注框逻辑绑定,连续帧模式下可做到线性填充,部分帧可分钟级完成标注,质检达每帧秒级等等。

澳鹏2D图像复合标注示例

澳鹏2D图像复合标注示例

澳鹏3D点云拉框及2D映射(融合标注)示例

澳鹏3D点云拉框及2D映射(融合标注)示例

此外,MatrixGo还提供了模板引擎组件:支持脚本编程,可构建适配于项目定制化需求的工具,分钟级完成自定义工具,自定义工具与MatrixGo平台的数据统计等各流程节点直接集成。MatrixGo最重要的亮点是工作流调度:面向海量任务,支持高并发呑吐架构,平台上单点能够支持每秒3万任务的吞吐量,还可无限自动横向扩容;工作流并行消费数据中心的数据,进行各自生产再向统一节点进行交付;在项目生产过程中,项目经理可以随时修改任务,平台自动确保数据统计等正确。

张童皓强调,推出MatrixGo 私有化版本主要是为了满足对数据安全有更高诉求、在合规性方面有更高要求的中大型公司,科研和小型创业公司则更适合公有云SaaS方式。特别是MatrixGo的SaaS版本可对接澳鹏全球的数据标注众包人力资源并可通过扩展支持私有化文件服务的方式增强安全性,可满足中国企业出海的需求。目前,澳鹏中国的主要客户包括互联网、高科技、自动驾驶、AI创业公司、零售、医疗、高校等,2022年还将拓展更多的传统企业数字化转型市场。

总结来说:2022年是整个AI产业的一个分水岭,更高自动化程度的AI数据标注平台,正在定义整个模型生命周期内的AI模型质量与效果。AI数据标注的工业化运作,让DataOps成为了整个AIOps中最重要的环节。当前,互联网和高科技企业正在引领这一大趋势,未来将有更多的科技企业和传统企业数字化转型也将采用专业的AI数据标注平台。以澳鹏中国MatrixGo为代表的AI数据标注平台,将成为AI发展的重要赋能平台。

(注1:北京智源人工智能研究院:《2021人工智能的认知神经基础》白皮书。)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1462548.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux 权限详解

目录 一、权限的概念 二、权限管理 三、文件访问权限的相关设置方法 3.1chmod 3.2chmod ax /home/abc.txt 一、权限的概念 Linux 下有两种用户:超级用户( root )、普通用户。 超级用户:可以再linux系统下做任何事情&#xff…

程序媛的mac修炼手册-- 如何彻底卸载Python

啊,前段时间因为想尝试chatgpt的API,需要先创建一个python虚拟环境来安装OpenAI Python library. 结果,不出意外的出意外了,安装好OpenAI Python library后,因为身份认证问题,根本就没有获取API key的权限…

Apache Doris:从诞生到云原生时代的演进、技术亮点与未来展望

目录 前言 Apache Doris介绍 作者介绍 Apache Doris特性 Doris 数据流程 极简结构 高效自运维 高并发场景支持 MPP 执行引擎 明细与聚合模型的统一 便捷数据接入 Apache Doris 极速 1.0 时代 极速 列式内存布局 向量化的计算框架 Cache 亲和度 虚函数调用 SI…

Servlet(1)

文章目录 什么是ServletServlet 主要做的工作 第一个Servlet程序1.创建项目2. 引入依赖3. 创建目录1) 创建 webapp 目录2) 创建 web.xml3) 编写 web.xml 4. 编写代码5. 打包程序7. 验证程序 什么是Servlet Servlet 是一种实现动态页面的技术. 是一组 Tomcat 提供给程序猿的 AP…

Nginx配置组成与性能调优

目录 一、Nginx配置介绍 1. 模块组成 2. 图示 3. 相关框架 二. 配置调优 1. 全局配置 1.1 关闭版本和修改版本 1.2 修改启动的进程数 1.3 cpu与work进程绑定 1.4 pid路径 1.5 nginx进程的优先级(work进程的优先级) 1.6 调试work进程打开的文…

C++:static关键字

一、static成员变量(类变量、静态成员变量) 1、不属于类; 2、必须初始化; 3、同类中所有对象共享; 访问:类::类变量 , 对象.类变量 , 对象指针->类变量;底层都是类::类变量 …

3DSC特征描述符、对应关系可视化以及ICP配准

一、3DSC特征描述符可视化 C #include <pcl/point_types.h> #include <pcl/point_cloud.h> #include <pcl/search/kdtree.h> #include <pcl/io/pcd_io.h> #include <pcl/features/normal_3d_omp.h>//使用OMP需要添加的头文件 #include <pcl…

angular-引用本地json文件

angular-引用json文件&#xff0c;本地模拟数据时使用 在assets目录下存放json文件 大佬们的说法是&#xff1a;angular配置限定了资源文件的所在地&#xff08;就是assets的路径&#xff09;&#xff0c;放在其他文件夹中&#xff0c;angular在编译过程中会忽略&#xff0c;会…

jpg图片太大怎么压缩?3种压缩方法,一学就会

jpg图片太大怎么压缩&#xff1f;在日常生活和工作中&#xff0c;JPG图片过大不仅会导致存储空间的迅速消耗&#xff0c;还影响网络传输的速度&#xff0c;甚至在某些情况下&#xff0c;过大的图片文件还可能造成应用程序运行缓慢或崩溃&#xff0c;严重影响工作效率。因此&…

【Maven】介绍、下载及安装、集成IDEA

目录 一、什么是Maven Maven的作用 Maven模型 Maven仓库 二、下载及安装 三、IDEA集成Maven 1、POM配置详解 2、配置Maven环境 局部配置 全局设置 四、创建Maven项目 五、Maven坐标详解 六、导入Maven项目 方式1&#xff1a;使用Maven面板&#xff0c;快速导入项目 …

一周学会Django5 Python Web开发-Django5路由命名与反向解析reverse与resolve

锋哥原创的Python Web开发 Django5视频教程&#xff1a; 2024版 Django5 Python web开发 视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili2024版 Django5 Python web开发 视频教程(无废话版) 玩命更新中~共计25条视频&#xff0c;包括&#xff1a;2024版 Django5 Python we…

【PyTorch][chapter 17][李宏毅深度学习]【无监督学习][ Auto-encoder]

前言&#xff1a; 本篇重点介绍AE&#xff08;Auto-Encoder&#xff09; 自编码器。这是深度学习的一个核心模型. 自编码网络是一种基于无监督学习方法的生成类模型,自编码最大特征输出等于输入 Yann LeCun&Bengio, Hinton 对无监督学习的看法. 目录&#xff1a; AE 模型原…

【C++】字符类型和字符数组-string

STL-容器 - string 字符串必须具备结尾字符\0 #include<iostream> #include<string> using namespace std; //STL-容器 - string char ch[101];//字符串必须具备结尾字符\0 int main() {int n; cin >> n;for (int i 0; i < n; i) {cin >> ch[i];}…

js如何抛异常,抛自定义的异常

js如何抛异常,抛自定义的异常 最简单的自定义异常 throw "hello" 来自chrome123的控制台的测试 throw "hello" VM209:1 Uncaught hello &#xff08;匿名&#xff09; VM209:1 try{ throw "hello";}catch(e){console.log(e);} VM338:1 hello…

每日coding 337打家劫舍III

337. 打家劫舍 III 小偷又发现了一个新的可行窃的地区。这个地区只有一个入口&#xff0c;我们称之为 root 。 除了 root 之外&#xff0c;每栋房子有且只有一个“父“房子与之相连。一番侦察之后&#xff0c;聪明的小偷意识到“这个地方的所有房屋的排列类似于一棵二叉树”。…

08 按键消抖

在按键控制 LED中采用直接读取按键电平状态&#xff0c;然后根据电平状态控制LED。虽然直接读取按键电平状态然后执行相应处理程序的方法非常简单&#xff0c;但是这种方式可能存在误判问题&#xff0c;进而有可能导致程序功能异常&#xff0c;这是因为按键按下和松开时存在抖动…

WordPress后台自定义登录和管理页面插件Admin Customizer

WordPress默认的后台登录页面和管理员&#xff0c;很多站长都想去掉或修改一些自己不喜欢的功能&#xff0c;比如登录页和管理页的主题样式、后台左侧菜单栏的某些菜单、仪表盘的一些功能、后台页眉页脚某些小细节等等。这里boke112百科推荐这款可以让我们轻松自定义后台登录页…

定制学习风格、满足多元需求:Mr. Ranedeer 帮你打造 AI 家教 | 开源日报 No.178

JushBJJ/Mr.-Ranedeer-AI-Tutor Stars: 20.4k License: NOASSERTION Mr. Ranedeer 是一个个性化的 AI 辅导项目&#xff0c;主要功能包括使用 GPT-4 生成定制化提示&#xff0c;为用户提供个性化学习体验。其核心优势和特点包括&#xff1a; 调整知识深度以满足学习需求定制学…

Nginx 和 Apache 的比较

Nginx和Apache的对比 Nginx和Apache的优缺点比较 (1)nginx相对于apache的优点 ①轻量级&#xff0c;同样起web服务&#xff0c;比apache占用更少的内存及资源 ②抗并发&#xff0c;nginx处理请求是异步非阻塞的&#xff0c;而apache是阻塞型的在高并发下&#xff0c;nginx能保持…

9.vue学习笔记(组件传递Props校验+组件事件-组件传递数据+组件事件-配合“v-model”使用)

文章目录 1.组件传递Props校验1.1.默认值1.2.必选项1.3.注意事项&#xff1a;props 是只读的 2.组件事件-组件传递数据2.1.温馨提示&#xff1a;组件之间传递数据的方案 3.组件事件-配合“v-model”使用 1.组件传递Props校验 Vue组件可以更细致地声明对传入的 props 的校验要求…