垂直行业大模型“封神”背后,AI数据服务走入“深水区”

news2025/1/4 15:41:57

图源:Unsplash

文 | 智能相对论

作者 | 沈浪

由ChatGPT掀起的这股大模型浪潮,从通用领域席卷垂直领域。现阶段,越来越多的行业都在开发专用垂直细分赛道的大模型产品,以加速AI应用的场景化落地进程。

譬如,在电商领域,平台和商家正在利用大模型重塑各个零售环节。如智能导购,可基于消费者的海量消费数据为其提供商品推荐、商品挑选攻略、行程建议等。同时,大模型还能理解海量商品的详情数据,快速生成电商运营需要的商品主图、营销海报、详情页等等。

除此之外,电商垂类大模型在智能客服、供应链优化等场景上也都能基于海量数据的深度学习,快速掌握特定的售前售后话术、供应链订单处理等,全方位革新电商领域的零售模式和消费体验。

随着应用成果的落地,垂直行业大模型的价值正在释放,数字生产力持续提升。而作为人工智能三驾马车之一的数据要素也在这个时刻被提上新的战略高度——不难发现,垂直行业大模型的价值释放离不开海量数据的支持。

对应的,上游的AI数据服务商已经针对数据层面提出了新的解决方案。在2023年中国国际服务贸易交易会期间,国内头部AI数据服务厂商云测数据在去年发布的“AI工程化的数据解决方案”基础上全面升级,重点面向垂直行业大模型提出了全生命周期的AI数据解决方案,为大模型应用落地提供关键支撑。

以大模型应用为支点,在大量市场场景需求的撬动下,人工智能产业链上下游的板块正在迎来全新变革,数据层面的升级已经跃然纸上。

大模型应用“封神”的背后,是什么样的AI数据服务在支持?

大模型的爆发加速了人工智能的应用进程,同时也对整个算法产业链带来了新的挑战。在数据层面,过去生产数据、收集数据、加工数据、存储数据等流程就不再适用当前的市场需求,或者说无法高效地、很好地解决新出现的问题。

下游的AI应用融入大模型技术进行全新升级,上游的AI数据服务也同样面临着变革。那么,什么样的AI数据服务才是垂直行业大模型场景下需要的、适用的?

一、标准化

垂直行业大模型技术成果涌现的背后,对应是AI数据需求大幅增长。如何满足大幅增长的场景化数据需求,首要不是盲目扩大数据生产,而是提高AI数据的通用性、易用性,也就是标准化的问题,避免AI数据服务做“无用功”,保证数据的真实、有效、易用是满足垂直行业大模型爆发式增长需求的关键。

譬如,在智能网联汽车行业,《智能网联汽车激光雷达点云数据标注要求及方法》(T/CSAE 213-2021)、《智能网联汽车场景数据图像标注要求与方法》(T/CSAE 212-2021)等团体标准的发布,就为智能网联汽车的研发和测试提供了一套切实可行的场景数据点云标注方法,很好地推动了智能网联汽车的研发和测试。

其中最直观的感受则在于,过去AI数据服务行业各企业对图像标注的要求与方法都各不相同,标注结果文件各异,严重影响后续数据的统一使用。随着相关标准的发布,对标注流程和标注结果的保存形式都进行了规范,进而提升标注数据的通用性。

而在这个过程中,行业TOP地位的厂商往往都是标准的引领者,促使其在接下来的市场规范中获得了更大的话语权和主动权。譬如,以上智能网联汽车场景数据的两大标准,背后都有云测数据的参与。

这家头部AI数据服务商在参与标准制定,为行业攻陷自家经验和技术能力的同时,也更快、更好地掌握了数据标注相关场景的标准化,并应用到自家的产品和解决方案中。其中,基于对行业标准化的理解,云测数据发布的面向垂直行业大模型AI数据解决方案不仅能提供大规模感知数据能力,还能智驾企业减少数据采集周期,提升数据标注效率,降本增效,助力相关企业在数据层面实现研发领跑。

二、工程化

随着大模型技术的融入,人工智能应用进程正持续加速,而在供给端,AI数据服务也面临着数据生产、收集、处理、加工、存储等全生命周期流程的升级,从而才能满足AI数据的大幅度增长需求。简单来说,对应AI工程化的大趋势,AI数据服务也迎来了工程化的深度升级。

这里,云测数据发布的“面向垂直行业大模型AI数据解决方案”呈现出来的结果就是一条相对清晰的路径——通过丰富的数据标注工具、成熟的API集成能力、高效的数据闭环,加上人员管理及项目管理体系以及安全交付软硬件支持的方式,云测数据在保证数据隐私安全的环境下,对垂直行业大模型所需的海量数据实现了全生命周期管理。

更直观来说,对应AI数据服务的各个流程环节,云测数据都能提供对应的工具、技术能力、管理体系,好似成熟的制造生产线一般,一步步地完成数据从无到有的生产,从粗糙到精细的加工等目标,以供下游的垂直行业大模型用于预训练。

以基础的数据标注为例,云测数据目前提供了相对全面的平台工具模块,包括了点云融合跟踪、OCR文字转写、视频标注、语音转写、语音切割、文本判断、文本生成等等,充分满足行业垂直大模型的多模态数据标注需求。

三、场景化

今年以来,市场的焦点从通用大模型转向了垂直行业大模型,其背后是对技术应用落地的追求,同时也释放了一个足以撬动整条人工智能产业链的趋势——场景化。在AI数据服务领域,厂商不再盲目追求广泛的海量数据,而是针对某一特定领域或场景的有效数据。

场景的聚焦是加速垂直行业大模型落地的关键,同时也意味着更高要求的AI数据服务。以智能网联汽车为例,云测数据为其提供的AI数据解决方案目前就包括三部分,分别为基础数据库、定制化数据采集和标注服务以及包括数据采集标注、数据管理的全方位数据工具链。

简单来说,随着场景化趋势的发展,AI数据服务的定制化将越来越深入,不仅要针对某一特定行业或场景提供专业服务,还有可能聚焦某一公司或某一技术模块提供高度定制化数据服务。

同时,基于场景化的AI数据需求也远超常规,随着行业大模型的持续升级,场景的细分也会越来越精细,对应的数据需求更加严格。在与「智能相对论」的交流中,云测数据总经理贾宇航就提到,在智能网联汽车领域,为满足相关场景的丰富性,云测数据可以需要提供包含数据采集、数据生产、平台工具在内的AI数据服务,从而满足相关大模型的预训练需求。

总的来说,对应人工智能产业链上下游的关系,AI数据服务需要服务于垂直行业大模型的需求。现阶段,垂直行业大模型加速落地,需要更多、更有效、更精准的场景数据,AI数据服务的升级有迹可循。

AI数据服务走入“深水区”,头部厂商如何继续保持引领?

市场趋势的变化往往最先被行业TOP厂商所感知和反馈。在AI数据服务领域,云测数据提出“面向垂直行业大模型AI数据解决方案”,站在下半年垂直行业大模型进一步爆发的节点上将继续引领AI数据服务行业。

那么,只是纯粹的进场快,就能实现行业引领吗?显然不是。

结合垂直行业大模型发展的市场需求,云测数据的“面向垂直行业大模型AI数据解决方案”所呈现出来的更关键的价值在于其背后三大思维。

一、聚焦赛道,重视价值回归

垂直行业大模型的爆发式增长让“百模大战”愈演愈烈,各行各业都在做相应的大模型产品,呈现出来的市场机会很多,但是对应的AI数据服务需求也在升级。这就意味着不能用通用思维来做垂直行业大模型的AI数据服务,也很难有能力把所有行业都覆盖。

那么,在这个过程,厂商就需要有所取舍。目前,云测数据“面向垂直行业大模型AI数据服务解决方案”主要落地在零售电商、金融保险、智能网联汽车等领域。而这些都是云测数据从创立之初就聚焦深耕的行业,具备相应的数据积累、行业知识、项目经验以及客户资源等。

在云测数据总经理贾宇航看来,云测数据做垂直行业大模型的AI数据服务,首要的关键点是价值考量。

一方面,要做就先做有积累、有基础的领域——基于这个思路,云测数据在提供场景化数据采集方案的同时,也会在微调任务后对应行业需求提供专业的评测体系和服务,让AI数据服务更有价值。

另一方面,尽管垂直行业大模型很火,但商业化落地程度仍具有局限性。对于云测数据而言,结合过去的服务经验、项目经验筛选有市场需求的领域深耕,是对企业自身发展的负责,避免在过热的市场环境中迷失自我,失去发展价值。

二、纵横升级,强化基本功

垂直行业大模型应用落地是一个纵横能力协同的过程。云测数据总经理贾宇航将这一过程理解为“搭积木”,横向强化底座能力,有一个稳定的基础,纵向深耕场景化,对应不同的行业进行微调、优化,给出专业的解决方案。

具体来看,云测数据基于AI工程化的数据服务升级,在横向上就构建了一套包括数据可视化、扩展工具模块、数据权限管理体系等在内的AI数据服务解决方案,应对大模型预训练本身所需要的数据需求。

纵向上则针对不同的场景,基于行业理解提供专精解决方案,比如对应智能网联汽车研发与测试所需要的车外环境感知、车内智能座舱、人体动作识别等,满足垂直行业大模型的进阶需求。

三、坚守底线,规避行业敏感点

且不说数据领域本身就敏感,作为建立在海量数据之上的垂直行业大模型应用对数据的需求就非常严格,数据安全是一方面,数据的独特性、权威性、有效性则是另一方面。

对此,云测数据作为行业TOP企业始终将数据隐私安全放在业务开展的首位。云测数据总经理贾宇航表示,为了确保垂直行业大模型用于训练的数据合法合规,云测数据都会与企业客户签订数据授权协议。同时,云测数据在过去多年的发展中也会建立具备自由版权的数据集,以帮助更多行业客户去获取更多的高质量数据。此外,云测数据更是一家满足ISO27001和ISO27701标准的AI数据服务厂商,并先后获得ISO9001、ISO20000、CMMI3等相关认证。

结语

AI数据作为生产资料,是推动整个AI行业发展的必要一环,也是人工智能商业化的主要驱动力之一。换句话来说,高质量的数据决定了AI的落地程度也不为过。云测数据总经理贾宇航曾提出类似的观点。

而垂直行业大模型的爆发式增长,也就意味着AI数据需求的澎湃发展。围绕高质量数据为需求,垂直行业大模型的落地才有真正意义的基础。这是AI数据服务厂商的机会,也是人工智能产业突破发展的关键。

*本文图片均来源于网络

#智能相对论 Focusing on智能新产业新服务,这是智能的服务NO.239深度解读

此内容为【智能相对论】原创,

仅代表个人观点,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。

部分图片来自网络,且未核实版权归属,不作为商业用途,如有侵犯,请作者与我们联系。

•AI产业新媒体;

•澎湃新闻科技榜单月度top5;

•文章长期“霸占”钛媒体热门文章排行榜TOP10;

•著有《人工智能 十万个为什么》

•【重点关注领域】智能家电(含白电、黑电、智能手机、无人机等AIoT设备)、智能驾驶、AI+医疗、机器人、物联网、AI+金融、AI+教育、AR/VR、云计算、开发者以及背后的芯片、算法等。


 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1044828.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MASA MAUI iOS 文件下载与断点续传

文章目录 背景介绍方案及代码1、新建MAUI项目2、建立NSUrlSession会话连接3、使用NSUrlSessionDownloadTask 创建下载任务4、DidWriteData 监听下载5、DidFinishDownloading 完成下载6、CancelDownload (取消/暂停)下载7、ResumeDownload 恢复下载8、杀死进程-恢复下载 效果图总…

界面组件DevExpress WPF v23.2新功能预览 - 更轻量级的主题

本文主要描述了DevExpress WPF即将在几个月之后发布的v23.2中包含的新功能,持续关注我们获取更多最新资讯哦~ P.S:DevExpress WPF拥有120个控件和库,将帮助您交付满足甚至超出企业需求的高性能业务应用程序。通过DevExpress WPF能创建有着强…

手把手带你完成安卓登录修改的案例

新建一个空的项目 到这里我们的项目就搭建完成了,接下来就来编写app的页面 提前准备 1.新建一个 登录 的java和xml文件 2.同样的步骤新建一个忘记登录的页面 3.创建一个工具类,这个工具来主要是用来隐藏软键盘的 import android.app.Activity; import an…

【斯坦福cs324w】中译版 大模型学习笔记十 环境影响

环境影响 温室气体排放水足迹:数据中心使用水进行冷却;发电需要用水释放到环境中的化学物质很多是对人类有害的 如何计算数据中心能源消耗 简单表示形式 模型训练过程 参考资料 datawhale so-large-lm学习资料

AWS-Lambda之导入自定义包-pip包

参考文档: https://repost.aws/zh-Hans/knowledge-center/lambda-import-module-error-python https://blog.csdn.net/fxtxz2/article/details/112035627 单来说,以 " alibabacloud_dyvmsapi20170525 " 包为例 mkdir /tmp cd ./tmp mkdir python pip ins…

idea开发Springboot出租车管理系统VS开发mysql数据库web结构java编程计算机网页源码maven项目

一、源码特点 springboot 出租车管理系统是一套完善的完整信息系统,结合springboot框架和bootstrap完成本系统,对理解JSP java编程开发语言有帮助系统采用springboot框架(MVC模式开发), 系统具有完整的源代码和数据…

Mysql基础【操作表中数据入门查询】

一、DML🍓 DML主要是对数据进行增(insert)删(delete)改(update)操作。 (一)、添加数据🥝 语法格式: insert into 表名 (字段名1,字段名2...&a…

2024年【MCM/ICM】美国大学生数学建模竞赛优秀论文(免费下载)

一、前言 美国大学生数学建模竞赛(MCM/ICM)由美国数学及其应用联合会主办,是最高的国际性数学建模竞赛,也是世界范围内最具影响力的数学建模竞赛,一般也指数学建模竞赛。赛题内容涉及经济、管理、环境、资源、生态、医…

APP开发费用估算方法

估算APP开发费用是一个重要的项目管理步骤,它有助于确定项目的总成本,并帮助您在项目规划阶段做出决策。APP开发费用估算的方法可以根据项目的规模、复杂性、功能和技术选择而异,以下是一些常见的APP开发费用估算方法,希望对大家有…

Vue3最佳实践 第五章 Vue 组件应用 1( Props )

本章带领大家理解组件、props、emits、slots、providers/injects,Vue 插件 等Vue组件使用的基础知识。 5.1 组件注册5.2 Props5.2.1 组件之间如何传值5.2.2 参数绑定 v-bind5.2.3 参数类型5.2.4 props 默认与必填5.2.5 验证设置5.2.6 useAttrs 属性设置 第一章 Vue3…

regexp 应用

今天同事拿出个小栗子 1 如果用like的话 1,22 的情况会被字符串2匹配到这样会有问题 这里需要用concat将uids处理下 比如第一条处理成,1,2,3, 的形式 去模糊匹配 ‘%,1,%’ 当然like这种模糊匹配不太建议使用 2 regexp 用法 单个值 &#x…

SpringBoot的excel模板导出

Word的模板导出(参考:https://easyexcel.opensource.alibaba.com/docs/current/quickstart/fill) 创建有两个sheet的excel文件模板 将模板文件放入resource\templates/doc下使用 public void exportUavInfoExcel(HttpServletResponse response, CaseExportRPO cas…

如何更改注册表使系统暂停更新时间延长

1、创建一个文本文件,命名为:“stopupdate.reg”,然后用记事本或者代码编辑器打开,复制以下代码: Windows Registry Editor Version 5.00[HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\WindowsUpdate\UX\Settings] "F…

气传导耳机有哪些好处?热门气传导耳机推荐

​随着气传导耳机的快速发展,在运动、办公等场合能够经常看到,带来了前所未有的舒适体验。作为一种新型耳机类型,相较传统入耳式耳机来说,更有利于耳道卫生,在听歌时还能保持对环境声的感知。面对市面上这么多气传导耳…

Docker(二)、linux环境Docker的部署以及构建镜像

linux环境Docker的部署以及构建镜像 一、docker部署1、快速部署常用的命令:1.1、demo-部署tomcat1.2、tomcat容器内部结构1.2.1、每个tomcat容器,都包含三个组件1.2.2、在容器内部执行命令 1.3、容器生命周期 二、Dockerfile构建镜像1、demo-Dockerfile自…

[Linux入门]---进程优先级

文章目录 1.进程优先级基本概念 2.查看系统进程PRI and NI 3.查看进程优先级的命令引入其他概念 1.进程优先级 基本概念 cpu资源分配的先后顺序,就是指进程的优先权(priority)。优先权高的进程有优先执行权利。配置进程优先权对多任务环境的…

golang工程——常用数据结构底层原理【mao、slice、func、string】

字符串 其实就是字符数组 注意 字节数组与字符串可以相互转换 a : "hello world" b : []byte(a) c : string(b)字节数组转换为字符串在运行时调用了slicebytetostring函数。需要注意的是,字节数组与字符串的相互转换并不是简单的指针引用,…

下划线在键盘上怎么打?这3个方法快收藏!

“我最近的工作中好像很多文件里都有下划线,但是我不知道在键盘上应该怎么把下划线打出来,有没有知道的朋友呀?” 在计算机文档和编程中,下划线是一个常见的特殊字符。很多用户在使用电脑时可能也经常需要用到下划线。但是下划线在…

除静电离子风机在无尘车间的应用

除静电离子风机在无尘车间中的应用非常广泛,主要是用来控制车间内的静电荷,防止静电对车间内的电子元器件、电路板等敏感部件产生损害。 具体来说,除静电离子风机通常采用电离器产生大量负离子,将车间内的静电荷中和成无害的水蒸气…

基于微信小程序的高校学生事务考试通知管理系统(源码+lw+部署文档+讲解等)

文章目录 前言系统主要功能:具体实现截图论文参考详细视频演示为什么选择我自己的网站自己的小程序(小蔡coding)有保障的售后福利 代码参考源码获取 前言 💗博主介绍:✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计…