阿里云大模型数据存储解决方案,为 AI 创新提供推动力

news2024/11/24 13:26:29

云布道师

随着国内首批大模型产品获批名单问世,百“模”大战悄然开启。在这场百“模”大战中,每一款大模型产品的诞生,都离不开数据的支撑。如何有效存储、管理和处理海量多模态数据集,并提升模型训练、推理的效率,保障 AI 业务平台运行的稳定,仍是亟待解决的难题。在云栖大会上,阿里云推出一系列针对大模型场景的存储产品创新。这些产品通过利用 AI 技术赋能 AI 业务,可以帮助用户更轻松地管理大规模多模态数据集,提高模型训练、推理的效率和准确性。同时,这些产品还支持高可用性、可扩展性和安全性,满足不同用户的个性化需求。

为 AI 算力提速的存储服务

在实际生产过程中,AI 场景分为训练和推理两个流程。其中训练环节需要消耗大量的算力,为了提升算力资源的生产效率,对于数据集和 checkpoint 的读写加速至关重要。阿里云文件存储 CPFS 采用全并行 IO 架构,数据和元数据分片存储在所有节点上,单文件读写可以利用所有节点带宽,同时 CPFS 的弹性文件客户端可以利用近计算端缓存,进一步加速数据集和 checkpoint 读写。产品性能指标最高提供 20TB/s 吞吐和 3 亿 IOPS,在超大规模训练场景下,也能快速完成 checkpoint 读写,加速 AI 训练。

本次云栖大会发布的通义千问最新大模型产品,模型参数达到 2,000 亿级别,在训练过程中使用 CPFS 承载训练用数据集和 checkpoint 的存储。在千卡规模下,数据集的加载吞吐达到数百 GB/s,checkpoint 写入吞吐近百 GB/s,结合计算侧缓存加速,显著提升了模型训练效率。

在大规模推理环节时,需要多台 GPU 协同处理,需要短时间内加载模型文件至所有 GPU 服务器的内存。阿里云对象存储 OSS 推出加速器 2.0 功能,以应对存储在对象存储 OSS 中大模型的加载需求。OSS 加速器 2.0 具有高效、灵活和易于使用的特点,提供了对象 RESTful API 和 OSSFS 两种访问方式,让用户无需修改原有的应用程序,便可快速读取模型文件。OSS 加速器 2.0 内嵌于 OSS 服务中,数据无需进行搬迁就能够为热模型文件按需提供自动伸缩的弹性吞吐性能,且实现了按量付费。这样,无论是业务高峰还是低谷,用户都能够灵活应对,无需担心资源的浪费。

对于使用文件存储保存模型文件的客户。文件存储 NAS 推出的高级型规格可以提供低延迟数据访问的同时,降低使用成本 54%。弹性文件客户端 EFC 结合容器服务 ACK,提供了计算端分布式缓存池,并可以通过 P2P 技术充分利用多机带宽。在多机推理方案中,为模型热文件提供超大吞吐的拉取能力,缩短模型准备时间。

在整个大模型的业务流程当中,存储数据量庞大,且面对不同流程阶段时,上层应用需要使用不同的数据格式,极为容易发生数据孤岛的情况。阿里云利用对象存储 OSS 的能力,构建统一的数据湖存储,利用对象存储 OSS 的海量扩展、低成本的存储能力,搭建 AI 场景数据存储底座。
在这里插入图片描述

让 AI 数据高效组织

大模型表现出的优异能力,离不开大规模数据的支撑。若把大模型类比为学生的话,供其训练的素材集就是一本本教材。在训练过程中,该如何优化数据集,避免出现“毒教材”的现象发生。只有高质量的数据集才能实现高质量的训练和微调。

数据标签是数据集的重要元数据。在训练过程中,用户往往会发现标签数量过多,但是对素材的描述能力还是不足。这是因为堆积的标签数量无法满足业务需求,因此需要采用“原子标签+语义标签”的方式,以提高素材理解的深度。为了达到这个能力,阿里云也在不断地进行数据索引和检索能力的革新。针对不同业务需求与研发能力的客户,阿里云为其提供了三种数据索引和检索的方法。
在这里插入图片描述
针对用户简单静态标签数据检索的需求,阿里云 OSS 提供了 MetaQuery 的能力,能够实现、秒级查询海量数据。同时,OSS MetaQuery 提供了多种索引条件,覆盖九大类数据类型,与 OSS 的标签能力相结合,满足了用户的数据多维查询和管理的基本需求。

对于需要高性能检索且追求更低成本的用户而言,阿里云表格存储 Tablestore 为元数据存储和检索提供了卓越的性能和可靠性。Tablestore 是一种 Serverless 化元数据存储系统,支持线上实时查询,目前又提供了向量存储格式、向量检索,从而进一步实现对图、文、音、视的语义检索与传统检索相结合的查询功能。在索引查询方面,表格存储Tablestore 可支持毫秒级的响应速度,并可平滑扩展索引规模,无上限。

若用户既想享受到高性能的索引与检索服务,又不想投入过多研发资源,阿里云利用智能媒体管理 IMM,为其提供一站式服务化元数据管理服务。IMM 利用阿里云的 AI 能力理解富媒体文件的内容,抽取 AI 标签和 Embeding 存储到元数据库中,并利用大语言模型理解用户的自然语言查询,转化为内部的指令,更高效地帮助用户进行检索数据。阿里云将 FPGA 敏捷算力部署在对象存储 OSS 附近。通过这种方式,阿里云为用户的海量数据提供了更快捷、更智能、更节约的索引与检索服务,助力用户实现更高效的业务运营。

AIOps 让 AI 平台运行更加高效

在当今市场竞争日趋激烈的时代,AI 产品的用户体验已经成为了企业竞争力的核心所在。而对于那些运用人工智能技术的企业来说,不断的产品迭代已经成为了一种不可避免的趋势。企业不能让业务带“伤”运行,只有稳定且平滑的应用与计算任务,才能带给用户优质的产品体验。

阿里云日志服务 SLS 致力于打造高效、可观测的运维解决方案,凭借其多年的运维经验以及大语言模型的支持,不断提升其在此领域 的竞争力。SLS 发布智能运维基础模型,覆盖 Log、Trace、Metric 等可观测数据场景。模型提供开箱即用的异常检测、自动标注、分类和根因分析等能力。支持秒级在数千请求内定位到根因,在生产中准确率达 95% 以上。支持自动标注人工辅助微调,支持人工标注结果打标修正,模型根据人工反馈自动微调,提升场景准确率。
在这里插入图片描述
此外,SLS 还提供智能问答的能力,即 Alibaba CloudLens Copilot 大模型助力云设施运维与运营。采用基于大语言模型的 NL2Query 技术,精准理解用户的查询意图,提高查询结果准确性;无需理解复杂的 SQL 语言和查询语法,可准确将自然语言查询转化为 SQL 查询和可视化图表;建立场景化的知识图谱,持续学习,不断优化模型调整和知识库更新,不断改进问题解答的准确性和效果。

随着大模型产品的快速发展,数据的存储、管理和处理成为了不可忽视的重要问题。阿里云通过不断创新和优化,推出了一系列针对大模型场景优化的数据存储与管理方案,帮助用户更好地管理和处理海量多模态数据集,提高模型训练的效率、准确性以及降低成本支出。同时,这些方案还支持高可用性、可扩展性和安全性,满足不同用户的个性化需求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1327846.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【湖仓一体尝试】MYSQL和HIVE数据联合查询

爬了两天大大小小的一堆坑,今天把一个简单的单机环境的流程走通了,记录一笔。 先来个完工环境照: mysqlhadoophiveflinkicebergtrino 得益于IBM OPENJ9的优化,完全启动后的内存占用: 1)执行联合查询后的…

【Java探索之旅】我与Java的初相识(二):程序结构与运行关系和JDK,JRE,JVM的关系

🎥 屿小夏 : 个人主页 🔥个人专栏 : Java入门到精通 🌄 莫道桑榆晚,为霞尚满天! 文章目录 📑前言一. 第一个Java程序1.1 main方法1.2 Java的程序结构 二. Java程序的运行三. JDK、JR…

【零基础入门】凸优化1:怎么培养研究能力,从模型+优化开始!

凸优化1 优化问题的形式优化问题类别1:凸函数 和 非凸函数优化问题类别2:带条件 和 无条件优化问题类别3:离散 和 连续优化问题类别4:平滑 和 非平滑如何判断一个目标函数是凸函数,还是非凸函数?怎么设计模…

Exynos4412 移植Linux-6.1(九)移植tiny4412_backlight驱动的过程及问题解决

系列文章目录 Exynos4412 移植Linux-6.1(一)下载、配置、编译Linux-6.1 Exynos4412 移植Linux-6.1(二)SD卡驱动——解决无法挂载SD卡的根文件系统 Exynos4412 移植Linux-6.1(三)SD卡驱动——解决mmc0: Ti…

解决 elementPlus 组件内容显示为英文的问题

解决 elementPlus 组件内容显示为英文的问题 一、问题描述 刚开始用 ElementPlus 发现默认的组件内容都是英文的 二、解决办法 找了找,发现是国际化的问题,默认就是显示英文,如果要显示中文需要配置中文显示。 关于显示中文的官方说明&a…

Windows11系统下如何通过.cab文件更新PL2303串口驱动?

Windows11系统下如何通过.cab文件更新PL2303串口驱动? 首先,在微软官方网站上下载所需版本的.cab文件,具体链接如下: https://www.catalog.update.microsoft.com/Search.aspx?q=Prolific%20USB-to-Serial%20Comm%20Port 如下图所示,进入该网站后,找到自己所需的驱动版…

神经网络可视化新工具:TorchExplorer

TorchExplorer是一个交互式探索神经网络的可视化工具,他的主要功能如下: TorchExplorer是一款创新的人工智能工具,专为使用非常规神经网络架构的研究人员设计。可以在本地或者wandb中生成交互式Vega自定义图表,提供网络结构的模块…

掌握Apache Kylin:工作原理、设置指南及实际应用全解析

🌷🍁 博主猫头虎 带您 Go to New World.✨🍁 🦄 博客首页——猫头虎的博客🎐 🐳《面试题大全专栏》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~🌺 &a…

设计模式(4)--对象行为(1)--职责链

1. 意图 使多个对象都有机会处理请求,从而避免请求的发送者和接收者之间的耦合关系。 将这些对象连成一条链,并沿着这条链传递该请求,直到有一个对象处理它为止。 2. 两种角色 抽象处理者(Handler)、具体处理者(Concrete Handler) 3. 优点 …

直播怎么录制视频?轻松提升视频质量!

录制直播视频是保存和分享游戏过程、教程或其他在线活动的好方法。随着直播行业的兴起,许多用户都希望能够录制自己的直播内容以供日后观看或与他人分享。可是直播怎么录制视频呢?本文将详细介绍两种直播录制视频的方法,希望通过具体的步骤讲…

Redis-Day3实战篇-商户查询缓存(缓存的添加和更新, 缓存穿透/雪崩/击穿, 缓存工具封装)

Redis-Day3实战篇-商户查询缓存 什么是缓存添加Redis缓存业务流程项目实现练习 - 给店铺类型查询业务添加缓存 缓存更新策略最佳实践方案案例 - 给查询商铺的缓存添加超时剔除和主动更新 缓存穿透/雪崩/击穿缓存穿透概述项目实现 - 商铺查询缓存 缓存雪崩缓存击穿概述互斥锁逻辑…

百模大战中的AI行业:新趋势与未来发展

文章目录 每日一句正能量前言技术进步应用拓展行业变革人才竞争后记 每日一句正能量 人生最重要的价值是心灵的幸福,而不是任何身外之物。 前言 随着科技的迅猛发展,人工智能(AI)已经成为引领技术革命的重要驱动力之一。在当前的…

物业服务投诉反馈建议建议二维码

为高效处理物业方面的投诉问题,进一步提升居住品质。凡尔码平台推出“二维码”便民投诉、反馈方式,如有群租扰民、占用堵塞消防通道或私拉乱建等问题,可以立即扫码或进入“凡尔码”小程序进行投诉或反馈。 如电梯出现故障物业服务企业未及时维…

助力智能车辆检测计数,基于官方YOLOv8全系列[n/s/m/l/x]开发构建道路交通场景下不同参数量级车流检测计数系统

在很多道路交通卡口都有对车流量的统计计算需要,有时候一些特殊时段、特殊节日等时间下对于车流的监测预警更为重要,恶劣特殊天气下的提早监测、预警、限流对于保证乘客、驾驶员的安全是非常重要的措施,本文的主要目的就是想要开发构建道路交…

最后一公里物流:发展历程与未来趋势

导言 最后一公里物流,作为物流体系中的关键环节,一直是行业关注的焦点。本文将深入研究最后一公里物流的发展历程、遇到的问题及解决过程,探讨未来的可用范围、在各国的应用和未来的研究趋势,并分析在哪些方面能取胜、在哪些方面发…

HarmonyOS引导页登陆页以及tabbar的代码说明 底部的Tabs功能3

效果 代码说明 这一功能实现起来还是麻烦,需要自己实现,在uniapp中的pages.json底部加上就能实现,在这里需要自己写 引入三个内容页 Home,Car,Setting ,说明界面模块也行。引入 private tabsController: TabsController new Tab…

逆波兰计算器的完整代码

前置知识&#xff1a; 将中缀表达式转为List方法&#xff1a; //将一个中缀表达式转成中缀表达式的List//即&#xff1a;(3042)*5-6 》[(, 30, , 42, ), *, 5, -, 6]public static List<String> toIndixExpressionList(String s) {//定义一个List&#xff0c;存放中缀表达…

[Unity]接入Firebase 并且关联支付埋点

首先 在这个下一下FireBase的资源 firebase11.0.6 然后导入Analytics Auth Crashlytics 其他的看着加就行 然后直接丢到Unity里面 接下来需要去Firebase里面下载 Google json 丢到 这个下面 然后就是脚本代码了 using System.Collections; using System.Collection…

html/css实现简易圣诞贺卡

一、前言 HTML&#xff0c;全称HyperText Markup Language&#xff0c;即超文本标记语言&#xff0c;是用于创建网页的标准标记语言。HTML是一种标记语言&#xff0c;由一系列的元素标签组成&#xff0c;用于描述网页的结构和内容。 CSS&#xff0c;全称是“层叠样式表”&#…

音视频的编码格式与封装格式

音视频的编码格式与封装格式是两个不同的概念&#xff0c;视频封装格式常见的有&#xff1a;mp4&#xff0c;rmvb&#xff0c;avi&#xff0c;mkv&#xff0c;mov&#xff0c;mpg&#xff0c;vob&#xff0c;3gp&#xff0c;asf&#xff0c;rmvb&#xff0c;wmv&#xff0c;div…