AI时代的数据革命,分布式融合存储为何堪当大任?

news2025/1/23 7:11:31

有人说,以ChatGPT为代表的人工智能应用的兴起标志着AI时代奇点来临。

诚然如斯。这一波AIGC浪潮来袭,让人们真正意识到AI给生产力带来的巨大飞跃。从今年起,AI大模型成为行业用户重点关注的对象,甚至金融、媒体、广告营销等用户纷纷试水AI大模型。

但OpenAI ChatGPT的成功,除了整合Transformer等多种人工智能技术之外,基础设施的高效支撑也功不可没。随着AI应用的深入,越来越多用户意识到,伴随着AI时代的到来,一场数据革命也随之发生:如何高效存储与处理海量多元数据、如何实现数据全生命周期的高效管理、如何为AI大模型选取合适的数据精度……

因此,分布式融合存储开始堪当大任,在各类AI应用的数据基础设施中扮演着重要角色。强大的分布式融合存储将成为AI时代各类智慧应用的基石,真正解决AI应用的训练与推理等各类数据痛点,为AI释放生产力注入数据存储的关键力量。

AI时代的数据革命

近年来,分布式融合存储市场的整体增长速度明显更快。

究其原因,以大数据、AI为代表的新应用场景兴起是关键所在。这些新应用、新场景均需要大量应用到非结构化数据。Gartner预测,到2025年,人工智能将成为推动基础架构决策的最主要因素之一,这将导致基础架构需求增长10倍。

如果说过去十年里,AI应用的兴起首先带来了算力的革命,让多元异构算力成为大势所趋,智算中心成为数据中心建设方向;那么,未来十年,随着AI应用的深入,数据规模的持续增大,一场数据革命即将到来,将对数据基础设施的发展带来深远影响。

首先,以AIGC为代表的AI大模型应用正在加速走向多模态。例如,OpenAI GPT-5开始就是多模态大模型,这意味着音视频等数据将会接入,数据集迎来指数级的增长,对于数据存储的需求也会产生根本性的影响。

浪潮信息存储产品线总经理李辉直言,AI大模型会对数据基础设施带来根本影响:其一、大模型走向多模态,筛选后的数据集就达到PB级,而筛选前的数据量会更加惊人;其二,大模型应用走向深入,意味着海量终端的接入,带来大量推理需求,对于数据基础设施的延时要求会越来越高。

其次,各大行业的AI应用逐渐进入纵深阶段,对于数据存储的性能将会极度渴望。例如,L2级自动驾驶普及率正在提升,从L2到L3进阶时,对于训练的性能要求越来越高;又如,车路协同场景的出现,进一步加速了数据基础设施的性能要求。

“像车路协同、智能制造、智慧医疗这些场景中,对于数据处理性能、时效性等是目前当下的核心挑战。”浪潮信息存储产品线副总经理刘希猛介绍道。

第三,AI应用的规模化和场景多样化,会提升数据处理的复杂度,对于数据基础设施的数据互通性、绿色节能带来了极大挑战。例如,现在车路协同就是典型的端-边-云联动的智慧应用,数据往往需要在多个场景中流动、传输和应用。

因此,业界普遍认为,AI时代会加速数据基础设施的变革,在非结构化数据当道的大趋势下,分布式融合存储将在这场变革中发挥巨大作用。

分布式融合存储为何堪当大任

面对非机构化数据带来的数据洪流,分布式融合存储之所以能够获得青睐,主要在于它所具备的高扩展能力、高可靠性等优势,可以应对海量数据带来的种种挑战。

事实上,除了上述优势之外,分布式融合存储近年来也在不断演进与迭代,在协议融合、性能和安全性等方面与时俱进,以适应大数据、AI等应用带来新数据存储需求。

分布式融合存储第一个重要的特征就是需要做到多元融合,除了早期融合块、文件、对象等协议之外,现在很多分布式融合存储产品也开始融入了大数据等协议。

为什么分布式融合存储多元融合的方向意义重大?其实从数据处理管道就能够了解多元融合的重要性,AI应用往往涉及数据处理的多协议和长链路,往往是混合负载交织在一起,存在多个数据集之间来回拷贝的环节,不仅数据处理效率低下,性能也无法满足AI应用的处理需求。

以科教研场景的为例,当前科教研属于典型的计算+AI+Bigdata融合模式,数据的高效处理是基础和关键。刘希猛介绍,很多科教研场景建立数据集是一个非常痛苦的过程,因为需要数据复制,几十PB数据的复制需要花费多天时间,而如果协议融合的话,就可以免去数据复制,让数据处理的效率大幅提升。

分布式融合存储第二个重要的特征是智能敏捷。众所周知,虽然当前数据量爆炸性的增长,但是被用来分析的数据量依然很小。相关数据显示,已获取数据的平均留存率仅为2%,大量数据从未被分析和利用,分布式融合存储需要能够实时、智能地处理数据,满足各种AI应用带来的性能需求。

分布式融合存储第三个重要特征就是提升安全性。随着AI应用走向普及,各种安全问题也随之暴露,作为数据最后一道防线,分布式融合存储的数据保护能力也需要随之提升。

当前,几乎所有分布式融合存储产品都在加速迭代,以在数据存储层面来支撑大数据、AI等新应用的需求变化。以浪潮信息新一代分布式融合存储AS13000G7为例,堪称分布式融合存储演进的代表。

浪潮信息AS13000G7在保障安全可靠的基础上,以“多合一”极致架构为核心,具备“多合一极致融合架构、极致性能、极致容量”等极致能力,并打造通用型分布式融合存储、高密型视频分布式融合存储、性能型全闪分布式融合存储等多种产品形态。

以融合架构为例,浪潮信息AS13000G7率先实现了一套存储支持多种接口协议、多种数据存储应用(文件、对象、大数据、视频等),实现一份数据的多协议互访互通。比如,针对AI应用对数据处理的各种需求,可以避免分散管理流程,无需拷贝数据和复杂的性能调优,使得所有数据处理流程均在一套分布式融合存储中。

“像教科研场景的数据集创建,不用数据复制,即可实现一份数据的多种协议访问,大幅降低了数据复制带来的容量挑战。”刘希猛表示道。

而极致性能方面,浪潮信息AS13000G7基于Intel至强四代可扩展处理器,支持PCIe 5.0高速总线、DDR5高速缓存,搭载自研NVMe SSD,通过盘控协同实现端到端联合调优。相较上一代产品,性能提升40%。

此外,浪潮信息AS13000G7在极致容量上也再上一个台阶,单一集群最大扩展至10240节点,单一文件系统支持千亿文件,基于iCap智能空间管理引擎,通过业内领先的32+2大比例纠删、智能均衡、压缩重删、多源零拷贝、软拷贝等智能容量算法,让存储空间利用率达到94%以上。

作为当前全球存储增长速度最快的厂商之一,浪潮信息在分布式融合存储领域耕耘多年,一直走在市场的最前沿,并且有着出色的市场表现,无论是装机容量还是销量均位列市场前茅,其新一代分布式融合存储AS13000G7的发布,不仅树立了新一代分布式融合存储的标杆,更意味着创新力十足的分布式融合存储产品在市场吹响担当大任的号角。

分布式融合存储未来可期

不可否认,过去多年里,集中式存储一直是当之无愧的主角,分布式融合存储虽然发展多年,直到现在,才真正迎来市场良机,从产业规模、增长速度、产品创新等方面开始全面开花。

在李辉看来,分布式融合存储未来会朝着数据中心操作系统+存储底座的形态演进,未来会成为支撑企业数字化转型的一个重要大平台。

从产品形态来看,分布式融合存储未来会走软硬一体机的主流形态,产品也会更加贴近场景化。分布式融合存储产业联盟的《分布式融合存储发展白皮书》显示,2021年中国分布式融合存储市场规模达到百亿级,其中一体机形态占比高达91%,软硬协同实现端到端的高可靠、高性能和一体化运维能力。

另外,分布式融合存储的应用场景会更加广泛化,并且产品形态会更加贴近应用场景。以浪潮信息AS13000G7-MS60巨量、多模态非结构化数据的极致容量场景,像智慧城市、智慧交通等产生海量实时数据和分析应用的场景,AS13000G7-MS60可以提供广泛兼容、高性价比、高可靠的存储服务;AS13000G7-MN24则对自动驾驶等实时数据分析的场景提供业界领先的性能和数据处理能力。

从技术创新角度来看,分布式融合存储未来会与AI应用等大趋势联系更加紧密。众所周知,数据存储属于基础设施底层产品,一直离应用较远,但是未来随着AI应用进入纵深阶段,分布式融合存储的技术创新也会与上层应用联系更加紧密。

“系统级的重删、压缩技术是分布式融合存储很重要的创新方面。以AI大模型为例,在收集数据阶段,分布式融合存储系统级的压缩技术去识别数据,去AI去减少对存储空间的占用,以及提升数据质量。这其中还有很多底层技术值得去研究与探索。”李辉介绍道。

从数据中心架构发展来看,存算分离架构的趋势未来会对分布式融合存储产生诸多影响,尤其是像CXL协议、DPU处理器等快速发展,让分布式融合存储未来的作用与地位更加突出。李辉直言:“除了数据中心存算分离外,云数也会走向解耦。在混合云或者多云模式下,数据如何更好地流动、共享是用户的核心诉求,云与数的解耦无疑是有助于数据的流动。”

综合观察,《分布式融合存储发展白皮书》预测,未来三年,中国分布式融合存储仍将保持40%的增长速度,分布式融合存储在云、大数据分析、AI等应用场景有着广泛的部署需求,堪称AI时代的基石。而浪潮信息作为分布式融合存储市场销量中国第一的厂商,无疑对于分布式融合存储的产品创新、未来趋势有着极为深刻地认识。面向未来,随着浪潮信息AS13000G7的问世,浪潮信息有望加速推动分布式融合存储在千行百业中的应用,为千行百业的数字化转型和智能化升级注入源源不断的数据活力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/568388.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LangChain 实践之工具使用

参考:LangChain中文入门教程 LangChain官网 通过 Google 搜索并返回答案 import os os.environ["OPENAI_API_KEY"] "xxx" os.environ[SERPAPI_API_KEY] "xxx"from langchain.agents import load_tools from langchain.agents im…

华为OD机试真题 Java 实现【优秀学员统计】【2023Q1 100分】

一、题目描述 公司某部门软件教导团正在组织新员工每日打卡学习活动,他们开展这项学习活动已经一个月了,所以想统计下这个月优秀的打卡员工。每个员工会对应一个id,每天的打卡记录记录当天打卡员工的id集合,一共30天。 请你实现…

进入阿里外包一个月,我离职了

有一种打工人的羡慕,叫做“大厂”。 真是年少不知大厂香,错把青春插稻秧。 但是,在深圳有一群比大厂员工更庞大的群体,他们顶着大厂的“名”,做着大厂的工作,还可以享受大厂的伙食,却没有大厂…

设计模式详解之工厂模式

作者:刘文慧 本文将着眼于工厂模式,从简单工厂模式、工厂方法模式和抽象工厂模式出发,展开学习和深入探讨。 ​ 一、概述 我们在进行软件开发时要想实现可维护、可扩展,就需要尽量复用代码,并且降低代码的耦合度&…

SwiftUI 实现一个 iOS 上 Files App 兼容的文件资源管理器

功能需求 在 SwiftUI 中自己白手起家写一个 iOS(或iPadOS)上迷你的文件资源管理器是有些难度滴,不过从 iOS 11 (2017年) 官方引入自家的 Files App 之后,我们就可以借助它的魔力轻松完成这一个功能了。 …

防抖和节流 含义及区别图文详解秒懂

防抖和节流都是为解决短时间内频繁触发某个功能函数而导致的性能问题。比如,触发频率过高而导致响应速度跟不上,以致出现延迟,假死或卡顿的现象。 防抖 图解:一件事情,计划5s以后触发,结果中途意外触发了…

一款可以自动写代码的编辑器,解放你的双手

Cursor 是集成了 GPT-4 的 IDE 工具,目前免费并且无需 API Key,支持 Win、Mac、Linux 平台,可以按要求生成代码,或者让 AI 帮助优化代码,分析代码。Cursor目前已经集成了openai的GPT-4,它或将彻底改变我们写…

gdb调试 与 coredump

gdb调试 与 coredump调试 1. 启动gdb2.gdb中的相关命令3. coredump调试(附属于gdb调试中一种,当程序出现错误时,会使用coredump调试)1)coredump是什么?2)前期设置3)什么情况下会导致…

JavaEE进阶5/25

1.五大类注解详解(重点 1.Controller 控制器,用于业务逻辑层,来控制用户的行为。它用来检查用户参数的有效性。 当用户的参数有效的话会继续分发到服务层。controller可以理解为程序的安保系统 2.Service 服务层。归属服务层,调用…

MySQL---SQL优化上(explain分析执行计划、查看SQL的执行效率、定位低效率SQL)

1. 查看SQL的执行效率 MySQL 客户端连接成功后,通过 show [session|global] status 命令可以查看服务器状态信息。通 过查看状态信息可以查看对当前数据库的主要操作类型。 --下面的命令显示了当前 session 中所有统计参数的值 show session status like Com____…

【滴水逆向P77】加载进程(PE查看器)应用程序源码解析

在上一篇文章中讲解了通用控件,做了一个基本的加载进程(PE查看器)的应用程序项目,Win32通用控件,加载进程(PE查看器)项目初步,大家如果有不懂的可以去看看,由于不是很了解…

如何搭建一个高效、可靠的积分商城系统?

互联网购物的普及,积分商城系统已经成为商家和消费者之间互动的一种常见方式。它不仅可以帮助商家增加品牌影响力,还可以提高顾客体验,从而增加销售额。下面就如何搭建一个高效、可靠的积分商城系统作一些简单介绍。 第一步:确定需…

MyBatis源码学习三之查询主逻辑

MyBatis源码学习三之查询主逻辑 继续上一章节。 MyBatis的一个主要流程图。从图中可以看出,核心的东西主要集中在3个Handler中。分别是入参处理,执行sql语句处理,以及返回结果处理。 一 实例 Test public static void main(String[] args…

Revit建模|10种方法帮你解决Revit操作卡顿!

大家好,这里是建模助手。 相信各位BIMer在使用Revit建模时,肯定遇到过软件加载慢或者程序未响应的现象。我们经过测试发现,除了硬件配置及软件本身的问题以外,建模习惯及软件使用方法不当也会造成软件卡顿。 以下就是我们总结的…

TPlinker解读

参考: 关系抽取之TPLinker解读加源码分析 TPLinker 实体关系抽取代码解读 实体关系联合抽取:TPlinker TPLinker中文注释版 Tagging TPLinker模型需要对关系三元组(subject, relation, object)进行手动Tagging,过程分为三部分: &…

阿里面试,HR说我不配21K,直接翻脸.....

好家伙,这奇葩事可真是多,前两天和粉丝聊天,他说前段时间面试阿里的测开岗,最后和面试官干起来了。 我问他为什么,他说没啥,就觉得面试官太装了,我说要21K,他说太高了,说…

【全国产龙芯平台】迅为iTOP-LS3A5000_7A2000开发板+银河麒麟操作系统

硬件准备 1.M.2.ssd硬盘(最好大于等于128G); 2.迅为LS3A5000开发板; 3.U盘(需大于8g),制作启动盘使用; 4.hdmi显示器; 5.搭载linux环境的计算机。 安装步骤 1 制作…

【多线程】两阶段终止模式

目录 一、两阶段终止模式说明二、错误思路三、实现思路图四、实现思路五、方法说明六、interrupt实现6.1 代码示例6.2 示例截图 七、volatile实现7.1 代码示例7.2 示例截图 一、两阶段终止模式说明 1.在一个线程t1中优雅地终止另一个线程t2,指终止t2线程前&#xff…

【C++】位图/布隆过滤器+海量数据处理

✍作者:阿润菜菜 📖专栏:C 文章目录 前言一 位图1.位图法介绍2.位图实现的细节 二、布隆过滤器1.布隆过滤器概念2.布隆过滤器实现 三、海量数据处理1. 位图应用2. 哈希切割3. 布隆过滤器 前言 题目 给40亿个不重复的无符号整数,没…

Java

FileOutputStream写数据的3种方式 void write(int b) //一次写一个字节的数据 void write(byte[] b) //一次写一个字节数组数据 void write(byte[] b, int off,int len) //一次写一个字节数组的部分数据 参数一:数组;参数二:起始索引 0;参数三:个数换行: windows:“\r\n” lin…