科技云报道:云原生是大模型“降本增效”的解药吗?

news2024/12/24 8:15:04

科技云报道原创。

在过去一两年里,以GPT和Diffusion model为代表的大语言模型和生成式AI,将人们对AI的期待推向了一个新高峰,并吸引了千行百业尝试在业务中利用大模型。

国内各家大厂在大模型领域展开了激烈的军备竞赛,如:文心大模型、通义千问、混元大模型、盘古大模型等等,这些超大规模的模型训练参数都在千亿以上,有的甚至超过万亿级。

即便训练一次千亿参数量模型的成本可能就高达数百万美元,但大厂们依然拼尽全力,除此之外也有很多行业企业希望拥有自己的专属大模型。

对于企业来说,要想在大模型的竞争中胜出,就必须充分利用算力,并且构建高效稳定的服务运行环境,这就对IT基础设施能力提出了更高的要求。

而云原生正是比拼的重要一环。云原生技术的自动化部署和管理、弹性伸缩等功能,能够有效提高大模型应用效率并降低成本。

据Gartner预测,2023年70%的AI应用会基于容器和Serverless技术开发。在实际生产中,越来越多的AI业务,比如自动驾驶、NLP等,也正在转向容器化部署。

那么,云原生是如何帮助大模型降本增效,在这个过程中又遇到了哪些挑战?
在这里插入图片描述
云原生成为大模型的标配

近年来,容器和Kubernetes已经成为越来越多AI应用首选的运行环境和平台。

一方面,Kubernetes帮助用户标准化异构资源和运行时环境、简化运维流程;另一方面,AI这种重度依赖GPU的场景可以利用K8s的弹性优势节省资源成本。

随着大模型浪潮的到来,以云原生环境运行AI应用正在变成一种事实标准。

弹性伸缩与资源管理

大模型训练往往需要大量的计算资源,而云原生环境通过容器化和编排工具可以实现资源的弹性调度与自动扩缩容。

这意味着在大模型训练过程中可以迅速获取所需资源,并在任务完成后释放资源,降低闲置成本。

分布式计算支持

云原生架构天然支持分布式系统,大模型训练过程中的并行计算需求可以通过云上的分布式集群轻松实现,从而加速模型收敛速度。

微服务架构与模块化设计

大模型推理服务可以被分解为多个微服务,比如预处理服务、模型加载服务和后处理服务等,这些服务能够在云原生环境中独立部署、升级和扩展,提高系统的可维护性和迭代效率。

持续集成/持续部署(CI/CD)

云原生理念强调快速迭代和自动化运维,借助CI/CD流程,大模型的研发团队能够以更高效的方式构建、测试和部署模型版本,确保模型更新的敏捷性。

存储与数据处理

云原生提供了多种数据持久化和临时存储解决方案,有助于解决大模型所需的大量数据读取和写入问题。

同时,利用云上大数据处理和流式计算能力可以对大规模数据进行有效预处理和后处理。

可观测性和故障恢复

在云原生环境下,监控、日志和追踪功能完善,使得大模型服务的状态更加透明,遇到问题时能更快地定位和修复,保证服务高可用性。

总体而言,云原生架构的诸多优势契合了大模型在计算密集、数据驱动、迭代频繁等方面的需求,能够为大模型带来成本、性能、效率等多方面的价值,因而成为大模型发展的标配。

大模型对云原生能力提出新挑战

尽管云原生对于大模型有着天然的优势,但是面对LLM、AIGC这样的新领域,依然对云原生能力提出了更多挑战。

在训练阶段,大模型对计算、存储、网络等基础架构的要求都更高。

规模上,要训练出具有广泛知识和专业领域理解及推理能力的大语言模型,往往需要高达万卡级别的GPU集群和PB级的数据存储以及TB级的数据吞吐。

此外,高性能网络也将达到单机800Gbps甚至3.2Tbps的RDMA互联。

性能方面,随着模型体积和参数量的增长,单张显卡已无法承载完整的模型。因此需要使用多张显卡进行分布式训练,并采用各种混合并行策略进行加速。

这些策略包括数据并行、模型并行、流水线并行以及针对语言模型的序列并行等,以及各种复杂的组合策略。

在推理阶段,大模型需要提供高效且稳定的推理服务,这需要不断优化其性能,并确保服务质量(QoS)得到保证。

在此基础上,最重要的目标是提高资源效率和工程效率。一方面,持续提高资源利用效率,并通过弹性扩展资源规模,以应对突发的计算需求。

另一方面,要最优化算法人员的工作效率,提高模型迭代速度和质量。

由此可见,大模型对云原生技术提出了新的能力要求:

一是,统一管理异构资源,提升资源利用率。

从异构资源管理的角度,对IaaS云服务或者IDC内的各种异构计算(如 CPU,GPU,NPU,VPU,FPGA,ASIC)、存储(OSS,NAS, CPFS,HDFS)、网络(TCP, RDMA)资源进行抽象,统一管理、运维和分配,通过弹性和软硬协同优化,持续提升资源利用率。

在运维过程中,需要多维度的异构资源可观测性,包括监控、健康检查、告警、自愈等自动化运维能力。

对于宝贵的计算资源,如GPU和NPU等加速器,需要通过各种调度、隔离和共享的方法,最大限度地提高其利用率。

在此过程中,还需要持续利用云资源的弹性特征,持续提高资源的交付和使用效率。

二是,通过统一工作流和调度,实现 AI、大数据等多类复杂任务的高效管理。

对于大规模分布式AI任务,需要提供丰富的任务调度策略,如Gang scheduling、Capacity scheduling、Topology aware scheduling、优先级队列等,并使用工作流或数据流的方式串联起整个任务流水线。

同时,需兼容Tensorflow,Pytorch,Horovod,ONNX,Spark,Flink等各种计算引擎和运行时,统一运行各类异构工作负载流程,统一管理作业生命周期,统一调度任务工作流,保证任务规模和性能。

一方面不断提升运行任务的性价比,另一方面持续改善开发运维体验和工程效率。

此外,在计算框架与算法层面适配资源弹性能力,提供弹性训练和弹性推理服务,优化任务整体运行成本。

除了计算任务优化,还应关注数据使用效率的优化。为此,需要统一的数据集管理、模型管理和访问性能优化等功能,并通过标准API和开放式架构使其易于被业务应用程序集成。

对于大模型还有一个主要能力,就是能够在分钟级内准备好开发环境和集群测试环境,帮助算法工程师开始执行深度学习任务。

把端到端的 AI 生产过程通过相同的编程模型、运维方式进行交付。

结语

随着大模型等AI技术的不断发展,云原生技术将面临一些新的挑战和需求。例如,如何快速适应新的开源大模型训练方法,以及如何提高大模型推理性能并确保其质量和稳定性。

同时,也需要关注一些前沿技术和创新能力,通过标准化和可编程的方式来集成,不断迭代业务应用,形成 AI+ 或 LLM+ 的新应用开发模式和编程模型。

但无论技术如何发展,为大模型提供快速、准确、稳定且成本可控的服务,保证大模型训练和推理的成本、性能和效率,都将成为企业为其价值买单的根本。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1457744.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

iconfont的使用(最详解)

目录 一、Iconfont是什么? 二、Iconfont如何使用 1.官网注册 2.新建项目 3.项目中使用 Unicode方式 Font class方式 Symbol方式 三、总结 一、Iconfont是什么? iconfont是阿里旗下的一套图标库,UI设计师设计号图标后,会…

用pandas做简单策略回测

一,RSI策略 数据: 代码 import pandas as pd# 读取贵州茅台股票历史交易数据 df pd.read_csv(贵州茅台股票历史交易数据.csv) missing_values df.isnull().sum()# print("缺失值数量:") # print(missing_values)# 计算RSI指标 …

【LeetCode: 590. N 叉树的后序遍历 + DFS】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…

机器学习中梯度下降法的缺点

机器学习中的梯度下降法是一种寻找函数最小值的优化算法,广泛应用于训练各种模型,尤其是在深度学习中。尽管其应用广泛,但梯度下降法也存在一些不可忽视的缺点: 1. 局部最小值和鞍点 局部最小值问题: 对于非凸函数&a…

Rofin罗芬Laser激光DQ80设备操作说明书

Rofin罗芬Laser激光DQ80设备操作说明书

Elasticsearch:什么是 kNN?

kNN - K-nearest neighbor 定义 kNN(即 k 最近邻算法)是一种机器学习算法,它使用邻近度将一个数据点与其训练并记忆的一组数据进行比较以进行预测。 这种基于实例的学习为 kNN 提供了 “惰性学习(lazy learning)” 名…

【大模型】大模型基础知识

几个常用术语 模型公式参数 K矩阵:字典 V矩阵:关键字的权重数值 AGI:通用人工智能 分词、词性关联、词性标注、知识图谱。分词操作是AI的开发,但是离AGI越来越远。自注意力机制的核心思想是摒弃分词等操作,面向更通…

机器人初识 —— 电机传动系统

一、背景 波士顿动力公司开发的机器人,其电机传动系统是其高性能和动态运动能力的核心部分。电机传动系统通常包括以下几个关键组件: 1. **电动马达**:波士顿动力的机器人采用了先进的电动马达作为主要的动力源,如伺服电机或步进…

Netty Review - NIO空轮询及Netty的解决方案源码分析

文章目录 Pre问题说明NIO CodeNetty是如何解决的?源码分析入口源码分析selectCntselectRebuildSelector Pre Netty Review - ServerBootstrap源码解析 Netty Review - NioServerSocketChannel源码分析 Netty Review - 服务端channel注册流程源码解析 问题说明 N…

探索AI视频生成新纪元:文生视频Sora VS RunwayML、Pika及StableVideo——谁将引领未来

探索AI视频生成新纪元:文生视频Sora VS RunwayML、Pika及StableVideo——谁将引领未来 sora文生视频,探索AI视频生成新纪元 由于在AI生成视频的时长上成功突破到一分钟,再加上演示视频的高度逼真和高质量,Sora立刻引起了轰动。在S…

vscode 开发代码片段插件

环境准备 node - 20v版本 ,推荐使用nvm进行版本控制全局安装 "yo" 是 Yeoman 工具的命令行工具, npm i yo -g全局安装 generator-code 是一个 Yeoman 脚手架 gernerator-code npm i gernerator-code -g全局安装 npm install -g vsce官方文档 …

代码随想录算法训练营第55天 | 309.最佳买卖股票时机含冷冻期 714.买卖股票的最佳时机含手续费

最佳买卖股票时机含冷冻期 股票题做到这地步,可以发现分析每一天的可能状态与状态之间的转换是解决问题的关键。这道题中每一天可以有4种有效状态: 持有股票不持有股票,当天之前就已经卖出了股票不持有股票,当天卖出股票冷冻期状…

数字化转型导师坚鹏:政府数字化转型之数字化新技术解析与应用

政府数字化转型之数字化新技术解析与应用 课程背景: 数字化背景下,很多政府存在以下问题: 不清楚新技术的发展现状? 不清楚新技术的重要应用? 不清楚新技术的成功案例? 课程特色: 有…

计算机视觉的应用23-OpenAI发布的文本生成视频大模型Sora的原理解密

大家好,我是微学AI,今天给大家介绍一下计算机视觉的应用23-OpenAI发布的文本生成视频大模型Sora的原理解密。本文概况性地将Sora模型生成视频主要分为三个步骤:视频压缩网络、空间时间潜在补丁提取以及视频生成的Transformer模型。 文章目录…

专修戴尔R730xd服务器闪电灯 心跳亮黄灯故障

2024年开年第二天接到一个用户反馈说他公司有一台DELL PowerEdge R730xd服务器春节前由于市电问题意外断电关机了,刚好碰上春节就没去开机了,今天工厂开工服务器通电发现开不了机,且机器过了一会后报了2个黄灯错误,如下图&#xf…

【数据结构】每天五分钟,快速入门数据结构(一)——数组

目录 一.初始化语法 二.特点 三.数组中的元素默认值 四.时间复杂度 五.Java中的ArrayList类 可变长度数组 1 使用 2 注意事项 3 实现原理 4 ArrayList源码 5 ArrayList方法 一.初始化语法 // 数组动态初始化(先定义数组,指定数组长度&#xf…

书生浦语大模型实战营-课程笔记(5)

LLM部署特点,内存开销大,TOKEN数量不确定 移动端竟然也可以部署LLM。之前以为只能在服务端部署,移动端作为客户端发起请求来调用大模型。 LMDeploy用于模型量化 模型量化:降低内存消耗 推理性能对比 量化主要作用:…

内存计算研究进展-技术架构

内存计算技术是一个宏观的概念,是将计算能力集成到内存中的技术统称。集成了内存计算技术的计算机系统不仅能直接在内存中执行部分计算,还能支持传统以CPU为核心的应用程序的执行。区别于内存计算,存算一体芯片将存储与计算相结合&#xff0c…

MySQL--SQL解析顺序

前言: 一直是想知道一条SQL语句是怎么被执行的,它执行的顺序是怎样的,然后查看总结各方资料,就有了下面这一篇博文了。 本文将从MySQL总体架构—>查询执行流程—>语句执行顺序来探讨一下其中的知识。 一、MySQL架构总览&a…

算法模板 6.并查集

并查集 用于解决连通块问题。 判断集合个数也就是判断p[x] x 的个数 836. 合并集合 - AcWing题库 #include <bits/stdc.h> using namespace std; const int N 1e5 10; int p[N]; // 记录每个元素的father int n, m;int find(int x){ // 查询元素x的fatherif(p[x] …