AI 基础设施:构建AI时代全栈云计算体系

news2024/9/21 9:44:10

生成式AI 新时代下催生新的基础设施需求

        随着企业在数字化转型之路上越走越远,期间一场新的技术革命正在发生,近几年涌现的生成式AI技术正在迅速改变科技、商业和整个社会的格局。这种强大的技术能够从数据中学习并生成预测性输出,生成式 AI 既是未来的趋势,也是一场实时颠覆各行各业的革命。

        生成式 AI 的出现正在迅速推动从医疗和金融,到娱乐和教育等各个领域的创新。通过自动执行例行任务和生成内容,这些 AI 模型可显著提高效率,降低运营成本,并为用户互动开辟新途径。例如,生成式 AI 可帮助根据用户偏好创建个性化数字内容、通过自然语言生成代码,或轻松地总结信息并提供相关背景来帮助团队更快地制定决策。

        将生成式 AI 技术全面整合到企业业务中,可以显著改变企业的运营和竞争方式,让企业能够发挥创新型解决方案的价值、实现流程自动化、改进决策过程并提供个性化客户体验。

        然而,与任何技术革命一样,实施这种强大的 AI 模型本身也面临着挑战。传统计算基础设施是为前 AI 时代构建的,无法提供这些 AI 模型所需的计算资源和可伸缩性。为了满足指数级增长的计算需求,最新迭代的 AI 模型需要完全不同的架构。

        由于拥有数十亿个参数和庞大的训练数据集,生成式 AI和 LLM 需要的计算资源达到前所未有的规模。这需要更强的处理能力、更快的内存、更大的存储空间和极其快速的网络连接,而传统基础设施的能力却难以达到。为了支持这些高级模型,专门构建的基础设施有助于确保充分发挥生成式 AI 的强大能力,提供它们所需的高性能和强大的计算能力。此外,利用这种基础设施,组织还能高效地扩缩 AI 计划,使组织能够适应不断变化的业务需求,并在充满活力的 AI 领域抓住新机遇。

AI基础设施:生成式 AI 的支柱

        支撑生成式 AI 解决方案的基础设施是可靠、高效的 AI 运营的基石。相对传统基础设施提出了一些新的要求。

成本:如何优先考虑成本效益

        成功的 AI 基础设施战略必须优先考虑成本效益。由于生成式 AI 模型和 LLM 需要大量资源进行训练和开发,如果没有精心规划和托管式的基础设施,这些成本很快就会失控。选择合适的云提供商、优化资源利用率并利用 AI 专用工具和功能,可以大大降低这些成本,同时确保 AI 模型高效运行。如果对 AI 优化型基础设施的投资力度不足,组织面临的机会成本可能会非常高,进而导致产品性能低下、扩缩困难和错失良机

性能:如何提高速度和效率

        现代工作负载的增长速度已经超过现有本地基础设施的发展速度,而摩尔定律逐渐开始失效,仅靠硬件已无法满足需求。您需要一种适应性强和软件定义的基础设施方法,全面优化堆栈的每一层,而不是接受局限性。对于数据驱动型公司,解决方案就是为高效满足激增的工作负载需求而设计的灵活云平台。

可伸缩性:如何为增长铺平道路

        在快速发展的 AI 世界,可伸缩性很关键。AI 模型在不断增长,有些模型的参数预计将超过数千亿个。这些模型将需要几十 ExaFLOP (1018 FLOP) 的 AI 超级计算能力,以便将训练时间缩短为几周或更短。要实现这一性能,将需要数以万计的加速器高效地协同工作。但事实证明,传统的扩缩解决方案往往不足以满足需求,需要复杂的手动调优,导致性能不够理想。为了避免这些问题并充分发挥生成式 AI 的强大潜力,找到一种能根据 AI 需求进行无缝扩缩的基础设施解决方案就变得至关重要了。利用云端解决方案可以提供必要的可伸缩性,同时确保成本效益和高性能。

轻松驾驭生成式 AI 部署:帮助取得成功关键步骤

1. 评估计算需求:

生成式 AI 需要很高的 GPU/TPU 性能,因此应估算工作负载需求,以确保有足够的容量。

2. 评估数据流水线:

高质量数据对于训练生成模型至关重要。审核数据源、ETL 流程、标签等。

3. 实施 MLOps:

为了构建、部署和监控生成式 AI 模型,需要制定MLOps 流程,如版本控制、实验跟踪和模型监控。

4. 评估模型风险:

生成模型存在偏见、恶意和幻觉等风险。通过测试和监控实施安全措施。

5. 评估AI伦理;

考虑生成模型的潜在危害,并通过伦理审查程序减轻危害。

6. 审核安全状况;

生成模型会带来安全风险。审核 IAM、网络安全、用户身份验证和访问权限控制。

7. 规划可伸缩性:

设计可快速扩缩计算、存储空间和网络等资源的基础设施,以满足不断增长的需求。

8. 启用协作功能:

生成式 AI 需要数据科学家、工程师、业务团队和技术主管之间的通力协作。确保工具已准备就绪。

9.考虑平台:

例如基于Google Cloud ,利用 Vertex AI 等云端 AI 平台,借助 Google Cloud 及其合作伙伴生态系统提供的预训练模型加速开发。

10. 制定 Responsible AI 原则:

根据组织的价值观,制定并落实一系列负责任的原则。

11. 投资于技能培养:

赞助 MLOps、提示工程和有关生成式 AI 的学习路径的培训,以提高员工的熟练度。

构建AI时代全栈云计算体系

        在成功确定并解决关键的基础设施要求后,重点就要转移到 AI 平台的选择上。作为一个中间层,这一关键层不仅能与现有基础设施无缝集成,还能提供对高级 AI 模型和工具的必要访问权限,这对有效的训练和推理至关重要。AI 平台的选择不仅是一项技术决策,更是一项战略决策,将直接影响 AI 项目的敏捷性和适应性。无效的 AI 平台会导致成本超支、模型缺陷和竞争优势下降。

        基于AI 基础设施&AI平台构建统一的工具集。研发团队无需将不同的工具组合在一起,因而可以避免浪费大量时间,也省去了许多麻烦,这将简化从想法、训练到部署的 AI 之旅。例如:通过在 Google Kubernetes Engine (GKE) 和 Compute Engine 以及 Google Cloud TPU 基础设施上配置和部署 AI 模型,团队能够加快最新基础模型的大规模训练和推理,同时享受自动扩缩、工作负载编排和自动升级支持。”

        在灵活且可伸缩的环境中,AI模型会蓬勃发展,而虚拟机 (VM) 和容器等解决方案提供了可定制和可优化的平台来运行生成式 AI 工作负载。 借助 Compute Engine 的可伸缩虚拟机,您的数据科学团队可以在数秒内启动专为大规模模型训练定制的环境。而GKE 的 动态容器有助于在混合、多云和边缘环境 中无缝部署资源需求量大的模型。TPU 等专用 AI 基础设施通过并行处理和张量计算,优化和加速机器学习工作负载的处理。

        例如,Google Cloud 使用超过5万个TPU v5e 芯片,为适用于大语言模型的全 球最大的分布式训练作业提供了支持,这些芯片能够实现 10 exa-FLOP(16 位)或 20 exa-OP(8 位)的总峰值性能。

如何为生成式 AI 选择合适的工具?

        就生成式 AI 而言,虚拟机和容器都可以发挥一定的作用,如何选择取决于我们应用场景的具体情况。例如,如果您正在处理高度敏感的数据,可能更需要虚拟机出色的隔离性。而对于有许多重复任务的大规模部署,或需要动态快速扩展或缩减的应用,可能更需要容器的轻量和可扩缩特性。 是选择虚拟机还是容器取决于在安全性、隔离、资源利用率和可伸缩性方面的具体需求。某些情况下,同时包含虚拟机和容器的混合解决方案可能是最优选择。了解这些考量因素将有助于指导您做出决定,并高效高质地实现生成式 AI 部署。        

虚拟机: 计算的组成要素

        虚拟机模拟物理计算机,每个虚拟机都有自己的操作系统 (OS) 和资源。虚拟机具有高 度可控性,非常适合运行需要特定操作系统或硬件配置的应用。 虚拟机的主要优势之一是具有良好的隔离性。每个虚拟机都是独立运行的,它们通过 隔离应用及其依赖项来提供额外的安全保障。这使虚拟机非常适合运行具有多个依赖 项的大型复杂应用。

容器: 轻量级替代方案

        容器是一种更轻量级的计算选择。它们将代码及其依赖项封装在一起,这样应用就能在不同计算环境之间快速、可靠地运行。与虚拟机不同,多个容器可以运行在同一个操作系统内核上,从而共享资源并减少开销。容器的优势是其可携性和效率。它们几乎可以立即启动,使用更少的资源,而且可以随处运行,因此非常适合基于微服务的应用或在不同环境中部署应用。 虽然容器共享主机内核,但这种灵活性有利于为特定应用定制安全配置和资源分配。

加速器:动力助推器

        生成式AI 加速器(如 GPU 和 TPU 芯片)经过优化,可执行高强度并行处理,满足深度 学习、调优和 AI 推理的需求,而这些从来不是 CPU 的设计用途。GPU 和 TPU 可显著 缩减与计算密集型生成式 AI 工作负载相关的时间和成本。 无论是部署本地服务器,还是利用云端加速器实例,集成高性能硬件加速器对于大规 模实施生成式 AI 都至关重要。

数据: 生成式 AI 的基础

        数据库是生成式 AI 的基础,用于存储和检索大量数据。数据库的选 择会影响 AI 的性能、可伸缩性和可靠性。 Google Cloud的BigQuery 是一个可靠、灵活的全托管式数据仓 库。它可以实现速度超快的 SQL 查询和大型数据集的实时分析,是生成式 AI 的理想选择。 在选择数据库时,需要考虑诸多因素,例如与 AI 框架的兼容性、 高负载场景下的性能、结构化和非结构化数据的处理,以及安全措施等。

网络组建和管理:数据流水线

        采用以服务为中心、任意 (any-to-any) 互连的网络组建和管理方式 是部署生成式 AI 的重要架构考虑因素。为了优化 AI 算法效率,理想做法是选择一项能够提供高性能、低延迟互连,跨多个云实现一流应用服务的云服务。为了应对这一挑战,Google Cloud 推出了 Cross-Cloud Network 等专用网络组建和管理功能,来提供可靠的高吞吐量。Cross-Cloud Network 是一个开放、安全且针对本地和云端的应用和用户进行了优化的全球网络平台。它使用 Google Cloud 的全球级网络来实现多云连接,并保护应用和用户。 随着生成式 AI 模型的规模和复杂性不断增加,检查并解决网络连接 的限制和意外情况有助于确保基础设施的可伸缩性。

运营: AI 系统的检测信号

        运营工具对于 AI 系统的日常运行至关重要。这些工具有助于监控、管理、维护 和优化 AI 解决方案的性能,提供有关系统行为的见解,并在潜在问题愈演愈烈之前发出提醒。这种时刻保持警惕的做法是生成式 AI 系统实现理想输出的关键所在,让您能够及时做出干预和调整,从而使系统以最佳状态运行。 适用于 Google Cloud 的 Gemini 为您的团队提供了一个 AI 赋能的协作者, 用于快速进行问题排查,通过对话协助调试代码,并充当最佳实践方面的主题专家。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2151980.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Listener经典案例-在线用户统计

前言 要完成在线用户统计功能的监听器,需要实现如下3个接口。 ServletContextListener接口 使用此接口的作用是:在应用初始化的时候向application中添加一个空的Set集合用来保存在线用户。HttpSessionAttributeListener接口 使用此接口的作用是&#xff…

【经验技巧】IBIS AMI模型眼图仿真问题探讨

最近,有同事问我:“拿到供应商的IBIS AMI模型,怎么判断是否可以进行应力(统计)眼图的仿真呀?如果不能进行,又怎么判断结果是瞬态仿真呢?” 不得不说,这的确是一个不错的话…

VMware虚拟机密码忘记了怎么办

1.首先,启动系统,进入开机界面,在界面中按“e”进入编辑界面 2.进入编辑界面,使用键盘上的上下键把光标往下移动,找到以““Linux16”开头内容所在的行数”,在行的最后面输入(最好把前面的语言改…

JVM 调优篇8 调优案例6- 计算合理设置内存大小

一 jmap查看堆结构配置 1.1 逻辑流程 # 查看进程ID jps -l # 查看对应的进程ID的堆内存分配 jmap -heap 3725 1.2 案例演示 1.代码 public class AdaptiveSizePolicyTest {public static void main(String[] args) {try {Thread.sleep(1000000);} catch (Interrupted…

MFC-基础架构

前言 各位师傅大家好,我是qmx_07,今天讲解MFC的基础架构 概述 介绍:MFC(Microsoft Foundation Classes)是微软公司提供的一个类库,用于在 Windows 操作系统下进行 C 应用程序开发MFC把Windows SDK API函…

一堆让你眼界大开的实用工具网站——搜嗖工具箱

和图书 https://www.hetushu.com/ 一个好用的免费看小说网站。和图书是一个提供各种热门电子书,书籍,小说免费在线阅读的网站,涵盖网游、玄幻、穿越、科幻、仙侠、都市、武侠、历史、竞技、军事灵异等多个种类的小说。在这个网站看小说最大的感触简单干净&#xff…

数据标注——AI智能时代的关键之钥

洞见AI+专题 篇首语 在这个充满无限可能的时代,人工智能正以前所未有的速度改变着我们的世界。从日常生活的便利到行业效率的飞跃,AI技术的应用几乎无处不在。在银行业务中,同样可以看到AI带来的巨大潜力。本专题旨在展示农业银行科技部门在AI技术应用上的最新探索与实践成…

力扣之178.分数排名

1. 178.分数排名 1.1 题干 表: Scores -------------------- | Column Name | Type | -------------------- | id | int | | score | decimal | -------------------- id 是该表的主键(有不同值的列)。 该表的每一行都包含了一场比赛的分数。Score 是…

Docker+PyCharm远程调试环境隔离解决方案

DockerPyCharmMiniconda实现深度学习代码远程调试和环境隔离 本文详细介绍了如何在局域网环境下,利用Docker、PyCharm和Miniconda构建一个高效的深度学习远程调试平台。首先在服务器(server)上,通过Docker构建包含不同CUDA环境的镜…

MCS-51汇编

伪指令: EQU: Equal,定义常量 COUNT EQU 10H ; 定义一个符号名COUNT,其值为10H DELAY EQU 500 ; 定义一个符号名DELAY,其值为500 数据传送: MOV: MOVE,传送数据 MOVC: 算术运算: 跳转…

详解npm源及其使用方法

详解npm源及其使用方法 npm源是一个用于存储和提供npm包的服务器地址,npm在安装包时会通过这个源地址下载对应的依赖包。默认情况下,npm使用官方的npm源(https://registry.npmjs.org/),该源存储了海量的Node.js开源包…

Android Studio 汉化教程,直接授人以渔,又菜又爱学英语还不好,不愧是我

Android Studio 汉化教程,直接授人以渔 查看使用的 Android Studio 版本号 当前版本号:241.18034.62.2412.12266719 打开官网插件地址 插件地址选择对应版本进行下载 版本怎么选? 我的版本号 241.18034.62.2412.12266719选择的版本号只有前三位对应的…

【JAVA开源】基于Vue和SpringBoot的网上超市系统

本文项目编号 T 037 ,文末自助获取源码 \color{red}{T037,文末自助获取源码} T037,文末自助获取源码 目录 一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析 六、核心代码6.1 查…

全国31省对外开放程度、经济发展水平、政府干预程度指标数据(2000-2022年)

旨在分析2000-2022年间中国31个省份的对外开放程度、经济发展水平和政府干预程度,探讨其背后的动因与影响。 2000年-2022年 全国31省对外开放程度、经济发展水平、政府干预程度指标数据https://download.csdn.net/download/2401_84585615/89478612 数据概览 对外…

Hexo博客私有部署Twikoo评论系统并迁移评论记录(自定义邮件回复模板)

部署 之前一直使用的artalk,现在想改用Twikoo,采用私有部署的方式。 私有部署 (Docker) 端口可以根据实际情况进行修改 docker run --name twikoo -e TWIKOO_THROTTLE1000 -p 8100:8100 -v ${PWD}/data:/app/data -e TWIKOO_PORT8100 -d imaegoo/twi…

英集芯IP5912:集成开关充电功能的低功耗8位POWER MCU芯片

英集芯IP5912是一款功能丰富的、集成了降压充电管理功能的8位MCU芯片,它内置了一个5V输入的同步降压充电DC-DC,功率管也是内置的,同时提供最大1.5A的充电电流。封装方式采用SOP16,方案应用时只需要很少的外围器件,就可…

Java面试篇基础部分-ReentrantLock详解(二)

Lock 接口的主要方法 void lock():给对象加锁,如果锁没有被其他线程使用,则当前线程获取到这个锁;如果锁正在被其他线程持有,则将禁用当前线程,直到当前线程获取到锁。boolean tryLock():试图给对象进行加锁操作,如果锁没有被其他线程使用,则将获取到这个锁并且返回tr…

基于JAVA+SpringBoot+Vue的智能无人仓库管理

基于JAVASpringBootVue的智能无人仓库管理 前言 ✌全网粉丝20W,csdn特邀作者、博客专家、CSDN[新星计划]导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末附源码下载链接🍅 哈…

单样本Cellchat(V2)细胞通讯分析学习和整理

细胞通讯分析是一种研究不同细胞类型之间如何通过信号分子(如配体和受体)进行相互交流和调控的分析方法。它在揭示细胞间相互作用的机制,理解组织和器官如何协调运作方面具有重要意义。 细胞通讯分析的主要内容如下: 配体-受体相…

新品亮相|美格智能SLM530/SLM530P智能模组,助力金融新零售智慧升级

随着金融支付产业数字化与智能化不断推进,泛支付场景一体化解决方案成为行业发展的新趋势,从手持POS机到智能收款机,金融支付领域需要更快速、更精准、更安全的解决方案,加快推进数字化升级进程。 近期,美格智能正式发…