百度智能云新一代云原生产品加速 AI 原生应用落地

news2024/10/16 16:35:01

本文整理自百度云智峰会 2024 —— 云原生论坛的同名演讲。

图片


今天为大家分享在过去的一年里,围绕 AI 原生的大背景下,百度智能云在基础公有云的计算、存储、网络以及云原生等产品和技术方面所做出的核心工作。

随着大模型所带来的 AI 技术的代际演化,我们总结在云上存在三种典型的工作负载: 以「数据并行」为核心思想的「大数据」计算负载,以「应用并行」为核心思想的「云原生」工作负载,以及以分布式「张量并行」计算来实现大模型训练和推理的「大模型」工作负载。

为了更好的支撑这三种典型的工作负载,我们以云原生架构和 AI 原生架构的深度技术融合为中心思想,重点围绕云原生计算、云原生网络、云原生存储和云原生应用这 4 个方向来打造新一代的基础公有云产品和技术体系。

  • 云原生计算:基于新一代 CPU 和 GPU 芯片实现算力升级,结合 DPU 技术,打造极致的性价比计算产品;
  • 云原生网络:基于云原生架构和软硬结合技术,在性能和规模上全面升级,实现高效组网;
  • 云原生存储:基于新一代目录树架构,打造云原生数据湖产品体系,为 AI 应用提供数据存储底座;
  • 云原生应用:面向开发者友好,建设云原生应用产品的企业级特性,提升应用部署管理效率。

图片

在云原生计算方向,发布全新一代的计算实例和一系列企业级能力的升级。

在通用计算方面,结合新一代 Intel 和 AMD cpu 芯片,百度智能云上全新一代的 Intel EMR 和 AMD genoa 计算实例已经全面开放售卖。同时我们明年会推出基于 Intel 至强 6 的计算产品,全系产品主频在 3.3GHz 以上,满足对高主频算力有需求的场景。

在异构计算方面,百度智能云提供支持多种异构芯片的计算产品,包括国际主流的 L20/H20 等 GPU,以及自研加速芯片等计算产品,面向推理和训练场景全面优化性能,最高配备 3.2T 的 RDMA 高速网络,实现算力和网络的最佳配比,形成形态丰富的异构算力矩阵。

面向 AI 计算对模型安全的强烈需求,结合 Intel TDX 技术,我们发布了机密计算虚机产品,基于硬件实现内存和显存的数据加密,让应用无需修改就能实现加密能力。同时基于我们在虚拟机技术上的深厚积累,在总线拓扑和设备虚拟化等方面做了大量优化,极致降低了性能损耗,满足大模型训练和推理在计算性能和模型安全方面的双重要求。

百度智能云计算产品还实现了一系列企业级的产品能力升级, 基于大模型技术升级了智能终端,全面集成了 AI 助手,面向开发者完善了实例诊断和健康检查能力;面向短链接等应用场景提供了性能优化,面向不同 CPU 平台的应用迁移提供了专属的性能诊断和优化工具 Btune 等;开放了新版维修平台,实现了可订阅和可编程的事件总线。

图片

AI 计算场景对模型数据安全提出了更高要求,基于 Intel TDX 机密技术我们全新发布企业级密算虚机产品。如左图所示,分别展示了普通虚机、加密的纯 CPU 虚机和加密的 GPU 虚机的形态。

机密虚机可以实现应用程序内存和显存的数据加密,从而保护模型的安全。百度智能云提供了 CPU 机密虚机,保护内存数据的机密性和完整性。基于英伟达 Hopper 架构,提供 GPU 机密虚机保证模型数据的安全。除了内存和显存以外,对本地盘和云盘等持久化数据提供端到端加密能力,保证持久化数据的安全。

图片

基于百度太行 DPU 2.0 实现了计算架构的全面升级。DPU是云基础设施的底座,我们将虚拟化软件全部卸载到 DPU 上,从而提供了全核售卖的虚拟机能力,同时将存储和网络的 I/O 数据流利用 DPU 进行卸载和硬件加速,提供了可预期的存储和网络 I/O 性能,网络带宽升级到 200Gbps,网络转发性能达到 5000 万 PPS。基于 DPU 进一步研发了层级 QoS 能力,保证多租户之间的性能公平和隔离。

基于 DPU 的卸载能力,实现了弹性裸金属实例 BBC 的分钟级创建和删除,只有依托于 DPU 技术才可能高效的管理裸金属产品。

图片

为了更好地满足客户对云上网络的灵活性诉求,我们对虚拟网络的产品和技术进行了全面的升级和重构,实现了虚拟网络 3.0 版本的进阶,更高效地支持企业在云上组网。

网络接入方面,专线接入带宽扩容到百 Tbps 量级,新发布 L2 网关产品,支持云上云下大二层网络的打通。

虚拟网络的规模能力实现了全面提升,单 VPC 支持到 300w 个 IP 地址规模,跨地域带宽和单个实例的服务网卡带宽容量实现了整体提升。

云上网络安全作为企业应用的守护者,也实现了全方位升级。安全防护产品带宽提升至 Tbps 水平,同时能够支持第三方安全设备的接入,满足自定义的安全防护需求。

整体上百度智能云通过虚拟网络 3.0 的全新升级,在弹性、性能、规模和安全等能力上均得到了大幅提升,可以更好的满足企业应用灵活组网的要求。

图片

百度智能云虚拟网络控制器架构基于云原生的设计思想进行了全面的重构,可以更好的满足云原生应用对网络弹性能力的要求。

云原生化的虚拟网络控制器架构主要包括 3 方面的技术改造:通过转发表项的动态学习技术,将 vSwitch 的内存占用降到了最低水平,使得单 VPC 支持的 IP 地址数量达到 300 万个。

通过云原生化声明式架构的设计思想,大幅提升了虚拟网络IP地址和网络设备的创建效率,IP 分配速度提升至 3000 个/秒,最终可以实现分钟级交付 10 万核算力的能力。

图片

虚拟网络 3.0 数据面部分引入了新一代可编程硬件。

传统的可编程芯片存在一定弊端,主要表现在硬件表项不足,私有协议功能弱等问题。

我们通过组合 FPGA、DPU、可编程芯片等多种芯片,研发了新一代软硬一体的可编程网关,形成超快速路径、快速路径、慢速路径三条核心转发平面,进而实现了微秒级报文转发时延、千万级 session 加速、Tb 级接入网关等核心能力,让广大用户享受到超高性能和超稳延迟的网络报文转发能力。

图片

围绕 AI 原生应用场景,百度智能云在数据库和大数据方面做了完整的产品布局。

基于新一代目录树架构技术,进一步提升了云原生数据湖的性能和大数据分析的产品功能。同时我们也发布了自研的向量数据库产品,相比开源版本性能更优,在企业级产品管理能力方面。

百度智能云数据库和大数据产品涵盖数据处理、模型开发、模型训练、推理应用的主流 AI 原生应用场景。

图片

云原生应用产品体系以面向开发者友好为核心思想,我们进行了全系产品升级。

以容器产品为基础,全面加强云原生应用产品的企业级产品特性,简化运维复杂度,做到性能和稳定性的提升,覆盖应用部署、应用可观测和应用可运维的应用全生命周期,释放开发者生产力。

图片

容器产品是云原生的基础,我们围绕容器基础能力进行了全新的设计和优化。

在企业级能力上,全新发布容器集群规格的产品化能力,不同规模的集群关联的配套 IaaS 产品整体交付,实现集群开箱即用。

我们对集群管理核心架构进行了技术重构,集群节点规模提升了 10 倍, 容器网络数据面路径 bypass 了 host 内核协议栈。相比非容器网络情况下,性能损耗降低到 1% 左右。

我们进一步完善集群托管能力,核心控制面组件全部被托管,节点组提供了操作系统升级和维护能力,可以有效降低运维复杂度。

结合 serverless 型容器产品 BCI 可以实现每分钟创建 4000 个容器的能力。

图片

丰富的云上可观测产品矩阵,覆盖从问题发现到问题定位,再到问题解决整个流程,全面提升开发者的自服务能力,可以自助自主的高效解决问题。

问题发现方面,可观测产品的覆盖面和问题分析能力进一步提升。日志服务进行了全面重构,实现了千亿行日志的秒级查询。容器监控丰富了云原生 AI 场景的全栈监控指标。

问题定位方面,包含了容器集群、应用和网络的自助诊断功能。 应用性能诊断和优化工具 Btune 中集成了大量性能优化经验,不仅可以快速定位性能瓶颈,还会输出优化建议并一键完成性能优化。

问题解决方面,进一步丰富了问题解决效率和自动化的运维产品。通过大模型加持的 AI 助手,可以快速生成操作命令。通过运维编排产品,实现千台实例的批量操作,提升运维效率。

图片

新一代核心技术和产品能力的提升,让我们更多的客户享受到了技术的红利。

利用虚拟网络性能的提升,搜广推场景的客户应用服务性能得到 2-3 倍提升。基于百度智能云的弹性能力,满足音视频直播类客户极速扩缩容需求,支持国民 3A 游戏大作的热潮。利用可信计算产品,让应用透明地运行在加密虚机内,保障广大金融类客户数据和模型的安全。

图片

在生成式 AI 的技术浪潮下,百度智能云通过不断强化云原生和 AI 原生的双引擎能力,帮助广大企业加速 AI 原生应用的业务落地,共同迎接 AI 原生的新时代。

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2216416.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

用Spring AI 做智能客服,基于私有知识库和RAG技术

Java智能客服系统运用RAG技术提升答疑精准度 基于Spring ai 的 RAG(检索增强生成)技术,Java智能客服系统能够利用私有知识库中的信息提供更准确的答疑服务。 它的核心思路是: 首先,将客服QA以Word形式导入到系统中&…

python配合yolo分类模型开发分类软件

上一篇文章写了yolo的分类模型的训练,写篇文章基于yolo分类模型开发分类软件。开发环境:pycharm,PySide6 6.6.1 ,PySide6-Addons 6.6.1,PySide6-Essentials 6.6.1,torch 2.3.1cu121,torchaudio 2.3.1cu121&…

能源领域下暖通行业现状-研究

基于AI大语言模型的暖通行业能源管理系统构建研究 一、能源管理中的突出问题 1. **能源消耗监测不准确** 现有的监测系统在获取设备实时能耗数据方面存在精度不足的问题,难以准确反映能源的实际使用情况。这使得节能决策缺乏可靠的数据支持,无法精准定位…

Hbase安装及使用

安装 官网下载:Apache HBase – Apache HBase Downloads 启动 先启动zookeeper及hadoop 关系:HBase通过Zookeeper来做master的高可用、RegionServer的监控、元数据的入口以及集群配置的维护等工作。 再启动start-hbase.sh(/opt/module/hbase-2.2.3/bin&#xf…

大华智能云网关注册管理平台 SQL注入漏洞复现(CNVD-2024-38747)

0x01 产品简介 大华智能云网关注册管理平台是一款专为解决社会面视频资源接入问题而设计的高效、便捷的管理工具,平台凭借其高效接入、灵活部署、安全保障、兼容性和便捷管理等特点,成为了解决社会面视频资源接入问题的优选方案。该平台不仅提高了联网效率,降低了联网成本,…

【计算机网络】详解IP协议网段划分路由转发子网掩码网络号

一、IP功能 IP可以实现主机定位和路由选择,提供一种能力,将数据可靠地从A点跨网络送到B点。数据先根据目的IP在局域网之间进行转发,再在局域网内进行内网转发。 二、IP协议报头 4 位版本号(version):指定 IP 协议的版本&#xff…

如何轻松使用pip安装Git仓库中的私有Python模块(使用pip和Git仓库发布和安装私有Python模块)

文章目录 📖 介绍 📖🏡 演示环境 🏡📒 Git模块 📒📝 Git仓库要求🔖 项目目录结构🔖 文件说明📝 编写setup.py📝 配置MANIFEST.in📝 推送代码到Git仓库📝 使用pip安装模块🔖 使用用户名和密码🔖 使用Personal Access Token (PAT)🔖 示例📝 更…

opencv外接矩形cv2.boundingRect和cv2.minAreaRect区别

在OpenCV中,cv2.boundingRect和cv2.minAreaRect是两个用于获取图像中形状边界的函数,但它们在功能和返回结果上有所不同。以下是两者的详细区别: 1. cv2.boundingRect 和 cv2.minAreaRect 功能描述 cv2.boundingRect 主要是用来计算图像轮廓…

企业资产安全之数据防泄密要领

在数字化时代,数据已成为企业最宝贵的资产之一。然而,随着数据价值的增加,数据泄露的风险也随之上升。从内部员工的无意泄露到外部黑客的恶意攻击,企业数据安全面临着前所未有的挑战。SDC沙盒数据防泄密解决方案,正是为…

从零入门AI篡改图片检测(金融场景)#Datawhale十月组队学习

1.大赛背景 在全球人工智能发展和治理广受关注的大趋势下,由中国图象图形学学会、蚂蚁集团、云安全联盟CSA大中华区主办,广泛联合学界、机构共同组织发起全球AI攻防挑战赛。本次比赛包含攻防两大赛道,分别聚焦大模型自身安全和大模型生成内容…

Android Compose使用LinearProgressIndicator绘制显示异常

使用依赖版本 androidx.compose.material3:material3:1.3.0-beta05 对应代码 LinearProgressIndicator(progress { 0.7f })直接使用上述代码绘制进度条时,最终显示效果如下: 问题原因 LinearProgressIndicator中gapSize属性表示进度和背景之前的空…

【文献及模型、制图分享】中国新型城镇化与绿色发展协调演进关系研究(熵值法、耦合协调模型)

文献介绍 双碳目标下,新型城镇化与绿色发展的协调演进对于推动中国经济高质量发展意义重大。运用熵值法、耦合协调模型等研究方法,分析了2005—2020年中国30个省(自治区、直辖市)新型城镇化与绿色发展协调演进的时空格局特征与类…

DOM中的元素获取方式、事件以及属性操作

一、WebApi介绍 1. Api的概念 API ( Application Programming Interface:应用程序编程接口) 是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组程序的能力,而又无需访问源码,无需了解其内部的工作…

26K star!学习AI也不难,这个项目讲的非常全

马上就要2024年了,谁不想学习一下AI相关的知识呢?怎么开始上手一直困扰着很多初学者,现在网上也充斥着各种搬运的垃圾课程,更是让人难以选择,我们就是希望帮初学者避开那些垃圾内容。 今天我们推荐的开源项目是微软推…

Windows上安装Go并配置环境变量(图文步骤)

前言 1. 本文主要讲解的是在windows上安装Go语言的环境和配置环境变量; Go语言版本:1.23.2 Windows版本:win11(win10通用) 下载Go环境 下载go环境:Go下载官网链接(https://golang.google.cn/dl/) 等待…

阿里大佬带你一周刷完 Java 面试八股文,比刷视频效果好多了

今天在脉脉刷到了这么一条消息,现在这个大环境,都后悔学 Java 了,想转行学前端, 看完很是震惊,据大数据统计,Java 的待遇是要好过前端的。小伙伴竟然被卷到想要转行......但是行情这个东西,也不…

Python实时视频流+网络摄像头+视频检测流程播放

实时视频处理 概述需求网络摄像头推流流媒体服务器查看设备视频、音频设备列表查看指定设备配置信息 不编码、指定分辨率推流编码加速python服务端处理多线程最终的处理方式 问题与分析 概述 一款桌面应用,可以配置视频处理参数,根据参数播放网络摄像头…

MySQL 8.4.0解压版安装记录

这几天,安装最新版mysql 8.4的时候,遇到了不少问题,网上的教程大多数都是旧版本的,也安装不成功。 参考了大量教程后,经过自己的摸索终于装好了,这里记录一下。 我下载的是8.4.0 LTS MySQL :: Download …

智绘城市地图:使用百度地图 API 实现智能定位

✨✨ 欢迎大家来访Srlua的博文(づ ̄3 ̄)づ╭❤~✨✨ 🌟🌟 欢迎各位亲爱的读者,感谢你们抽出宝贵的时间来阅读我的文章。 我是Srlua小谢,在这里我会分享我的知识和经验。&am…

全网最易详解-数据仓库分区详解

最近要搭某个业务域的数仓,本来设计规划的挺好的,该搭DIM,DWD,DWS的也都设计好了,结果一跑数仓,全是大大小小的BUG,最后揪出来整个过程,最大的烦人东西就是设计ETL数据入库分区的问题。 那么这时候肯定有…