【2023云栖】黄博远:阿里云人工智能平台PAI年度发布

news2024/11/25 2:59:44

本文根据2023云栖大会演讲实录整理而成,演讲信息如下:

演讲人:黄博远 | 阿里云计算平台事业部资深产品专家、阿里云人工智能平台PAI产品负责人

演讲主题:阿里云人工智能平台PAI年度发布

AIGC是我们这个时代的新机遇

今年云栖大会,阿里云机器学习平台PAI正式发布升级为人工智能平台PAI。在过去的12个月,AI生态发生了巨大的变化,AIGC已经成为继互联网时代的下一个产业时代风口,带来了很多新的机遇和挑战。

在这里插入图片描述

在整个市场当中,AIGC领域可以分为三类:预训练大模型、开源生态和下游应用。

在这里插入图片描述

AI研发新范式和新挑战

在新局势下,整个AI研发进入到新范式

  • 从预训练模型开始,快速定制、快速落地
  • AI开发门槛大大降低,AI推广加速,行业应用增长

在这里插入图片描述

研发新范式升级跟以往从搞数据到0-1搭模型是非常不一样的,主要会有三类客户:

  • 上游:通用模型生产者与平台方(如阿里);
  • 中游:利用垂直行业知识对模型进行优化(生态伙伴);
  • 下游:最终AI应用的使用者(最广大的用户群体)。

AI生态链的整合和角色分化是行业发展的方向,符合社会整体效率提高的要求,必将推动AI普惠化的进程。

阿里云人工智能平台PAI全面升级

人工智能平台PAI在4.0版本里,下层是强大的基础设施,中间层“PAI灵骏智算集群”,是专门面向超大规模分布式,重点解决预训练、Finetune、推理等工作。最上层“Model as a Service”概念,能够让不懂算法,但需要应用AI的人进行全链路的AI创新。

在这里插入图片描述

PAI助力企业AI创新

人工智能平台PAI将围绕以下三个效率助力企业和开发者进行AI的创新,分别是开发效率、计算效率和业务效率。

提升开发效率:人,最宝贵的资源

AI工程化的工程师人才稀缺且昂贵,工程师从数据进来到整个开发环节再到模型生产上线,大约需要12种工具把整个AI流程走完。

阿里云PAI 全生命周期优化的AI平台

阿里云人工智能平台PAI作为全生命周期优化的AI平台,包含iTAG智能标注、DSW交互式建模、DLC AI训练服务、EAS在线预测服务、AI工作空间、AI资产、OpenAPI等服务,打造一体化全链路的AI工程平台,全面提升行业、产业落地效率

在这里插入图片描述

PAI-DSW 交互式建模

PAI平台的Notebook服务全面升级,DSW可以一站式AI开发,开箱即用,异构资源无缝对接,兼顾个人开发者及企业级协作需求,让整个开发过程变得更加高效。

同时我们也看到数据对于AI的重要性,PAI把整个阿里云上的存储都做了无缝对接(OSS、NAS、CPFS),可以很容易的在云上获得做大模型开发的工作的环境。

在这里插入图片描述

PAI-DLC 分布式训练

在分布式训练里,大模型变得至关重要,怎么同时用512卡、上千卡做训练,可能很难做分布式这些细节的管理,如果涉及底层复杂软硬件能力可能更不清楚。今天通过DLC分布式训练可以实现单机多卡、多机多卡分布式训练,云原生灵活环境配置,企业级资源管理,快速把相应的模型训练出来。

在这里插入图片描述

PAI 模型服务与AI推理

未来,我们认为在模型服务领域,模型的推理一定会成为整个产业的热潮。因为在我们平台上已经看到有几十家做大模型的企业训练出来50B~100B以上的大模型,这些模型日后一定会产业落地。

PAI EAS模型在线服务+Blade推理加速,帮助客户一站式解决AI部署和推理的全部环节。

在这里插入图片描述


提升计算效率:机器,如何高效的利用

对于大模型无法逃避的一个问题就是解决机器效率,如何让机器被整个产品和平台疯狂使用,对所有人来说都是巨大的挑战。

PAI灵骏智算服务 - 让大模型训练推理简单、高效

今年我们发布了PAI灵骏计算服务Serverless产品。使得AI的训练推理更快、更易用、更稳定,全面提升AI计算效率。

可以想象一下,当有1024张卡甚至有数千张卡做训练的时候,很难保证系统不出错误,所以我们推出了AI Master自动容错弹性训练。让系统帮你去解决各种各样的问题。对于整个大模型训练过程有巨大的效率提升的作用。

推出EasyCkpt秒级异步训练的快照,可以清楚知道每一个数据在整个显存、内存、缓存中存了多少,硬件或系统出现问题或者时我们不再需要做全局的checkpoint,可以通过EasyCkpt实现秒级训练精度无损的checkpoint,高效帮企业自动把这个问题恢复可执行状态。

TorchAcc和PAI-Blade则是在大规模分布式训练和推理上做的软硬结合优化。

在这里插入图片描述

  1. 极致性能:高性能计算、网络、存储支撑的高性能AI集群

专为密集型深度学习业务及LLM/AIGC大模型训练场景打造的高性能集群架构

  1. 极致稳定:软硬结合、协同保障超大规模集群超高稳定性

集大规模集群管理、弹性AI调度、进度无损的模型保存与恢复、自动分布式性能测试于一体的稳定保障体系

  1. 基于PAI-DLC构建的LLM大模型强化学习训练框架RLHF

支持人工反馈的强化学习 RLHF训练框架,快速开发定制LLM****

提升业务效率:自带最佳实践,业务落地提速

阿里云是一个自带最佳实践的云,如何基于PAI平台让不懂AI的人快速上手,让没有接触过大模型、没有做过AIGC应用的人快速跟上节奏呢?是我们一直致力于解决的问题。

PAI平台提供了非常丰富的场景化最佳实践方案,把最佳实践产品化方式面向客户,企业开发者们可以通过接入PAI平台一步步体验模型构建的整个过程。

MaaS全链路提效

PAI平台一站式覆盖了AI工程化的全流程,无缝对接ModelScope/Huggingface等开源社区,让算法开发者、应用开发者和业务架构师可以专注、高效的完成创新。

在这里插入图片描述

大模型场景化最佳实践

人工智能平台PAI提供全面覆盖大模型生产流程的端到端最佳实践。

在这里插入图片描述

智码实验室-Notebook Galley

Notebook Galley上针对热门场景、前沿模型,打造属于开发者的内容平台,让开发者快速学习上手。

Notebook Galley上面现在已经有100多个热门AI的案例,例如:通义系列、Llama2、Stable Diffusion等案例在这上面全都可以一站式云上拉起服务,端到端体验。

在这里插入图片描述

为AI提供极致性能、全链路工程覆盖、端到端最佳实践的云上服务

PAI团队持续迭代更新,面向AI、大模型、AGI领域做了三个核心工作:

1、软硬一体协同优化云上基础设施,把高性能网络、高性能存储和高性能计算的能力和编译优化能力、容错训练能力、快速异步checkpoint的能力相结合,提供极致且稳定的环境,供大家可以高效训练大模型。

2、提供了端到端涵盖整个AI工程链路的PaaS平台。

3、提供丰富的场景化最佳实践。

在这里插入图片描述

人工智能平台PAI在今后会再这三个领域持续大力构建云上Serverless产品,给开发者提供更加廉价、更加好用的产品力。也希望大家可以借助AIGC这波浪潮,助力业务更好发展!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1212324.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

单相过压继电器DVR-G-100-1 0~500V AC/DC220V 导轨安装

系列型号 DVR-G-100-1X3数字式过压继电器; DVR-G-100-3三相过压继电器; DVR(H)-G-100-1单相过压继电器; DVR-Q-100-3三相欠压继电器; DVR(H)-Q-100-3三相欠压继电器 一、用途 主要应用于电机、变压器等主设备以及输配电系统的继…

人工智能与大数据:驱动现代业务转型的双引擎

在当今数字化时代,人工智能(AI)和大数据已成为驱动业务和技术创新的关键力量。它们的结合不仅重塑了传统行业,也催生了新的商业模式和服务方式。 AI与大数据在零售行业的应用 在零售行业,AI和大数据的应用已经成为提…

代码随想录Day45 动态规划13 LeetCode T1143最长公共子序列 T1135 不相交的线 T53最大子数组和

LeetCode T1143 最长公共子序列 题目链接:1143. 最长公共子序列 - 力扣(LeetCode) 题目思路: 动规五部曲分析 1.确定dp数组的含义 这里dp数组的含义是结尾分别为i-1,j-1的text1和text2的最长公共子序列长度 至于为什么是i-1,j-1我之前已经说过了,这里再…

电池故障估计:Realistic fault detection of li-ion battery via dynamical deep learning

昇科能源、清华大学欧阳明高院士团队等的最新研究成果《动态深度学习实现锂离子电池异常检测》,用已经处理的整车充电段数据,分析车辆当前或近期是否存在故障。 思想步骤: 用正常电池的充电片段数据构造训练集,用如下的方式构造…

重生奇迹mu圣导师加点

重生奇迹mu圣导师加点:要攻击高可以加力量,平衡系建议加点力量600~800,智力200~400,敏够装备要求,统帅1000,其余加体力。 圣导师靠加力量培养高攻圣导师不现实,建议玩家练魔,低级圣…

【随手记录】Llama Tutorial 大语言模型实践 手把手系列带实践源码

这个tutorial的契机是yy突然看到了一个workshop 所以类似于一周大作业的形式,输入command输出使用了自动驾驶哪些模块,代码在这里 所以就干一干,顺便写一个tutorial给大家参考和教程 引申更多的应用 参考资料: https://github.c…

【软考篇】中级软件设计师 第三部分(二)

中级软件设计师 第三部分(二) 二十四. 概念设计阶段24.1 E-R模式24.2 E-R图 二十五. 网络和多媒体25.1 计算机网络分类25.2 OSI/RM参考模型25.3 网络互联硬件25.4 TCP/IP分层模型 二十六. IP地址26.1 子网划分26.2 特殊IP26.3 IPv626.4 冲突与和广播域26…

使用html2canvas插件进行页面截屏

使用纯html实现过程 <!DOCTYPE html> <html><head><title>使用html2canvas生成网页截图</title><script src"https://html2canvas.hertzen.com/dist/html2canvas.min.js"></script> </head><body><h1>…

jQuery使用echarts循环插入图表

目录 jQuery动态循环插入echarts图表 y轴显示最大值和最小值 x轴只显示两个值&#xff0c;开始日期和结束日期 jQuery动态循环插入echarts图表 html .center_img_list 是我们循环数据的地方 <div class"center_img shadow"><div class"center_img_b…

python_pycharm安装与jihuo

目录 环境&#xff1a; 安装包与jihuo文件&#xff1a; 安装python3.8.10 安装pycharm jihuo pycharm 概述 过程 jihuo 相关文件 环境&#xff1a; window11 python3.8.10 pycharm-professional-2019.1.3 安装包与jihuo文件&#xff1a; 安装python3.8.10 安装pyc…

算法通关村——归并排序

归并排序 1、归并排序原理 ​ 归并排序是一种很经典的分治策略。 ​ 归并排序(MERGE-SORT)简单来说就是将大的序列先视为若干小的数组&#xff0c;分成几个比较小的结构&#xff0c;然后是利用归并的思想实现的排序方法。将一个大的问题分解成一些小的问题分别求解&#xff…

mask-rcnn原理与实战

一、Mask R-CNN是什么&#xff0c;可以做哪些任务&#xff1f; Mask R-CNN是一个实例分割&#xff08;Instance segmentation&#xff09;算法&#xff0c;可以用来做“目标检测”、“目标实例分割”、“目标关键点检测”。 1. 实例分割&#xff08;Instance segmentation&am…

pipeline + node +jenkins+kubernetes部署yarn前端项目

1、编写Dockerfile文件 # Set the base image FROM node:16.10.0# WORKDIR /usr/src/app/ WORKDIR /home/option# Copy files COPY ./ /home/option/# Build arguments LABEL branch${BRANCH} LABEL commit${COMMIT} LABEL date${BUILD_DATE} ARG ENV# Set ENV variables ENV …

Python循环的技巧和注意事项

在Python中&#xff0c;主要使用for循环和while循环进行迭代。为了更有效的使用循环&#xff0c;避免一些常见的陷阱&#xff0c;总结了一些关于使用循环的注意事项。 1. 避免无限循环 在while循环中&#xff0c;程序会一直执行循环体&#xff0c;直到条件不再满足&#xff0c…

2023年05月 Python(五级)真题解析#中国电子学会#全国青少年软件编程等级考试

Python等级考试(1~6级)全部真题・点这里 一、单选题(共25题,每题2分,共50分) 第1题 有列表L=[‘UK’,‘china’,‘lili’,“张三”],print(L[-2])的结果是?( ) A: UK B: ‘lili’,‘张三’ C: lili D: ‘UK’,‘china’,‘lili’ 答案:C 列表元素定位 第2题 …

【VSCode】配置C/C++开发环境教程(Windows系统)

下载和配置MinGW编译器 首先&#xff0c;我们需要下载并配置MinGW编译器。 下载MinGW编译器&#xff0c;并将其放置在一个不含空格和中文字符的目录下。 配置环境变量PATH 打开控制面板。可以通过在Windows搜索栏中输入"控制面板"来找到它。 在控制面板中&#xf…

Apache Pulsar 技术系列 - 基于 Pulsar 的海量 DB 数据采集和分拣

导语 Apache Pulsar 是一个多租户、高性能的服务间消息传输解决方案&#xff0c;支持多租户、低延时、读写分离、跨地域复制、快速扩容、灵活容错等特性。本文是 Pulsar 技术系列中的一篇&#xff0c;主要介绍 Pulsar 在海量DB Binlog 增量数据采集、分拣场景下的应用。 前言…

电视剧剪辑,微课制作神器Camtasia的干货介绍,建议收藏。

最近无论是b站&#xff0c;抖音&#xff0c;快手等视频软件中都有不少微课视频、电视剧解说横空出世&#xff0c;通过这些“热度”带来的收益也是无法估量的&#xff0c;很多自媒体博主月入上万惹人羡慕。 不少朋友也想在这股短视频洪流中分一碗羹&#xff0c;但又苦于技术跟不…

大模型架构创新已死?

金磊 白交 发自 凹非寺 量子位 | 公众号 QbitAI 一场围绕大模型自研和创新的讨论&#xff0c;这两天在技术圈里炸了锅。 起初&#xff0c;前阿里技术VP贾扬清&#xff0c;盆友圈爆料吐槽&#xff1a;有大厂新模型就是LLaMA架构&#xff0c;但为了表示不同&#xff0c;通过改变…

RocketMQ中的消息种类以及消费模式

RocketMQ中的消息种类以及消费模式 前言消息的种类按消息的发送方式同步消息异步消息单向消息 按消息的种类普通消息&#xff08;Normal Message&#xff09;顺序消息&#xff08;Orderly Message&#xff09;延时消息&#xff08;Delay Message&#xff09;事务消息&#xff0…