基于阿里云 Serverless 容器服务轻松部署企业级 AI 应用

news2024/11/16 21:27:21

作者:元毅、坤仑

数禾科技 AI 模型服务基于云原生架构,为不同业务环节提供智能决策支持。随着业务的快速发展,摆在数禾面前的难题是支撑模型计算的底层应用资源无法根据请求量来调整机器资源支持运算能力。同时,随着模型在线推理服务数量的增加,数禾的模型服务也变得越来越庞大、臃肿,难以管理。这种状况不仅导致了资源浪费,还增加了维护和升级的成本。

为了解决这些“顽疾”,数禾科技采用阿里云 ASK 部署线上模型,无需 K8s 节点管理,根据实时流量动态使用 POD,资源成本节省 60%;通过 ASK Knative 服务,解决了数禾模型的灰度发布和多版本并存问题;得益于ASK 自动伸缩和缩容到 0 的优势,降低运行成本,大幅提升服务可用性。

目前,该系统已上线部署 500+AI 模型服务,每天能够提供上亿次查询决策服务,具备无限横向扩展的能力。同时,数禾科技 AI 模型服务支持自动调整容量,满足不同业务压力下的需求,从而保障业务的稳定运行。不仅如此,采用云原生架构方案,平均部署周期由之前的1天缩短至 0.5天,大幅提升了研发迭代效率,从而加速商业化应用的进程,为金融业务提供新的增长动力。

关于 Serverless Kubernetes(ASK)

Kubernetes(K8s)作为一个开源容器编排系统,被广泛运用于云原生应用的开发与管理。其优势在于降低运维成本,提高运维效率,形成了以 K8s 为核心的云原生生态。然而使用 K8s 常常需要用户面对的问题较多,例如资源规划、容量规划、Node 与 Pod 的亲和关系、容器网络规划、节点生命周期管理、操作系统版本、容器运行时版本兼容性等,这些问题显然不是用户所希望关心的,用户期望做的事情是专注在自身的业务逻辑,尽可能不关心这些基础设施。Serverless 的核心理念在于让开发者更聚焦业务逻辑,减少对基础设施的关注。因此我们将 K8s 复杂性下沉,提供 Serverless Kubernetes 的产品能力。

在这里插入图片描述

那么 Serverless Kubernetes 有哪些优势呢?主要包括以下三个方面:免运维、自动弹性、按需付费。

首先,Serverless Kubernetes 组件全托管免运维,支持自动升级 k8s 版本。其次,该产品具有极致弹性能力。可以根据业务需求,自动弹性、秒级扩容,从而在满足业务增长时自动容量规划。最后,使用 Serverless Kubernetes 的用户,只需根据实际使用量按需计费。除此之外,ASK 还提供了新增的 U 实例规格支持,统一支持多款处理器,相比上一代主售实例降价高达 40%。

在这里插入图片描述

为了让更多用户体验最佳实践,我们特地将其打造成了一个体验场景,配合热门开源的 AI 项目 Stable Diffusion,用户可以通过真实的云上环境,轻松体验容器化部署具备企业级弹性能力的 AI 模型。

在 ASK 中部署 Stable Diffusion

随着生成型 AI 技术的能力提升,越来越多的注意力放在了通过 AI 模型提升研发效率上。作为 AIGC(AI Generated Content)领域的知名项目 Stable Diffusion,可以帮助用户快速、准确地生成想要的场景及图片。不过当前直接在 K8s 使用 Stable Diffusion 面临如下问题:

  • 单个 Pod 处理请求的吞吐率有限,如果多个请求转发到同一个 Pod,会导致服务端过载异常,因此需要精准的控制单个 Pod 请求并发处理数。
  • GPU 资源很珍贵,期望做到按需使用资源,在业务低谷及时释放 GPU 资源

基于上面两个问题,我们提供 ASK + Knative 解决方案,可以做到基于并发精准弹性,缩容到 0,资源按需使用,打造生产可用的 Stable Diffusion 服务。

方案

这里我们在 ASK 中提供 Knative + MSE 方式解决上述问题:

  • 基于 MSE 网关,扩展 Knative 弹性插件机制,实现基于并发数精准弹性
  • 支持缩容到 0, 按需使用自动弹性
  • 多版本管理、镜像加速,助力模型快速发布迭代

在这里插入图片描述

实践

接下来我们介绍如何在 ASK 中部署 Stable Diffusion 服务。

服务部署

  1. 集群列表页面,单击目标集群 knative-sd-demo 进入集群信息页面,然后在左侧导航栏,选择应用>Knative。

  2. Knative 页面,单击服务管理页签,然后单击使用模板创建

  3. 命名空间下拉列表中,选择 default,在示例模板下拉列表中,选择 Resouce-Knative Service,将以下消息处理服务的 YAML 示例粘贴至模板,然后单击创建

默认创建一个名为 knative-sd-demo 的服务。

apiVersion: serving.knative.dev/v1
kind: Service
metadata:
  name: knative-sd-demo
  annotations:
    serving.knative.dev.alibabacloud/affinity: "cookie"
    serving.knative.dev.alibabacloud/cookie-name: "sd"
    serving.knative.dev.alibabacloud/cookie-timeout: "1800"
spec:
  template:
    metadata:
      annotations:
        autoscaling.knative.dev/class: mpa.autoscaling.knative.dev
        autoscaling.knative.dev/maxScale: '10'
        autoscaling.knative.dev/targetUtilizationPercentage: "100"
        k8s.aliyun.com/eci-use-specs: ecs.gn5-c4g1.xlarge,ecs.gn5i-c8g1.2xlarge,ecs.gn5-c8g1.2xlarge  
    spec:
      containerConcurrency: 1
      containers:
      - args:
        - --listen
        - --skip-torch-cuda-test
        - --api
        command:
        - python3
        - launch.py
        image: yunqi-registry.cn-shanghai.cr.aliyuncs.com/lab/stable-diffusion@sha256:64999ff1aba706f65a2234d861d46318f7d58e2790b31ace0d567a96e65b617c
        imagePullPolicy: IfNotPresent
        ports:
        - containerPort: 7860
          name: http1
          protocol: TCP
        name: stable-diffusion
        readinessProbe:
          tcpSocket:
            port: 7860
          initialDelaySeconds: 5
          periodSeconds: 1
          failureThreshold: 3

参数说明:

  • 支持 Cookie 会话保持:serving.knative.dev.alibabacloud/affinity
  • 支持多种 GPU 规格配置:k8s.aliyun.com/eci-use-specs
  • 支持并发数设置:containerConcurrency

在这里插入图片描述

  1. 服务管理页签,刷新页面后,当 knative-sd-demo 的状态变为成功时,表明 SD 服务部署成功。

在这里插入图片描述

服务访问并进行压测

部署压测服务 portal-server,用于 Stable Diffusion 效果展示并发起压测。

  1. Knative 页面,单击服务管理页签,然后单击使用模板创建

  2. 命名空间下拉列表中,选择 default,在示例模板下拉列表中,选择自定义,将以下 portal-server 压测服务的 YAML 示例粘贴至模板,然后单击创建

---
apiVersion: apps/v1
kind: Deployment
metadata:
  labels:
    app: portal-server
  name: portal-server
spec:
  replicas: 1
  selector:
    matchLabels:
      app: portal-server
  template:
    metadata:
      labels:
        app: portal-server
    spec:
      serviceAccountName: portal-server
      containers:
        - name: portal-server
          image: registry-vpc.cn-beijing.aliyuncs.com/acs/sd-yunqi-server:v1.0.2
          imagePullPolicy: IfNotPresent
          env:
            - name: MAX_CONCURRENT_REQUESTS
              value: "5"
            - name: POD_NAMESPACE
              value: "default"
          readinessProbe:
            failureThreshold: 3
            periodSeconds: 1
            successThreshold: 1
            tcpSocket:
              port: 8080
            timeoutSeconds: 1
---
apiVersion: v1
kind: Service
metadata:
  annotations:
    service.beta.kubernetes.io/alibaba-cloud-loadbalancer-address-type: internet
    service.beta.kubernetes.io/alibaba-cloud-loadbalancer-instance-charge-type: PayByCLCU
  name: portal-server
spec:
  externalTrafficPolicy: Local
  ports:
    - name: http-80
      port: 80
      protocol: TCP
      targetPort: 8080
    - name: http-8888
      port: 8888
      protocol: TCP
      targetPort: 8888
  selector:
    app: portal-server
  type: LoadBalancer
---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRole
metadata:
  name: pod-list-cluster-role
rules:
  - apiGroups: [""]
    resources: ["pods"]
    verbs: ["list"]
  - apiGroups: ["networking.k8s.io"]
    resources: ["ingresses"]
    verbs: ["get"]
---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:
  name: pod-list-cluster-role-binding
roleRef:
  apiGroup: rbac.authorization.k8s.io
  kind: ClusterRole
  name: pod-list-cluster-role
subjects:
  - kind: ServiceAccount
    name: portal-server
    namespace: default
---
apiVersion: v1
kind: ServiceAccount
metadata:
  name: portal-server
  namespace: default
  1. 选择网络>服务,服务页面,查看 portal-server 压测服务,获取访问 IP 为 123.56.XX.XX。

在这里插入图片描述

  1. 在浏览器中输入 http://123.56.XX.XX,然后在该页面单击 Stable Diffusion 跳转至 Stable Diffusion 访问页面。

在这里插入图片描述

a. Stable Diffusion 访问页面如下所示。例如,在如下文本框中输入 cat,然后单击 Generate,将展示与输入有关的图片信息。

在这里插入图片描述

b. 在压测访问页面,设置并发数为 5,总请求数为 20,然后单击开始压测,查看压测的结果。

在这里插入图片描述

压测期间,可以看到创建了 5 个 Pod,并且每个请求均会生成一个图片,图片生成后将展示到页面中。

查看可观测大盘

此外在 Knative 提供了开箱即用的可观测能力,在 Knative 页面,单击监控大盘页签。即可看到 Stable Diffusion 服务的请求量(Request Volume)、请求成功率(Success Rate)、4xx(客户端错误)、5xx(服务器端错误)和Pod扩缩容趋势的监控数据。

在这里插入图片描述

Response Time 区域,查看 Knative 的响应延迟数据,包括 P50、P90、P95 和 P99。

在这里插入图片描述

小结

基于 ASK Knative 并发精准弹性,缩容到 0,多版本管理等功能,可以轻松部署企业级 AI 服务。当前已在阿里云云起实验提供《基于 ASK 轻松部署企业级 Stable Diffusion》动手实践,欢迎体验:

https://developer.aliyun.com/adc/scenario/de33e7d3065949f3b81db292b2dca5ea

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/642402.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

医疗行业的新选择:智能医疗管理模板

随着社会的发展,医疗行业也在不断地进步与发展,信息化已经成为医疗行业的重要一环。智能医疗管理应用作为新型医疗管理工具,已经成为中小型医院、门诊、美容机构等企业的必备软件之一。该应用包括患者管理、预约管理、诊断管理、住院管理、财…

Qt推荐的多线程的理解

目的 在Qt4.8之后,Qt多线程的写法最好还是通过QObject来实现,和线程的交互通过信号和槽(实际上其实是通过事件)联系。 用QObject来实现多线程有个非常好的优点,就是默认就支持事件循环(Qt的许多非GUI类也需要事件循环支持&#x…

js执行顺序:

这篇笔记摘录来源: 👉我是javascript,2分钟彻底弄懂我的执行机制?【JavaScript教程】_哔哩哔哩_bilibili 👉js执行顺序_前端小白,请多指教的博客-CSDN博客 目录 面试题: 一、单线程 二、…

十年软件测试经验,我的成长之道

有很多小伙伴问,测试职业的天花板是不是很低? 在回答这个问题之前,我想请大家先想一下,当初自己为什么会选择测试这个职业?入门门槛低?不需要写代码?工作比开发轻松?还是其他。这个…

科技政策 | 工业和信息化部办公厅关于组织申报2023年跨行业跨领域工业互联网平台的通知

原创 | 文 BFT机器人 6月1日工业和信息化部办公厅发布关于组织申报2023年跨行业跨领域工业互联网平台的通知;旨在贯彻《国务院关于深化“互联网先进制造业”发展工业互联网的指导意见》,落实《工业互联网创新发展行动计划(2021-2023年&#…

还有多少公司在使用H5?不怕被破解吗?

H5还有人在用吗 近几天,老板让我调查一下现在市面上H5的使用现状。粗略地调查了一下,发现现在使用H5的真不多了,但是还是有人在用H5的,原因无非一是成本低,相比户外广告,H5制作费用根本不值一提&#xff1…

Delta 一个新的 git diff 对比显示工具

目录 介绍git diff 介绍delta介绍 一、安装1.下载 Git2.下载 delta3.解压4.修改配置文件5. 修改主题6.其他配置和说明 二、对比命令1.在项目中 git diff 常用命令2.对比电脑上两个文件3.对比电脑上的两个文件夹 三、在Git 命令行中使用效果四、在idea 的Terminal命令行中使用效…

展览展会邀请媒体现场报道需要注意什么?

传媒如春雨,润物细无声,大家好,我是51媒体网胡老师。 真开心今天与大家分享展览展会邀请媒体的一些经验,行业复苏,各行各业都充满了活力,每天胡老师都会接到大大小小展会邀请媒体报道的需求,那…

终端数据防泄漏

场景描述 科技研发类公司在日常工作中,存在员工对源代码数据有意或者无意的传播。软件企业作为以源代码数据为核心资产的行业,如果数据安全管理不规范,会出现员工把核心数据一锅端,使企业失去竞争力,造成不可估计的损…

代码随想录算法训练营第五十六天|583. 两个字符串的删除操作|72. 编辑距离

LeetCode583. 两个字符串的删除操作 动态规划五部曲: 1,确定dp数组(dp table)以及下标的含义:dp[i][j]:以i-1为结尾的字符串word1,和以j-1位结尾的字符串word2,想要达到相等&#…

自己尝试在springboot2.0微服务中内嵌一个FTP Server

1.pom.xml添加依赖 <dependency><groupId>org.apache.ftpserver</groupId><artifactId>ftpserver-core</artifactId><version>1.2.0</version></dependency> 2.yml文件添加Ftp服务参数 3.增加apache.ftpserver专用配置文件 文…

OWASO 之认证崩溃基础技能

文章目录 一、burp爆破用法1.Attack type爆破方式设置2.payload处理3.请求引擎设置4.攻击结果设置5.grap匹配设置 二、常见端口与利用1、文件共享2、远程连接3、Web应用4、数据库 三、爆破案例经验1、暴力破解攻击产生的5个原因或漏洞2、猜测用户名方法3、猜测密码方法 四、实验…

第七十三天学习记录:计算机硬件技术基础:微型计算机基础

一、微型计算机的组成&#xff1a; 微型计算机由硬件和软件两大部分组成&#xff0c;硬件是指构成微型计算机的物理实体或物理装置&#xff0c;包括微型计算机的微处理器、储存器、总线接口电路和外部设备&#xff0c;以及电源和机械构件等。软件是指微型计算机所使用的各种程…

Python3数据分析与挖掘建模(11)多因子:复合分析-分组分析与实现示例

1. 分组分析 1.1 概述 分组与钻取是数据分析中常用的技术&#xff0c;用于对数据进行聚合和细分分析。它可以帮助我们从整体数据中获取特定维度的汇总信息&#xff0c;并进一步钻取到更详细的子集数据中进行深入分析。 分组&#xff08;Grouping&#xff09;是指根据某个或多…

SciencePub学术 | 国内高口碑重点SCIEI征稿中

SciencePub学术 刊源推荐: 国内高口碑重点SCI&EI征稿中&#xff01;期刊质量高&#xff0c;接收领域广。信息如下&#xff0c;录满为止&#xff1a; 一、期刊概况&#xff1a; 国内高口碑重点SCI&EI &#x1f4cc;【期刊简介】IF&#xff1a;7.5-8.0&#xff0c;JCR…

python高级-socket和web相关

目录 一、socket 1.客户端开发 2.tcp客户端 3.tcp服务端 4.连接的注意事项 5.多任务服务端 二、静态web 1.请求报文 2.响应头 3.静态web服务器 4.socket静态页面 5.多进程模拟404和200状态码 6.面向对象多任务 结语 一、socket 1.客户端开发 创建客户端套接字对…

anaconda ubuntu安装

1、下载anaconda 地址&#xff1a;https://www.anaconda.com/download#downloads 我是x86 64位系统&#xff0c;所以选择第一个 2、安装 执行命令&#xff1a; sh Anaconda3-2023.03-1-Linux-x86_64.sh中间会有几个过程 enter 确定 yes 确定 最后默认安装位置为&#xff1…

const、let、var区别

const、let、var区别 0、前言1、区别2、示例2.1 提前调用报错2.2 const与 let 定义的变量不能重复2.3 const与 let定义的变量如果在{}中只能在{}中调用2.4 const定义的变量不能重复赋值。 0、前言 let和const是ES6新增的声明变量的关键词&#xff0c;之前声明变量的关键词是var…

SpringBoot+mybatis教务管理系统

项目介绍 主要功能&#xff1a; 这个项目是一个教务管理系统&#xff0c;其中有三种角色&#xff1a;管理员&#xff0c;教师&#xff0c;学生 管理员权限&#xff1a; 管理员&#xff1a;对课程、学生信息、教师信息等进行增删改查&#xff0c;修改个人密码&#xff0c;修改学…

服务日志性能调优,由log引出的巨坑

只有被线上服务问题毒打过的人才明白日志有多重要&#xff01; 谁赞成&#xff0c;谁反对&#xff1f;如果你深有同感&#xff0c;那恭喜你是个社会人了&#xff1a;&#xff09; 日志对程序的重要性不言而喻&#xff0c;轻巧、简单、无需费脑&#xff0c;程序代码中随处可见…