当 Rokid 遇上函数计算

news2025/1/11 16:42:53

作者:王彬(阿里云解决方案架构师)、姚兰天(Rokid 技术专家)、聂大鹏(阿里云高级技术专家

公司背景和业务

Rokid 创立于2014年,是一家专注于人机交互技术的产品平台公司。Rokid 通过语音识别、自然语言处理、计算机视觉、光学显示、芯片平台、硬件设计等多领域研究,将前沿的 Al 和 AR 技术与行业应用相结合,为不同垂直领域的客户提供全栈式解决方案,有效提升用户体验、助力企业增效、赋能公共安全,其 Al、AR 产品已在全球八十余个国家和地区投入使用。

Rokid Air Pro 这款AR眼镜产品,为旅游景点,大型企业,国内科研机构都提供了服务支持。目前 Rokid 已和全国百余家博物馆和景区达成合作,给游客穿越时空,身临其境的非凡参观体验。

在这里插入图片描述

架构革新的必要性

Rokid 在 AR 的研究可以追溯到公司创立之初,在2012年 Google Glass 横空出世,其广阔的想象空间深深震撼了 Rokid 创始团队。后面虽然因为使用的场景和高额的价格原因,Google Glass 并没有持续的火爆普及。但可以预计在不久的将来,随着基础设施,生态应用的成熟,和人们持续提升的对娱乐,办公的体验要求,AR 技术一定会得到更广泛的应用。

Rokid 在数字文化领域,围绕展陈导览解决方案,主要形成了三维建图,场景创作,场景体验三个业务模块,每个模块都有不同的后台平台支撑。

  1. 三维建图: 制作展陈导览的第一步是取景,通过设备获取场地的真实布景,然后通过算法处理,进行三维建模,之后可以经过创作器进行下一步的内容创作。
  2. 场景创作: 在三维建模生成的视频流上创作,通过 Web3D 渲染引擎,将创作内容与场景紧密结合,结合硬件设备,在 AR 设备使用时,形成一体化的体验效果。
  3. 场景体验: AR 设备在使用时,根据定位服务,锚定在场景中的位置,根据位置的不同会显示不同的空间内容,达到扩展现实场景的效果。

整体的产品架构图如下:

在这里插入图片描述

三维建图,场景创作,场景体验三个场景都涉及到了的图像处理,需要大量的 GPU 资源。其中三维建图属于离线任务,在构建展陈模型时,需要将整个展陈场所的视频内容进行预处理,是三个场景中消耗算力最大的部分;场景创作需要配合创作软件,GPU 资源主要来自开发机器;场景体验在设备真实运行时提供实时服务,主要功能是定位服务,对服务的实时性要求很高。

为了支撑 GPU 算力的需求,Rokid 在开发的初期就决定尽可能的使用云资源承载,充分利用云计算的红利。最初是购买了 ECS 的 GPU 机型,用于业务的开发和测试。这里很大的问题是在三维建图时,一般都会一次性采集展陈环境的所有场景资料,视频量巨大,通过 ECS 串行处理需要时间很长,一个 1 小时的视频资料,通过一台 ECS GPU 机器需要处理 3 小时左右。Rokid 做的第一步是并行化,通过拆分 CPU 和 GPU 处理逻辑和优化任务编排方式,尽可能的让可以并发处理的部分拉起更多的资源加大并发量,通过这一系列的优化,视频的处理时间得到了不错的提升。

在并发资源方面,Rokid 选择的 GPU 计算资源是 ECI,相对 ECS,ECI 可选的资源粒度更加多样,特别是在小规格的选择上,对于切分的小块视频,通过并发的使用小规格 ECI 实例并行处理,大大缩短了整体视频的处理时间。为此,Rokid 内部平台还开发了一套针对阿里云 ECI 资源的调度模块,方便内部快速的申请和归还 ECI 资源。

通过对 ECI 资源的灵活使用,在保证高峰期任务处理并发度的同时,也保证了算力成本的可控,使用流程上得到了初步的优化。但是通过一段时间的使用,发现还是有很多的不足之处,主要问题总结如下:

  1. ECI 资源的申请和释放都依靠使用人员主动操作,有时在使用完毕后会忘记及时释放资源,导致资源闲置浪费。且开发和维护 ECI 的调度程序也需要占据对应同学一定的精力,带来了一些额外的运维工作。
  2. 三维建模的任务经过拆分后,分成了好几个步骤,每个步骤的任务都需要异步执行,需要一个系统维持任务的调用关系,在上一个步骤完成后,拉起下一个步骤的任务继续运行。
  3. 在运行过程中,会存在异常情况,排查下来,有时是因为申请的计算资源规格过小导致计算负载较高,有时是存储异常或存储空间写满,还有些情况是程序本身性能瓶颈。对于程序的整体监控缺乏,使得出现问题时不能第一时间发现,发现有异常排查过程不够直观,需要通过多种工具获取运行指标分析。
  4. GPU 算力在云上规模有限,在高峰期会偶尔存在 ECI 资源弹不出的情况,影响开发效率。

为了解决上面问题,Rokid 内部架构组寻求优化已有的架构,针对第 2 点,Rokid 自行维护了一个总的调度系统,进行任务编排;针对第 3 点,通过阿里云 ARMS Tracing,Prometheus,Grafana 等组件的引入,结合 ECI 硬件指标,统一收集到 SLS,形成统一的监控报表,再配以监控指标的告警,也能够初步的满足 Rokid 使用需求。但第 1 点和第 4 点,很难通过增加云产品或者内部应用程序解决。为此 Rokid 架构组开始寻找云上新的产品,以求彻底的解决使用过程中的痛点问题。此时,Serverless 架构的函数计算出现在了 Rokid 架构师的视野,经过一段时间的调研使用,函数计算的各项能力都能够很好的满足 Rokid 使用场景。

函数计算的出现恰逢其时

函数计算是事件驱动的全托管计算服务。使用函数计算,客户无需采购与管理服务器等基础设施,只需编写并上传代码或镜像。函数计算会准备好计算资源,弹性地、可靠地运行任务,并提供日志查询、性能监控和报警等功能。函数计算提供 CPU,GPU 的算力,秒级计费,客户只需要为实际资源使用付费。资源弹性可根据定时,请求量等指标自动伸缩,无需维护调度,负载,重试,异步回调等组件,提供了开箱即用,用完即走,按量付费的极致 Serverless 能力。函数计算 GPU 架构如下:

在这里插入图片描述

底层依托阿里云的大计算池,提供近乎无限的计算资源,通过阿里云的 cGPU 技术,可将单卡 GPU 资源切分成多种更小粒度的资源规格。客户在函数计算选择 GPU 规格创建函数,在有请求时,函数计算会实时从预热资源池获取资源,配合对应的镜像程序,启动客户函数,启动完毕后对外提供服务。

函数计算在第一次运行实例时会涉及到资源的拉起,弹性交付时间在 1s(热启动)~20s(冷启动)。Rokid 的三维建图场景是离线任务,单个视频的处理时间也在分钟级,对于秒级别的启动时延完全可以接受。

在三维建图任务接入函数计算后,Rokid 不再需要手动申请 ECI 资源,在使用结束之后也不需要在手动释放。函数计算会根据请求流量,动态的拉起与请求量匹配的后端 GPU 算力资源,在请求处理结束后,一段时间没有新请求的情况下,自动释放资源;整个三维建模在拆分后涉及好几个步骤,每个步骤都是异步执行,通过函数计算的异步系统,在一个步骤的任务完成后,可以自动触发下一个任务;函数计算控制台内置了指标监控,异常告警,链路追踪,调用日志,异步配置的功能,可以满足 Rokid 从开发,运行监控到运维全函数生命周期的功能需求;函数计算底层依托阿里云大计算池,加上预热和资源评估的后端算法,可以最大程度的保证资源供给;这几点正是 Rokid 之前遇到的痛点问题,通过接入函数计算单一的产品,就解决了 Rokid 近乎全部的主要问题。

接入函数计算后,Rokid 的云产品技术架构如下:

在这里插入图片描述

函数计算资源利用率监控图如下,从监控图可以看出,在有任务进入时,GPU 计算利用率可以达到 60% 甚至接近 100%。

在这里插入图片描述

体验与架构的妥协

Serverless 理念的函数计算确实给 Rokid 带了很多的便利,在高峰期资源的扩展性和成本节约方面都做到了当前云产品的极致,但函数计算也并非万能,对于 Rokid 的场景体验功能,也就是需要实时提供定位服务的模块,函数计算还是存在了一定的问题。

函数计算在第一次拉起实例资源时,会存在 1s(热启动)~20s(冷启动)的启动时间,这个时间对于实时定位服务模块是不可接受的,实时定位是在使用者身处展陈场地时,AR 设备通过实时定位,获取空间位置的 AR 拓展信息,接口响应的时间对客户的体验非常重要,定位请求需要在 1s 以内返回。

在成本和服务质量之间,Rokid 选择了服务质量优先,场景体验模块采用 ECI 部署,通过每天的定时任务,在高峰期提前弹出更多的 ECI 实例,在低峰期时,保留少量的 ECI 实例,以此达到体验和成本的平衡。

另一方面,函数计算在实时的场景也并非完全没有解决方案。目前 GPU 的模型一般都很大,镜像都在 G 级别,所以对于第一次资源拉起,在接下来一段时间内还看不到跟 CPU 资源一样 100ms 级别的拉起速度。针对实时场景,函数计算 GPU 实例在做的是预留实例,该功能可以在资源闲置时,释放计算资源的同时,保留程序的内存运行镜像,在有新的请求进来时,只需要供给算力资源,函数就能提供服务,免去了中间硬件资源拉起,函数镜像拉取和启动的时间,可以提供实时的服务。预留实例已经在 CPU 实例上线,闲置时 CPU 价格是运行态的 1/10,在保证实时能力的情况下,大大降低了资源成本。GPU 版本的预留能力预计年底上线。

场景体验采用 ECI 后,Rokid 的业务架构图如下:

在这里插入图片描述

出色的效果和进一步的期待

通过一系列的云架构改造,当前 Rokid 三维建图模块运行在函数计算的 GPU 资源上,场景体验模块运行在 ECI 资源,在成本和性能上,都做到了兼顾,且给整个系统强大的可拓展性,达到了系统设计时设定的架构目标,从 2023/2 上线提供服务以来,达到了不错的效果。其中三维建图模块降本明显,相比最初的 ECS 架构,算力成本降低了 40%,更为重要的是,通过实时的并发处理,大大减少了子任务的排队时间,加快了整个任务的完成时间。

下一步,Rokid 对于函数计算的 GPU 预留实例还是非常期待,期待函数计算能够尽快上线,这样 Rokid 内部可以将整个的 GPU 算力都迁移到函数计算,达到架构的统一。

经过展陈展览项目的实践,Rokid 相信以函数计算为代表的 Serverless 一定是云计算的未来,通过 Serverless,云计算的使用者不再需要关注底层的 Iaas 层运维和调度,在保证成本最优的情况下能够得到最大限度的拓展能力,且在整服务的生命周期,都能使用云产品提供的原生能力,简单,快速的定位,解决问题。Rokid 在3d模型处理,音视频后处理方面正在大规模尝试函数计算,Rokid 相信以函数计算为代表的 Serverless 架构也一定会在越来越多的云产品上得到应用。

有奖体验

函数计算团队全新上线函数计算 FC 一键部署通义千问预体验、文生图、图生图、图生文、文生文 5 大经典 AI 场景,让您获得通义千问 30 次对话预体验机会,同时简单、高效实现一键部署图像生成、文字生成服务,速成 AIGC 创作家。

双重奖品设置:

  • 完成函数计算开通及应用部署,赢取开发者社区 400 积分;
  • 参加 AI 生成图像比赛赢取 AirPods(第三代)、阿里云定制蓝牙音箱、阿里云定制清雅杯!

参与活动链接👇

https://developer.aliyun.com/topic/aigc_fc#J_5808073260

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/659908.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2023/6/18周报

目录 摘要 论文阅读 1、题目和现有问题 2、工作流程 3、图神经网络模块 4、注意力网络 5、实验结果和分析 深度学习 1、GNN和GRU的融合 2、相关公式推导 总结 摘要 本周在论文阅读上,对基于图神经网络和改进自注意网络的会话推荐的论文进行了学习&#…

DPdisPCA算法原理笔记

概要 本文简单理顺《Differentially Private Distributed Principal Component Analysis》论文中的算法原理,它主要提出了一种基于差分隐私的分布式PCA算法,研究了该算法在实验数据以及真实数据中的表现,在参数相同的情况下本算法取得了和没…

OpenGL之深度测试

文章目录 深度测试深度测试函数源代码 深度测试 深度缓冲就像颜色缓冲(Color Buffer)(储存所有的片段颜色:视觉输出)一样,在每个片段中储存了信息,并且(通常)和颜色缓冲有着一样的宽度和高度。深…

Python3 条件控制与循环语句 | 菜鸟教程(八)

目录 一、Python3 条件控制 (一)Python 条件语句是通过一条或多条语句的执行结果(True 或者 False)来决定执行的代码块。 (二)if 语句 1、Python中if语句的一般形式如下所示: 2、注意&#…

<Linux开发>驱动开发 -之-platform 驱动

<Linux开发>驱动开发 -之-platform 驱动 交叉编译环境搭建: <Linux开发> linux开发工具-之-交叉编译环境搭建 uboot移植可参考以下: <Linux开发> -之-系统移植 uboot移植过程详细记…

基于SpringBoot+Vue的民宿管理平台系统设计与实现

博主介绍: 大家好,我是一名在Java圈混迹十余年的程序员,精通Java编程语言,同时也熟练掌握微信小程序、Python和Android等技术,能够为大家提供全方位的技术支持和交流。 我擅长在JavaWeb、SSH、SSM、SpringBoot等框架下…

某音短视频评论采集翻页(移动安全篇)

本章测试一个作品的评论及翻页: 以及前面的抓x包方式,在专栏里也有很多,xposed抓包过sslping,通用版本等; https://codeooo.blog.csdn.net/category_11500477.html 翻页通过页码来控制: # -*- coding:…

Docker部署(1)——将jar包打成docker镜像并启动容器

在代码编写完成即将部署的时候,如果采用docker容器的方法,需要将jar包打成docker镜像并通过镜像将容器启动起来。具体的步骤如下。 一、首先下载java镜像 先使用docker search java命令进行搜索。 然而在拉取镜像的时候要注意不能直接去选择pull java ,…

kubernetes(k8s)理论篇

注意:kubeadm与docker是有版本要求的。 如果版本不兼容,初始化 kubeadm是会出现以下问题。 学习k8s掌握知识 基础概念 什么是 Pod 控制器类型 K8S 网络通讯模式 Kubernetes 构建 K8S 集群 资源清单 资源 掌握资源清单的语法 编写 Pod 掌握 Pod 的…

C国演义 [第四章]

第四章 全排列题目理解步骤树形图递归函数递归结束条件单层逻辑 代码 全排列II题目理解步骤递归函数递归结束条件单层逻辑 代码 全排列 力扣链接 给定一个不含重复数字的数组 nums ,返回其 所有可能的全排列 。你可以 按任意顺序 返回答案。 示例 1: 输…

简要介绍 | 深度学习中的自注意力机制:原理与挑战

注1:本文系“简要介绍”系列之一,仅从概念上对深度学习中的自注意力机制进行非常简要的介绍,不适合用于深入和详细的了解。 注2:"简要介绍"系列的所有创作均使用了AIGC工具辅助 深度学习中的自注意力机制:原…

android jetpack databinding的基本使用(java)

目录 databing的基本使用二级页面的绑定自定义BindingAdapter自定义BinddingAdapter的可选旧值双向绑定使用ObservableField来进行双向绑定 在recycleview中使用databinding databing的基本使用 开启databing android {........dataBinding{enable true} }修改布局文件 为布…

Unity UGUI6——UGUI进阶

一、UI 事件监听接口 ​ 目前所有的控件都只提供了常用的事件监听列表 ​ 如果想做一些类似长按,双击,拖拽等功能是无法制作的,或者想让 Image 和 Text,RawImage 三大基础控件能够响应玩家输入也是无法制作的 ​ 而事件接口就是…

Elasticsearch 基本使用(三)条件查询

条件查询 单条件查询matchdebug 查看分词结果match_phrase 多条件查询bool 子元素区别 单条件查询 match match 匹配字段,会对条件分词,然后每个词以or的关系在文档倒排索引内进行查询 GET bank/_search {"query": {"match": {&q…

一起学SF框架系列6.1-模块core-Resource

Java虽然提供了java.net.URL类和各种URL前缀处理程序来负责处理对各种资源的访问,但对于低级别资源的访问来说还是不够充分。例如,没有标准化的实现可用于访问需要从类路径中获取或者相对于一个ServletContext的资源;也没有检查所指向的资源是…

火影手游 问答题小抄

文章目录 Part.I IntroductionPart.II 一些常识Chap.I 基础常识Chap.II 人物相关Chap.III 原作相关Chap.III 游戏相关 Part.III 奥义 & 技能Chap.I S 忍Chap.II A 忍Chap.III B 忍Chap.IV C 忍 Part.IV 针对活动Chap.I 组织樱花祭Chap.II 樱花问答 Pary.V 名言Reference Pa…

群辉DSM7.2安装svn服务

Part1前言 今天研究了一晚上使用群辉安装svn,确实挺多坑的,总结记录一下。我的型号是DS220,版本为DSM 7.2 Part2安装docker 首先打开套件中心,如下图,检索docker 然后点击安装,安装之后打开如下&#xff1a…

Clickhouse之物化视图分享

前言 ClickHouse广泛用于用户和系统日志查询场景中,主要针对于OLAP场景,为业务方提供稳定高效的查询服务。在业务场景下,数据以不同的格式、途径写入到clickhouse。用传统JOIN方式查询海量数据,通常有如下痛点: 每个查询的代码冗…

【TOP生物信息】基于Scanpy的单细胞数据质控、聚类、标注

扫码关注下方公粽号,回复推文合集,获取400页单细胞学习资源! 「写在前面」 Python作为一种高级编程语言,被广泛用于单细胞数据分析,有着以下的优势: 「大量的生物信息学库:」 Python拥有大量的…

【UE 从零开始制作坦克】6-坦克开炮

效果 步骤 1. 添加初学者内容包(需要用到其中的音效和粒子效果) 2. 接下来制作坦克的炮弹 首先新建一个Actor蓝图类,作为所有发射物体(炮弹、机枪子弹等)的父类,这里命名为“TotalCategoryOfProjectile”…