Hago 的 Spark on ACK 实践

news2025/1/15 23:07:12

作者:华相

Hago 于 2018 年 4 月上线,是欢聚集团旗下的一款多人互动社交明星产品。Hago 融合优质的匹配能力和多样化的垂类场景,提供互动游戏、多人语音、视频直播、 3D 虚拟形象互动等多种社交玩法,致力于为用户打造高效、多样、最具沉浸式的社交娱乐体验,在东南亚、中东和南美等地区拥有广泛的用户群。

在技术层面,Hago 提供优秀的自研音视频技术,实现更加稳定、高效和优质的数字人服务。包括 3D 超写实模型、真人主播模型制作,虚拟人语音、表情驱动,自然声音的文字转语音(TTS),成熟的虚拟直播能力。

长期以来,Hago 都是在 IDC 里运行大数据任务,以支撑上面的许多产品,从 2022 年开始,Hago 开始将大数据业务迁移上云,并以 Spark on ACK 的形式来运行,本文主要针对迁移过程进行介绍。

IDC 中遇到的问题

起初,Hago 的 Spark 任务都是跑在 IDC 里的 Hadoop 集群里,当时主要面临几个问题:

  • 资源限制问题:当资源不足时,导致任务堆积、排队
  • 扩容的时效性:集群扩容逻辑比较复杂,特别是节假日有活动时,往往要提前一周准备扩容
  • 资源利用率问题:Spark 任务有明显的波峰波谷,波谷的资源浪费明显
  • 为了解决上面几个问题,Hago 决定把大数据业务用云原生的方式迁移上云

实施

Spark 项目从 3.1 开始,Spark on Kubernetes 的功能正式 GA。

所以,ACK 作为托管的 Kubernetes 发行版,提供更高的性能和更强稳定性,自然成为阿里云上 Spark 的最佳运行底座,这里为了更好的弹性效果,Hago 选择了 Serverless 版本的 ACK。

ACK Serverless

图片

在 ACK Serverless 集群中,无需购买节点即可直接部署容器应用,无需对集群进行节点维护和容量规划,并且根据应用配置的 CPU 和内存资源量进行按需付费。ACK Serverless 集群提供完善的 Kubernetes 兼容能力,同时降低了 Kubernetes 使用门槛,用户更专注于应用程序,而不是管理底层基础设施。

同时,ACK Serverless 集群中的 Pod 基于阿里云弹性容器实例 ECI 运行在安全隔离的容器运行环境中。每个 Pod 容器实例底层通过轻量级虚拟化安全沙箱技术完全强隔离,容器实例间互不影响。

在 Spark 这种大规模业务峰值脉冲和任务调度的场景,ACK Serverless 集群的弹性优势也更加明显,可以在 30s 内交付几千个 Pod。

但在真正运行之前还有一些问题需要解决:

存算分离

上面提到,Spark 任务对算力的需求不是 7*24 小时的,但是存储是一直留存的,如果用传统的方式,在虚拟机上搭建 HDFS 集群,那就需要常驻大量的算力,也意味着产生大量的浪费。

Hago 选择存算分离的方案,将数据放在 OSS 里,通过 OSS-HDFS 服务把数据用 HDFS 接口暴露出来,方便 Spark 任务读取。

详情请参阅:OSS-HDFS 服务概述 [ 1]

shuffle service 的选型

shuffle 是 Spark 中最基本的过程之一,同时,shuffle 对于 Spark 应用程序的性能至关重要。

Spark 社区提供了默认的 shuffle service [ 2] ,但存在一些问题:

  • Spark Shuffle 对本地存储有依赖,许多计算存储分离的机型、使用 ECI 的场景下没有自带本地盘,需要额外购买和挂载云盘,性价比和使用效率低
  • Spark 基于 ShuffleTracking 实现了 Dynamic Allocation,但 Executor 回收效率低下

具体表现如下:

  • Shuffle Write 在大数据量场景下会溢出,导致写放大
  • Shuffle Read 过程中存在大量的网络小包导致的 Connection reset 问题
  • Shuffle Read 过程中存在大量小数据量的 IO 请求和随机读,对磁盘和 CPU 造成高负载
  • 对于 M*N 次的连接数,在 M 和 N 数千的规模下,作业基本无法完成

EMR 推出的 RSS 服务,可以优化上述 Spark Shuffle 方案的问题,完美支持 ACK 环境下的 Dynamic Allocation。

详情请参阅:EMR Remote Shuffle Service [ 3]

落地效果

图片

最终落地的架构图大致如上所示,取得了非常理想的效果:

  • 基本不需要提前准备,扩容只需要 30s
  • 任务不再需要排队
  • 不需要关心 IDC 的硬件故障问题

相关链接:

[1] OSS-HDFS 服务概述

https://help.aliyun.com/zh/oss/user-guide/overview-1

[2] shuffle service

https://github.com/lynnyuan-arch/spark-on-k8s/blob/master/resource-managers/kubernetes/architecture-docs/external-shuffle-service.md

[3] EMR Remote Shuffle Service

https://help.aliyun.com/zh/emr/emr-on-ecs/user-guide/celeborn#task-2184004

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1331782.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

P4 音频知识点——PCM音频原始数据

目录 前言 01 PCM音频原始数据 1.1 频率 1.2 振幅: 1.3 比特率 1.4 采样 1.5 量化 1.6 编码 02. PCM数据有以下重要的参数: 采样率: 采集深度 通道数 ​​​​​​​ PCM比特率 ​​​​​​​ PCM文件大小计算: ​…

计算机毕业设计 基于SpringBoot的房屋租赁管理系统的设计与实现 Java实战项目 附源码+文档+视频讲解

博主介绍:✌从事软件开发10年之余,专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ 🍅文末获取源码联系🍅 👇🏻 精…

HTML---网页布局

目录 文章目录 一.常见的网页布局 二.标准文档流 标准文档流常见标签 三.display属性 四.float属性 总结 一.常见网页布局 二.标准文档流 标准文档流常见标签 标准文档流的组成 块级元素<div>、<p>、<h1>-<h6>、<ul>、<ol>等内联元素<…

Hadoop入门学习笔记——一、VMware准备Linux虚拟机

视频课程地址&#xff1a;https://www.bilibili.com/video/BV1WY4y197g7 课程资料链接&#xff1a;https://pan.baidu.com/s/15KpnWeKpvExpKmOC8xjmtQ?pwd5ay8 Hadoop入门学习笔记&#xff08;汇总&#xff09; 目录 一、VMware准备Linux虚拟机1.1. VMware安装Linux虚拟机1.…

机密计算容器前沿探索与 AI 场景应用

作者&#xff1a;壮怀、朱江云 企业与个人对数据隐私保护日益关切&#xff0c;从数据&#xff0c;网络的可信基础设施扩展到闭环可信的计算基础设施&#xff0c;可信的计算&#xff0c;存储&#xff0c; 网络基础设施必定成为云计算的标配。 机密计算技术应运而生&#xff0c;…

Python遥感影像深度学习指南(1)-使用卷积神经网络(CNN、U-Net)和 FastAI进行简单云层检测

【遥感影像深度学习】系列的第一章,Python遥感影像深度学习的入门课程,介绍如何使用卷积神经网络(CNN)从卫星图像中分割云层 1、数据集 在本项目中,我们将使用 Kaggle 提供的 38-Cloud Segmentation in Satellite Images数据集。 该数据集由裁剪成 384x384 (适用…

AWD认识和赛前准备

AWD介绍 AWD: Attack With Defence, 北赛中每个队伍维护多台服务器&#xff0c;服务器中存在多个漏洞&#xff0c;利 用漏洞攻击其他队伍可以进行得分,修复漏洞可以避免被其他队伍攻击失分。 一般分配Web服务器&#xff0c;服务器(多数为Linux)某处存在flag(一般在根目录下)&am…

在Excel中,如何简单快速地删除重复项,这里提供详细步骤

当你在Microsoft Excel中使用电子表格时&#xff0c;意外地复制了行&#xff0c;或者如果你正在制作其他几个电子表格的合成电子表格&#xff0c;你将遇到需要删除的重复行。这可能是一项非常无脑、重复、耗时的任务&#xff0c;但有几个技巧可以让它变得更简单。 删除重复项 …

【MybatisPlus快速入门】(3)SpringBoot整合MybatisPlus 之 Lombok插件安装及MybatisPlus分页代码示例

目录 1.Lombok1.1 步骤1:添加lombok依赖 2.2 步骤2:安装Lombok的插件1.3 步骤3:模型类上添加注解2 分页功能2.1 步骤1:调用方法传入参数获取返回值2.2步骤2:设置分页拦截器2.3 步骤3:运行测试程序 之前我们已学习MyBatisPlus在代码示例与MyBatisPlus的简介&#xff0c;在这一节…

Could not resolve com.github.CymChad:BaseRecyclerViewAdapterHelper:2.9.28.

1、首先进入阿里云maven仓库&#xff0c;在搜索栏输入无法下载的依赖名称&#xff0c;查询现有版本号&#xff0c;可以看到这里有2.9.34。 2、在build.gradle(Project)的buildscript闭包下替换为阿里云maven仓库&#xff1a; maven { url https://www.jitpack.io } maven { u…

在k8s中使用Helm安装harbor并将Chart推送到私有仓库harbor

使用Helm安装harbor并将Chart推送到私有仓库harbor 注意&#xff1a;如果你的harbor是之前docker-compose安装的&#xff0c;还需要额外做一个动作&#xff0c;让它支持chart docker-compose stop ./install.sh --with-chartmuseum1&#xff09;下载harbor的chart包 Harbor的…

【经典LeetCode算法题目专栏分类】【第10期】排序问题、股票问题与TOP K问题:翻转对、买卖股票最佳时机、数组中第K个最大/最小元素

《博主简介》 小伙伴们好&#xff0c;我是阿旭。专注于人工智能AI、python、计算机视觉相关分享研究。 ✌更多学习资源&#xff0c;可关注公-仲-hao:【阿旭算法与机器学习】&#xff0c;共同学习交流~ &#x1f44d;感谢小伙伴们点赞、关注&#xff01; 《------往期经典推荐--…

Docker - 镜像 | 容器 日常开发常用指令 + 演示(一文通关)

目录 Docker 开发常用指令汇总 辅助命令 docker version docker info docker --help 镜像命令 查看镜像信息 下载镜像 搜索镜像 删除镜像 容器命令 查看运行中的容器 运行容器 停止、启动、重启、暂停、恢复容器 杀死容器 删除容器 查看容器日志 进入容器内部…

CGAL的网格简化

1、介绍 曲面网格简化是减少曲面网格中使用的面数&#xff0c;同时尽可能保持整体形状、体积和边界的过程。它是细分法的反面。 这里提出的算法可以使用称为边折叠的方法简化任何有向2流形曲面&#xff0c;具有任意数量的连接组件&#xff0c;有或没有边界&#xff08;边界或孔…

体验一下 CodeGPT 插件

体验一下 CodeGPT 插件 0. 背景1. CodeGPT 插件安装2. CodeGPT 插件基本配置3. (可选)CodeGPT 插件预制提示词原始配置(英文)4. CodeGPT 插件预制提示词配置(中文)5. 简单验证一下 0. 背景 看到B站Up主 “wwwzhouhui” 一个关于 CodeGPT 的视频&#xff0c;感觉挺有意思&#…

leetcode 268. 丢失的数字(优质解法)

链接&#xff1a;268. 丢失的数字 代码: class Solution {public int missingNumber(int[] nums) {int result0;for(int i0;i<nums.length;i){result^i;}for(int i0;i<nums.length;i){result^nums[i];}return result;} } 题解&#xff1a; 本题是比较简单的题&#xff…

将PPT的图保持高分辨率导入到Word / WPS中

1、将PPT中画好的图组合在一起&#xff0c;选择组合后的图复制&#xff08;Ctrlc&#xff09; 2、在Word中&#xff0c;选中左上角的粘贴选项--->选择性粘贴 WPS选择元文件 / Word选择增强型图元文件 这样放大也不模糊了

期末加油站-图像处理期末知识点汇总

第三章&#xff1a;图像增强 一、概念 1.图像增强是通过某种技术有选择地突出对某一具体应用有用的信息&#xff0c;削弱或抑制一些无用的信息。 2. 图像增强处理不是无损处理&#xff0c;不能增加原图像的信息。 3. 图像增强按所处理的对象不同可分为&#xff1a; 灰度图像增…

汽车服务品牌网站建设的作用是什么

汽车服务涵盖多个层面&#xff0c;在保修维护这一块更是精准到了车内车外&#xff0c;无论是品牌商还是市场中各维修部&#xff0c;都能给到车辆很好的维修养护服务。如今车辆的人均拥有量已经非常高&#xff0c;也因此市场中围绕汽车相关的从业者也比较多。 首先就是拓客引流…

ApsaraMQ Serverless 演进之路,助力企业降本

作者&#xff1a;家泽 ApsaraMQ 与时俱进&#xff0c;砥砺前行 阿里云消息队列从诞生开始&#xff0c;至今已有十余年。今年&#xff0c;阿里云消息产品全面品牌升级为 ApsaraMQ&#xff0c;与时俱进&#xff0c;砥砺前行。 2012 年&#xff0c;RocketMQ 诞生于集团内部&…