双11大型互动游戏“喵果总动员” 质量保障方案总结

news2025/1/10 10:16:05

a85adabac7ed8ff5812e64bf5d64e960.gif

推荐语:互动游戏是一个系统化工程,在笔者的“喵果总动员”质量方案中,可以看到为保障用户体验,我们在各个难点的解决方案, 例如:用线上压测能力支持业务及时调整各服务容量、通过强化学习覆盖游戏行业的测试路径覆盖难题、利用系统异常注入发现corner case等, 都为互动游戏的系统性质量保障提供了方法。

——大淘宝技术质量工程师 搏天

fb1ff0690c53400792c089c85ed553d9.png

背景介绍

2022年淘宝双11的互动游戏推出三款游戏:单人割草升级、多人组队PK、在线猜题闯关,兼顾了不同用户对休闲娱乐和竞技对抗的差异化诉求。

ff33bc993dc7e9e1845d1452c1a0d67b.png

63d6adb38f78514727205c78b4d360c0.png

a94659285c735db4a14a5f0ce3afdf0d.png

  玩法核心策略

  1. 单人割草升级:魔性有趣的核心玩法吸引用户,创造记忆点;操作简单易上手,降低用户学习门槛。

  2. 多人组队PK:复刻盖楼狂欢,增加竞技的刺激感。

  3. 在线猜题闯关:每天定时开启价格竞猜玩法,营造大促氛围,打造话题爆点。

89cc9204c9ee393663855aa24ac0289b.png

核心挑战


  相较于往年大促的变化

  • 猜价格玩法流量集中,严格时序,用户有异常退出、提前结束比赛的风险

猜价格每天12点、18点准时发车,用户需要提前停留在页面参与,因此会有集中的流量流入,预计千万量级用户参与。猜价格玩法要求严格时序,依次进行查看题目、提交答案、查看排名、使用复活卡等操作,过程中因用户网络超时或者切后台等原因导致用户没有在规定时间内完成对应操作,导致无法完成比赛。

  • IGF游戏化架构重构了PK模型,引入的数据一致性风险

虽然PK玩法相较于过去两年没有明显的变化,但是技术架构的重构依然引入一些新的数据一致性风险和问题:

  1. 新的序列化协议数据压缩方案:序列化性能、对于某些特定的数据类型是否支撑,数据是否存在丢失的问题

  2. 新的玩家-战队-房间存储模型设计:今年核心数据首次选择了存储在RDB中,数据迁移过程中的异常重试,并发锁、幂等重试的逻辑需要重新设计,重点保障。

  3. RDB核心用户资产数据存储的稳定性:数据大小/QPS对存储的性能的影响,RDB对核心资产数据的监控和对账能力保障,数据丢失后的回补能力。

  • 实时类互动对端性能要求更高

从端性能问题导致的影响来看,crash,渲染不出来等问题会直接影响到用户行为链路的中断,卡顿会导致用户关键操作的决策、失真,掉电过快等问题会导致用户对游戏品质的质疑从而流失。

从问题发生的概率来讲,这次整个地图渲染的实体更多,端计算存储量增多,更加对端性能提出了更高的要求。

  • 割草玩法前端计算和存储,引入的场景覆盖、安全性等新问题

本次单人割草玩法,战斗逻辑写在客户端。战斗逻辑是包括技能逻辑、普攻、属性、伤害、移动、AI、检测、碰撞等等的一系列内容。这块在互动是全新的技术尝试,以往所有的逻辑都是在服务端处理。所以端计算数据存储稳定性&逻辑一致性的验证比以往的要求更高,例如数据丢失后的回档问题。

另外就是安全性问题,以往所有逻辑和数值都是在服务端,如果想作弊,就必须攻击服务器,而攻击服务器的难度比更改自己客户端数据的难度高得多,而且更容易被追踪,被追踪到了还会有极高的法律风险。而帧同步因为所有数据全部在客户端,所以解析客户端的数据之后,就可以轻松达到自己想要的效果,例如 moba 类游戏的全图挂,吃鸡游戏的透视挂,都是没办法防止的,而更改数据达到胜利的作弊方式(例如更改自己的英雄攻击力)可以通过服务器比对同局其他人的战斗结果来预防。

  风险评估表

测试内容

风险等级

测试策略

风险点

单人-割草收能量

功能测试、前端碰撞模型算法测试、故障点测试、兼容性测试

1.草的割取和能量的收取的一致性

2.关键地图信息、背包能量、PK道具buff等信息存储在indexDB&localStorage的稳定性保障

3.客户端性能的风险:crash,渲染不出来,卡顿、失真

4.前端防刷,防止有用户能快速刷满所有能量

单人-升级发红包

功能测试、故障点测试

1.能量和等级一致性保障,升级发红包

兑奖

功能测试、故障点测试

1.红包必得的逻辑保障

IGF序列化协议

功能测试,性能测试

1.序列化后的字节数大小

2.序列化和反序列化的效率

3.是否支持被序列化对象新旧版本的兼容性问题。

4.是否可以直接序列化对象,而不需要额外的辅助类

猜价格-并发度

功能测试、故障点测试、性能测试

1.通过性能压测摸底,合理安排资源和限流,最大程度保障用户体验

2.限流情况下的产品/前端表达,引导用户重试 或 补偿

3.前端打散请求

4.前端防刷,减少无效请求

猜价格-排名算法

功能测试、故障点测试、性能测试

1.排名算法时效性要求高,从方案层面设计未能及时产出结果的保障方案

2.通过性能压测摸底,合理设计限流,最大程度保障用户体验

猜价格-选品一致性

方案设计保障、定时巡检

1.从方案层面,保证选品价格不能轻易变更 或者 活动方案不依赖选品实时状态

2.保证项目组能第一时间感知选品价格变更、上下架变更

猜价格-异常重连

功能测试、故障点测试

1.方案层面保障用户在任何异常(主动退出、crash等)、任何状态下,都能有重连的机制

30aa1154444b31fb2f3986412b51e270.png

质量保障方案

本次双11的测试目标是“大规模用户同时在线下的实时游戏类互动的质量保障”。目标是0故障、0资损、用户游戏体验流畅度,千万用户同时在线。

  目标

核心策略如图所示:

da26ac69ce744c1bd00266599f4799a3.png

  目标完成情况

  1. 定义了双11主互动体验的目标,新增回档率等体验指标,分析过程中数据,优化提升体验水位:中断率、可视时间、帧率等,高峰期无大规模体验舆情,主互动发热、卡顿显著改善。舆情15分钟定位。

  2. 无稳定性问题造成的大规模用户舆情和核心链路不可用问题:事前压测数据构造了亿级战队,高峰期千万用户行为模拟;上线前期通过观察流量占比/数据存储大小,发现地图上报接口流量模型不一致的风险;根据当前架构梳理出低成本的线上可压测方案,具备稳定性变更可验证的能力。

  3. 自动生成用例占比76%:冒烟用例场景开发可执行占比67%,异常场景覆盖占比85%

6df5b83c7013bf6ad29ebb9c4190d235.jpeg

专项建设和结果

  稳定性测试策略——线上压测能力建设

除了事前——让压测方案更加趋近真实、和事中——数据观察,模型修正的方案外,本次双11稳定性测试想要重点建设线上压测的能力。

  • 解决的问题

预期外的流量,作为线上容器&存储的扩容的演练手段

压测模型评估不准确的情况下,线上需要变更的验证能力

  • 核心原则

线上容器&存储资源等系统稳定性不受影响

  • 线上压测执行

压测实战最重要的两点是确保压测结果的可靠性以及保证压测对线上性能无影响。

  • 不影响线上稳定性的几个关键点 

容器的稳定性

  1. 理想情况:将服务单独部署到相同规格的机器上,从物理层面将压测系统与真实业务系统进行隔离,确保压测对真实业务系统的硬件资源无影响。缺点:成本高

  2. 可行性方案:线上压测的目的不是为了压系统的瓶颈,是为了验证预期流量下的系统表现,因此可以在业务流量低峰期在当前集群进行线上压测,拉起流量还原发生问题时的场景,对容器的压力可控,风险较低。 

数据隔离的安全性

  1. DB的数据隔离:DB数据隔离一般有两种方式:通过新建影子表或新建一套db来保证压测数据与真实业务数据隔离,确保压测数据不会污染线上数据。

    新建db的时间成本和资金成本很高,本次互动玩法DB只存储个人-战队-房间的索引关系和流水,单行的数据量较小。经过压测验证,读写的高峰发生在匹配和结算的定时任务时,系统可以通过限制任务的执行的速度,使DB性能处于安全水位之下。用户自然流量对于DB的读写的峰值按照200%的流量模型评估在QPS、TPS、接口成功率、RT评估均无性能风险,因此可以采用影子表作为数据隔离策略。

    在压测系统水位时以影子表作为数据隔离策略,需要注意的是影子表与真实的线上表存在于一个db中,压测对db整体性能存在影响,可以选择用户访问量低谷时间段内进行压测来能保证压测不影响线上用户且保证压测结果的可靠性。

  2. RDB的数据隔离:RDB是本次核心数据的存储,RDB没有DB影子表的隔离能力,可以通过申请新的RDB实例进行物理隔离,底层IGF框架通过配置进行压测流量的路由。

  3. LDB的数据隔离:LDB支持影子链路存储的隔离能力,业务层无需改造

  4. 本地缓存隔离:记录时需要带上影子标记,和正常流量进行区分

中间件隔离

  1. 压测服务使用单独的版本号,可以将压测服务与真实业务服务隔离,确保线上流量不会打进压测系统;

  2. 通过修改压测应用groupId实现定时任务的分组隔离,保证线上任务不会调用压测机器执行等等。 

  • 保证压测结果可靠性的几个关键点 

压测接口要满足压测需求:

在对存在上下游依赖的业务链路压测时,会将该业务链中的功能接口组装成几个压测接口,该压测接口应体现真实业务链路的上下游依赖。

业务逻辑改动要仿真业务场景:

在不改变业务请求对系统性能产生的影响时,开发同学可能会修改部分业务逻辑进行压测。比如:真实业务链路的非幂等性导致同一用户在同一状态下只能进入该业务链路一次,这种场景对压测造成的最直观影响是需要生成极大量入参来满足压测需求。为解决该问题,开发同学可能会将压测的业务链路修改为幂等业务链,此时便需要注意当前修改不能改变请求对系统稳定性的影响。

qps配比要仿真业务场景:

在同一场景下,不同接口的qps配比是否能够反映真实业务场景是判断压测结果是否可靠的重要依据。qps配比需要基于能够衡量真实业务访问量的统计结果来制定。

入参满足业务仿真的需求:

如果入参的取值对系统稳定性影响较大(比如:不同的入参对cpu计算量或者io访问时长影响较大;相同的入参并发请求时,对io阻塞影响较重;等等。),需要调研真实业务场景的入参并发间隔、入参离散程度来设计压测入参。

影子数据满足业务仿真的需求:

若通过分析发现,db数据不是本次压测需求的瓶颈或关键点,可以忽略此条建议。不过最好还是在压测前将线上数据同步到影子表,做到高度仿真,RDB同理。

  • 关键问题 

数据准备

线上真实数据同步到新的RDB实例,目的是能做到数据存储大小的仿真。

备份恢复方案概览

类别

实施方案

说明

是否采纳

数据备份

自动或手动备份

云数据库Redis支持数据持久化,会按照默认的策略自动备份数据(基于 RDB ),您可以根据业务需求修改自动备份策略,也可以手动发起临时的备份。

下载备份文件

云数据库Redis的备份文件会免费保留7天,如果需要更长时间的备份存档(例如监管或信息安全需要),您可以将备份文件下载到本地进行存储。

备份文件过大,无法本地存储

使用redis-shake备份Redis实例

通过Redis-shake

的dump模式,您可以将Redis实例中的数据备份为RDB文件并存储至本地。

备份文件过大,无法本地存储

数据恢复

从备份集恢复至新实例

云数据库Redis支持从指定的备份集创建新实例,新实例中的数据将和该备份集中的数据一致,可用于数据恢复、快速部署业务或数据验证等场景。

通过数据闪回按时间点恢复数据

开启数据闪回功能(基于 AOF )后,在备份文件的保存期内,您可以恢复指定时间点(精确到秒级)的Redis数据,可最大限度地避免误操作带来的数据损失,或者在频繁回档的业务场景快速完成数据切换。说明 该功能仅在企业版(内存型)中支持。

使用redis-shake恢复数据

借助Redis-shake的restore模式,您可以恢复RDB文件到Redis。

参考:https://help.aliyun.com/document_detail/43886.html

链路改造

上线前的压测链路改造保留

压测环境

准备时长:千万账号登录加压测数据上传同步amazon压测平台时间较长,可在流量低峰期操作减少登陆的时间。

  瓦力——基于强化学习引擎的PK全链路场景自动生成

互动瓦力机器人是大淘宝技术互动测试团队于2019年推出的一款用户行为链路仿真平台,底层基于强化学习引擎实现了用例的自动生成,解决了互动业务测“新”的痛点问题,如今已广泛应用于天猫淘宝大促主互动场景和芭芭农场、淘金币等多个日常业务。

之前我们的工作模式更多是在提测后做质量保障工作,包括功能验证、稳定性性能、资损等等,通过提测后问题发现和风险发现,来保障整体的交付质量,往往在最后的提测阶段暴露大量的风险和问题,导致整个项目再最后时间压力最大。从2022年618开始,我们尝试重点解决开发自测和前后端联调阶段,开发不明确自测场景范围以及测试数据/环境无法快速构造,自测用例无法执行的痛点问题。

以本次的“喵糖总动员”的结算场景为例,需要先组成多个战队,离线DTS任务匹配,穿越到PK期,升级/助力,最后才能进入结算,整个链路的测试成本是非常高的。

f6f4507b7a04eaa28eda5f0d126c6e01.png

借助强化学习用例生成引擎,简化了测试用例前置条件(用例特征)的构造成本,用例特征原子化,在提测前快速生成了60+的冒烟用例,占比全用例的76%,提测通过率100%,提测冒烟时间从过去的3天缩短至1天。

  • 挑战与技术创新点

借助瓦力机器人提升了核心场景的自动生成能力

问题和风险前置,提高了联调和冒烟阶段开发自测的效率,提前发现问题19个

沉淀了可稳定执行的场景case,变更后可快速回归验证

  • 问题和展望

  1. 继续提升开发联调和自测阶段可执行用例的占比,提升研发自测的幸福感

  2. 简化用例的表达和执行结果的描述,减少用户理解的成本

  大白——业务异常场景自动生成

业务容灾平台-bighero大白,一种不需要编写脚本,通过分析正常流量的核心调用依赖批量生成异常用例,并通过互动机器人,鹰眼标,凤凰和jvm-sandbox构造流量隔离的异常用例执行环境,最后针对异常用例结果进行系统化布防的测试工具;目标是在上线前自动识别出系统的潜在风险,并通过布防等方式将业务损失降到最小。

  • 挑战与技术创新点

  1. IGF框架的引入,放大了同方法多次调用异常精准命中需求,本次基于链路上下文,开发了指定方法index||参数的用例生成&攻防

  2. 满足特殊异常链路的覆盖,自定义异常返回

  3. 异步消息链路的异常测试

  4. hsf接口进行异常用例的自动生成和攻防(将定时任务包成hsf接口进行同逻辑小数据测试)

  5. 避免同接口异常误命中,叠加参数进行攻防对象的流量筛选

  • 落地效果

  1. 自动化产出喵果总动员有效容灾用例:216条

  2. P1P2故障点覆盖率为:82.6%

    • 多人:15个P1P2故障点,12个覆盖,占比80%

    • 开奖:4个P1 P2故障点,4个覆盖,占比100%

    • 单人:4个P1P2故障点,3个覆盖,占比75%

  • 展望

  1. 提升大白-异常测试平台的产品化程度,降低异常测试的使用门槛,简化使用流程

  2. 提高异常场景的覆盖面:MT、并发、奥格、安全等

  3. 提升异常攻防的自动化程度

f035f1682be6340744a9bfa6c2f12c7f.jpeg

未来展望

挑战:

大规模用户实时在线游戏已经成为互动游戏发展的必然趋势,同时在线、低时延、3D渲染等新的课题对互动游戏化架构的稳定性保障、体验标准衡量等提出了更高的要求。

短期规划:

  1. 通过完善交付场景用例的生成和执行能力,提供给开发更多的自测验证的场景和手段,提升研发自测阶段的效率,提升交付的质量。

  2. 预研大规模用户实时在线游戏下的架构,梳理相关问题和技术难点,构建相应的质量保障策略和方案。

f0cbf28616e05fcdb1629c9afd91fd44.jpeg

团队介绍

我们是大淘宝技术质量团队,负责保障整个淘宝和天猫主站的业务质量,一直致力于技术驱动,构建业界领先的质量体系。

我们有QCon、QECon、MTSC、GIAC、绿盟、TOP100 Summit等众多行业大会的讲师,有GitHub获得3.2k Star的开源产品JVM-Sandbox作者,最关键的是有对技术极致追求,对生活充满热爱的大家庭,欢迎加入我们,简历投递邮箱:wenbo.shb@alibaba-inc.com。

¤ 拓展阅读 ¤

3DXR技术 | 终端技术 | 音视频技术

服务端技术 | 技术质量 | 数据算法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/337715.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

设计师一定要知道这几个网站,解决你80%的设计素材。

本期推荐一波设计师必备的设计素材网站,设计党赶紧马住!能解决你日常设计中80%的素材。 1、菜鸟图库 菜鸟图库-免费设计素材下载 这是一个为新手设计师提供免费素材的设计网站,站内有超多平面模板、海报、UI设计、电商设计等相关素材&#x…

数据与C(浮点数)

目录 一.基本概念 二.声明和初始化 三.浮点数上溢和下溢 浮点数在数据类型上一共就两个,一个是float,另一个是double。但两个唯一的区别就在于double精度方面是float的两倍 一.基本概念 首先介绍浮点数的三种书写形式 第一种 数字 :103…

K近邻算法和KD树详细介绍及其原理详解

相关文章 K近邻算法和KD树详细介绍及其原理详解 文章目录相关文章前言一、K近邻算法二、KD树总结前言 K近邻算法一般是我们学习机器学习的入门算法,本篇文章详细介绍了K近邻算法,并对其原理进行了说明。同时,为了优化K近邻算法查找最近K个邻…

Spring工厂模式

解决方案1:工厂模式 可以使用抽象工厂模式,让StudentDao、StudentService的实现在在工厂中生成,而工厂可以根据配置 文件的指定类型来创建不同的对象,而且工厂本身一般是不变的。从而降低了对可以变的业务逻辑类的 依赖,接近的软…

字节青训前端笔记 | 数据可视化基础

本课程主要内容可以分为三个章节: 数据可视化的基本概念可视化设计的基本原则面向前端的可视化工具 本手册可以作为学生学习数据可视化的“学习指南”,按照手册所列内容,结合扩展资料进行系统的学习和实践。本课程没有讨论更为前沿的可视化…

推荐5款干净又实用的软件

我们在使用电脑的时候,总是会用到一些好用的软件,今天分享这5款干净又实用的软件,实在是太好用了,我不允许你不知道。 1.桌面工具——火柴 火柴是一款集快速搜索,程序启动、本地文件查找、网站直达、网络搜索等多种功…

OSACN-Net:使用深度学习和Gabor心电图信号谱图进行睡眠呼吸暂停分类

这篇文章在之前读过一次,其主要的思路就是利用Gabor变换,将心电信号转变为光谱图进行识别研究,总体来讲,不同于其他的利用心电信号分类的算法,该论文将心电信号转换为光谱图,在此基础上,分类问题…

java面试题(二十)中间件redis

1.1 Redis可以用来做什么? 参考答案 Redis最常用来做缓存,是实现分布式缓存的首先中间件;Redis可以作为数据库,实现诸如点赞、关注、排行等对性能要求极高的互联网需求;Redis可以作为计算工具,能用很小的…

基于微信小程序 java高校后勤报修系统 Springboot校园报修管理系统

1绪论 5 1.1项目研究的背景 5 1.2开发意义 5 1.3项目研究内容 5 2开发技术介绍 6 2.1 B/S架构 6 2.2Java技术 6 2.3MySQL 介绍 7 2.4MySQL环境配置 7 2.5SpringBoot技术 8 3系统分析 9 3.1可行性分析 9 3.1.1技术可行性 9 3.1.2经济可行性 9 3.1.3操作可行性 9 3.2网站性能需求…

跟开发打了半个月后,我终于get报bug的正确姿势了

在测试人员提需求的时候,大家经常会看到,测试员和开发一言不合就上BUG。然后开发一下就炸了,屡试不爽,招招致命。 曾经看到有个段子这么写道: 不要对程序员说,你的代码有BUG。他的第一反应是:…

C语言学习笔记-强制类型转换

强制类型转换是通过类型转换运算来实现的。其一般形式为:(类型说明符)(表达式)其功能是把表达式的运算结果强制转换成类型说明符所表示的类型。自动转换是在源类型和目标类型兼容以及目标类型广于源类型时发生一个类型…

《Redis实战篇》六、秒杀优化

6、秒杀优化 6.0 压力测试 目的:测试1000个用户抢购优惠券时秒杀功能的并发性能~ ①数据库中创建1000用户 这里推荐使用开源工具:https://www.sqlfather.com/ ,导入以下配置即可一键生成模拟数据 {"dbName":"hmdp",…

Java中的Set集合

Set不能存储重复元素,元素无序(指的是不按照添加的顺序,List集合是按照添加顺序存储的)hashSet注:源码底层是hashMap实现的,因为hashMap是双列的,其中键是不能重复的,而hashSet是单列…

使用f-string格式化构建字符串

【小白从小学Python、C、Java】 【计算机等级考试500强双证书】 【Python-数据分析】 字符串的格式化输出(f-string) print(f字符串{变量}字符串) [太阳]选择题 对于以下python代码最后输出的结果是? name "小明" print("【显示】f输出…

全新视角!带你一文读懂ChatGPT!

最了解你的人不是你的朋友,而是你的敌人。 ——《东邪西毒》 目录 什么是ChatGPT? ChatGPT为什么会突然爆红网络? ChatGPT能帮助我们做什么? 获取源码?私信?关注?点赞?收藏&…

记录--千万别让 console.log 上生产!用 Performance 和 Memory 告诉你为什么

这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 很多前端都喜欢用 console.log 调试,先不谈调试效率怎么样,首先 console.log 有个致命的问题:会导致内存泄漏。 为什么这么说呢? 用 Performance 和 Mem…

【信管11.4】合同及合同管理过程(二)

合同及合同管理过程(二)合同管理过程不属于项目管理过程中的知识域,所以它也不是 PMP 中的内容。其实截止到这里,整个 PMP 中的相关知识你已经学完了。如果抛开我们第一大章信息化和信息管理相关的内容,你就可以直接去…

Spring Boot(五十九):Sa-Token-Quick-Login插件快速登录认证

1 Sa-Token-Quick-Login解决的问题 Sa-Token-Quick-Login 可以为一个系统快速的、零代码 注入一个登录页面 试想一下,假如我们开发了一个非常简单的小系统,比如说:服务器性能监控页面, 我们将它部署在服务器上,通过访…

Docker不做虚拟化内核,对.NET有什么影响?

引子前两天刷抖音,看见了这样一个问题。问题:容器化不做虚拟内核,会有什么弊端?Java很多方法会跟CPU的核数有关,这个时候调用系统函数,读到的是宿主机信息,而不是我们限制资源的大小。思考&…

FoveaBox原理与代码解析

paper:FoveaBox: Beyond Anchor-based Object Detectorcode:https://github.com/taokong/FoveaBox背景基于anchor的检测模型需要仔细设计anchor,常用方法之一是根据特定数据集的统计结果确定anchor的number、scale、ratio等,但这种…