Flashduty 案例分享 - 途游游戏

news2024/11/21 0:13:22

Flashduty 作为功能完备的事件OnCall中心,可以接入云上、云下不同监控系统,统一做告警降噪分派、认领升级、排班协同,已经得到众多先进企业的认可。我们采访了一些典型客户代表,了解他们的痛点、选型考虑和未来展望,集成本系列文章,以飨读者。

本次有幸在邹老板支持下访谈到途游资深运维工程师高工,聊一下“途游游戏”在 Flashduty 的实践经验。另外,也欢迎大家下载途游的游戏放松一下,哈哈。

除了途游,莉莉丝、悠星等游戏用户也是Flashduty的用户,场景大抵是类似的,废话不多说,让我们一起来揭开游戏公司 OnCall 的面纱。

1. 辛苦高工先简要介绍一下您所在的团队以及贵司的业务领域特点。

我们主要是游戏项目平台服务,以非容器环境为主,部分平台类业务有使用K8s; 游戏项目大多是 go、python、java、c# 类后端,部署运行于虚拟机或者物理机上,通过运用开源的中间件、数据库构建起来游戏业务后端环境,整体资源以多云+机房IDC构成,部分项目资源使用云服务+虚拟机,部分为自建服务;整体监控场景和需求面涉及相对较为复杂。

2. 在使用 FlashDuty 之前,贵司是通过什么方式发告警的?主要痛点是什么?

我们一直是 Falcon、夜莺系 用户,之前没有 Flashduty 之前,我们通过自研的告警发送代理服务来对接 Falcon、夜莺 进行告警发送,最开始因为无任何收敛处理,有遇到 P0 电话告警把手机打爆只能关机的情况(抖动导致的大面积告警),也有把钉钉机器人发死的情况,短信发的无法正常接收短信,后来经过一些判断收敛处理,有一定的缓解,但自已改造的收敛逻辑仍是无法更高效的收敛,且处理逻辑相对较为复杂,同时也怕逻辑处理 BUG 掩盖掉正常的有效告警;还有一点是我们自己的告警发送服务没有值班机制,所有告警所有运维人接收,对短信、电话成本也是一种浪费,更为严重的问题是全组发送严重干扰大家的休息时间

3. 贵司应该也用了多个监控系统吧,云上的、云下的,现在都对接了 Flashduty 么?效果如何?

现在我们夜莺 V6 通过对接 Flashduty,有效帮助我们落地监控 Oncall 值班机制,同时在告警收敛上,更为便捷有效;同时我们在云平台侧的云告警也对接到 Flashduty 后就也解决了告警无法有效触达以及无法值班处理的机制。

4. 在对接 Flashduty 过程中是否遇到一些问题呢?请问是如何解决的呢?

在对接 Flashduty 的过程倒是很顺利,使用较为便捷,只是告警模板上花了点时间进行定制修改,另外在 Flashduty平 台上的告警统计分析中,我们开始查看不太方便,后来通过告警事件的不同维度聚合(告警级别、告警标题等)展示更方便我们进行值班告警事件回顾闭环,使用起来很方便。

5. 您对 Flashduty 中哪几个功能设计最为认可?哪些功能切实解决了您的痛点?
  1. 多平台对接,把不同平台的告警统一一个地方进行告警发送、OnCall值班,开箱即用;
  2. 告警收敛效果很好,在默认收敛配置下降噪比平均在 80% 以上;
6. 对于未来有计划采用 Flashduty 的客户,您这边有什么实践经验分享么?

利用好值班功能及对应的升级,做好告警的责任分权,谁是第一负责人谁接收谁处理谁跟进,让用户自服务使用监控,运维做好指导培训;

小编注:途游的运维工程师在和研发工程师的协作过程中,扮演的是教练和 Platform 提供方的角色,这应该是一种典型的组织架构,让研发自助服务可以大幅提升人效,当然,前提是得有好 Platform 做支撑。

7. 这段时间下来,你使用 Flashduty 感受如何?对我们是否有一些建议?

当前很好用了,后面可以加一些智能的告警分析,比如哪些告警策略需要什么样的优化,在数据运营层面给我们做一些赋能。

另外目前其实已经能接入事件源,是否能把事件墙功能集成一下在 Flashduty 中,毕竟生产环境的故障 70% 都来自变更,如果能把变更事件统一化到一个地方呈现,对于故障定位是一个极大的助力。

小编注:这个功能其实已经提供了,可能高工不清楚,回头需要单独介绍一下这个功能啦,哈哈。

关于Flashduty

🛎️ Flashduty 中心化告警处理,在正确的时间通知正确的人

20231123151522

20231123151528

💸 每一分钟都很关键,降低故障时间,就是赚钱

20231123151540

20231123151546

20231123151554

🖇️ 您常用的监控系统,我们都可以集成

20231123151607

告警事件的及时处理,对于线上稳定性保障至关重要。一款中心式的告警事件 OnCall 中心,去除告警风暴,确保告警不遗漏,还能分析故障处理的MTTA、MTTR等效率指标,先进的团队需要拥有,快来免费体验吧:FlashDuty - 快猫星云

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1375113.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【排序算法】四、堆排序(C/C++)

「前言」文章内容是排序算法之堆排序的讲解。(所有文章已经分类好,放心食用) 「归属专栏」排序算法 「主页链接」个人主页 「笔者」枫叶先生(fy) 目录 堆排序1.1 原理1.2 堆的向下调整1.3 堆排序代码实现1.3 性质总结 堆排序 1.1 原理 概念介…

爬取去哪网旅游攻略信息

代码展现: import requests import parsel import csv import time f open(旅游去哪攻略.csv,modea,encodingutf-8,newline) csv_writer csv.writer(f) csv_writer.writerow([标题,浏览量,日期,天数,人物,人均价格,玩法]) for page in range(1,5):url fhttps://…

JS 函数

函数就是封装了一段可以被重复执行调用的代码块。目的:让大量代码重复利用 1、声明函数 方式一:利用函数关键字自定义函数(命名函数) function 函数名(){//函数体代码} function是声明函数的关键字&#…

气膜建筑的消防安全问题如何保障?

气膜建筑作为一种独特的建筑形式,拥有广泛的应用领域。然而,由于其密闭性特点,人们更加关注其消防安全问题。以下是保障气膜建筑消防安全的几个关键措施: 采用难燃材料: 气膜建筑所使用的建筑膜材采用B1级难燃材料&…

Go后端开发 -- 条件、循环语句 defer语句

Go后端开发 – 条件、循环语句 && defer语句 文章目录 Go后端开发 -- 条件、循环语句 && defer语句一、条件语句1.if ... else 语句2.switch语句3.select语句 二、循环语句1.for循环 三、defer语句1.defer语句的作用2.defer和return的先后顺序3.recover错误拦截…

Spring Boot - Application Events 的发布顺序_ApplicationEnvironmentPreparedEvent

文章目录 Pre概述Code源码分析 Pre Spring Boot - Application Events 的发布顺序_ApplicationEnvironmentPreparedEvent 概述 Spring Boot 的广播机制是基于观察者模式实现的,它允许在 Spring 应用程序中发布和监听事件。这种机制的主要目的是为了实现解耦&#…

【JaveWeb教程】(19) MySQL数据库开发之 MySQL数据库操作-DML 详细代码示例讲解

目录 3. 数据库操作-DML3.1 增加(insert)3.2 修改(update)3.3 删除(delete)3.4 总结 3. 数据库操作-DML DML英文全称是Data Manipulation Language(数据操作语言),用来对数据库中表的数据记录进行增、删、改操作。 添加数据(INSERT)修改数据…

第二百六十回

文章目录 知识回顾示例代码经验总结 我们在上一章回中介绍了通道相关的内容,本章回中将介绍其中的一种通道:MethodChannnel.闲话休提,让我们一起Talk Flutter吧。 知识回顾 我们在上一章回中介绍了通道的概念和作用,并且提到了通…

脱机I/O方式和假脱机系统

提示:在写这个博客的时候小编更加的觉得计算机基础知识的重要性了,而且对计算机的整个发展历程和计算机的底层工作原理特别感兴趣 脱机I/O方式和假脱机系统 一、脱机I/O方式二、假脱机系统1、假脱机技术(SPOOLing, simulataneaus …

一日难再晨及时当勉励 date

文章目录 Linux shell 获取更改系统时间默认输入显示时区世界协调时格式化日期更多信息 Linux shell 获取更改系统时间 … note:: 时光只解催人老,不信多情,长恨离亭,泪滴春衫酒易醒。 - 晏殊《采桑子时光只解催人老》date命令可以用来打印…

GPT 商店强势来袭,人人都要有自己的 GPTs

作者:苍何,前大厂高级 Java 工程师,阿里云专家博主,CSDN 2023 年 实力新星,土木转码,现任部门技术 leader,专注于互联网技术分享,职场经验分享。 🔥热门文章推荐&#xf…

Python学习从0到1 day1 你好 Python

我会在那腥臭腐朽的日子里熠熠生辉 ——24.1.11 1.第一个Python程序 安装python程序,输出第一个程序:你好,世界 print("Hello World"); 2.Python解释器 python解释器,是一个计算机程序,用来翻译python代码,并提交给计算机执行 功能:1.翻译代码 2.提交给计算机…

快速打通 Vue 3(四):标签的 ref 属性与 Vue3 生命周期

很激动进入了 Vue 3 的学习,作为一个已经上线了三年多的框架,很多项目都开始使用 Vue 3 来编写了 这一组文章主要聚焦于 Vue 3 的新技术和新特性 如果想要学习基础的 Vue 语法可以看我专栏中的其他博客 Vue(一):Vue 入…

【Unity】Joystick Pack摇杆插件实现锁四向操作

Joystick Pack ​ 简介:一款Unity摇杆插件,非常轻量化 ​ 摇杆移动类型:圆形、横向、竖向 ​ 摇杆类型: Joystick描述Fixed固定位置Floating浮动操纵杆从用户触碰的地方开始,一直固定到触碰被释放。Dynamic动态操纵…

6个Linux进程管理命令

这些命令允许你查看、监视和控制 Linux 系统上运行的进程。这对确定资源使用情况和停止行为不端的程序非常有用。 1. ps – 报告当前进程概览 使用ps,您可以查看当前shell会话正在运行的进程。它打印有关正在运行的程序的有用信息,如进程ID、TTY&#…

使用微信读书高效阅读论文,自带翻译功能。

下面以“向文本到图像扩散模型添加条件控制”(Adding Conditional Control to Text-to-Image Diffusion Models)这篇论文示例下阅读效果。 论文地址:https://arxiv.org/abs/2302.05543 选择右侧的download PDF, 然后进入论文预览页面&#x…

一、Sharding-JDBC系列01:整合SpringBoot实现分库分表,读写分离

目录 一、概述 二、案例演示-水平分表 (1)、创建springboot工程 (2)、创建数据库和数据表 (3)、application.yaml配置分片规则 (4)、测试数据插入、查询操作 4.1、插入-控制台SQL日志 4.2、查询-控制台SQL日志 三、案例演示-水平分库 (1)、创建数据库和数据表 (2…

延时任务的解决方案

延时任务的解决方案 1.数据库轮询2. JDK的延迟队列3.netty时间轮算法4.使用消息队列 1.数据库轮询 该方案通常是在小型项目中使用,即通过一个线程定时的去扫描数据库,通过订单时间来判断是否有超时的订单,然后进行update或delete等操作 代码示…

蓝桥杯练习题(二)

📑前言 本文主要是【算法】——蓝桥杯练习题(二)的文章,如果有什么需要改进的地方还请大佬指出⛺️ 🎬作者简介:大家好,我是听风与他🥇 ☁️博客首页:CSDN主页听风与他 …

关于CAD导入**地球的一些问题讨论

先上示例: 上图是将北京王佐停车场的红线CAD图导入到图新地球效果,如果看官正是需要这样的效果,那么请你继续往下看,全是干货! 在地球中导入CAD图可以做为电子沙盘。对于工程人来说,是极有帮助的。以前一直用谷歌地球,大约在2020年左右,就被和谐了。当时感觉挺可惜的。…