腾讯云数据连接器iPaaS团队服务了各行各业的数百家客户后,发现许多企业有大量的自建应用/SaaS应用,却缺乏一套可靠灵活的告警系统。当相关的IT系统/资源调配出现故障后,往往是影响到业务系统被用户投诉后,技术人员才发现故障并展开补救工作。技术人员无法第一时间获知系统报错并展开补救,不但会影响客户满意度,严重时会对企业造成不小的经济/名誉损失,企业运维负责人常因此被批评甚至更严重的处罚。
但是如何实现高效、实时、灵活性强的IT系统告警配置呢?腾讯云数据连接器,针对客户IT系统管理告警的多个痛点,提供一站式「告警配置」能力,实现“触发告警-实时通知-记录汇总”的全流程告警处理。从“人主动看业务状态”到“业务告警主动通知人”,帮助客户实现运维减负,更好地聚焦于实现业务自身价值。
告警配置步骤繁琐,不精细、复用性差
企业内的系统成百上千,需要针对不同系统配置不同的告警策略。大部分运维团队主要是通过自己编写代码或搭建前置流程,来实现简单告警配置。这样的问题是: 1. 告警配置太繁琐:编码或搭流告警的复杂度甚至超过业务自身,本末倒置 2.告警对象不精细:只能实现系统维度的简单告警,不支持更精细的告警对象 3.告警策略难复用:告警策略难以迁移到其他应用系统,且变更策略极易出错
数据连接器iPaaS来支招:
- 告警配置简单化(3步完成):仅需明确针对哪些告警对象,当满足什么条件时触发告警,以及会通知哪些相关方
- 告警对象精细化(5种粒度):分别针对集成应用、集成流、API服务、API、独立应用环境进行告警配置
- 告警条件灵活化(20+指标):对应不同告警类型提供不同细粒度告警指标,从不同维度监控业务状态
- 告警复用化:支持一键复制告警策略,一键引用通知模板,避免冗余工作量
告警通知方式单一,不可靠、难指定接收方
在企业IT运维管理中,很多项目往往由于交付时间紧张,告警配置的“最后一公里”即告警通知常常因需额外工作量而不被重视,只采用邮件等单一通知方式。但这类告警通知的问题是:
1.通知方式单一,风险预警不可控。仅采用邮箱通知的方式,在比如下班/周末等时间故障,报障消息无法及时触达
2.难以灵活指定接收方。无法根据告警信息,自定义发送给相关的运维/产品同事,无法及时展开协同工作
数据连接器iPaaS来支招:
- 通知方式多样化(6种方式):支持通过腾讯云站内信、邮件、短信、微信、企业微信、接口回调方式进行告警通知
- 接收对象明确化:支持指定当前模板通知给一个或多个相关方
- 通知时段人性化:支持自定义设置告警的通知周期、通知时段
告警记录不完整,溯源、复盘难着手
当接到预警通知后,运维负责人还需要补充和核实告警信息,包括:告警对象名称、告警触发时间和持续时间、告警当前是否已恢复,以及具体的告警内容等等。但如果告警频发,负责人往往不能完好地汇总每一次告警记录。这样的问题是:
1.延误业务恢复工作:负责人首先要核实当前告警是否已解决,严重程度等。收集告警信息费时费力,可能错过业务恢复的最佳时机
2.难以开展故障复盘:因缺乏详实的告警记录,故无法从中总结出故障规律及有效预防措施
数据连接器iPaaS来支招:
告警历史
- 告警状态直观化:直观刻画当前告警状态(持续中/已恢复/已失效),及告警等级(一般/重要/紧急),帮助负责人决策不同应对措施
- 告警记录完整化:明确给出当前告警策略、告警对象及告警类型(Who)、告警触发时间和结束时间(When),和具体告警内容(What),并支持一键查看对应监控详情
- 告警筛选精确化:支持按告警状态、告警策略、告警类型、告警级别、告警对象快速筛选告警历史,便于后期告警溯源和复盘
如果您希望了解更多关于腾讯云数据连接器如何帮助您的企业,更灵活的实现IT运维系统监控,欢迎和我们联系。