随着医疗信息化建设发展,医院的系统、设备不断叠加,在提升用户体验,享受高效医疗服务的同时,也为支撑系统稳定运行的信息部门带来巨大挑战。诸如科室复杂、应用场景多、终端运维工作量大、软件系统兼容需求强等痛点,并且医院对系统、技术设备的稳定性、连续性要求极高。如何通过运维提升综合安全管理效率,确保IT环境健康稳定运行,如何快速发现,准确定位,避免故障损失?这显然是医院运维部门的工作核心。
运维的工作目标围绕系统、服务的安全稳定开展,稳定、可用性是第一保障,其次,隐患排查,以及如何提高性能和资源效率。
在医院实践场景中,我们从主动监控和自动巡检两个手段介入,提前感知风险,防患于未然。
一、主动式监控
运维界有一句箴言:你无法保护看不见的东西。
监控则是用来发现潜在风险与异常的主要手段。监控对象包含硬件、软件、应用系统等,7*24小时不间断地采集、分析指标数据,及时发现异常,快速响应。
我们以医院业务场景构建全面、准确、响应及时的监控系统,通过梳理业务流程,关联业务和IT数据,进行数据的采集和管理,对数据进行趋势性分析和响应。通过可视化展示,直观掌握系统运行状态,建立完善的告警机制和故障管理流程,确保问题被发现并及时处理。
1、数据采集&处理。
数据类型有指标、跟踪、日志三种。从用户体验角度对业务系统进行监控与管理,通过监控用户的业务操作状态,得到业务系统的性能和可用性的监控数据。
2、告警管理
包含告警抑制、聚合及屏蔽,避免误报、漏报、重复报。
根据各个监控对象的监控项设置相应的性能告警阈值。当性能状态溢出阈值时,生成相应的告警信息,并发送给统一监控平台统一处理和分析。统一监控平台可以将相关告警信息进行告警关联性分析,并做业务系统的影响分析,确定根源告警。
3、可视化展示
7×24业务监控管理,自定义业务监控大屏展示。
业务应用的各个组件的性能状态,如网络的状态、基础架构的状态、数据库性能状态、中间件性能状态;
业务的响应情况。如出现业务应用故障时,通过业务应用与基础架构组件的关联性管理,快速展现和分析业务应用问题。
实现机房动环、IT基础设施、物联网设备、安防的一体化集中监控。通过管理中心的可视化大屏,以可视化图形和动态直观视图等方式让管理人员实时了解系统的运行状况,实现统一、高效的管理,并可进行业绩评估和运维知识积累。以业务为中心的管理流程,业务人员和运维人员可以更好地结合起来提高工作效率,从而进一步对业务应用的可用性进行优化。
二、自动巡检
巡检是主动对IT运行风险的评估与发现,最大可能地发现存在隐患,保障设备稳定运行。同时有针对性地提出预警及解决建议,最大限度降低系统运行风险。
自动巡检,顾名思义,可以安排它进行实时任务巡检,也可以设置周期性任务巡检。巡检的结果可以导出word供存档。表单中工程师可以添加建议、风险提示等。自动巡检有效降低工程师的日常工作强度,及时发现问题,且符合合规要求。
,时长00:08
三、风险感知
感知与决策、执行,构成运维三要素。提高风险感知场景是保障运维安全,提升运维效率的关键。再看看风险感知场景的要点:
1、在线感知风险状况,即时健康质检;
2、数据指标+算法策略;
3、建立风险感知、决策、执行闭环。
4、专家协同,在线管理
建立常态化的运行风险评估的工作机制,协同人员、事件、工具,确保场景工作顺畅协作。通过全栈监控系统,快速的异常响应、先进高效的AI机器学习算法,专家协同在线等多维手段,建立数字化的风险感知协同机制。
1
-- 建立全面、敏捷的监控系统
将资产统一并入监控系统,对每个资源节点的状态、性能进行实时监控。监控不漏报、少误报、高响应,从风险角度重点关注,即时发现风险,包括众多风险监测。高效应对医院规模庞大的基础设施,网络设备、服务器、存储、应用等。
2
-- 快速发现、定位异常,及时响应。
监控系统健康度,通过系统视图展示各个资产运行的状态,业务拓扑图、告警列表趋势等。告警管理上,模拟客户行为,先于客户发现风险,从风险角度重点关注业务层面的风险发现。帮助工程师快速对故障进行诊断,不仅起到“灭火”作用,更能提前感知风险,防患于未然。
3
-- AI机器学习算法——精准、及时
实现精准告警、异常检测、根因定位和容量分析等场景。
异常告警智能化,基于动态阈值的报警确认,对海量的时序指标进行异常检测,实现故障快速响应:能发现问题,也能提供解决方案。
4
-- 专家协同在线管理
提供7*24在线值守,配备moc专家和二线专家团队,提高事件的响应及处理效率,大大降低人力成本和专家技术成本。
平台“连接、数据、赋能”的数字化思维重塑场景,以“人、事件、工具”三要素梳理场景,高效协同,提高风险感知能力。高效背后是强大的技术支撑,LinkSLA智能运维管家交付的不仅仅是平台,更是一套可持续提升的运维模式,为用户提升价值,提高运维效率,降低运营成本。