当前,云计算、大数据、人工智能等IT技术迅猛发展,企业的信息化步入了一个崭新的时代,企业规模不断壮大,业务不断拓展,企业信息化依赖的网络结构和IT技术越来越复杂。因建设时期等原因,企业网络中分布着不同时期、不同厂商、不同型号的IT设备,运维人员需频繁切换不同厂商的管理平台对其进行管理,监控的效率不高,后期扩展困难,同时无法和企业的业务情况结合起来,无法提供足够的安全管控功能,致使难以全面高效地开展运维工作。
针对此种情况,北京智和信通提出多厂商网管统一运维方案,对接集成异构厂商的自有网管系统,运维人员仅需登录智和网管平台一个软件,即可对网络内所有的不同厂商的设备进行管理,通过统一界面即可调用各设备厂商网管的功能。
智和信通异构厂商设备端到端监控运维架构
第1章 采用分级部署,高效管理海量设备
采用智和网管平台-设备网管系统-设备的结构,部署多级架构运维平台方案,智和网管平台获取下级设备网管的监控信息,并进行集中展示。智和网管平台可以管理所有设备,设备网管系统对本品牌的设备进行管理。每级可以单独监控各自的网络设备,也可以由综合运维平台集中管理。实现上级智和网管平台对各设备网管中纳管的网络设备运行数据的采集、管理、存储。
方案部署架构
部署方案优势:
- 异构厂商设备集中管理,统一拓扑展示;
- 可异地多点部署,网络可达即可完成监控管理;
- 对于综合网管-智和网管平台,可对接下层设备网管系统,支持完整的网络、设备、资源、告警、事件等数据同步;
- 对于各设备网管系统,可完成其下设备群交互,可具有平台完整的监控、管理权限;
- 下级设备网管系统支持横向水平扩展,随着设备厂商的增多灵活增设;
- 可联动资产、工单、统一告警等模块,提供一体化运维解决方案。
第2章 复用现有功能,实现异构厂商设备集中管理
凭借多年运维开发经验,北京智和信通全面支持与设备厂商网管进行集成对接,目前已与华为、中兴、华三、烽火、思科等设备厂商的对接测试,智和网管平台内拓扑观测、综合监控、业务分析、统一告警、数据分析展示、资产管理、工单管理等监控运维功能以及开次开发模块均可直接使用。
(1)拓扑观测模块:提供直观形象的拓扑图绘制能力,以图形方式轻松实现网络设备、资源、链路状态直观展示,并以声光进行告警提醒。通过一目了然的网络拓扑,为网络故障的实时发现和有效处理提供便利。
(2)综合监控模块:以提供全方位网络监控功能,全面管理联网设备为目标,深入用户需求,实现个性化网络监控解决方案。监控设备类型覆盖网络设备、服务器、交换机、中间件、数据库、安全设备、应用服务等;监测指标涵盖连通性、可用性、负载、使用率、系统进程等。
(3)业务分析模块:前端用户体验、网络延迟到后端的业务服务和基础架构,全栈溯源为用户提供端到端的完整全链路数据融合和关联分析,为用户快速发现业务性能瓶颈,提升用户体验奠定基础。
(4)统一告警模块:充分利用积累的有效定障、排障经验,打通告警中心、监控中心、工单中心等关联数据,实现从告警检测到排障恢复的全生命周期闭环管理。
(5)数据分析模块:提供可视化数据分析能力,对网络海量数据进行图形化分析展示。通过直观的图表和图形化手段清晰有效地将运维数据分析结果进行传达,帮助用户由宏观到微观更快地了解网络运维现状,做出更具时效性的决策。
(6)资产管理模块:提供标准化资产录入、个性化资产模板设置、自定义资产分类和资产二维码管理等功能。通过资产管理模块将资产实物与运维数据库一一对应,为用户提供更加便捷高效资产生命周期管理,资产跟踪、维护和统计分析。
(7)工单管理模块:具备基础工单和运维工单能力,提供自定义工单模板、配置智能工单服务水平(SLA)、我的工单、所有工单展示及实时工单状态展示等功能。通过运维工单形成自动化故障处理机制,并在每个流程节点上责任到人,在快速响应故障的同时,兼顾企业流程管控。
(8)二次开发模块:提供6大开发模式,在智和网管平台已有功能基础上,支持模块式或代码式的开发形式,以便在最短的时间内满足定制需求。同时提供全套开发资料及完善的培训服务,支撑用户随心定制出运维监控平台,并对平台功能不断更新,以满足日益变化的管理需求。
2.1.打破异构品牌隔离,全网设备集中展示
整合各设备厂商网管输出的设备信息,在拓扑图上以图形方式轻松实现网络设备及资源、链路状态的整体观测,并以声光进行告警提醒。通过一目了然的网络架构呈现方式,提供高可用的网络态势感知能力,为网络故障的实时发现和有效处理提供便利。
以2.5D管理视图对不同品牌、类型、版本的网络设备、安全设备、存储、主机、中间件、数据库、虚拟化、应用服务、视频监控、动力设备、环境设备等进行统一、全方位、多层次的综合管理,实时分析资源当前性能和运行状态,直观反映资源的动态变化对支撑业务的影响。真实展示机柜及柜内设备状态,直观呈现机柜总U位数、使用U位数以及剩余U位数,机房机柜容量数字化直观展示。
2.2.汇总各全网设备关键指标,网络态势综合呈现
将各设备厂商网管输出的关键指标信息通过可视化图形的方式汇总、分析、呈现,实时反映网络态势,助力用户掌控网络变化趋势
2.3.统一告警信息处置,形成告警闭环管理
一体化集中管理各设备厂商网管系统生成的告警信息,横跨网络监控、日志管理、流量透视、IP合规监测应用等场景,全量汇聚异常告警信息,基于故障模型和AI算法分析故障原因,分析、压缩、并归关联故障信息,降低故障风暴,秒级定位故障位置,主动出击快速排障,故障处置全流程展示。
平台提供界面颜色、声光、告警列表、Email、钉钉、企业微信等多种通知渠道,告警通知无延迟,告警渠道全覆盖。告警可以向上逐步追溯,按照从全局→网络→设备→资源的管理习惯来组织故障显示。
支持快速的故障定位,能一步定位到发生故障的源头设备,及时处理好故障,有效地预防故障发生。支持以拓扑图的方式回放历史告警下的设备告警变化、拓扑图和链路告警变化,支持快进、后退等播放操作。
告警发生中,自动关联调取内置的故障处置预案,协助运维人员进行排障处理;通过触发告警自愈及自动派单能力,快速实现排障处置;在故障消失后,系统能自动检测到先前故障,并作自动清除告警处理。
全面采集告警信息,将告警信息数据按照时间、资源、性能类型等多种维度以图表等形式展现。通过丰富的、可自定义的多维度报表,实现平台内所有模块告警的统一管理分析,从变化趋势、告警关联、排障处置等多方面、多视角洞察告警态势。
将各类运维操作、故障判断等经验,转化为存在于平台内的知识,形成团队知识库,提升整体运维效率。
2.4.从人工到自动化跨厂商设备巡检
传统的人工巡检,尤其是应用巡检,缺乏统一的规范、标准,导致巡检的范围和深度都存在一定的局限性,并且是基于人工的手工统计,工作效率比较低,同时耗费较大的人力资源。本方案依托平台将以前依赖手工进行的日常巡检转换为自动化、定时执行的巡检策略,日常例行巡检、节假日和重要事件前的巡检均可自动化执行。
通过制定统一的巡检指标、巡检方式、巡检频度等,保证巡检标准化、巡检范围、巡检深度;通过设计巡检作业、数据采集方式、自动化作业调度等实现日常巡检的自动化,代替手工工作,提高效率的同时,解放管理人员,释放管理人员更多的精力,使更多的精力处理更重要的事项。
2.5.日志与事件集中管理,异常自动转告警
将事件和告警分离管理,接收设备/服务器主动发送的消息,集中处理后,及时地通知用户,并可以通过集中的管理界面进行管理。通过智能解析策略,将异常信息自动转化为告警信息,由统一界面集中展示,极大地提高了管理的主动性,降低了管理的难度。
2.6.IP地址分配与管理
方案支持端到端规划、部署、管理和监控IP 地址。通过智能IP扫描能力,定义多层次子网,然后扫描其范围内每个IP地址的当前状态,包括IP地址,MAC地址等信息,也可以查看IP段内地址使用详情,便于学校进行IP地址分配管理等。
可手动、自动获取子网信息,并根据网络结构对子网信息进行管理。定时获取全网的MAC-IP信息,并自动保存,可根据MAC或IP对在线设备进行查询。以端口图的形式显示当前网段内端口的使用情况。
支持通过端口视图及列表视图的形式,展示当前IP地址的使用情况,可查看某个子网的IP现网详情信息,如IP、掩码、主机名、设备类型、现网MAC、现网接入设备、现网接入端口、规划MAC、规划接入设备、使用人等,可批量分配IP地址。
通过追踪IP地址的历史关联MAC、接入设备/端口变更记录等与规划绑定MAC、规划接入设备/端口进行对比分析,当与规划不一致时生成一条异常记录,从而审核IP/MAC是否正确使用。通过黑白名单功能用来检测用户所关心的设备是否在网络中出现及出现时间。支持配置黑名单或白名单,智能划拨规划表中的IP、MAC设置为白名单策略,对非法接入设备进行告警处置。
对全网MAC和IP进行配对绑定,并周期性对MAC-IP进行检测。自动将规划表中的IP-MAC设置为绑定关系,自动扫描在线终端,当IP-MAC的绑定关系发生冲突时产生告警,保证入网终端安全可信。
2.7.弹性扩展,满足网络发展需求
对于没有自身网管系统的设备,可通过智和网管平台直接纳管,支持设备及资源弹性伸缩,满足网络中设备量持续增长及更新的需求。可对设备类型模型进行扩展,可自定义新设备的类型、图标、类型识别策略;可对设备资源模型进行扩展,自定义新设备类型的网口、指示灯、风扇、电源的图标、识别发现策略;可自定义设备面板图,以拖拽、鼠标操作完成设备面板模板的制作;支持故障和性能扩展。
通过自定义设备类型及其设备资源,最大限度上提高了智和网管平台的管理范围,真正实现了对设备及其资源的全面化管理,达到管控万物的目标。
第3章 跨厂商设备管理,构建端到端业务运维体系
通过构建业务系统与部门、IT资源及关键指标的关联关系,整合前端、应用、后台任务、外部服务、数据库及基础设施,直观呈现面向服务的业务系统体系架构;通过影响传递,准确反映设备异常对核心业务、用户造成的影响和威胁,并对造成业务影响的故障进行实时告警,快速查明导致业务中断的故障源,帮助运维人员做出及时响应,保障业务连续性。
3.1.业务可用性拨测分析
针对业务应用性能与用户体验进行检测分析,无需安装插件即可提供开箱即用的主动拨测试业务监测。从前端用户体验、网络延迟到后端业务服务和基础架构,全栈溯源为用户提供端到端完整全链路数据融合和关联分析,为用户快速发现业务性能瓶颈,提升用户体验奠定基础。
业务看板示意图
直观、便捷地帮助运维人员对业务、应用进行监控,掌握业务的运行状态和健康水平,了解业务动态变化趋势,快速定位故障源,降低运营风险。
3.2.全量业务调用链追踪
方案实现完整全链路调用链追踪,包含详细的调用链访问路径和性能等访问信息,以及相关的各类请求参数等业务数据指标,为故障定位、根因分析提供详尽的参考数据。
业务全景示意图
通过构建包含各业务整体流程的调用依赖关系图谱,展示业务部署中网络设备间多维度关系拓扑。对从业务的前台受理到真正完成的整个业务流程所依赖的业务应用、服务器、中间件、数据库、操作系统等进行实时监控分析,通过可视化的方式呈现业务健康状况,联动设备监控,快速定位导致业务健康指数波动的原因,保障核心业务流程稳定、高效。
3.3.业务瓶颈根因定位
方案通过全面的业务数据可视化能力,既可集中呈现业务数据的用户体验状态,也可以基于应用、设备实时监控、呈现业务各节点的实时运行状态,包括用户体验、节点可用性、节点负载等状态信息。基于自定义阈值自动监测,异常指标自动触发告警,快速定位业务瓶颈根因,并可根据用户自愈策略,触发自动运维实现故障自愈。
第4章 整合各设备网管监控数据,可视化展示
异构网络中各厂商网管系统及各业务系统产生的海量数据无法得到深层次的应用,管理者决策缺乏数据依据,难以参考各类网络业务指标、数据等实现对运行态势、隐患风险的实时掌控及运营管理。
为解决此难题,智和信通混合云智能运维方案对全网运维数据进行整合分析、分层级地进行直观的图形、图表、图例等展示,从而帮助运维人员在短时间内更好地理解和获得更多的信息,帮助运维中心能够实时了解业务和其所依赖IT资源的运行状况,以及提供系统运维和优化的指示和依据。
4.1.监控运维驾驶舱
适配各种应用场景,二十四小时不间断监控,细粒度可达网络中每个设备、资源和链路。所有的网络故障都一目了然地呈现,大大降低了管理成本,同时也提高了运维人员处理故障的能力,节省的故障处理时间,为运维人员管理网络提供了可靠的保证。
运维大屏示意图
4.2.多设备性能对比报告
方案支持选择多设备进行同维度性能数据分析,提供可视化性能对比视图。如用户获知宿主机的CPU利用率逐渐增加,即可对其中的虚拟机性能进行对比分析,以定位高消耗的虚拟机,快速找到性能瓶颈节点。
4.3.多维度数据分析展示
提供多维数据的统计功能,并通过多种类型的图表展现,使用户对整体网络有一个全面直观的了解,通过数据分析,全面把握网络状况为决策提供依据。
第5章 更多协同运维能力,提升异构设备运营价值5.1.资产整合管理
对于企业各类资产管理,采取统一数据标准进行梳理和调用,避免资产信息在运维系统和实物间的差异,减少网络运维过程中信息不一致、数据不统一等问题通过平台将资产实物与运维数据库一一对应,解决网络设备在日常运维过程中出现“脱管”或“半脱管”的问题。
建立健全资产台账,实现一机一档,通过自定义多级资产分类,细化资产类别,实现物资资产、虚拟资产、云资产分类管控,通过在横向上纳管异构云平台,在纵向上理清异构跨层级资产间的对应关系,从根本上解决IT资源割裂、分散的问题,提高资产精细管理程度。
从资产入库、领用、变更、维修、调拨、到报废处置,资产每一步操作均实现完整记录,支持追溯,通过平台实现资产整个生命周期的全流程闭环管理,使得IT资产每一次生命周期变更,都有流程可依、都有迹可循,从而实现全面的IT资产监管。
5.2.运维工单无纸化流转
通过方案实现运维工单“无纸化”,支持于设备和故障管理页面快速创建工单,把控故障处理进度,通过工单平台简化故障处理流程,形成自动化故障处理机制,并在每个处理流程的节点上责任到人,实现在快速响应故障的同时,实现兼顾运维流程管控。
通过建立工单服务基准,预设工单在不同优先级、不同状态时,受理人应该响应的时间及未响应时的处理方式,生成工单自动化处理规则,并以多种方式进行通知,避免超时响应提升全流程服务管理质量。
5.3.全网带宽、流量透视
随着政企用户数字化转型和上云的加速,其业务、应用层出不穷,对网络带宽的需求越来越高,正常的业务需要良好的带宽环境保障机制,避免被一些与业务无关的杂事干扰,影响工作效率。方案对混合云路网络全局流量和带宽实时监控,将出入双方向流量情况可视化展现。基于海量流量数据的存储挖掘,统计分析流量峰值、谷值、流量趋势、设备流量等数据,为网络流量管理提供数据支撑。
第6章 兼容信创国产生态
智和信通提供的信创运维方案,立足于北京智和信通10年的国产融合经验,与国产软硬件产品深度适配,方案所涉及的产品与模块,均由北京智和信通自主研发,从功能模块、数据库、界面全部基于统一Java技术平台和统一数据关系模型,不包含任何第三方功能库。
方案实现对国产云、信创云、国产服务器的统一纳管,也支持在中标麒麟、银河麒麟、红旗Linux等国产操作系统上运行,支持在达梦、金仓、神州等国产数据库进行数据存储,通过东方通等国产中间件提供对外服务,支持龙芯、申威等国产CPU架构,助力用户业务应用的国产化环境改造。在支撑用户构建信创环境的同时,也针对各类信创设备、服务组件等提供相应的运维服务,在降本增效的同时,促进政企用户业务创新发展。