成立20多年业务遍及全球100多个国家和地区的某大型企业随着全球化业务快速发展,业务对信息系统运维的可用性和持续性要求随之越来越高,伴随业务发展带来的IT环境复杂度呈指数级增加,系统运维工作正面临严峻的挑战。在业务系统运行过程中,运维工作能否应对IT资源的高效管理,能否对IT基础架构和业务系统进行连续、实时、主动监控预警,避免业务运行性能劣化甚至中断,已经成为制约公司信息化业务是否有效运行的关键因素。
随着该局点业务的快速发展和不断升级变化,IT设备和信息系统的不断增多,IT资源不断增长,系统架构日趋复杂,目前需运维支撑的片区在维护16个,建设中8个,规划中9个,总计33个,涉及大量网络组网方案规划和IT设备运行维护工作,企业运维面临着IT设备资产、网络IP资源缺少统一规划管理机制,信息和资源不能有效共享,流程混乱管理不畅,手动维护效率低下,管理规范缺失等许多问题和困难,运维管理水平相对滞后。企业希望通过建设统一运维平台,采纳行业通用标准,建立完善的、高效率的IT运维管理体系,帮助全面提升运维水平和效率,保障信息系统稳定运行,持续强化运行管控能力,支持全球化业务快速发展。
平台建设目标
依据该局点现有运维环境及业务特点,在运维平台工具帮助下,建立起连续监控预警、全生命周期资产管理、故障快速诊断、运维标准管理体系及运维管理ITSM流程,建立防火墙安全策略管理等网络自动化运维工具及云管平台,实现对公司机房、网络、主机、存储、数据库、中间件、云资源、网络链路、IP地址、域名等IT基础设施和业务应用系统进行统一配置管理和集中维护,统一调度信息资源,并实现网络自动化配置和云资源管理。运维平台主要建设目标有如下几点。
■ 各类IT资源的统一管理能力
实现资源自动发现、资源信息维护、资源可视化展现、资源统计查询、资源及资源关系消费等资源统一管理能力。
■ 各类IT资源监控能力
实现对IT基础资源软/硬件、业务应用、云平台组件、日志的实时性能、告警的采集能力,监控项可以灵活扩展,确保监控覆盖的完整率。
■ 规范化、流程化的运维服务能力
提供流程、表单等开源工作流引擎,遵从ITILV3、ISO20000等标准规范,结合某局点数据中心运维流程需要,实现事件流程、问题流程、变更流程、发布流程、SLA等运维服务流程定制。同时支持特殊服务流程自定义配置,满足内部流程管理要求。
■ 防火墙策略统一管理能力
通过自动化手段实现设备安全控制策略的统一管理,包括但不限于策略申请、自动开通、到期提醒、冗余和宽泛策略收敛、策略批量删除,达到安全控制策略全生命周期管理,满足用户自动查询和合规审计要求。
■ IP资源全生命周期管理能力
通过自动化手段,实现对IP资源全生命周期管理,包括IP规划、IP自动采集、IP地址场景化数据消费、IP地址分配、IP地址回收、IP地址基线信息管理等,并通过自动化能力,实现IP新增告警、IP回收告警、非法绑定告警、IP使用状态变更告警、IP冲突告警等违规IP使用告警信息。支持IP地址从规划、申请、分配、使用、回收、审计等全生命周期管理,并可与监控、资产、流程、统一门户等模块实现互联互通,实现IP地址已用、未用状态跟踪和配置信息自动更新记录。
■ 多云运营运维能力
建立混合云资源管理机制,通过实现公有云和私有云对接纳管、资源集中规划、租户组织管理、用户自助服务、自动化交付及资源容量成本分析等服务能力,实现私有云(VMWare、ZStack等)、公有云(阿里云、华为云、亚马逊等)平台的网络可用性和CPU、内存、存储等整体资源的监控能力,综合提升企业对于云资源的有效利用率、流程合规性,全面满足业务云化发展的需要。
■ 3D可视化机房建设能力
提供3D仿真机房可视化管理视图,实现多机房管理;可对机房元素、机柜容量、能耗统计、温度洋流图、动环设备进行管理及展示;支持在机房设备变更、上下架、日常维护、巡检工作时,直接在机房或机柜内添加维护记录信息等;实现和现有机房动力环境监控系统对接,实现动力环境指标统一监控和告警,包括对温湿度、水浸、空调、粉尘、电量仪、电量、电流、UPS、电池组、视频、门禁、红外、门磁、机柜等机房环境信息的监控管理,能够获取实时数据并对异常数据自动告警。
运维平台建设功能总览
该局点运维平台分三期建设,其中建设规划如图1所示、功能建设如图2所示。一期已完成基础运维建设,为机房、服务器、存储集群、操作系统等底层基础设施的软硬件运行维护,为其上层的业务系统提供外在的运行条件。
图1 运维平台建设规划
二期网络运维正在实施中,对IT设备进行组网规划和管理维护,实现网络的快速、稳定、安全的访问和数据传输,支持企业IT业务正常运行。
业务运维规划在三期实现,对应用程序、中间件、数据库等业务系统功能组件的运行维护,负责业务运行的平台载体管理。
智能运维在未来规划中,通过机器学习和大数据算法等技术手段,将人工智能应用于运维领域,基于运维产生的数据进行分析决策,得出最佳运维策略。
图2 运维平台功能建设示意图
统一运维平台系统由容器底座+平台+业务组件构成,基于Docker的微服务技术架构,并使用Kafka以满足大规模消息的高速吞吐处理,这些都是开源组件,便于用户自我学习和深入改造,也便于满足用户自主可控的愿望,具有容器化、集群化、组件化的特点,充分满足系统高可用性和扩容要求,并且实现了前后端解耦,当用户觉得某个页面布局不美观或者想新增一个页面时,可以直接调用相应RestfulAPI接口来修改和开发相关页面,同时可以注册和分配权限。具体网络架构如图3所示。
图3 运维平台网络架构图
核心建设成果
◎ 监控预警
运维监控提供全域资源融合监控,涵盖基础硬件、基础软件、业务应用、日志分析、云平台运行监控,具体管理对象包括服务器、网络设备、负载均衡、安全设备、存储、操作系统、数据库、中间件、云设施/虚拟化资源等基础设施;统一运维监控平台利用系统本身的集成接口实现与用户原有的动力环境监控、业务性能监控、日志集中收集分析平台等第三方专业平台进行集成,实现监控数据的集中收集、存储、处理和统一事件、告警等信息的一体化展现,监控预警功能示意如图4所示;监控模板、自定义脚本等方式极大提升了监控自主扩展能力,并提供多种手段保证监控完整性。
图4 运维平台7×24监控预警
◎ ITSM流程管理
ITSM是IT运维体系中的重要一环,一期完成数据中心核心运维场景的流程打通;实现运维流程线上执行,流程工单可追溯统计与分析;二期统一运维平台完成IP地址及防火墙全生命周期管理流程,实现IP地址与安全控制策略的规划、申请、回收、审计、延期等线上自动化管理,具体流程管理如图5所示。
图5 ITSM流程管理
◎ CMDB资产管理
IT资产生命周期中有很多状态,而这些状态的变动则是由相关流程执行的结果,将ITSM运维流程与CMDB资产管理互联互通,将流程执行过程中的配置信息变化自动同步更新至CMDB资产管理系统中,实现资产配置信息的动态更新,确保资产状态和信息的完整性和准确性,如图6所示。
图6 CMDB与ITSM互联互通示意图
◎ 防火墙自动化平台
防火墙自动化平台实现安全控制策略与ITSM流程的全面对接,用户可自助申请下发、下发结果邮件通知到用户和设备管理员等功能,防火墙安全控制策略配置信息与CMDB关联自动同步,实现安全控制策略到期自动提醒;支持对现有安全控制策略自动优化分析和收敛,查询并导出隐藏策略、冗余策略、可合并策略、空策略和过期策略、空对象、未被引用的对象、宽泛策略,支持未命中安全控制策略按机房、防火墙IP、安全区域、开通服务等维度进行查询,支持策略过期查询和报表导出等操作。
◎ IP地址管理平台
IP地址管理实行总部统一管理、逐级申请的原则,IP地址管理归口管理部门,负责全集团的IP地址规划、申请及管理,并负责全集团的IP地址分配及管理。IP规划支持IPv4和IPv6,从IP类型的角度来刻画IP规划特性;支持自动扫描IP子网信息,并统计子网已使用IP数、总IP数、使用率;实现IP地址平台与ITSM流程系统的对接,通过流程进行IP规划查询、IP地址分配、IP地址回收等,如图7所示。
图7 IP地址全生命周期管理示意图
◎ 自定义网络拓扑与流量分析
将某局点网络设备自动发现并加入该拓扑中进行管理,减少业务系统网络故障定位时间,提高网络运维效率;对网络流量进行自动统计和量化展示,实现网络带宽资源监控,帮助业务系统网络流量波动异常、网络资源整体利用率等分析管理,优化网络资源使用效率,功能示意如图8所示。
图8 网络拓扑与流量分析示意图
◎ 定制化大屏
大屏满足“参观、机房、运维、告警”等多种模式的展现需要,并根据实际业务场景进行切换,如图9所示。其中日常运维大屏将来自统一运维平台包括监控管理系统、流程管理系统、资产管理系统、业务应用性能管理系统、日志分析系统等各种数据信息进行汇总、分析后进行集中统一的展现,方便相关人员对生产环境IT基础设施和业务系统的运行状态进行跟踪、故障定位、工单进度跟踪、性能趋势查询等工作。
图9 定制化大屏示意图
◎ 可视化3D机房
通过3D机房仿真视图,进行机房可视化管理,直观呈现机房机柜、空调、UPS等物理位置,方便快速查找定位实现机房温湿度、功率等各项指标运行健康状况并实时监控和自动预警通知,保障业务系统稳定运行,功能示意如图10所示。
图10 3D机房功能示意图
运维平台建设收益
该局点主要由集团IT及各体系IT进行运维服务,各体系之间运维服务相对独立,集团IT负责整个集团及各体系信息安全规划指导与桌面运维服务工作,各体系IT负责该体系运维服务工作,并存在代为负责其它体系部分数据中心及网络的维护支持工作。该局点存在对部分数据中心相关设备管控力度很低,对相关设备的清单、数量,以及各类设备出入机房、上架下架、借出归还、送修等相关活动缺少有效的监督和控制。为了更好地服务客户,新华三成立专职项目组,采用核心人员驻场交付及定制驻场开发的模式,最终保质保量如期完成交付,并获得客户的肯定。
目前该局点运维平台正在进行二期建设,通过运维平台的建设帮助该局点实现了IT设备资产的线上管理及7×24监控预警、ITSM运维流程的场景闭环管理、IP资源及安全控制策略的全生命周期管理、用户视觉一朵云的自动交付、机房的3D可视化管理。截至二期运维平台核心建设收益如图11所示。同时在运维平台三期建设中会持续帮助客户优化改进全球一张网建设能力,提升客户业务应用系统健壮性及应急响应能力。
图11 运维平台核心建设收益