云计算时代下,网络虚拟化使网络管理更加集中、灵活和便捷,但同时也让云内的网络变得更加复杂。传统网络流量诊断方法和工具,难以对云内虚拟网络的“东-西向流量”进行可视化呈现和分析,形成了网络运维管理的盲区,提升了问题定位的难度。
为了帮助运维人员了解云内虚拟网络流量状态、保障云环境安全,SmartX 近日发布了基于超融合平台的网络流量可视化功能。作为 SmartX 可观测平台(基于多集群管理平台 CloudTower)的重要能力,网络流量可视化功能可通过图形和图表的形式,直观展现集群中主机和虚拟机的数据流信息,帮助用户快速发现网络问题与安全威胁,简化日常运维管理。
云环境带来可视化新挑战:“云内”通信成为观测盲区
网络的流量一直是 IT 系统的重要观测维度,对其进行观测有助于管理人员了解系统对内、对外的网络服务质量和网络安全态势,从而及时优化网络性能、发现潜在威胁、调整安全策略。尤其是在虚拟化环境下,相比物理环境,虚拟机数量庞大,运行的位置不再固定,对虚拟机的创建/启动/关闭/删除等操作更加频繁,这些都使得数据中心内部网络和流量更为复杂,因此也更要求运维人员对虚拟网络拓扑、流量转发路径、网络安全规则执行情况等信息进行全面了解与把控。
传统的网络流量信息获取通常有两种方式:
- 镜像模式:将大量的原始网络数据包镜像复制并传输到一个集中平台进行存储、处理和分析。这种方式效率低、操作复杂,且只能复制短时间内、流经特定采集设备/接口的数据包,并需要耗费额外的算力进行离线数据分析和问题定位,无法及时发现网络问题或安全攻击,因此通常用于事后复盘和取证。如果需要保存⻓时间的数据副本,还需增加可观的存储容量。
- 采样模式:基于 NetFlow 或 sFlow 对网络上的数据流进行定时抽样,或者在网络设备上采集一些网络相关的指标数据来代替采样。
这两种方式主要基于物理网络和安全设备(交换机、路由器、防火墙、入侵检测、行为管理、负载均衡……)对数据包或数据流信息进行收集,适合基于物理服务器和物理网络构建的传统数据中心。
而在云计算时代,数据运算、传输、存储大都发生在虚拟化环境,云数据中心内部流量以虚拟机之间的通信(亦称为“东-西向流量”)为主,虚拟机之间的通信大部分不经过物理网络设备,这部分流量很难被传统可视化工具有效采集:只有集群内部虚拟机-集群外部虚拟机之间的流量可以被连接集群的交换机、路由器、防火墙等设备采集到,但在集群内部虚拟机之间,由于数据包有可能不经过物理网络和安全设备,这些信息可能无法被采集到。即便在虚拟网络上通过流量镜像、或者基于硬件设备对部分通信进行了监控和采集,所获得的数据包、数据流信息和网络指标与虚拟机属性之间也缺少自动化关联,缺乏虚拟网络可视化工具来生成虚拟网络拓扑,更无法在拓扑图上直观展示数据流分析结果。
结果便是,这些“云内”的通信形成了网络运维管理的盲区。特别是在微服务逐渐成为主要的应用架构模式后,不同微服务模块之间的数据和消息传递都是在虚拟化网络上的“东-西向流量”(下图)。日益广泛使用的 AI/ML、图像处理、数据湖等应用,也在不断促进云内“东-西向通信”的增长,无论是峰值带宽还是通信总量都远超上一个时代。如此巨量的数据,很难延用传统的、集中式的分析工具和方法,而是更适合由内生在云计算系统内的分布式观测工具来执行。
图片来源:Designing a Multi-Cloud Environment with IaaS, PaaS, and SaaS [Tutorial]
SmartX 超融合网络流量可视化功能
基于以上背景,SmartX 推出了针对虚拟网络的网络流量可视化功能。该功能由 SmartX 超融合软件 SMTX OS 原生支持,可实现虚拟网络流量数据的实时采集与分析。通过将虚拟网络上的数据流与 SMTX OS 的虚拟化管理信息自动关联,集中管理中心 CloudTower 能够以图形化方式展现虚拟机之间的访问关系、网络服务质量、网络连接状态等信息。同时,网络流量可视化功能还能对虚拟机与物理设备(特别是存储设备)、集群内部物理服务器之间的网络流量执行同样的操作。
为了保证数据采集与分析的敏捷能力,网络流量可视化功能采用了轻量的分布式采集代理,只采集网络监控分析相关的连接、统计和时延等信息,无需镜像存储完整的网络报文。同时,SmartX 超融合集群内置的核心分布式块存储具备高可靠、高并发与低延迟特性,在对采集到的流量数据进行保存与分析中起到了重要支持作用。
支持功能
目前,SmartX 超融合网络流量可视化支持如下功能:
- 支持概览视图,展示虚拟机网络和系统网络的总体情况。
- 支持拓扑视图和表格视图,直观展示虚拟机网络、系统网络及外部 IP 地址间的数据流大小、方向、路径等详情信息。
- 支持对典型网络问题的自动识别和报警。
- 支持灵活多样的数据流筛选方式。
- 支持与 Everoute 分布式防火墙配合使用,可按照安全策略分组展示数据流拓扑,并可查看数据流被 Everoute 允许或拒绝的原因,实现网络安全策略的观测与审计。
应用场景
简化日常运维和巡检工作
通过网络流量可视化功能,网络管理员能够全方位实时监控网络流量状态,观测、洞察和预测集群运行状况。虚拟机的网络通信繁忙程度能够客观反映其使用量。管理员可以通过对虚拟机流量的排序,定位哪些虚拟机使用了较大的网络带宽,作为集群使用状态的参考数据;也可基于管理规则,对虚拟机进行速率限制或设置 QoS,以优化网络性能。
快速发现并定位网络性能问题
网络流量可视化功能可以提供多种级别的网络性能告警信息,用户可以根据自身需求自定义流量异常告警的触发条件。这样,就可以实现对网络性能问题的实时报警和定位,提高实时排障效率,更好地满足业务连续性要求。
该功能同时支持虚拟化网络和物理服务器网络的监测,涵盖集群相关的所有网络通信指标的采集和分析。特别是对于“存算一体”的超融合环境,可以监测和告警存储网络的性能,从而提高存储网络的运维效率和存储服务的质量。
安全审计与威胁识别
用户可结合 SmartX 分布式防火墙 Everoute 进行安全策略的观测与审计,以监控安全策略的执行效果是否符合预期、满足安全审计的要求。例如,用户可检验应该放行的流量是否已被放行,以及应该丢弃的流量是否已被准确地丢弃。此外,图形化的拓扑图能够清晰展示哪些终端曾经尝试连接被保护的对象,帮助管理员快速识别网络中存在的攻击或异常。这些生成的观测数据可以被导出,成为安全运维中心(SOC)能够使用的数据来源,从而与 NDR/SMDR 等安全机制相结合,实现对虚拟云网络的全面安全检测和响应。
应用拓扑发现
在云计算环境中,虚拟机之间活跃的数据会话是它们之间存在应用层互访关系的证明。开源代码在应用开发中被广泛使用, 而这些开源代码使用的网络协议和端口号不透明,成为生产环境中的隐患。网络流量可视化功能可以全面呈现这些应用相关的网络通信,自动生成虚拟机之间流量关系的拓扑,并可作为管理员划分“应用组”的依据。基于以上应用拓扑的分析和“应用组”划分,管理员可以设置适当的组内和组间安全策略,消除网络和安全管理中的盲区。
安全策略维护
在长期运行的系统中,不同管理员为不同应用设置了大量安全策略,这些策略会随着系统运行逐渐积累。然而,过时的策略往往会在管理员不知情的情况下导致网络访问异常。通过网络流量可视化功能对安全策略进行监控,管理员可以发现长时间未使用的安全策略(也就是系统中的“配置垃圾”)。管理员可以有选择地清理这些配置,以降低系统的运行风险。
得益于网络流量可视化功能对“东-西向流量”信息的采集和分析,运维人员可以更全面、更快速地掌握云环境下的网络流量状况,在提升运维效率的同时进一步增强系统安全性。目前,用户可通过 CloudTower 在 SMTX OS(ELF)集群部署网络流量可视化,并与 Everoute 的安全策略配套使用。
更多网络流量可视化功能特性,您可扫码下载《网络流量可视化技术白皮书》,并通过视频详细了解该功能的操作与使用。
参考文章:
1. Security Operations Primer for 2023,Gartner.
https://www.gartner.com/document/4023203
2. Designing a Multi-Cloud Environment with IaaS, PaaS, and SaaS [Tutorial],Melisha Dsouza,Packt.
https://hub.packtpub.com/designing-a-multi-cloud-environment-with-iaas-paas-and-saas-tutorial/