不少企业都使用容器管理类软件/平台,方便容器环境的部署和运维。而随着应用系统的运行环境逐渐多元化,IT 运维人员仅依靠容器管理产品,已难以同时兼顾多种 IT 基础设施上的多个应用运行环境。同时,AI 等高性能应用场景的兴起,也为容器环境中资源的动态调度与快速交付带来了更高的要求。这些变化都为 IT 团队的容器管理带来了新的挑战。
Gartner 在近期发布的《中国容器管理产品创新洞察》报告中,详细解读了当前环境下中国企业在使用容器管理产品时经常遭遇的 6 个挑战,也包括中国市场环境为容器管理产品带来的独特要求。
* 以下分析基于对报告原文进行的翻译和部分内容的整合。
更多 Kubernetes 平台管理趋势与挑战,欢迎下载阅读《IT 基础架构团队的 Kubernetes 管理:从入门到评估》!
容器管理新挑战:混合环境、容器安全、AI 支持
挑战一:云原生建设创造的业务价值难以准确评估
企业在进行云原生或容器管理方面的建设时往往需要投入大量的成本,这些成本包括适应 Kubernetes 带来的 IT 文化改变、运维管理技能与人才的培养、应用现代化改造、采购和适应新的运营工具,以及整个云原生平台的建设。企业可能难以准确衡量或者证明这些成本的投资回报率(ROI),除非这些投入能直接与产出的业务价值挂钩。
挑战二:企业内部人员缺乏大规模容器部署与管理相关能力
很多中国企业往往是从基于虚拟机的虚拟化环境转型至容器环境,IT 团队往往缺乏在生产环境进行大规模容器部署的技能和 DevOps 实践经验。尤其是当容器集群扩展至混合云环境中,对运维人员的能力和经验要求会更高。
挑战三:容器管理产品的复杂性和混合环境让管理运维更为复杂
常规的容器管理软件/平台往往会引入多种组件和技术,使得整个产品的复杂性呈指数级上升。如果企业采用多云环境或者混合云环境支持容器,IT 团队的日常工作将变得更为复杂。目前很多中国企业正在使用混合云模型,其中大多数核心业务工作负载都运行在私有云上(或计划迁移到私有云)。这些私有云往往基于虚拟化架构,或虚拟化和云原生的混合架构,因此一些 IT 运维人员需要同时管理多种 IT 基础设施上的多个 Kubernetes 集群,同时兼顾传统虚拟化环境中的应用系统。一些云服务厂商和第三方软件厂商可以提供在不同云环境和异构基础设施之间实现统一管理操作的产品/方案,以减轻运维人员的管理负担。
挑战四:容器环境欠缺成熟的安全方案
容器的广泛采用也带来了潜在的安全风险,包括配置错误的权限分配、容器镜像漏洞、配置错误以及未经严格审查的第三方容器镜像。尽管一些容器管理厂商提供的产品已经具备了一些安全能力,但大部分容器安全功能仍然过于基础。同时,虽然一些厂商希望能够与安全产品提供商合作并建立起生态系统,但目前中国的安全厂商提供的容器安全工具还不够成熟。
根据 Gartner 的另一份报告《容器供应链:10 大安全弱点与应对策略》,在容器环境中,除了应用系统层面的安全攻击,企业更需要关注从开发到部署的整个软件供应链的安全。具体包括研发环境(CI/CD)和容器运行时的安全,特别是加强 Kubernetes 集群的访问控制、配置 Kubernetes 网络策略、通过 Service Mesh 等方式实现服务发现、负载均衡、流量可视化、东-西向流量安全防护、鉴权等安全保护。
目前大部分容器管理厂商更关注容器编排平台层面的安全保护,如开发环境漏洞、源代码库未加密、外部依赖不安全等等(上图中的弱点 6);而对于服务间的通信(东-西向流量)、容器与主机间的隔离,以及 IaaS/PaaS 层面的安全保护(针对上图中的弱点 7-9),并不是所有容器编排平台能够提供或支持的。此外,还应采用 DevSecOps 实践、云原生应用保护平台(CNAPP)和 Web 应用和 API 保护技术(WAAP)等具体安全措施,以全面提升容器环境的安全性。
挑战五:严格的监管与数据合规要求为容器管理的敏捷、自动化发展带来挑战
成功的容器部署通常要求 IT 部门对相关技术组件进行全面的、持续的管理,并对现有部署工具和流程采用统一的操作、进行持续的更新,以确保容器的自动化部署和管理。这通常要求企业采购新的工具,尽可能地为容器创造一个敏捷环境。而这对于许多中国传统企业来说并不容易实现,尤其是政府、金融等存在严格监管的行业。想要实现敏捷、快速的发展,不仅需要频繁的团队沟通,一些行业还存在特定的监管与数据合规性要求,例如要求容器管理方案与国产 IT 基础架构高度兼容,如鲲鹏、麒麟和海光 CPU 架构。
挑战六:日益增长的容器环境 GPU 资源管理与调度需求 vs 欠缺的生产级应用案例
目前,一些容器管理产品/方案已经提供了 AI 相关的功能和插件,优化容器环境中 GPU 资源的管理和分配,简化 GPU 密集型工作负载的部署和管理。具体功能如根据 GPU 资源需求调度容器、根据工作负载需求动态分配 GPU、基于规定指标触发 GPU 资源的自动扩展、提供 GPU 生命周期管理等。
不过虽然大多数容器管理厂商正在产品 AI/ML 能力方面加大投资,以更好地支持用户的生成式 AI 训练和应用场景,但大部分都还没有落地,实际的商业用例现阶段还很少。
容器管理新需求:不止于管理容器,更需实现整套系统的敏捷交付、高效运维与安全互联
可以看出,中国企业对容器环境的管理需求,已经从最核心、最基础的“容器生命周期管理、监控与可视化”功能,扩展到更大的层面——企业需要一款简单、高性价比、部署灵活的方案,在提供常规容器管理能力的同时,帮助企业实现多个应用运行环境(如虚拟化和容器环境)的统一管理与东-西向安全防护,并具备 AI 等新兴高性能计算应用场景的支持能力,同步实现整套 IT 系统的敏捷交付、高效运维与安全互联。
更多关于容器管理产品关键技术能力的解读,请参考:选型 K8s 管理平台需关注哪些核心能力?ChatGPT 和 Gartner 分别这样说
目前,针对中国企业面临的多环境中资源、运维和管理统一挑战,SmartX 基于全栈超融合产品能力,推出了虚拟化容器融合基础设施(VCCI)解决方案,以一套融合架构提供服务器虚拟化、分布式存储、网络与安全、容器管理等组件,帮助用户实现基础设施统一管理、虚拟机容器网络互联互通、应用资源高效统一交付。
VCCI 如何帮助用户应对混合环境管理挑战
一套平台实现虚拟化与容器环境统一管理
基于 SmartX 全栈超融合软件所提供的服务器虚拟化、分布式存储、容器管理与网络相关组件,用户可构建完整的虚拟化容器融合基础设施,并通过统一的管理平台进行运维管理,大幅降低运维工作量和复杂度。
容器管理操作简单高效,无额外学习成本
通过全图形化的单一管理界面,运维人员可按照虚拟化环境的管理方式,对所有 Kubernetes 集群进行管理。仅需简单几步操作,即可在几分钟内快速创建 Kubernetes 工作负载集群,无需手动安装配置操作系统。Kubernetes 集群也可弹性扩展,当现有集群资源无法满足应用部署需求时,集群可以自动感知并触发横向节点自动/手动扩缩容。
统一的安全策略管理,提升网络安全性的同时实现双环境网络互联互通
基于软件定义的网络安全组件 Everoute 和 EIC 网络插件,SmartX 超融合可为虚拟化环境和容器环境提供扁平化网络架构,实现传统虚拟机应用与容器应用互联互通。同时提供统一的安全策略管理,允许用户对两个环境中的应用设置更精细的安全策略,增强虚拟化和容器环境的东-西向流量的安全管理。
深度解析虚拟机和容器网络流量,实现全面可视化
为了应对日益复杂的虚拟化和云原生环境,IT 管理员需要对网络流量有深入的了解,才能快速排障、优化性能并保障安全。VCCI 方案包含的 SmartX 网络流量可视化正是这样一款服务于虚拟化网络和容器网络的分析工具。它能够深入 SmartX 集群上的虚拟机和 EIC 容器网络内部,提供全面的流量可视化能力,清晰展示虚拟机和容器之间的网络通信路径、流量大小、延迟等信息,帮助管理员快速定位网络瓶颈和性能问题。流量可视化也可以用于识别潜在的安全风险,并提供安全策略优化建议,帮助管理员增强网络安全性。欲深入了解,请阅读:照亮虚拟网络流量“盲区”:超融合网络流量可视化功能解读
分布式架构支持灵活部署与扩展,助力企业敏捷发展
VCCI 基于 SmartX 超融合软件 SMTX OS(内置分布式块存储和文件存储)部署,传统虚拟化用户可以分阶段实现 IT 基础设施的容器化转型,全分布式的架构也便于用户按需购买、灵活扩展,助力企业敏捷发展。
兼容主流国产硬件基础设施,符合信创条件
VCCI 兼容海光、鲲鹏等主流信创 CPU 架构服务器和主流国产服务器部件,并具备众多行业用户的生产级落地案例,在性能、可靠性和稳定性方面得到充分验证。欲深入了解,请阅读:自贡市第一人民医院:超融合与 SKS 承载 HIS 等核心业务应用,加速国产化与云原生转型
多种优化特性加速 AI 应用资源交付,已具备落地案例
虚拟机和容器的融合部署形态,具备广泛的大模型应用支持能力,可以合理分配 CPU、GPU 资源,GPU 共享方案和 DRS 动态调度能力,可进一步提升两个环境的资源利用率和均衡性,加速 AI 应用资源交付。目前,韩国电商 ConnectWave 已基于 SKS 集群运行 LLM 应用,为人工智能场景提供高性能计算资源。欲深入了解,请阅读:SKS 1.2 发布,全面增强 AI、信创等场景支持能力
大幅提升 Kubernetes 资源供给效率和集群交付速度,看得见的 ROI
VCCI 可大幅提升 Kubernetes 资源供给效率和集群交付速度。例如,自贡市第一人民医院采用 VCCI 的部署方式,对比传统虚拟化+集中式架构,在可用资源的供给方面有 2 倍以上的提升。某国有水务机构在使用 VCCI 后 Kubernetes 集群交付时间从原来的几天到现在仅需十几分钟,大幅提升业务上线速度。欲深入了解,请阅读:
- 自贡市第一人民医院:超融合与 SKS 承载 HIS 等核心业务应用,加速国产化与云原生转型
- 某国有水务机构:超融合构建统一管理虚拟化与容器环境的轻量云底座
结合虚拟化特性,同步提升虚拟化与容器环境的可靠性
除了 Kubernetes 自身提供的能力,结合虚拟机特性,整套架构的可靠性也得到进一步增强,如支持多副本部署,高可用切换、自动健康检测与恢复、集群滚动升级、容灾备份等。欲深入了解,请阅读:某自动驾驶公司:虚拟化容器混合基础设施助推智能港口系统架构升级
更多关于容器环境运维管理的趋势分析和 VCCI 方案解读,请阅读:如何轻松统管虚拟化和容器环境?一文了解 SmartX 虚拟化容器融合基础设施。您还可下载阅读白皮书《基于超融合运行 Kubernetes:场景、功能和优势》,深入了解适合基于超融合架构支持容器的场景和优势。
参考文章:
1. Innovation Insight: Container Management Products in China, Gartner, 2024
https://www.gartner.com/document/5437563
2. Container Supply Chain: 10 Security Vulnerabilities and How to Address Them, Gartner, 2023
https://www.gartner.com/document/code/780641