01 前言
在当今数字化时代,人工智能(AI)已成为各行业发展的关键推动力。然而,随着AI技术的蓬勃发展,行业对计算资源的需求也日益增长,传统的资源分配方式已无法满足需求。
在这一背景下,算力QoS(Quality of Service)技术的出现显得尤为重要。算力QoS解决了资源匮乏、任务排队等待以及紧急事件处理等问题,可显著提升业务的高可用性和效率。
本文将探讨基于智能算力调度的GPU池化技术在AI行业中的重要性,以及对提升业务效率和推动行业发展的巨大意义。
02 算力QoS的重要性与场景需求
在数字化时代,随着人工智能(AI)技术的快速发展,对计算资源的需求也日益增长。算力调度作为确保计算资源高效利用的重要环节,在各行业应用中扮演着关键角色。高效、灵活的算力调度不仅是提高资源利用率的关键,更是保障业务持续性、提升响应速度和满足业务需求的必要条件。
在资源充足时,算力池不仅可以将多个任务调度到更少的算力节点,降低能耗使用,还能够将多个任务分散调度到多个算力节点,确保业务使用性能,减少因单节点故障带来的风险。
在资源紧缺时,算力池通过智能调度,保障重要业务的算力需求。特别是在处理大规模数据集时,如机器学习训练任务或数据分析任务,算力调度确保每个任务都能够及时获得所需的计算资源,提高处理效率,加速模型训练过程。
在重要任务保障方面,算力调度扮演着至关重要的角色。必须确保重要业务能够随时有资源可用,即使在高峰期或突发情况下,系统也能够优先保障重要任务的资源需求,保障业务的稳定运行,从而为用户提供了更加可靠和高效的服务保障。
对于紧急任务处理,如安全事件响应或突发事件处理,算力调度能够通过任务排队和智能调度算法,保障紧急任务优先获得资源,加快响应速度,确保重要业务的及时执行。
在业务持续性保障方面,当发生硬件故障或其他紧急情况时,算力调度还能提供快速恢复业务运行的保障机制,降低业务中断风险,保证业务的连续性和稳定性。
综上所述,算力QoS在现代AI场景中扮演着至关重要的角色,不仅需要具备高效的调度算法和智能管理机制,更需要与业务需求紧密结合,以确保资源的最大化利用和业务的稳定运行。
03 传统架构下的算力管理
· 传统单机方案
传统单机方案存在多方面的局限性。
首先,由于单个计算机的性能有限,特别是在处理复杂的深度学习模型时,往往性能不足以满足大规模的AI任务需求。其次,单机方案的可扩展性较差,随着任务规模增加,无法有效地实现扩展,无法满足大规模并行计算的需求。此外,维护单机的成本相对较高,包括硬件故障处理和升级等方面,常需停机维护,影响业务的连续性,增加了管理的复杂性和成本负担。这些问题严重限制了单机方案在面对现代AI任务时的使用范围。
· 单机切分方案
在单机切分场景下,目前主要有硬件或软件切分两种方案,以满足不同场景需求。
-
以Nvidia Mig为代表的硬件切分技术
在硬件切分方案中,以Nvidia的MIG硬件切分技术为代表,通过在硬件层面实现GPU资源的划分,可以将一块GPU物理设备划分为多个逻辑设备,每个逻辑设备都可以独立分配给不同的任务使用,提高了单卡利用率,但配置与运维难度增加,只有特定的硬件型号支持,同时该技术仅适用于容器场景。
-
以Nvidia VGPU和GPU Manager为代表的软件切分技术
软件切分方案则以Nvidia VGPU和GPU Manager开源软件切分技术为代表,能够在软件层面实现单卡算力资源的动态切分。虽然相比硬件切分,具有更高的灵活性,但在使用场景、资源调度和管理方面也仍然存在一定的弊端。
Nvidia VGPU技术仅适用于Nvidia的中、高端GPU,且只能进行资源均分、只能应用于虚拟机场景。而基于GPU Manager的开源技术,虽然切分更加灵活,但仍然局限于单机以内的算力资源切分,任务无法实现跨卡使用,只能应用于容器场景。
04 面临的问题与挑战
不管是采用简单、快速的单机方案,还是灵活、高效的算力切分方案,都会存在以下几种不同的资源调度和资源运维上的问题和挑战:
1) 资源浪费严重,却要采购更多的算力设备
在传统方案下,由于资源分配方式,其算力切分方式、支持的云环境、远程调用支持、及任务大小需求不均匀等多方面因素,导致大量算力资源仍然存在长时间处于空闲状态,造成资源严重浪费;为了保障业务上线,用户不得不采购更多的算力设备,进一步加剧了成本开销。
2) 传统的调度方式拖慢业务上线
传统的单机方案和切分方案,当单节点剩余资源不足时,当有新业务上线时,仍然需要从算力卡型号、业务模型资源需求量、剩余资源量、云环境等多个维度进行综合评估,并最终确定和分配资源,这种方式导致了业务上线速度缓慢、周期延长等问题。
3) 资源闲滞,业务却只能望梅止渴
传统架构下,资源闲置却无法使用;这直接影响了业务的快速上线,因为即使数据中心内有可用资源,但由于缺乏远程调用能力,无法灵活地调用这些资源。这种限制导致业务无法及时部署,可能会延迟项目进度,增加额外的成本和管理负担。
4) 有资源未使用,却无法分配给新的业务使用
在传统架构下,当单卡算力资源一旦分配完毕,即使已经被分配的资源未被使用,也无法重新分配给其他业务使用,造成了算力资源白白浪费。这种情况下,新业务往往无法及时得到满足,导致上线速度明显变慢。
5) 紧急的任务,无法快速获得资源
传统架构缺乏任务排队机制,业务资源无法保障,资源一旦分配完毕,即使有紧急任务等待执行,也无法优先获取算力资源。重要的业务上线受常规业务影响,无法快速获得资源,必须要人工干预才能解决。这严重影响了业务的响应速度和处理灵活性。
6) 重要的任务,难以保障业务连续性
传统架构下,业务连续性受到威胁;重要任务一旦遇到硬件故障,无法保障业务的持续运行,需要人工修复后才能恢复。这严重影响了业务的连续性,降低了用户使用体验。缺乏自动化的故障恢复机制,使得应对硬件故障变得耗时且不可预测,进一步加剧了业务的不确定性和风险
05 解决方案
趋动科技提供的OrionX软件定义异构AI算力云化调度解决方案,能够统一管理和调度算力中心中的各种品牌、不同型号的AI算力资源卡,其中包括英伟达、寒武纪、海光、华为等。该解决方案具备云化的弹性、自愈和灵活等关键能力,以应对不断变化的业务需求和挑战。
图1. 趋动科技OrionX解决方案架构图
OrionX方案采用管理面和数据面独立管理的方式:在数据面,将AI业务数据流独立出来,充分发挥GPU算力的优势,最大化加速AI的训练速度;在管理面,能够对所有算力节点的算力资源进行集中化的监控和管理,实现算力节点的集中化管理。
OrionX软硬件解耦架构,使得客户端和服务器端可以分离部署,从而实现更灵活的部署和管理,最大程度提升算力调度效率;只要算力池内有剩余资源,就可以快速调度到适当的资源来满足AI应用的使用需求,而不用关心算力所在的节点位置。这样不仅大大提高了GPU算力资源的利用率,同时也对常规、重要和紧急不同级别的任务提供更加科学的资源保障机制。具体实践场景包括:
1) 资源动态申请和释放,让单卡叠加更多的AI业务
OrionX方案实现了资源的动态申请和释放,使得单卡能够叠加更多的AI业务。用户可根据实际需求灵活申请所需算力资源,当在业务执行完毕后,系统会自动释放这些资源,不仅提高了资源的利用率和效率,还能够更好地满足用户不同场景下的需求,从而为用户提供了更为灵活、高效的资源管理解决方案。
2) 资源超分,让已分配的资源不再闲置
传统架构下的资源分配问题导致了已分配的资源闲置,无法为新的业务使用,进而影响了业务的快速上线和响应速度。然而,通过资源超分技术,OrionX允许重新分配已分配但未使用的资源,使得闲置资源得以充分利用,同时满足新业务的需求,从而提高了资源利用率和业务的响应速度。
3) 远程调用,让AI任务资源随处可达,不再受限于单算力节点
远程调用允许AI业务从远程位置动态获取算力资源,使得AI任务不再受限于单一算力节点,而是能够随时随地获取所需资源,极大地提高了资源的可达性和利用率。这种灵活的资源调用方式不仅能够满足不同业务场景下的需求,还能够加速业务的上线和执行,为系统带来了更大的灵活性和效率。
4) 资源预留,确保重要业务,总是有资源可用
通过在算力池中设置资源预留机制,系统可以根据业务的重要性和优先级,预先分配一定比例的资源,以确保在高峰期或紧急情况下能够满足重要业务的需求。这种预留机制能够提高系统的稳定性和可靠性,保证关键业务的持续运行,为用户提供更加稳定、高效的服务。
5) 任务排队,让重要的业务,有资源优先使用权
算力资源池化实现了智能任务排队和优先级调度机制,确保重要任务能够优先获取资源并及时执行,避免紧急任务无法快速获得资源的问题。这种机制解决了紧急任务无法快速获得资源的挑战,提高了业务的响应速度和处理灵活性。
6) 资源抢占,保障紧急任务,随时有可用资源
当高优先级的任务申请资源,但 OrionX 算力资源池内剩余资源不足而导致无法分配到资源时,可以通过抢占低优先级的任务资源,让任务提前退出,从而空出足够的资源分配给该任务。这种机制能够保障紧急任务的及时执行,提高了系统的灵活性和响应速度,确保了业务的持续稳定运行。
7) 自动化故障恢复,确保重要业务连续运行
当发生硬件故障或其他意外情况时,OrionX可结合AI应用的高可用架构,实现故障的自动化恢复。同时基于OrionX的实时监控和报警功能,能够及时发现并处理潜在的故障,保障了整个系统的稳定运行,大大降低了运维人员的工作负担,减少了人为干预的需要,提高了系统的可靠性和可用性,为用户提供了更加稳定和可靠的服务。
通过以上解决方案,GPU资源池能够有效应对传统架构下的资源调度和管理挑战,提高资源利用率、降低运维成本,为业务的快速发展和持续运行提供可靠的基础支持。
06 方案价值
通过OrionX构建AI算力资源池,用户能从以下维度获得价值:
· 人效
通过自动化调度和管理,降低了人力成本,减少了人为干预的需要,提高了人效。运维人员可以将更多精力投入到更有价值的工作中,加速业务的发展和创新。
· 物效
通过资源的统一管理和调度,算力资源的利用率得到提升,降低了硬件资源的闲置浪费,实现了物效的最大化。同时,OrionX还能够降低运维成本,提高资源的可用性和可靠性,进一步提升物效。
· 创新
OrionX的创新在于其云化的弹性、自愈和灵活能力,以及远程调用和资源抢占等功能的引入。这些创新性的特性使得用户能够更加灵活地应对不断变化的业务需求和挑战,推动了业务的创新和发展。
07 结语
在AI行业的不断发展中,AI算力池化技术作为一种创新的解决方案,为业务提供了更加灵活、高效的算力支持。通过有效地管理和调度算力资源,算力资源池不仅提升了算力利用率,降低了成本,还保障了更多业务的需求,并确保了重要业务的资源使用和业务连续性。
随着技术的不断进步和应用场景的扩展,相信AI算力池化技术将在AI行业发挥越来越重要的作用,为企业带来更多的机遇和挑战。