🔎公司简介
「出海匠」(chuhaijiang.com)是「数绘星云」公司打造的社交内容电商服务平台,专注于为跨境生态参与者提供数据支持与智能化工作流。平台基于大数据与 AI 技术,帮助商家精准分析市场趋势、优化运营策略,并借助中国供应链优势直达海外社交电商用户。
作为一家依赖数据驱动的企业,「出海匠」的核心业务包括:
实时数据分析:监控社交平台电商数据,分析用户互动、商品热度和销售转化率。
AI 智能分析:通过 AI 算法对跨境市场趋势进行深度挖掘,为客户提供智能推荐和选品决策。
数据可视化:以图表和报表形式展示关键市场数据,帮助客户优化投放策略。
01/架构升级
此前,「出海匠」的业务架构由云端和本地两部分组成:数据实时分析依赖 AWS EC2 按需实例运行,而大数据业务则部署在本地机房。
经过 CloudPilot AI 的评估与优化,团队对业务架构进行了全面升级。首先,所有大数据业务都迁移到了云端;接着,团队引入 Kubernetes 来充分利用云环境的弹性;最后,业务迁移至 Spot 实例以实现成本节省,借助 CloudPilot AI 的智能优化,确保了业务稳定性与高效性不受影响。
02/面临的挑战
高昂的 AWS EC2 成本,限制业务扩展
「出海匠」的核心业务依赖海量数据的实时分析,过去主要采用 AWS EC2 按需实例运行计算任务,未充分利用弹性计算资源和 Spot 实例。然而,持续运行的实时分析任务导致成本居高不下。同时,在采用 CloudPilot AI 之前,大数据任务并未迁移至云端,部分计算任务仍然依赖本地机房,受限于算力扩展能力,难以满足业务增长需求。
计算资源管理复杂,扩展能力受限
在引入 EKS(Elastic Kubernetes Service)之前,「出海匠」的计算资源调度主要依赖手动管理,缺乏自动化的弹性调度机制,导致以下问题:
-
资源利用率低:按需实例长时间空闲或负载过高,计算资源无法有效分配。
-
扩展响应速度慢:业务流量波动时,计算资源无法及时扩容或回收,影响数据分析的实时性。
-
运维负担重:团队需投入大量精力手动调整计算资源,影响核心业务开发。
Spot 实例的不确定性,影响业务连续性
尽管 Spot 实例价格低廉,但「出海匠」最初对其使用持谨慎态度,主要存在以下担忧:
-
实例随时可能被回收,导致计算任务失败,影响业务稳定性。
-
缺乏智能调度策略,难以在多个可用区之间高效分配计算资源。
-
Spark 计算任务的网络交互复杂,Spot 实例频繁变更可能增加跨可用区的网络流量成本,导致整体成本上升。
由于这些挑战,「出海匠」在云成本和计算资源管理之间陷入两难,需要一个既能降低成本,又能保证业务稳定性的解决方案。
03/解决方案
取得的成效:
✅ AWS EC2 成本降低 60%:通过 CloudPilot AI 自研的 Spot 实例选型算法,得以选择中断概率最低且价格最便宜的 Spot 实例,以及动态扩展策略,「出海匠」大幅减少了按需实例的使用,EC2 成本显著下降。
✅ 计算任务稳定性提高:通过 120 分钟 Spot 中断预测和任务自动迁移机制,计算任务不再因 Spot 实例回收而失败,保障了数据分析的稳定性。
✅ Spark 运行效率优化:任务优先部署在同一可用区,减少了网络传输延迟,提高了数据处理速度。
✅ 运维成本下降:计算资源调度由 CloudPilot AI 自动完成,团队无需手动监控和管理实例,DevOps 负担大幅减轻。
一方面,为了支撑快速增长的业务需求,「出海匠」团队决定将大数据业务全面迁移至云端,提升计算弹性和扩展能力;另一方面,为了降低云成本,确保公司可持续发展,他们积极寻求高效的成本优化方案。
「出海匠」团队经过深入调研和测试后,最终选择 CloudPilot AI 作为智能化云资源管理方案。CloudPilot AI 通过 Spot 智能化运维、智能节点选型和 Kubernetes 资源优化,帮助「出海匠」降低云成本,同时确保计算任务的稳定性。
Kubernetes 自动化资源管理
在引入 EKS 后,「出海匠」团队希望能通过自动扩缩计算资源来应对波动的业务需求。以前,团队依赖手动扩展实例,这种方式不仅效率低,而且无法实时响应资源需求的变化。CloudPilot AI 为 Kubernetes 提供了智能调度和自动扩缩容功能。当 Spot 实例资源充足时,系统会优先使用成本较低的实例;而在资源紧缺时,自动切换到按需实例,确保计算任务在高峰期依然能够平稳运行。通过这种自动化资源管理,团队显著降低了60%的云成本,并提高了云资源的利用率。
优化前:成本固定,存在大量浪费;优化后:仅为实际用量付费
Spot 智能化运维,解决 Spot 实例不稳定问题
在 PoC 阶段,CloudPilot AI 团队深入分析了「出海匠」的业务负载情况,并重点测试了实时数据分析和 Spark 任务在 Spot 实例上的运行稳定性。评估结果表明,借助 CloudPilot AI 的优化策略,可以在保障计算任务稳定性的同时,大幅降低计算成本。因此,「出海匠」团队最终决定将实时数据分析和大数据业务全面迁移至 Spot 实例。
在过去,「出海匠」团队担心 Spot 实例被回收可能导致计算任务中断,影响数据分析的准确性。为了解决这一问题,CloudPilot AI 提供了 120 分钟的提前预警机制(相较于 AWS 仅提供提前2分钟的通知窗口),当 Spot 实例即将被回收时,系统会提前通知团队,并自动将任务迁移到其他更稳定的计算实例上。
这种提前感知与自动迁移的功能,保证了计算任务的连续性,减少了因 Spot 实例回收带来的风险,同时享受了 Spot 实例带来的成本降低。团队不再需要手动干预任务迁移,确保了业务不间断地进行。
优化 Spark 任务的 AZ 亲和性调度
除了 Spot 实例的稳定性问题,团队还面临着 Spark 计算任务因网络交互而带来的性能瓶颈。Spark 任务需要依赖多节点进行协同计算,跨可用区(Zone)的任务分布会导致额外的网络流量费用。为了优化这一问题,CloudPilot AI 对 Spark 任务的调度逻辑进行了优化,确保任务能够优先部署在同一可用区内,减少了网络传输的成本,提高了数据处理效率。
智能节点选型与动态资源调度
为了在 Spot 实例资源紧缺时保持计算任务的稳定执行,CloudPilot AI 提供了智能节点选型功能。系统通过实时分析 Spot 实例的价格趋势和回收率,自动选择价格更低且更稳定的实例。如果 Spot 实例不足以支撑计算任务,系统会自动切换到按需实例,确保任务在任何情况下都不会因资源短缺而中断。这使得「出海匠」团队能够在大多数情况下使用 Spot 实例来降低成本,而在资源不足时能够自动切换到按需实例,确保任务平稳运行。
图源:spot.cloudpilot.ai;同一实例在不同可用区之间的价格可能相差30%,仅凭借经验和人工,很难选出价格和中断率低的实例
「数绘星云」Infra 负责人王睿恒表示:
“CloudPilot AI 让我们节省了60%的 AWS 成本,同时业务性能没有受到影响。过去,我们担心 Spot 实例的回收风险,而现在,CloudPilot AI 的120分钟中断预测和智能迁移让我们的服务始终保持稳定运行。此外,CloudPilot AI 帮助我们顺利完成了大数据业务的云端迁移,并针对 Spark 任务进行优化,减少了不必要的数据传输成本。它不仅降低了运维负担,还让我们能够把更多精力投入业务增长,而不是被成本和资源管理困扰。”
04/未来展望
通过 CloudPilot AI,「出海匠」成功在云端优化了计算资源管理,实现了成本降低与计算效率提升的双重目标。智能化的资源管理和自动化调度使得团队能够灵活应对不同的计算需求,同时降低了运维成本,提升了资源利用效率,使业务规模得以进一步扩展。
未来,「出海匠」团队计划将 CloudPilot AI 的功能扩展到更多的计算任务,进一步优化成本结构,并期待 CloudPilot AI 在更精细化的资源调度和成本预测上为他们提供更多支持,以提升业务竞争力。
推荐阅读
美国版“大众点评”的 Karpenter 迁移实践:如何让每一分钱的效益提升25%?
kOps + Karpenter 集成实践:实现 K8s 集群的动态扩展
别再被忽悠啦!揭秘 AWS Savings Plans 的糖衣炮弹:省钱不成,反被“绑架”?