开篇
介绍
搭建环境
- 第一步
- 第二步
- 第三步
添加集群
成本洞察
成本分析
- 资源推荐与副本数
- 智能预测与自动扩缩容
- - EHPA
  - - 安装Metrics Server
    - 创建测试应用
    - 创建 EffectiveHPA
    - 增加负载
    - 整体流程
调度优化
- 负载感知调度
- 拓扑感知调度
混部
清理环境

开篇

某次闲逛CSDN，发现了这样一个活动：腾讯云 Finops Crane 集训营。

正好我在上一家公司负责过 Kubernetes 容器集群管理，所以抱着学(na)习(jiang)的目的报名了，想看看这个获得 FinOps 基金会授予的全球首个认证降本增效开源的方案有何过人之处。

介绍

一直以来，云原生用户在确保业务稳定和优化运营成本之间，做着两难的选择，为了保证业务的稳定运行，多数用户面临着服务资源配置浪费、现有资源难以管理、计费方式不够灵活透明等诸多问题。

在这里插入图片描述

基于越来越多的企业开始拥抱云上服务，腾讯云率先在国内推出了基于云原生技术的成本优化开源项目 Crane。

Crane 遵循 FinOps 标准，依托云原生技术，结合智能预测、自动调度、业务混部等多种手段，将优化措施应用到了云成本优化的多个关键环节，以可视化的方式帮助用户快速决策、简化运维效率、提升系统稳态、全面降本增效，从而为云原生用户提供一站式的云成本优化解决方案。

在这里插入图片描述
那么其实际效果如何呢？

众所周知网易新闻的体量是非常巨大的，而以其自身的使用来看，Grane 在落地的两个月内，管控数万 CPU 核，大盘总核数缩减11%，下线30台56C物理机，每个月节省10W费用。这样的降本增效效果，堪称一绝。

在这里插入图片描述

搭建环境

作为一个云服务管理的菜鸟，在先后经历了 Finops Crane 项目直播简介、开发者集训营实战指导后，我信心满满的开始实操了。

第一步

首先需要安装这几个东西：kubectl、helm、kind、Docker

分别运行下面的命令

# install kubectl
brew install kubectl

# install helm
brew install helm
# 如果 brew 安装不成功，试试
curl https://raw.githubusercontent.com/helm/helm/main/scripts/get-helm-3 | bash
# 如果还是不能成功，需要配置下科学上网

如果是版本问题，helm 会告诉你，然后升级下系统版本就好了。我用的是个老的mac 直接在 helm 这里就卡住了，然后换了公司的电脑，还算顺利。
在这里插入图片描述

# install kind
brew install kind
# 这里需要验证下是否装成功了，运行
kind create cluster --help

最后安装下 docker
传送门，直接点击对应的版本，下载，安装就可以了。

在这里插入图片描述

第二步

接下来，本地安装 Crane 并成功启动

mkdir training 
cd training
# 这一步可能需要科学上网
curl -sf https://raw.githubusercontent.com/gocrane/crane/main/hack/local-env-setup.sh | sh -

这一步也是有点慢，最后装完的时候会提示你运行两个命令来访问 Crane Dashboard，看下图
在这里插入图片描述

# 按照上图的提示执行这两个命令，这一步配置 KUBECONFIG 环境变量，
export KUBECONFIG=${HOME}/.kube/config_crane
# 这一步部署运行 crane-system项目
kubectl get deploy -n crane-system

出现下面的截图就算是成功
在这里插入图片描述
继续运行

kubectl get pod -n crane-system

在这里插入图片描述
看到系统中的镜像状态，有的已经启动，有的则还在拉取，有的正在创建，这时候依然耐心等待，一直到所有的镜像都运行

在这里插入图片描述

第三步

直接运行下面的命令

kubectl -n crane-system port-forward service/craned 9090:9090

这一步是把 Kubernetes 内部 service/craned 服务的端口 9090 映射到宿主机的9090，这样可以通过本地主机访问 Kubernetes 操作的内部集群

在这里插入图片描述
这样就可以访问 Grane 的 dashboard 了。

在这里插入图片描述
⚠️：后续的所有操作都需要在一个新的终端上进行，开始一个新终端，需要再次运行export KUBECONFIG=${HOME}/.kube/config_crane

添加集群

在页面中点击添加集群，地址填写： http://dashboard.gocrane.io
在这里插入图片描述

链接成功后就可以在首页看到数据信息

在这里插入图片描述

成本洞察

成本洞察可以快速查看集群中的相关信息，比如 cpu 、内存等占用信息，各个应用信息，成本，碳排放等。这里不做过多的赘述。

在这里插入图片描述

成本分析

成本分析模块会自动分析集群中各种资源的运行情况并给出优化的建议。其实现的流程为：

在这里插入图片描述

从上图可以看出，成本分析模块会执行四个步骤：

从监控系统拉取用量数据
从Kubernetes平台拉取作业配置信息
从云厂商计费API拉取资源单价
通过多种算法分析成本组成并给出优化建议

整个分析过程中的数据会首先通过可视化面板展示给用户

在这里插入图片描述
那么，Grane 是通过什么东西进行的成本分呢？点开推荐规则，可以看到系统内置了两条规则

在这里插入图片描述
Grane正是依据这两个文件中的规则来进行成本分析的。

我们可以运行这个命令(新终端)：kubectl get RecommendationRule，来查看这两个内置的文件。

在这里插入图片描述

资源推荐与副本数

通过上面的成本分析，最后会生成一个资源推荐列表，并且资源推荐会提供多种 Recommender 来实现针对不同资源的优化建议。

这样做的一个显而易见的好处在于，我们在配置应用资源时常常是基于自己的经验或者网上的信息来设置 request 和 limit，但是这种设置是否真的适用于当前场景犹未可知。

通过成本分析的算法分析应用的真实用量，从而推断出更有效的资源配置，可以帮助我们大大提升集群的资源利用效率。

在这里插入图片描述

当然，对于副本数也是一样的。大部分用户在创建应用资源时通常基于过往经验来配置副本数。副本数推荐算法能够分析应用的真实用量，因此能推荐给用户更合适的副本配置，参考它可以大大提升集群的资源利用率。

在这里插入图片描述

智能预测与自动扩缩容

除了推荐的相关内容，成本分析还列出了一段时间内的闲置节点，从而让用户根据需要来自由的扩容或者缩容。

⚠️：应用在监控系统（比如 Prometheus）中的历史数据越久，推荐结果就越准确，建议生产上超过两周时间。对新建应用的预测往往不准。

在这里插入图片描述

EHPA

当然了，除了手动的扩容与缩容，Grane 还能自动实现扩缩容。Grane 基于社区 HPA 做底层的弹性控制实现了一个名为 EffectiveHorizontalPodAutoscaler（简称 EHPA）的弹性伸缩产品，支持丰富的弹性触发策略（预测，观测，周期），例如：

提前扩容：算法预测未来的流量洪峰，如保证节假日的流量洪峰，避免服务器突增大量流量导致的拥堵甚至宕机。
减少无效缩容：预测未来可减少不必要的缩容，稳定工作负载的资源使用率，消除突刺误判。
支持 Cron 配置：支持 Cron-based 弹性配置，应对大促等异常流量洪峰。
兼容社区：使用社区 HPA 作为弹性控制的执行层，能力完全兼容社区。

EHPA 采用时间序列算法（FFT快速傅里叶变换算法），基于 Custom Metric，可靠性与准确性都比较高，而且完全兼容社区 HPA ，支持 Dryrun 观测，指标支持 Prometheus Metric，可以说是 Grane 的超级手指。

那么如何使用这个超级手指呢？

安装Metrics Server

首先安装 Metrics Server，依然是在新的那个终端上运行下面的命令：

kubectl apply -f installation/components.yaml
kubectl get pod -n kube-system

创建测试应用

接下来创建用于测试的应用：启动一个 Deployment 用 hpa-example 镜像运行一个容器，然后将其暴露为一个服务（Service）

kubectl apply -f https://raw.githubusercontent.com/gocrane/crane/main/examples/autoscaling/php-apache.yaml
kubectl apply -f https://raw.githubusercontent.com/gocrane/crane/main/examples/analytics/nginx-deployment.yaml

创建 EffectiveHPA

运行

kubectl apply -f https://raw.githubusercontent.com/gocrane/crane/main/examples/autoscaling/effective-hpa.yaml

# 查看 EffectiveHPA 的当前状态：
kubectl get ehpa

可以看到这样的数据即是成功

在这里插入图片描述

增加负载

# 在单独的终端中运行它
# 如果你是新创建请配置环境变量 
export KUBECONFIG=${HOME}/.kube/config_crane

# 以便负载生成继续，你可以继续执行其余步骤
kubectl run -i --tty load-generator --rm --image=busybox:1.28 --restart=Never -- /bin/sh -c "while sleep 0.01; do wget -q -O- http://php-apache; done"
# 现在执行
# 准备好后按 Ctrl+C 结束观察
kubectl get hpa ehpa-php-apache --watch