近期在阿里云上部署OCP需要用到NAS,其中遇到NAS无法扩容的问题,在此简单笔记。
1、部署NAS
参照github.com\kubernetes-sigs\alibaba-cloud-csi-driver\docs\nas.md部署说明,需要执行以下步骤:
Step 1: Create RBAC resource
# kubectl create -f ./deploy/rbac.yaml
Step 2: Create CSI Plugin
# kubectl create -f ./deploy/nas/nas-plugin.yaml
Step 3: Create CSI Plugin
# kubectl create -f ./deploy/nas/nas-provisioner.yaml
执行完以上步骤,会在kube-system下面部署一个daemonset csi-plugin和一个deployment csi-provisioner。
这时还缺少SC,在github.com\kubernetes-sigs\alibaba-cloud-csi-driver\examples\nas\dynamic目录可以找到所需的SC文件,按需修改直接部署即可。
到此,通过创建PVC实现NAS申请已能够实现。
2 NAS扩容
在修改PVC进行扩容时却发现提示不支持,问题主要有两点,但阿里云官方文档当前未见详细说明。
(1)SC缺少allowVolumeExpansion: true字段,会提示“only dynamically provisioned pvc can be resized”,SC中加上即可。
(2)SC加上允许扩容后,PVC是可以被更新了,但等了很久发现实际容量并未被更新。排查如下:
检查源码github.com\kubernetes-sigs\alibaba-cloud-csi-driver\pkg\nas\controllerserver.go,发现是有扩容方法的。
func (cs *controllerServer) ControllerExpandVolume(ctx context.Context, req *csi.ControllerExpandVolumeRequest,
) (*csi.ControllerExpandVolumeResponse, error) {
log.Infof("ControllerExpandVolume: starting to expand nas volume with %v", req)
volSizeBytes := int64(req.GetCapacityRange().GetRequiredBytes())
pvObj, err := getPvObj(req.VolumeId)
if err != nil {
return nil, fmt.Errorf("ControllerExpandVolume: nas volume(%s) expand error: %s", req.VolumeId, err.Error())
}
if _, ok := pvObj.Spec.CSI.VolumeAttributes["volumeCapacity"]; ok {
err = setNasVolumeCapacityWithID(pvObj, cs.crdClient, volSizeBytes)
if err != nil {
log.Errorf("ControllerExpandVolume: nas volume(%s) expand error: %s", req.VolumeId, err.Error())
return nil, fmt.Errorf("ControllerExpandVolume: nas volume(%s) expand error: %s", req.VolumeId, err.Error())
}
log.Infof("ControllerExpandVolume: Successful expand nas quota volume(%s) to size %d", req.VolumeId, volSizeBytes)
} else if mountType, ok := pvObj.Spec.CSI.VolumeAttributes["mountType"]; ok && mountType == "losetup" {
log.Infof("ControllerExpandVolume: Successful expand nas losetup volume(%s) to size %d", req.VolumeId, volSizeBytes)
} else {
return nil, fmt.Errorf("ControllerExpandVolume: nas volume(%s) not support expand", req.VolumeId)
}
return &csi.ControllerExpandVolumeResponse{CapacityBytes: volSizeBytes, NodeExpansionRequired: true}, nil
}
检查Deployment日志,发现扩容逻辑未被触发(找不到任何日志)。
后来在alibaba-cloud-csi-driver\deploy\ack\upgrade\upgrade.md找到以下内容:
插件说明:
CSI-Plugin、CSI-Provisioner两个插件的阿里云发布镜像都是:acs/csi-plugin:{version},部署模板中的其他镜像说明如下:
acs/csi-node-driver-registrar:负责csi-plugin插件注册的sidecar容器;Refer
acs/csi-provisioner:数据卷动态创建的sidecar,负责调用CreateVolume等接口;Refer
acs/csi-attacher:数据卷挂载的sidecar,负责调用ControllerPublishVolume接口;Refer
acs/csi-resizer:数据卷扩容的sidecar,负责调用ControllerExpandVolume接口;Refer
acs/csi-snapshotter:数据卷快照sidecar,负责创建volumeSnapshotContent对象;Refer
acs/snapshot-controller:数据卷快照sidecar,负责调用CreateSnapshot接口;Refer
才发现想要调用ControllerExpandVolume接口是需要额外部署插件的,只是。。。(为何要隐藏的如此之深,一个NAS的扩容放到ACK的目录下),于是按图索骥,找到最新的镜像地址。
接下来呢,还需要找到部署的yaml,同样藏在ACK下面,alibaba-cloud-csi-driver\deploy\ack\csi-provisioner.yaml中间有一段。
- name: external-nas-resizer
image: registry.cn-hangzhou.aliyuncs.com/acs/csi-resizer:v1.1.0-7b30758-aliyun
args:
- "--v=5"
- "--csi-address=\$(ADDRESS)"
- "--leader-election"
env:
- name: ADDRESS
value: /var/lib/kubelet/csi-provisioner/nasplugin.csi.alibabacloud.com/csi.sock
imagePullPolicy: "Always"
volumeMounts:
- name: nas-provisioner-dir
mountPath: /var/lib/kubelet/csi-provisioner/nasplugin.csi.alibabacloud.com
更新了deployment中的yaml后部署会得到三个container,external-nas-provisioner、
external-nas-resizer、csi-provisioner。
至此,差不多是可以实现NAS扩容了,但也不是没有问题了,因为更新PVC后会发现并不是立即就能扩容成功,二是会看到一个message:
waiting for user to (re-)start a pod to finish file system resize of volume on mode
关于这一点,在文档里也能找到踪迹alibaba-cloud-csi-driver\docs\disk-resizer.md
4. Expand FileSystem with restart pod:
// phase2: restart Pod, expand filesystem;
# kubectl delete pod dynamic-create-6d5dc9bb7d-lvhgz
pod "dynamic-create-6d5dc9bb7d-lvhgz" deleted
# kubectl get pvc
NAME STATUS VOLUME CAPACITY ACCESS MODES STORAGECLASS AGE
pvc-disk-new Bound pvc-8db30f1a-ad23-11e9-ae51-00163e105050 30Gi RWO alicloud-disk-expand 6m13s
# kubectl exec -ti dynamic-create-6d5dc9bb7d-5gzq2 df | grep data
/dev/vdd 30832548 45036 30771128 1% /data
意思是只有这个PVC被挂载到pod,且重启pod才会生效扩容操作。
至此,关于阿里云上部署NAS搞定了。