阿里云的 gpu sharing 只是实现了资源的按需分配和调度,并没有解决算力 & 显存隔离的问题
基于k8s原生的Scheduler Extender、Extended Resource、DevicePlugin机制来实现
提供2个接口:
- aliyun.com/gpu-mem: 单位从 number of GPUs 变更为 amount of GPU memory in MiB,如果一个Node有多个GPU设备,这里计算的是总的GPU Memory
- aliyun.com/gpu-count:对应于Node上的GPU 设备的数目
整体架构: