Skip to content

remaper

成功，源于对美学的执著追求

About Me
Friend blogs

日期: 2023 年 4 月 11 日

阿里云 GPU Sharing in Kubernetes

Posted on 2023年4月11日2024年12月22日 by remaper in GPU 混部虚拟化

文档：https://github.com/AliyunContainerService/gpushare-scheduler-extender/blob/master/docs/designs/designs.md

阿里云的 gpu sharing 只是实现了资源的按需分配和调度，并没有解决算力 & 显存隔离的问题

基于k8s原生的Scheduler Extender、Extended Resource、DevicePlugin机制来实现

提供2个接口：

aliyun.com/gpu-mem：单位从 number of GPUs 变更为 amount of GPU memory in MiB，如果一个Node有多个GPU设备，这里计算的是总的GPU Memory
aliyun.com/gpu-count：对应于Node上的GPU 设备的数目

整体架构：

搜索

2023 年 4 月
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

« 12 月 5 月 »

归档

AI – 工程 (13)
- GPU 混部虚拟化 (2)
- LLM 推理 (9)
- LLM 训练 (2)
AI – 算法 (29)
- 数学基础 (8)
- 机器学习 (8)
  - 无监督学习 (2)
  - 监督学习 (4)
- 神经网络 (11)
基础技术 (36)
- eBPF & ftrace (2)
- Linux 内核 (15)
  - 内存管理 (6)
  - 文件系统 (3)
  - 进程调度 (6)
- 性能分析 (3)
- 编译器 (16)
  - 深入浅出 tvm (15)
异构计算 (3)
- AI 训练 (3)
数据中心 & 云计算 (32)
- 内存池化 (5)
- 分布式系统 (1)
- 混部技术 (10)
- 虚拟化技术 (14)
  - Kata & Firecracker (3)
  - 容器核心技术 (11)
随笔 (20)

Powered by WordPress | Theme: Askella by Matthias Danzinger