论文原址:https://dl.acm.org/doi/pdf/10.1145/3342195.3387517
这篇论文主要是分析了google内部8个集群的workload数据,并和2011年(1个集群)的数据集做了一些对比,以此来跟踪数据中心这几年的workload变化
相较于2011年的workload数据,可以发现,无论是资源模型、负载分布、混部密度、系统架构,等,都有很大的变化。这里面的很多内容和想法,和我们过去做过的还有正在做的,都不谋而合
1. 资源模型
2011年的时候,google的资源模型只有4个优先级,分别是:
- Free tier:免费资源,基本上不承诺任何SLA,通常是研发用来跑一些测试任务
- Best-effort Batch (beb) tier:同样不承诺SLA,低优先级资源,一般用来跑离线任务
- Production tier:生产级别,承诺SLA,一般用来托管在线服务,比如以下 long runing service
- Monitoring tier:监控级别,具有最高级别的SLA,用来运行数据中心的基础系统