1. 背景介绍

随着机器学习模型，和数据量的不断增长，模型训练逐渐由单机训练，转变为分布式的多机训练。在分布式深度学习中，数据并行是最为常用的模型训练方式。然而数据并行的模型训练过程中，需要频繁的做数据聚合/模型同步。参与运算的 GPU 数量越多，其对应的数据聚合的开销也会越大。当下单个 GPU 的算力不断增加，GPU 间的数据聚合成成了新的分布式机器学习的瓶颈。

各大公司也发现了数据聚合这个重大瓶颈，因此在软硬件上都提出了自己的解决方案。硬件层面上，GPU 厂商 Nvidia 发布了 GPU 之间直接相连的高速通信通道 NVLink，以及多 GPU 之间的路由器 NVSwitch。软件层面上，各大公司都相继发布了自己的 GPU 通信库（例如：Nvidia 的 NCCL，Baidu 的 Ring-AllReduce），或者针对 GPU 通信进行优化的分布式机器学习平台（最流行的 Uber 的 Horovod）。

然而，这些软件层面上的通信库或者机器学习平台，并没有充分利用所有的，同构和异构的网络通信线路。因此，由 UC Berkeley，Microsoft Research 以及 University of Wisconsin-Madison 组成的研究团队发布，能够充分利用所有同构及异构的网络传输线路，从而实现最优 GPU 间数据聚合的 Blink 项目。

2. 论文摘要

当下流行的分布式机器学习平台（Horovod）或 GPU 间数据聚合的通信库（NCCL），其最大问题在于无法很好的解决网络异构性。网络异构性主要表现为如下三点：

1. 同构的 GPU 间链接线路，例如 NVLink，用于不同型号的 GPU 的对应 NVLink 的版本和带宽不同，其组成的网络的拓扑结构也不相同。具体区别如图一所示。

在一个 8 卡的 DGX-1 机器上：如果 GPU 是 P100，其对应的 NVLink 是第一代，带宽为 18-20GB/s，其拓扑结构如图 1 黑线所示。如果 DGX-1 用的 GPU 是 V100，其 NVLink 通信线路为第二代，带宽为 22-25GB/s。于此同时，相比 P100 的 DGX-1，V100 的 DGX-1 的网络拓扑结构也不同，其在 P100 的基础上，新增了一圈红色虚线的 NVLink 线路。

autopilot 算是 google 今年混部领域最重磅的论文了吧

论文原址：https://dl.acm.org/doi/pdf/10.1145/3342195.3387524

在传统的数据中心里，资源超售最简单的方式就是把闲置资源回收再分配，total = total – allocated + reclaim

有时候，业务为了应对峰值流量（特别是互联网服务这种有明显流量特征的），都会购买多一些冗余资源。但是这些冗余资源会因为各种原因，不是那么准确。比如流量随着时间流逝会逐渐发生变化、或者用户过于焦虑

用户填的Quota永远都是不准的

这会带来一些问题：

集群资源浪费，由于Quota不准，导致机器资源被大量闲置和浪费。比如 Quota 分配出去了100c，但实际使用了10c
集群负载不均衡，同样两个机器，分配率一样，但是实际使用差别很大，对混部性能的影响就不一样

为了解决这个问题，google设计了autopilot，尝试通过自动的校准用户的 Quota，实现一定程度的超售，降低成本

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

成功，源于对美学的执著追求

月度归档： 2020 年 9 月

Blink Fast and Generic Collectives for Distributed ML

1. 背景介绍

2. 论文摘要

Autopilot: workload autoscaling at Google