1. 背景介绍

随着机器学习模型，和数据量的不断增长，模型训练逐渐由单机训练，转变为分布式的多机训练。在分布式深度学习中，数据并行是最为常用的模型训练方式。然而数据并行的模型训练过程中，需要频繁的做数据聚合/模型同步。参与运算的 GPU 数量越多，其对应的数据聚合的开销也会越大。当下单个 GPU 的算力不断增加，GPU 间的数据聚合成成了新的分布式机器学习的瓶颈。

各大公司也发现了数据聚合这个重大瓶颈，因此在软硬件上都提出了自己的解决方案。硬件层面上，GPU 厂商 Nvidia 发布了 GPU 之间直接相连的高速通信通道 NVLink，以及多 GPU 之间的路由器 NVSwitch。软件层面上，各大公司都相继发布了自己的 GPU 通信库（例如：Nvidia 的 NCCL，Baidu 的 Ring-AllReduce），或者针对 GPU 通信进行优化的分布式机器学习平台（最流行的 Uber 的 Horovod）。

然而，这些软件层面上的通信库或者机器学习平台，并没有充分利用所有的，同构和异构的网络通信线路。因此，由 UC Berkeley，Microsoft Research 以及 University of Wisconsin-Madison 组成的研究团队发布，能够充分利用所有同构及异构的网络传输线路，从而实现最优 GPU 间数据聚合的 Blink 项目。

2. 论文摘要

当下流行的分布式机器学习平台（Horovod）或 GPU 间数据聚合的通信库（NCCL），其最大问题在于无法很好的解决网络异构性。网络异构性主要表现为如下三点：

1. 同构的 GPU 间链接线路，例如 NVLink，用于不同型号的 GPU 的对应 NVLink 的版本和带宽不同，其组成的网络的拓扑结构也不相同。具体区别如图一所示。

在一个 8 卡的 DGX-1 机器上：如果 GPU 是 P100，其对应的 NVLink 是第一代，带宽为 18-20GB/s，其拓扑结构如图 1 黑线所示。如果 DGX-1 用的 GPU 是 V100，其 NVLink 通信线路为第二代，带宽为 22-25GB/s。于此同时，相比 P100 的 DGX-1，V100 的 DGX-1 的网络拓扑结构也不同，其在 P100 的基础上，新增了一圈红色虚线的 NVLink 线路。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

成功，源于对美学的执著追求

日期: 2020 年 9 月 7 日

Blink Fast and Generic Collectives for Distributed ML

1. 背景介绍

2. 论文摘要