SPMD 还是 DPMD
1. SPMD：所有节点都运行相同的代码，它的问题在于不支持流水线负载
2. DPMD：不同节点运行不同的代码，它的问题在于 gang-scheduler（群调度）容易死锁
单控制器（single controller）还是多控制器（multi controller）
1. 多控制器：最常见，每个节点有自己的控制器
  1. 优点：低延迟，因为所有交互都是通过PCIe（同机通信）或者NVLink（跨机通信）
  2. 缺点：
    1. Any communication beyond standard collectives in multi-controller systemsrequires users to implement their own coordination primitives. (备注：这句话其实我不理解）
    2. 独占硬件，资源利用率不高
2. 单控制器：控制器是中心化的，节点只有runtime
  1. 优点：灵活性很强

- 1. 缺点：
    1. 通信慢（关键）：几乎所有的通信都是 farther away
    2. 调试困难：由于图可能被优化，所以 debug 起来很困难
    3. 调度延迟，导致资源利用率不高

如下：

我们对系统进行分类

SPMD
1. multi controller：MPI，Pytorch ，Tensorflow，JAX

1. single controller：Tensorflow v1

non-SPMD
1. single controller：Tensorflow v1

1. multi controller：由于 non-SPMD 本身就依赖一个中心式的控制器，所以就没有所谓的 multi controller 了

未来的趋势一定是 non-SPMD 的，因为模型会越来越复杂，具备流水线、计算稀疏等特点的ML负载，很难用 SPMD 架构来实现了

然后虽然单控制器有debug困难、调度延迟等一些问题，但这都不是关键的（都是局部可优化问题，而不是结构性问题），论文认为 single controller 这种 dataflow 的设计仍然是最理想的设计

言外之意：tensorflow 还是最棒的！

剩下的就是怎么解决 non-SPMD + single controller 的缺点问题：

gang-scheduler 死锁问题
性能问题：异步数据流 + 资源集中调度

3. Pathways 的编程模型

Pathways 目前可以无缝对接 tensorflow 以及 JAX（可以理解为是 JAX 或者 tf 的一个后端），用户代码不需要任何修改

支持2种方式：

jax.pmap(fn, devices=get_devices())：把一个函数映射到具体的TPU上执行，每个fn会编译成一个computation
@pw.program：把整个函数打包编译成一个大的computation（如果函数内包括pmap，也会一起编译进来，pmap不再单独编译了）

除此之外，pathways 支持 DCN 通讯，能够在多 TPU Pod 内运行

4. Pathways 的系统设计

为了实现对业务代码的最小侵入，pathways大量复用了现有的系统能力：

支持 JAX 和 tensorflow API
使用 tensorflow graphs 和 executors 来执行 CPU 计算
使用 XLA 来执行 TPU 计算

再看一下系统架构

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

成功，源于对美学的执著追求

Pathways – Asynchronous Distributed Dataflow for ML

1. 论文背景、动机、贡献

2. 设计动机

3. Pathways 的编程模型

4. Pathways 的系统设计

4.1. Resource Manager

4.2. Client

4.3. Coordination implementation

4.4. Gang-scheduled dynamic dispatch

4.5. Parallel asynchronous dispatch

4.6. Data management

5. 性能评估

发表回复取消回复

成功，源于对美学的执著追求

1. 论文背景、动机、贡献

2. 设计动机

3. Pathways 的编程模型

4. Pathways 的系统设计

4.1. Resource Manager

4.2. Client

4.3. Coordination implementation

4.4. Gang-scheduled dynamic dispatch

4.5. Parallel asynchronous dispatch

4.6. Data management

5. 性能评估

发表回复 取消回复

发表回复取消回复