2019 年 5 月 – remaper

1. mlock 的背景

mlock 的作用就是防止页面被换出到 swap 分区，或者 page cache 被内核回收

由于线上服务器，基本默认都会关闭 swap 分区，所以这种情况暂不讨论，防止 page cache 被内核回首是主要作用

什么样的 page 需要 mlock？

1）通过 mmap 方式映射到内存中的 page cache，比如一些关键的索引数据，需要经常访问，那就得 mlock 住，否则 pgmajfault 带来的性能抖动是很大的

2）程序自身依赖的一些 so 动态链接库，由于内核的 page cache 回收算法，并不感知 page 具体是普通的文件 cache，还是 so 动态链接库，所以当容器内存不足时，内核通过一些粗略的回收算法回收 page cache，一旦把 so 的缓存页回收掉了，程序在调用相关函数时，会出现严重的性能抖动

因此，通过 mlock，显式的把一些关键的不希望被回收的 page cache 锁定起来，达到保证业务性能的目的

原文：https://zhuanlan.zhihu.com/p/79030485

从事分布式深度学习相关工作的同学，应该都频繁地用到了AllReduce（规约）操作。

但是对于训练框架中集成的AllReduce相关操作，其背后实现的原理是什么？

除了最近几年名声大噪的Ring AllReduce是否还有其他的AllReduce算法？

他们各自的性能开销如何？如何取舍？

本文尝试从一个较为全面的角度来展现AllReduce算法的前世今生，既分析经典算法，也介绍发展中的新秀。

MPI中的AllReduce算法

其实说到AllReduce，很多人脑海里的第一反应都是MPI_AllReduce。作为集合通信中的元老，和高性能计算领域的通信标准，在MPI_AllReduce这个通信原语背后，MPI中实现了多种AllReduce算法。

以openMPI源码为例，里面实现了多种allreduce的算法。具体的算法选择在

ompi/mca/coll/tuned/coll_tuned_decision_fixed.c

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

成功，源于对美学的执著追求

月度归档： 2019 年 5 月

cgroup 内存管理之 mlock

1. mlock 的背景

AllReduce 算法的前世今生

MPI中的AllReduce算法