父与女

这是2001年奥斯卡的最佳短片,全程没有一句对白,却体现了女儿对父亲无限的思念

父亲不堪生活的重担,留下女儿,选择了离去,消失在海洋里

在往后的多年里

女儿从少女到成年,从恋爱到结婚生子

数年如一日的,来到父亲离开的地方,眺望海边,每次都失望而归,仿佛父亲在对她说“回去吧。。。”

时间的车轮不停的转,女儿已经老的骑不动了,但还是倔强的来到这里

她知道这可能是最后一次了,没有犹豫,她走进早已干涸的海面,想去寻找远行的父亲,却在不远处的空地,发现一只搁浅的船,她一眼就认出,这是父亲离开时划的船

她一步步的走上去,缩在上面,仿佛回到了父亲的怀里

在船上,她做了一个梦,梦里父亲回来了,她站起身朝着父亲跑去,像无数次幻想中那样。。。像小时候没分开时那样。。。


DeepSeek-V3 论文解读:MLA, Multi-Head Latent Attention

多头潜在注意力论文:

  1. deepseek-v2: https://arxiv.org/pdf/2405.04434
  2. deepseek-v3: https://arxiv.org/pdf/2412.19437

MLA 最核心的理念就是低秩转换

我们回顾一下最基本的 attention 计算,这里直接省略各种 MHA,MQA,GQA,因为这些 attention 变种并没有本质的改变了 attention 的计算公式,只是简单的共享

Q = W_q x\\ K = W_k x\\ V = W_v x\\ A=softmax(Q^TK / \sqrt{d}) \\ O = AV \\ Y = W_o O \\ MLP

其中 x 是 [1, h] 矩阵,W_k 是 [h, h] 矩阵,因此,QKV 都是 [1, h] 矩阵,推理过程中的 KV 显存占用 sizeof(fp16) * 2 * b * l * h * s = 4bhls,即使使用最先进的 GQA,显存占用也是 4bhls / 8

有没有一种无损的方法,降低 KV 缓存服用,又不影响模型的效果?

deepseek-v3 探索出了一种新思路