remaper – 第 9 页 – 成功，源于对美学的执著追求

K-均值聚类

Posted on 2018年7月22日2021年7月20日 by remaper in 无监督学习

本文摘自笔记：http://ai-start.com/ml2014/html/week8.html

参考视频: 13 – 2 – K-Means Algorithm (13 min).mkv

K-均值是最普及的聚类算法，算法接受一个未标记的数据集，然后将数据聚类成不同的组。

1）算法的基本过程

K-均值是一个迭代算法，假设我们想要将数据聚类成n个组，其方法为:

首先选择 K 个随机的点，称为聚类中心（cluster centroids）
对于数据集中的每一个数据，按照距离 K 个中心点的距离，将其与距离最近的中心点关联起来，与同一个中心点关联的所有点聚成一类
计算每一个组的平均值
将该组所关联的中心点移动到平均值的位置

重复步骤2-4直至中心点不再变化

无监督学习

Posted on 2018年7月20日2022年5月19日 by remaper in 无监督学习

前面我们学习的，回归和分类，都是监督学习中最经典的学习方法。

监督学习是从有标记的训练数据中推导出预测函数。有标记的训练数据是指每个训练实例都包括输入和期望的输出。一句话：给定数据，预测标签。

而无监督学习则是从无标记的训练数据中推断结论。最典型的无监督学习就是聚类分析，它可以在探索性数据分析阶段用于发现隐藏的模式或者对数据进行分组。一句话：给定数据，寻找隐藏的结构。

比如在分类问题中：

假设我们有一堆样本数据，并且知道每个数据的所属分类，那么通过监督学习，我们就能知道数据的特征和分类之间的关系，并以此建立数学模型。当输入一个新的数据时，我们就能够按照模型预测分类的结果。这就是监督学习

但是更多时候，我们可能是有一堆样本数据，我们甚至不知道这些数据到底可以分成几类。通过无监督学习算法，我们甚至可以自学的尝试为这堆数据分类，并找到其中隐藏的数学模型。这个就是无监督学习

无监督学习算法的应用场景，在生活中非常常见，Ng 在 13 – 1 – Unsupervised Learning_ Introduction (3 min).mkv 中举了一些例子

深度学习中的交叉验证

Posted on 2018年6月17日2021年7月5日 by remaper in 监督学习

第一次看 ng 斯坦福机器学习这门课程的时候，就没看懂交叉验证是怎么回事。

1. 模型选择和交叉验证集

参考视频: 10 – 3 – Model Selection and Train_Validation_Test Sets (12 min).mkv

ng 在讲交叉验证的时候，是这么举例的

假设我们要在10个不同次数的二项式模型之间进行选择：

显然越高次数的多项式模型越能够适应我们的训练数据集，但是适应训练数据集并不代表着能推广至一般情况，我们应该选择一个更能适应一般情况的模型。我们需要使用交叉验证集来帮助选择模型。即：使用60%的数据作为训练集，使用 20%的数据作为交叉验证集，使用20%的数据作为测试集

Top Down Analysis – Performance Tuning

Posted on 2018年5月3日2020年9月3日 by remaper in 性能分析

https://indico.cern.ch/event/280897/contributions/1628888/attachments/515367/711139/Top_Down_for_CERN_2nd_workshop_-_Ahmad_Yasin.pdf

https://agenda.infn.it/event/17237/contributions/35958/attachments/67698/83296/ArchitectureNew_ESC19.pdf

这是2篇非常经典的微架构层面的性能分析相关的材料，作者提出了一套自顶向下的性能分析方法论

微架构的性能分析是一件很困难的事情：

复杂的微架构
应用/负载的多样性
难以处理的数据
时间、资源、优先级等其他更要命的约束

自顶向下分析法的目的就是要从顶层问题出发，层层剖解，直至找到瓶颈所在

cgroup 进程调度之 Borrowed-virtual-time (BVT) scheduling

Posted on 2018年4月14日2024年12月22日 by remaper in 容器核心技术

规避 CFS 的非公平性问题（睡眠补偿等等），99年发表论文，15年heracles论文重新对 bvt 做了改进，从论文作者的名字，我扒到了对应的源码，这哥们把源码放到gist上了

https://gist.github.com/leverich/5913713

论文：https://rcs.uwaterloo.ca/papers/bvt.pdf

1. cfs 睡眠补偿机制

在讲bvt之前，有必要先介绍一下 cfs 的睡眠补偿机制

cfs 调度器的目标是公平，cfs 希望每个进程得到调度的机会是一样的，这个“机会”是用 vruntime 来衡量的

但是如果一个进程一直在睡眠，那么它的 vruntime 是非常小的，当睡眠中的进程被唤醒时，基于 CFS 的调度逻辑，会一直持续运行当前进程，直到 vruntime 不是最小的时候，才会选择下一个进程来调度。

内核为了解决 sleep 进程获得过长时间的问题，增加了一个阈值限制，当进程被唤醒时，取当前运行队列的最小vruntime，并 + 上一个偏移量，这个偏移量默认是 1/2 个调度周期，12ms

overlayfs 差分文件系统原理

Posted on 2018年4月11日2023年4月11日 by remaper in 容器核心技术

overlay文件系统的主要目的是要实现文件系统重叠，docker中的查分机制所依赖的文件系统分层就是依赖这种技术来实现的

1. upper and lower

overlay机制允许将两个文件系统重叠成一个文件系统，其中一个是upper，另一个是lower，对用户的可视顺序是：

upper -> lower

简单来说，如果upper和lower同时存在一个相同的文件，那么用户看到的是upper中的文件，lower中的同路径文件会被自动隐藏

overlay只关心文件，目录是会被穿透的，所以严格来说，overlay重叠的是目录树，而不是“文件系统”

所有的修改都会写入upper，lower是只读的。upper的文件系统必须支持trusted.*扩展属性，所以upper是不支持NFS的

2. 用法

mount -t overlay overlay -olowerdir=/lower,upperdir=/upper,workdir=/work /merged

如果不写upper和workdir，就是只读挂载

mount -t overlay overlay -olowerdir=/lower /merged

逻辑回归的代价函数

Posted on 2018年2月20日2021年6月17日 by remaper in 数学基础

线性回归：2 – 2 – Cost Function (8 min).mkv

逻辑回归：6 – 4 – Cost Function (11 min).mkv

在看吴恩达的机器学习教程时，逻辑回归的代价函数怎么来的一开始没看懂，后来想了一下想明白了，记录一下

我们都知道，线性回归（不管是单变量还是多变量）

docker image 存储剖析

Posted on 2018年2月10日2023年4月11日 by remaper in 容器核心技术

从docker pull开始，看 docker image 的存储过程

# docker pull ubuntu

Using default tag: latest

latest: Pulling from library/ubuntu

5ba4f30e5bea: Pull complete

6874f9870f5f: Pull complete

4c876570bd7d: Pull complete

10fb34ebccea: Pull complete

Digest: sha256:f1b592e2de671105255a0c0b7b2f71a92b829403e8fc845e3482667ecc301780

Status: Downloaded newer image for ubuntu:latest

# docker images

REPOSITORY TAG IMAGE ID CREATED SIZE

ubuntu latest 12543ced0f6f 2 weeks ago 122.4 MB

其中image名字是ubuntu，image的id是12543ced0f6f，在docker中，几乎所有的ID都是通过UUID或者sha256等方式计算出来的

深入理解L1、L2正则化

Posted on 2018年1月14日2021年6月18日 by remaper in 机器学习

原文链接：https://zhuanlan.zhihu.com/p/29360425

正则化（Regularization）是机器学习中一种常用的技术，其主要目的是控制模型复杂度，减小过拟合。最基本的正则化方法是在原目标（代价）函数中添加惩罚项，对复杂度高的模型进行“惩罚”。其数学表达形式为：

式中 $X$ 、 $y$ 为训练样本和相应标签， $w$ 为权重系数向量； $J\left( \right)$ 为目标函数， $\Omega\left( w \right)$ 即为惩罚项，可理解为模型“规模”的某种度量；参数 $\alpha$ 控制控制正则化强弱。不同的 $\Omega$ 函数对权重 $w$ 的最优解有不同的偏好，因而会产生不同的正则化效果。最常用的 $\Omega$ 函数有两种，即 $l_{1}$ 范数和 $l_{2}$ 范数，相应称之为 $l_{1}$ 正则化和 $l_{2}$ 正则化。此时有：

本文将从不同角度详细说明 $l_{1}$ 、 $l_{2}$ 正则化的推导、求解过程，并对 $l_{1}$ 范数产生稀疏性效果的本质予以解释。

文件系统隔离之 – 深入 prjquota，源码剖析

Posted on 2017年12月9日2024年12月22日 by remaper in 容器核心技术, 文件系统

ext4 prjquota 实现原理，参考了 xfs prjquota，并且复用了linux 内核的磁盘配额管理机制的大部分实现，所以源码上分析起来还是非常简单的

linux内核本身就已经支持user、group级别的磁盘配额管理，用法可以参考：https://access.redhat.com/documentation/en-us/red_hat_enterprise_linux/7/html/storage_administration_guide/ch-disk-quotas

从文件系统实现层面来看，文件系统本身并不了解什么是uid，gid，因此disk quota的实现一定是在raw file system 之上的。正因为是如此，所以 prjquota 得以复用原有 disk quota 的大量实现，之需要在原有基础之上，扩展一个新的 quota 类型而已

具体内核提交的 patch：https://lore.kernel.org/patchwork/patch/541891/

4.14 内核时，已经进入主干，因此可以参考：https://lxr.missinglinkelectronics.com/linux+v4.14/fs/ext4/

简述一下其基本设计：

在 super block 中，有一块专门用来存储 project id 用量的元数据区
每个文件，属于哪个 project id，是记录在文件的 xattr 属性里面的（正是因为 ext4 文件系统支持 xattr 扩展，所以才很方便的移植这个特性）
文件写入的时候，先查找这个文件的 project id，然后判断当前 project 的 usage + 文件的增量的大小，是否超过 project 的 hardlimit，如果超过，返回 EDOUT，文件写入失败

2025 年 12 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31