机器学习中常见的分布其实有:
- 伯努利分布
- 二项分布
- 泊松分布
- 正态分布(高斯分布)
这几种分布之间其实是可以严格推导的,伯努利分布 -> 二项分布 -> 泊松分布 -> 正态分布。此外,前三种分布都属于离散分布,正太分布是连续分布
1. 伯努利分布
伯努利分布是单次随机实验,只有A和B两种结果,例如0和1,或者成功和失败,是由瑞士科学家雅各布·伯努利(1654 – 1705)提出来的,是最简单的离散型概率分布
在现实生活中,有很多类似的场景。例如:抛硬币,要么正面(国徽)要么反面(面值);购买彩票,要么中奖要么没中奖;打篮球要么投中要么没投中。这些事件都可被称为伯努利试验
我们记伯努利分布成功的概率为 P, (0<=p<=1),则失败的概率为Q = 1-P
其概率质量函数为:P(x)=p^x(1-p)^{1-x}
其期望值为:E(x)=\sum xP(x)=0 * q + 1 * p = p
其方差为:Var(x)=E[(x-E(x))^2]=\sum (x-p)^2P(x)=pq
2. 二项分布
二项分布其实就是重复n次的伯努利实验
假设在n次随机伯努利实验中,事件A发生了i次,没有发生的次数是(n-i)次,由于事件之间完全是相互独立的,所以它的概率是
\displaystyle P(X=i) = \binom{n}{i}P^i(1-P)^{n-1}也记作X~B(n,p)
一般的二项分布是n次独立的伯努利试验的和。它的期望值和方差分别等于每次单独试验的期望值和方差的和
它的期望:E(X) = np
它的方差:D(X) = np(n-p)
3. 泊松分布
泊松分布是以18~19 世纪的法国数学家西莫恩·德尼·泊松(Siméon-Denis Poisson)命名的,他在1838年时发表。这个分布在更早些时候由贝努里家族的一个人描述过。
当试验的次数趋于无穷大,而乘积np固定时,二项分布收敛于泊松分布。因此参数为λ=np的泊松分布可以作为二项分布B(n,p)的近似,近似成立的前提要求n足够大,而p足够小,但np不是很小
泊松分布的概率函数为:
\displaystyle P(X=k) = \frac {\lambda^k} {k!} e^{-\lambda}它的期望和方差都是\lambda
泊松分布的产生机制可以通过如下例子来解释
为方便记,设所观察的这段时间为[0,1),取一个很大的自然数n,把时间段[0,1)分为等长的n段:
l_1=[0,\frac {1}{n}], l_2=[\frac {1}{n}, \frac {2}{n}], ..., l_i=[\frac {i-1}{n}, \frac {i}{n}], l_n=[\frac {n-1}{n}, 1]我们做如下两个假定:
- 在每段l_i内,恰发生一个事故的概率,近似的与这段时间的长\frac {1}{n}成正比,可设为\frac {\lambda}{n},当n很大时,\frac {1}{n} 很小时,在l_i这么短暂的一段时间内,要发生两次或者更多次事故是不可能的。因此在l_i,这段时间内不发生事故的概率为1 - \frac {\lambda}{n}
- l_i,...,l_n各段是否发生事故是独立的
把在[0,1)时段内发生的事故数X视作在n个划分之后的小时段l_i,…,l_n内有事故的时段数,则按照上述两个假定,X应服从二项分布
B(n, \frac {\lambda}{n})于是,我们有
P(X=i) = \binom {n} {i} (\frac {\lambda} {n})^i (1-\frac {\lambda} {n})^{n-i}注意到当 n \to \infty
取极限时,我们有
\frac {\binom {n}{i}}{n^i} \to \frac {1}{i!}, (1-\frac {\lambda}{n})^n \to e^{-\lambda}因此
P(X=i) = \binom {n}{i} (\frac {\lambda}{n})^n (1 - \frac {\lambda}{n})^{n-i} = \frac {e^{-\lambda} \lambda^i} {i!}从上述推导可以看出:泊松分布可作为二项分布的极限而得到。一般的说,若X~B(n,p),其中n很大,p很小,因而
np = \lambda不太大时,X的分布接近于泊松分布P(\lambda)
这个事实有时可将较难计算的二项分布转化为泊松分布去计算
4. 正态分布
如果n足够大,那么分布的偏度就比较小。在这种情况下,如果使用适当的连续性校正,那么B(n,p)的一个很好的近似是正态分布
N(np,np(1-p))n=6、p=0.5时的二项分布及正态近似 当n越大(至少20)且p不接近0或1时近似效果更好。不同的经验法则可以用来决定n是否足够大,以及p是否距离0或1足够远,其中一个常用的规则是np和n(1 −p)都必须大于 5