机器学习中常用的概率分布

机器学习中常见的分布其实有:

  1. 伯努利分布
  2. 二项分布
  3. 泊松分布
  4. 正态分布(高斯分布)

这几种分布之间其实是可以严格推导的,伯努利分布 -> 二项分布 -> 泊松分布 -> 正态分布。此外,前三种分布都属于离散分布,正太分布是连续分布

1. 伯努利分布

伯努利分布是单次随机实验,只有A和B两种结果,例如0和1,或者成功和失败,是由瑞士科学家雅各布·伯努利(1654 – 1705)提出来的,是最简单的离散型概率分布

在现实生活中,有很多类似的场景。例如:抛硬币,要么正面(国徽)要么反面(面值);购买彩票,要么中奖要么没中奖;打篮球要么投中要么没投中。这些事件都可被称为伯努利试验

我们记伯努利分布成功的概率为 P, (0<=p<=1),则失败的概率为Q = 1-P

其概率质量函数为:P(x)=p^x(1-p)^{1-x}

其期望值为:E(x)=\sum xP(x)=0 * q + 1 * p = p

其方差为:Var(x)=E[(x-E(x))^2]=\sum (x-p)^2P(x)=pq

2. 二项分布

二项分布其实就是重复n次的伯努利实验

假设在n次随机伯努利实验中,事件A发生了i次,没有发生的次数是(n-i)次,由于事件之间完全是相互独立的,所以它的概率是

\displaystyle P(X=i) = \binom{n}{i}P^i(1-P)^{n-1}

也记作X~B(n,p)

一般的二项分布是n次独立的伯努利试验的和。它的期望值和方差分别等于每次单独试验的期望值和方差的和

它的期望:E(X) = np

它的方差:D(X) = np(n-p)

3. 泊松分布

泊松分布是以18~19 世纪的法国数学家西莫恩·德尼·泊松(Siméon-Denis Poisson)命名的,他在1838年时发表。这个分布在更早些时候由贝努里家族的一个人描述过。

当试验的次数趋于无穷大,而乘积np固定时,二项分布收敛于泊松分布。因此参数为λ=np的泊松分布可以作为二项分布B(n,p)的近似,近似成立的前提要求n足够大,而p足够小,但np不是很小

泊松分布的概率函数为:

\displaystyle P(X=k) = \frac {\lambda^k} {k!} e^{-\lambda}

它的期望和方差都是\lambda

泊松分布的产生机制可以通过如下例子来解释

为方便记,设所观察的这段时间为[0,1),取一个很大的自然数n,把时间段[0,1)分为等长的n段:

l_1=[0,\frac {1}{n}], l_2=[\frac {1}{n}, \frac {2}{n}], ..., l_i=[\frac {i-1}{n}, \frac {i}{n}], l_n=[\frac {n-1}{n}, 1]

我们做如下两个假定:

  1. 在每段l_i内,恰发生一个事故的概率,近似的与这段时间的长\frac {1}{n}成正比,可设为\frac {\lambda}{n},当n很大时,\frac {1}{n} 很小时,在l_i这么短暂的一段时间内,要发生两次或者更多次事故是不可能的。因此在l_i,这段时间内不发生事故的概率为1 - \frac {\lambda}{n}
  2. l_i,...,l_n各段是否发生事故是独立的

把在[0,1)时段内发生的事故数X视作在n个划分之后的小时段l_i,…,l_n内有事故的时段数,则按照上述两个假定,X应服从二项分布

B(n, \frac {\lambda}{n})

于是,我们有

P(X=i) = \binom {n} {i} (\frac {\lambda} {n})^i (1-\frac {\lambda} {n})^{n-i}

注意到当 n \to \infty

取极限时,我们有

\frac {\binom {n}{i}}{n^i} \to \frac {1}{i!}, (1-\frac {\lambda}{n})^n \to e^{-\lambda}

因此

P(X=i) = \binom {n}{i} (\frac {\lambda}{n})^n (1 - \frac {\lambda}{n})^{n-i} = \frac {e^{-\lambda} \lambda^i} {i!}

从上述推导可以看出:泊松分布可作为二项分布的极限而得到。一般的说,若X~B(n,p),其中n很大,p很小,因而

np = \lambda

不太大时,X的分布接近于泊松分布P(\lambda)

这个事实有时可将较难计算的二项分布转化为泊松分布去计算

4. 正态分布

如果n足够大,那么分布的偏度就比较小。在这种情况下,如果使用适当的连续性校正,那么B(n,p)的一个很好的近似是正态分布

N(np,np(1-p))

n=6、p=0.5时的二项分布及正态近似 当n越大(至少20)且p不接近0或1时近似效果更好。不同的经验法则可以用来决定n是否足够大,以及p是否距离0或1足够远,其中一个常用的规则是np和n(1 −p)都必须大于 5

https://img2018.cnblogs.com/blog/1203675/201908/1203675-20190814174717886-1112180392.png
发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注