机器学习中常用的概率分布

内容隐藏

机器学习中常见的分布其实有：

伯努利分布
二项分布
泊松分布
正态分布（高斯分布）

这几种分布之间其实是可以严格推导的，伯努利分布 -> 二项分布 -> 泊松分布 -> 正态分布。此外，前三种分布都属于离散分布，正太分布是连续分布

1. 伯努利分布

伯努利分布是单次随机实验，只有A和B两种结果，例如0和1，或者成功和失败，是由瑞士科学家雅各布·伯努利(1654 – 1705)提出来的，是最简单的离散型概率分布

在现实生活中，有很多类似的场景。例如：抛硬币，要么正面（国徽）要么反面（面值）；购买彩票，要么中奖要么没中奖；打篮球要么投中要么没投中。这些事件都可被称为伯努利试验

我们记伯努利分布成功的概率为 $P, (0<=p<=1)$ ，则失败的概率为 $Q = 1-P$

其概率质量函数为： $P(x)=p^x(1-p)^{1-x}$

其期望值为： $E(x)=\sum xP(x)=0 * q + 1 * p = p$

其方差为： $Var(x)=E[(x-E(x))^2]=\sum (x-p)^2P(x)=pq$

2. 二项分布

二项分布其实就是重复n次的伯努利实验

假设在n次随机伯努利实验中，事件A发生了i次，没有发生的次数是(n-i)次，由于事件之间完全是相互独立的，所以它的概率是

\displaystyle P(X=i) = \binom{n}{i}P^i(1-P)^{n-1}

也记作 $X~B(n,p)$

一般的二项分布是n次独立的伯努利试验的和。它的期望值和方差分别等于每次单独试验的期望值和方差的和

它的期望： $E(X) = np$

它的方差： $D(X) = np(n-p)$

3. 泊松分布

泊松分布是以18～19 世纪的法国数学家西莫恩·德尼·泊松（Siméon-Denis Poisson）命名的，他在1838年时发表。这个分布在更早些时候由贝努里家族的一个人描述过。

当试验的次数趋于无穷大，而乘积np固定时，二项分布收敛于泊松分布。因此参数为λ=np的泊松分布可以作为二项分布B(n,p)的近似，近似成立的前提要求n足够大，而p足够小，但np不是很小

泊松分布的概率函数为：

\displaystyle P(X=k) = \frac {\lambda^k} {k!} e^{-\lambda}

它的期望和方差都是 $\lambda$

泊松分布的产生机制可以通过如下例子来解释

为方便记，设所观察的这段时间为[0,1),取一个很大的自然数n，把时间段[0,1)分为等长的n段：

l_1=[0,\frac {1}{n}], l_2=[\frac {1}{n}, \frac {2}{n}], ..., l_i=[\frac {i-1}{n}, \frac {i}{n}], l_n=[\frac {n-1}{n}, 1]

我们做如下两个假定：

在每段 $l_i$ 内，恰发生一个事故的概率，近似的与这段时间的长 $\frac {1}{n}$ 成正比，可设为 $\frac {\lambda}{n}$ ，当n很大时， $\frac {1}{n}$ 很小时，在 $l_i$ 这么短暂的一段时间内，要发生两次或者更多次事故是不可能的。因此在 $l_i$ ，这段时间内不发生事故的概率为 $1 - \frac {\lambda}{n}$
$l_i,...,l_n$ 各段是否发生事故是独立的

把在[0,1)时段内发生的事故数X视作在n个划分之后的小时段 $l_i,\dots,l_n$ 内有事故的时段数，则按照上述两个假定，X应服从二项分布

B(n, \frac {\lambda}{n})

于是，我们有

P(X=i) = \binom {n} {i} (\frac {\lambda} {n})^i (1-\frac {\lambda} {n})^{n-i}

注意到当 $n \to \infty$

取极限时，我们有

\frac {\binom {n}{i}}{n^i} \to \frac {1}{i!}, (1-\frac {\lambda}{n})^n \to e^{-\lambda}

因此

P(X=i) = \binom {n}{i} (\frac {\lambda}{n})^n (1 - \frac {\lambda}{n})^{n-i} = \frac {e^{-\lambda} \lambda^i} {i!}

从上述推导可以看出：泊松分布可作为二项分布的极限而得到。一般的说，若 $X~B(n,p)$ ，其中n很大，p很小，因而

np = \lambda

不太大时，X的分布接近于泊松分布 $P(\lambda)$

这个事实有时可将较难计算的二项分布转化为泊松分布去计算

4. 正态分布

如果n足够大，那么分布的偏度就比较小。在这种情况下，如果使用适当的连续性校正，那么B(n,p)的一个很好的近似是正态分布

N(np,np(1-p))

n=6、p=0.5时的二项分布及正态近似当n越大（至少20）且p不接近0或1时近似效果更好。不同的经验法则可以用来决定n是否足够大,以及p是否距离0或1足够远,其中一个常用的规则是np和n(1 −p)都必须大于 5

https://img2018.cnblogs.com/blog/1203675/201908/1203675-20190814174717886-1112180392.png

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29

成功，源于对美学的执著追求

机器学习中常用的概率分布

1. 伯努利分布

2. 二项分布

3. 泊松分布

4. 正态分布

发表回复取消回复

成功，源于对美学的执著追求

1. 伯努利分布

2. 二项分布

3. 泊松分布

4. 正态分布

发表回复 取消回复

发表回复取消回复