机器学习中常用的概率分布

机器学习中常见的分布其实有:

  1. 伯努利分布
  2. 二项分布
  3. 泊松分布
  4. 正态分布(高斯分布)

这几种分布之间其实是可以严格推导的,伯努利分布 -> 二项分布 -> 泊松分布 -> 正态分布。此外,前三种分布都属于离散分布,正太分布是连续分布

1. 伯努利分布

伯努利分布是单次随机实验,只有A和B两种结果,例如0和1,或者成功和失败,是由瑞士科学家雅各布·伯努利(1654 – 1705)提出来的,是最简单的离散型概率分布

在现实生活中,有很多类似的场景。例如:抛硬币,要么正面(国徽)要么反面(面值);购买彩票,要么中奖要么没中奖;打篮球要么投中要么没投中。这些事件都可被称为伯努利试验

我们记伯努利分布成功的概率为 P, (0<=p<=1),则失败的概率为Q = 1-P

其概率质量函数为:P(x)=p^x(1-p)^{1-x}

其期望值为:E(x)=\sum xP(x)=0 * q + 1 * p = p

其方差为:Var(x)=E[(x-E(x))^2]=\sum (x-p)^2P(x)=pq