概率分布的原理

如何理解统计中的分布?

在贝叶斯学派中,每个随机变量都有一个先验的分布。在机器学习中,选择分布也被看作模型的选择。选择分布是抽象现实世界的方法。不同的现象对应不同的分布。

有些分布很容易理解,例如平均分布。而有些分布很难理解,例如Gamma分布。

而现实中的分布又是多种多样的,如下表:

常用的概率分布

在这里,我们整理常用的分布,以便在看到的时候,能够及时理解它。

现实场景 对应分布
进行一次试验,若成功,则随机变量取值为1,若失败,取值为0。成功概率为p,失败概率为q=1-p。 伯努利分布(0-1分布)
n个独立的是/非试验中,成功次数的概率分布。n=1时,则为伯努利分布。 二项分布 \(X \sim b(n,p)\)
伯努利分布和二项分布的共轭先验分布 Beta分布
将二项分布公式推广至有多类结果的状态 多项分布
多项分布的共轭先验分布 Dirichlet分布
单位时间内随机事件发生的次数的概率分布 泊松分布 \(X \sim P(\lambda)\)

共轭分布

在贝叶斯统计中,如果后验分布与先验分布属于同类,则先验分布与后验分布被称为共轭分布,而先验分布被称为似然函数的共轭先验。

共轭先验的好处主要在于代数上的方便性。共轭先验也有助于获得关于似然函数如何更新先验分布的直观印象。

例如,

\[P(\theta \mid X) = \frac{P(X \mid \theta)P(\theta)}{P(X)}\]

我们可以通过现实情况建模似然函数的分布,例如我们把n个独立的是/非实验看作二项分布,即我们的数据符合\(P(X \mid \theta)\)。但对于二项分布的参数p的分布我们是不知道的,为了计算方便。我们选择与先验分布共轭的分布,作为参数p的分布。即\(P(\theta)\)与\(P(\theta \mid X)\)的分布。

参考文献