【Method】统计中的分布

概率分布的原理

如何理解统计中的分布？

在贝叶斯学派中，每个随机变量都有一个先验的分布。在机器学习中，选择分布也被看作模型的选择。选择分布是抽象现实世界的方法。不同的现象对应不同的分布。

有些分布很容易理解，例如平均分布。而有些分布很难理解，例如Gamma分布。

而现实中的分布又是多种多样的，如下表：

常用的概率分布

在这里，我们整理常用的分布，以便在看到的时候，能够及时理解它。

现实场景	对应分布
进行一次试验，若成功，则随机变量取值为1，若失败，取值为0。成功概率为p，失败概率为q=1-p。	伯努利分布（0-1分布）
n个独立的是/非试验中，成功次数的概率分布。n=1时，则为伯努利分布。	二项分布 \(X \sim b(n,p)\)
伯努利分布和二项分布的共轭先验分布	Beta分布
将二项分布公式推广至有多类结果的状态	多项分布
多项分布的共轭先验分布	Dirichlet分布
单位时间内随机事件发生的次数的概率分布	泊松分布 \(X \sim P(\lambda)\)

共轭分布

在贝叶斯统计中，如果后验分布与先验分布属于同类，则先验分布与后验分布被称为共轭分布，而先验分布被称为似然函数的共轭先验。

共轭先验的好处主要在于代数上的方便性。共轭先验也有助于获得关于似然函数如何更新先验分布的直观印象。

例如，

\[P(\theta \mid X) = \frac{P(X \mid \theta)P(\theta)}{P(X)}\]

我们可以通过现实情况建模似然函数的分布，例如我们把n个独立的是/非实验看作二项分布，即我们的数据符合\(P(X \mid \theta)\)。但对于二项分布的参数p的分布我们是不知道的，为了计算方便。我们选择与先验分布共轭的分布，作为参数p的分布。即\(P(\theta)\)与\(P(\theta \mid X)\)的分布。

概率分布的原理

常用的概率分布

共轭分布

参考文献