【Method】计量导论（二）概率论知识回顾

本章所包含的概率论知识是理解回归分析和计量经济学的基础。

随机变量和概率分布

概率、样本空间和随机变量

随机事件的每个互斥的可能后果被称为结果（outcomes）。

结果发生的概率（probability）是指某一个结果在长期内发生次数的比例或频率。

样本空间和事件。所有可能结果的集合被称为样本空间（sample space）。一个事件（event）是样本空间的一个子集，换言之，一个事件是由一个或多个结果组成的集合。

随机变量。一个随机变量是一个随机结果的数值描述。

离散型随机变量（discrete random variable）只取离散值，如0、1、2等；而连续型随机变量（continuous random variable）则可以取连续的值。

离散型随机变量的概率分布

概率分布。离散型随机变量的概率分布（probability distribution）是指由变量的所有可能取值及其对应的发生概率所组成的列表。所有取值的概率之和等于1。

事件的概率。根据概率分布可以计算出一个事件发生的概率。

累积概率分布。累积概率分布（cumulative probability distribution）是指随机变量的取值小于或等于某一特定值的概率。

累积概率分布也可称为累积分布函数（cumulative distribution function），或累积分布（cumulative distribution）。

伯努利分布。离散型随机变量的一个重要特例是随机变量为二元变量的情形，即其结果只有0或1两种。一个二元随机变量被称为伯努利随机变量（Bernoulli random variable），这一随机变量的概率分布被称为伯努利分布（Bernoulli distribution）。

连续型随机变量的概率分布

累积概率分布。一个连续型随机变量的累积概率分布的定义与离散型随机变量相同，即连续型随机变量的累积概率分布为该随机变量小于或等于某个特定值的概率。

概率密度函数。因为连续型随机变量取连续值，从而无法像离散型随机变量那样列出所有可能取值的概率。因此，可以用概率密度函数（probability density function）表示连续型随机变量的概率，即用概率密度函数下方区域的面积来表示随机变量落入两点之间的概率。概率密度函数也称为p.d.f、密度函数（density function）、或简称为密度（density）。

期望值、均值和方差

随机变量的期望值

期望值。随机变量Y的期望值（expected value），记作E(Y)，是指随机变量经过若干次重复实验所得到的长期平均值。离散型随机变量的期望值等于随机变量所有可能结果的加权平均值，权重为每一结果出现的概率。Y的期望值也称为Y的期望（expectation）或Y的均值（mean），记作$\mu_Y$。

伯努利随机变量的期望值
连续型随机变量的期望值

标准差与方差

标准差与方差度量的是概率分布的离散或“偏差”程度。随机变量Y的方差（variance）记作Var(Y)，是Y与其均值的偏差平方的期望值，即$Var(Y)=E[(Y-\mu_Y)^2]$

因为方差包含了Y的平方，所以方差的单位便是Y平方的单位，这使得方差解释起来显得有些奇怪。因此，通常用标准差（standard deviation），即方差的平方根来度量偏差程度，记作$\sigma_Y$。标准差与Y的单位一致。

伯努利随机变量的方差

随机变量线性函数的均值和方差

\[\begin{align} Y &= a + bX \\ \mu_Y &= a + b\mu_X \\ \sigma_Y^2 = b^2\sigma_X^2 \\ \end{align}\]

分布形态的其他度量指标

偏度（用来度量分布的非对称性）和峰度（度量分布尾部粗细或厚薄特征）。均值、方差、偏度、峰度都是基于分布的矩（moments of a distribution）来定义的。

随机变量Y的分布的偏度（skewness）为

\[skewness = \frac{E[(Y-\mu_Y)^3]}{\sigma_Y^3}\]

分子$Y^3$和分母$\sigma_Y^3$的单位相互抵消，从而偏度是无量纲的。换言之，改变Y的单位不会改变其偏度。

分布的峰度（kurtosis）是度量其尾部厚薄程度的指标。因此，它衡量了Y的方差在多大程度上是由其极端值引起的。Y的极端值称为异常值（outlier）。分布的峰度越大，出现异常值的可能性越高。

Y的分布的峰度为

\[kurtosis = \frac{E[(Y-\mu_Y)^4]}{\sigma_Y^4}\]

正态分布的随机变量的峰度为3，所以对一个峰度超过3的随机变量，其尾部厚度一定大于正态分布随机变量。峰度超过3的分布被称为尖峰（leptokurtic），或简称为厚尾。如同偏度一样，峰度同样是无量纲的，所以改变Y的单位不会影响其峰度。

矩。Y的均值E(Y)，通常被称为Y的一阶矩。而Y的平方的期望值，即$E(Y^2)$，被称为Y的二阶矩。通常来说，$Y^r$的期望值被称为随机变量Y的第r阶矩（r-th moment)。换言之，Y的r阶矩为$E(Y^r)$。偏度是随机变量Y的一阶矩、二阶矩、三阶矩的函数，而峰度是Y的一阶矩至四阶矩的函数。

二维随机变量

大多数我们感兴趣的经济问题通常涉及两个或两个以上的随机变量。

联合分布和边缘分布

联合分布。两个离散型随机变量（如X和Y）的联合概率分布（joint probability distribution）是指这两个变量同时取某些确定的值（如x和y）的概率。所有可能的(x,y)组合的概率相加等于1.联合概率分布可以表示为函数$Pr(X=x,Y=y)$。

边缘概率分布。随机变量Y的边缘概率分布（marginal probability distribution）是其概率分布的另一种表述形式。这一术语用于区分单个随机变量Y的分布（边缘分布）及Y与其他随机变量的联合分布。

Y的边缘概率分布可以通过X和Y的联合分布计算得出，即Y取某个特定值时存在的所有可能结果概率的加总。如果X有l种不同的取值，则Y取y时的边缘概率分布为：

\[P(Y=y) = \sum_{i=1}^l P(X=x, Y=y)\]

条件分布

条件分布。在给定随机变量X取某个值的条件下，另一随机变量Y的分布被称为给定X时Y的条件分布（conditional distribution）。当X取x值时，Y取y值的条件概率记作$P(Y=y \mid X=x)$。

\[P(Y=y \mid X=x) = \frac{P(Y=y, X=x)}{P(X=x)}\]

条件期望。给定X的取值，Y的条件期望（conditional expectation）也被称为给定X时Y的条件均值（conditional mean），是指当X取某一特定值时，Y的条件分布的平均值。也就是说，条件期望是指给定X值时Y的期望值，可以通过Y的条件分布计算得到。如果Y有k种取值，则给定X=x时Y的条件均值为

\[E(Y \mid X=x) = \sum_{i=1}^k y_i P(Y=y_i \mid X=x)\]

期望迭代法则。Y的均值等于给定X时Y的条件期望的加权平均值，权重为X的概率分布。

\[E(Y) = \sum_{i=1}^l E(Y \mid X=x_i)P(X = x_i)\]

换言之，Y的期望是给定X时Y的条件期望的期望，即

\[E(Y) = E[E(Y \mid X)]\]

上式通常称为期望迭代法则（law of iterated expectation）。

条件方差。给定X时Y的方差是指给定X时Y的条件分布的方差。换句话说，给定X时Y的条件方差（conditional variance）为

\[Var(Y \mid X=x) = \sum_{i=1}^k [y_i - E(Y \mid X=x)]^2 P(Y=y_i \mid X=x)\]

独立性

若两个随机变量X和Y中某一个变量的取值无法提供关于另一个变量取值的相关信息，则这两个变量是独立分布的，或者说两个变量是独立的。特别地，如果给定X时Y的条件分布与Y的边缘分布相等，则X和Y是独立的。换言之，如果X和Y是独立分布的，则对于x和y所有取值来说，有

\[P(Y=y \mid X=x) = P(Y=y)\]

即如果X和Y是独立的，则

\[P(Y=y,X=x) = P(X=x)P(Y=y)\]

也就是说，两个独立随机变量的联合分布等于它们边缘分布的乘积。

协方差与相关系数

协方差是一种用来度量两个随机变量同时变动程度的指标。X与Y的协方差（covariance）是指期望值$E[(X- \mu_X)(Y- \mu_Y)]$，其中$\mu_X$是X的均值，$\mu_Y$是Y的均值。协方差可以记作Cov(X,Y)或者$\sigma_{xy}$。如果X可以取1个值，而Y可以取k个值，则协方差可以通过以下公式计算：

\[\begin{align} Cov(X,Y) &= \sigma_{xy} = E[(X- \mu_X)(Y - \mu_Y)] \\ &= \sum_{i=1}^k \sum_{j=1}^l (x_j - \mu_X)(y_i - \mu_Y) P(X=x_j, Y=y_i) \\ \end{align}\]

如果X和Y向相同方向变动，则协方差为正，反之为负。如果X和Y是独立的，则协方差为零。

相关系数。由于X和Y的协方差是X和Y对它们均值偏离程度的乘积，从而协方差的单位是X的单位乘以Y的单位。而相关系数是衡量X和Y之间独立程度的另一个指标，它解决了协方差的“单位”问题。具体而言，X与Y的相关系数（correlation）是X和Y的协方差除以它们的标准差

\[corr(X,Y) = \frac{Cov(X,Y)}{\sqrt{Var(X) Var(Y)}} = \frac{\sigma_{XY}}{\sigma_X \sigma_Y}\]

上式中分子与分母单位相同，从而被消去单位的相关系数是无量纲的。如果corr(X,Y)=0，则称随机变量X和Y是不相关的（uncorrelated）。相关系数总是介于-1和1之间。

相关系数与条件均值。如果Y的条件均值不依赖于X，则Y和X是不相关的，即

\[如果E(Y \mid X) = \mu_Y，则Cov(Y,X) = 0，同时corr(X,Y)=0\]

然而，上述结论反过来不一定成立，即当X和Y不相关时，给定X时Y的条件均值不依赖于X的结论不一定成立。换句话说，Y的条件均值有可能是X的函数，但Y与X不相关。

随机变量之和的均值与方差

正态分布、$\chi^2$分布、学术t分布及F分布

在计量经济学中，最常见的概率分布是正态分布、$\chi^2$分布、学术t分布及F分布

正态分布

服从正态分布（normal distribution）的连续型随机变量具有钟型概率密度曲线。均值为$\mu$、方差为$\sigma^2$的正态分布概率曲线是关于均值对称的，且落入$\mu-1.96\sigma$与$\mu+1.96\sigma$之间的概率为95%。

均值为$\mu$、方差为$\sigma^2$的正态分布可以简记为$N(\mu, \sigma^2)$。标准正态分布（standard normal distribution）指的是均值为0，方差为1的正态分布，记作N(0,1)。而服从N(0,1)标准正态分布的随机变量通常被记作Z，同时标准正态累积分布函数通常用希腊字母$\Phi$表示，因此$$P(Z \leq C) = \Phi(C)，其中c是一个常数。

正态分布是对称的，其偏度为0，峰度为3。

多维正态分布。可以将正态分布推广到描述一组随机变量联合分布的情形，这种情况下的分布被称为多维正态分布（multivariate normal distribution），或者，若只考虑两个变量，则称为二维正态分布（bivariate normal distribution）。

多维正态分布有四个重要特征。如果X和Y服从协方差为$\sigma_{XY}$的二维正态分布，且a和b是常数，那么aX+bY服从正态分布，即

\[aX+bY ~ N(a \mu_X + b \mu_Y, a^2 \sigma_X^2 + b^2 \sigma_Y^2 + 2ab\sigma_{XY})\]

更一般地，如果n个随机变量服从多维正态分布，则这些变量的任意线性组合（如它们的和）也服从正态分布。

第二，如果一组变量服从多维正态分布，则其中每个变量的边缘分布都为正态分布。

第三，如果服从多元正态分布的变量协方差为零，则这些变量是独立的。因此，如果X和Y服从二维正态分布且$\sigma_{XY}=0$，则X和Y相互独立。

第四，如果X和Y服从二维正态分布，则给定X时Y的条件期望是X的函数，即$E(Y\mid X=x)=a+bx$，其中a和b是常数。联合正态分布意味着条件期望是线性的，但条件期望为线性并不意味着变量服从联合正态分布。

$\chi^2$分布

$\chi^2$分布通常应用于统计学和计量经济学中某些类型的假设检验。

m个独立的标准正态随机变量的平方和服从$\chi^2$分布，这一分布依赖于m，m也被称为$\chi^2$分布的自由度。例如，令$Z_1,Z_2,Z_3$为三个独立的标准正态随机变量，则有$Z_1^2+Z_2^2+Z_3^2$服从自由度为3的$\chi^2$分布。这一分布的名称来源于用于表示该分布的希腊字母：自由度为m的$\chi^2$分布记作$\chi_m^2$。

学生t分布

令Z为一个标准正态随机变量，W为一个自由度为m的$\chi^2$分布随机变量，且Z和W相互独立，则随机变量$\frac{Z}{\sqrt{W/m}}$服从自由度为m的学生t分布（也称t分布）。这一分布记作$t_m$。

学生t分布依赖于自由度m，因此$t_m$分布的95%分位数依赖于自由度m。学生t分布的钟形形状类似于正态分布，但当m较小时（20或更少），它的尾部更厚，即它的形状比正态分布更“胖”。当m大于等于30时，学生t分布是标准正态分布的一个很好的近似，且$t_\infty$分布等同于标注正态分布。

F分布

自由度为m和n的F分布，记作$F_{m,n}$，指的是自由度为m的$\chi^2$分布随机变量与其自由度m的商，除以另一个与之独立的自由度为n的$\chi^2$分布随机变量与其自由度n的商所服从的分布。从数学角度定义，令W是自由度为m的$\chi^2$分布随机变量，V是自由度为n的$\chi^2$分布随机变量，且W与V相独立，则$\frac{W/m}{V/n}$服从于$F_{m,n}$分布，即F分布的分子自由度为m，分母自由度为n。

在统计学和计量经济学中，F分布的一个重要特性就是当分母自由度足够大时，分布$F_{m,n}$可以用$F_{m,\infty}$近似。在这一极限情形中，分母的随机变量$V/n$表示无限项标准正态随机变量平方和的均值。由于标准正态随机变量的平方的均值为1，则上述均值也为1。因此$F_{m, \infty}$分布可表述为自由度为m的$\chi^2$随机变量除以m的分布，即W/m服从$F_{m, \infty}$分布。

随机抽样与样本均值的抽样分布

随机抽样行为（即从较大总体中随机地抽取样本）使得样本平均数本身成为随机变量。因为样本平均值是随机变量，从而它就有了概率分布，一般称为抽样分布。

随机抽样

简单随机抽样（simple random sampling）是从总体（population）中随机抽取n个样本，且总体中的每一个体都有相等的可能性被抽中。

因为样本中的个体是随机抽取的，从而观测值$Y_1, Y_2, ..., Y_n$本身也是随机的。随机抽样意味着$Y_1, Y_2, ..., Y_n$可以被视为随机变量。在抽样之前，$Y_1, Y_2, ..., Y_n$可以取许多不同的可能值；而在抽样之后，每一个观测就只对应一个特定值。

独立同分布抽样。因为$Y_1, Y_2, ..., Y_n$都是随机地从同一总体中抽取，对于$i=1,...,n，Y_i$的边缘分布都是相同的；而该边缘分布就是抽样总体Y的分布。对于$i=1,...,n$，当$Y_i$有相同的边缘分布时，称$Y_1, Y_2, ..., Y_n$是同分布的（identically distributed）。

在简单随机抽样下，已知$Y_1$的取值无法提供任何关于$Y_2$取值的信息，所以给定$Y_1$取值时$Y_2$的条件分布等同于$Y_2$的边缘分布。换句话说，在简单随机抽样下，$Y_1, Y_2, ..., Y_n$是独立的。

当$Y_1, Y_2, ..., Y_n$从同一总体中抽取并相互独立时，则称它们为独立同分布（或i.i.d）。

样本均值的抽样分布

n个观测值$Y_1, Y_2, ..., Y_n$的样本平均数或样本均值$\bar{Y}$为

\[\bar{Y} = \frac{1}{n} (Y_1 + Y_2 + ... + Y_n) = \frac{1}{n} \sum_{i=1}^n Y_i\]

随机抽样使得样本均值$\bar{Y}$成为一个随机变量。因为样本是随机选取的，所以每一个$Y_i$的值是随机的。又由于$Y_1, Y_2, ..., Y_n$都是随机的，从而它们的平均数也是随机的。当抽取一组不同的样本时，其观测值和样本均值也会不同：一个随机抽样的$\bar{Y}$和另一个随机抽样的$\bar{Y}$不同。

因为$\bar{Y}$是随机的，它将会有一个概率分布。$\bar{Y}$的分布被称为$\bar{Y}$的抽样分布（sampling distribution）。

$\bar{Y}$的均值和方差。假设观测值$Y_1, Y_2, ..., Y_n$是独立同分布的，并且令$\mu_Y$和$\sigma_Y^2$分别表示$Y_i$的均值和方差。一般而言，

\[E(\bar{Y}) = \frac{1}{n} \sum_{i=1}^n E(Y_i) = \mu_Y\]

由于对于所有$i \neq j$而言，$Y_i$和$Y_j$都是独立的，故$Cov(Y_i, Y_j) = 0$。因此，

\[Var(\bar{Y} = Var(\frac{1}{n} \sum_{i=1}^n Y_i) = \frac{1}{n^2} \sum_{i=1}^n Var(Y_i) + \frac{1}{n^2} \sum_{i=1}^n \sum_{j=1}^n (i \neq j)Cov(Y_i, Y_j) = \frac{\sigma_Y^2}{n}\]

$\bar{Y}$的标准差是方差的平方根，即$\frac{\sigma_Y}{\sqrt{n}}$

上述结论对于任意分布的$Y_i$都成立。

抽样分布的大样本近似

从数学意义上去了解$\bar{Y}$的抽样分布是非常重要的。存在两种方法来刻画抽样分布：“精确”法和“近似”法。

“精确”法要求推导出对任意的n都精确成立的抽样分布公式。对任意的n都能够精确描述Y分布情况的抽样分布，被称为$\bar{Y}$的精确分布（exact distribution）或有限样本分布（finite sample distribution）。例如，如果Y为正态分布，且$Y_1,..., Y_n$是独立同分布，则$\bar{Y}$的精确分布是均值为$\mu_Y$、方差为$\frac{\sigma_Y^2}{n}$的正态分布。不幸的是，如果Y的分布不是正态的，则$\bar{Y}$的精确抽样分布通常会非常复杂，同时依赖于Y的分布情况。

“近似”法是指当样本容量较大时，利用数学近似来描述抽样分布。抽样分布的大样本近似分布通常被称为渐近分布（asymptotic distribution）——称其为“渐近”是因为当n趋近于$\infty$时，极限是精确的。在本节中，我们可以看到，即使样本总量只有n=30，这种近似也可能是相当精确的。因为计量经济学中所用到的样本容量通常数以百、千计，所有这些渐近分布能够为精确抽样分布提供一个很好的近似。

本节给出了讨论大样本条件下渐近分布的两个重要工具——大数定律和中心极限定理。大数定律认为，当样本容量很大时，$\bar{Y}$以很高的概率逼近$\mu_Y$。中心极限定理认为，当样本容量很大时，标准化后的样本均值$\frac{\bar{Y} - \mu_Y}{\sigma_{\bar{Y}}}$的抽样分布是渐近正态分布。

虽然精确分布非常复杂，且依赖于Y的分布，但渐近分布是相对简单的。另外，更重要的是，$\frac{\bar{Y} - \mu_Y}{\sigma_{\bar{Y}}}$的渐近正态分布并不依赖于Y的分布。这种渐近正态分布使问题大大简化，也构成了回归理论的基础。

大数定律和一致性

大数定律（law of large numbers）认为，在一般条件下，当n很大时，$\bar{Y}$以很高的概率逼近$\mu_Y$，有时也称“平均值定律”。当我们计算具有相同均值的大量随机变量的平均值时，大值和小值相互抵消，从而样本均值接近于它们共同的均值。

$\bar{Y}$接近于$\mu_Y$的概率随着n的增大而增大的这一性质被称为依概率收敛（convergence in probability），或简称一致性。大数定律认为，在某些条件下，$\bar{Y}$依概率收敛于$\mu_Y$，或等价地，$\bar{Y}$是$\mu_Y$的一致估计量。

满足大数定律所要求的条件是，对于i=1,…,n，$Y_i$是独立同分布的，且$Y_i$的方差$\sigma_Y^2$有界。如果样本是简单随机抽样的，则独立同分布假设成立。关于方差有界的假设认为，$Y_i$的极端值（即大的异常值）是不大可能出现的，也很少会被观测到；否则，这些极端值回影响$\bar{Y}$，是样本均值不再可靠。

中心极限定理

中心极限定理认为，在一般条件下，当n较大时，$\bar{Y}$的分布近似于正态分布。由前文可知，$\bar{Y}$的均值为$\mu_Y$，方差为$\sigma_{\bar{Y}}^2 = \sigma_Y^2 /n$。根据中心极限定理，当n很大时，$\bar{Y}$的分布近似于$N(\mu_Y, \sigma_{\bar{Y}}^2)$。如果样本是从正态分布$N(\mu_Y,\sigma_Y^2)$中随机抽取，则$\bar{Y}$的分布恰好是$N(\mu_Y, \sigma_{\bar{Y}}^2)$。而中心极限定理认为，即使$Y_1, Y_2,...,Y_n$本身不是正态分布，但当n较大时，上述结论依然近似正确。

有人可能会问，多大才算“足够大”呢？换言之，n必须达到多大才能使$\bar{Y}$的分布近似为正态分布？答案是“视情况而定”。正态分布近似的效果取决于构成平均值的$Y_i$的分布。一种极端情况下，加入$Y_i$本身为正态分布，则对于所有n，$\bar{Y}$精确地服从正态分布。相反，如果$Y_i$本身的分布情况与正态分布差别很大时，则要求n=30或更大，才能实现正态分布的近似。