统计学是借助数据来认识周围世界的一门学科。统计工具可以帮助我们分析某些总体分布的未知特征。

从统计学的角度,我们能够通过抽取总体中的一个随机样本来了解总体。与总体不同,我们可以通过简单随机抽样仅仅调查一部分样本。利用统计学的方法,我们可以得到有关总体特征的初步结论,也可以对总体特征进行统计推断。

贯穿于计量经济学始终的三类统计方法分别是估计、假设检验和置信区间。其中,估计是指利用样本数据得到有关总体分布某一未知特征(如均值)的“最佳数值猜测”。假设检验首先给出关于总体的一个具体假设,然后利用样本数据来验证该假设是否成立。置信区间则是利用样本数据来估计未知总体特征的区间范围。

总体均值估计

假设你想知道总体Y的均值(即\(\mu_Y\)),比如刚毕业的女大学生的平均收入水平。一个常用的方法是利用n个独立同分布观测值\(Y_1,...,Y_n\)(正如前文所述,假如\(Y_1,...,Y_n\)是通过简单随机抽样抽取的,从而它们是独立同分布的)的样本均值\(\bar{Y}\)来估计这一均值\(\mu_Y\)。

估计量及其性质

估计量。利用样本均值\(\bar{Y}\)估计\(\mu_Y\)是常用的做法,但并不是唯一的方法。举例说明,另一种估计\(\mu_Y\)的方法是仅使用第一个观测值\(Y_1\)来估计\(\mu_Y\)。\(\bar{Y}\)和\(Y_1\)都是用来估计\(\mu_Y\)。\(\bar{Y}\)和\(Y_1\)都是用来估计\(\mu_Y\)的样本数据的函数;即二者都是\(\mu_Y\)的估计量。在重复抽样时,\(\bar{Y}\)和\(Y_1\)都会随着样本的不同而取不同的值(得到了不同的估计值)。因此,估计量\(\bar{Y}\)和\(Y_1\)都有抽样分布。实际上,\(\bar{Y}\)和\(Y_1\)只是\(\mu_Y\)众多估计量中的两个例子。

在众多可能的估计量中,如何评价一个估计量比另外一个“更好”?由于估计量是随机变量,因而这个问题可以更准确地描述为:估计量的抽样分布有哪些优良性质?一般而言,我们希望估计量至少在某种平均意义上尽可能地靠近未知的真实值;换言之,估计量的抽样分布应该尽可能紧密聚集在未知值的周围。由此可得到估计量的三个特殊优良性质:无偏性(没有偏差)、一致性和有效性。

估计量是从总体中随机抽取的样本数据的函数。而估计值是基于特定样本数据计算得到的估计量的值。由于抽样是随机的,因此估计量是随机变量,但估计值却是一个非随机的数。

无偏性。假设你多次重复利用随机样本来计算估计量的值。很自然地,你希望得到一个从平均意义上正确的结果。因此,估计量的一个优良性质是其抽样分布的均值等于\(\mu_Y\)。在这种情况下,该估计量是无偏的。用数学语言表述这一概念,即令\(\hat{\mu}_Y\)表述\(\mu_Y\)的某个估计量,如\(\bar{Y}\)或\(Y_1\)。当\(E(\hat{\mu}_Y)=\mu_Y\)时,估计量\(\hat{\mu}_Y\)是无偏的,其中\(E(\hat{\mu}_Y)\)表示抽样分布\(\hat{\mu}_Y\)的均值;否则,\(\hat{\mu}_Y\)是有偏的。

一致性。估计量\(\hat{\mu}_Y\)的另一个优良性质是当样本容量较大时,由样本的随机变化带来\(\hat{\mu}_Y\)取值的不确定性很小。更确切的说,当样本容量增大时,\(\hat{\mu}_Y\)落入真实值\(\mu_Y\)的微小邻域区间内的概率接近于1,即\(\hat{\mu}_Y\)是\(\mu_Y\)的一致性估计量。

方差和有效性。假设存在两个候选估计量\(\hat{\mu}_Y\)和\(\tilde{\mu}_Y\),二者均满足无偏性。你将如何在二者之间做出选择?一种方法是选择一个抽样分布最集中的估计量,即在\(\hat{\mu}_Y\)和\(\tilde{\mu}_Y\)之间选择一个最小方差的估计量。如果\(\hat{\mu}_Y\)的方差比\(\tilde{\mu}_Y\)更小,则称\(\hat{\mu}_Y\)比\(\tilde{\mu}_Y\)更有效。术语“有效性”来源于此。

假设\(\hat{\mu}_Y\)是\(\mu_Y\)的一个估计量,则:

  • \(\hat{\mu}_Y\)的偏差为\(E(\hat{\mu}_Y)-\mu_Y\)。
  • 如果\(E(\hat{\mu}_Y) = \mu_Y\),则\(\hat{\mu}_Y\)是\(\mu_Y\)的一个无偏估计量。
  • 如果\(\hat{\mu}_Y \to \mu_Y\),则\(\hat{\mu}_Y\)是\(\mu_Y\)的一个一致估计量。
  • 令\(\tilde{\mu}_Y\)是\(\mu_Y\)的另一个估计量,且假定\(\hat{\mu}_Y\)和\(\tilde{\mu}_Y\)均是无偏的。如果\(Var(\hat{\mu}_Y) < Var(\tilde{\mu}_Y)\),则称\(\hat{\mu}_Y\)的更有效的。

\(\bar{Y}\)的性质

根据偏差、一致性和有效性三个原则。\(\bar{Y}\)作为\(\mu_Y\)估计量的效果究竟如何?

偏差和一致性。\(\bar{Y}\)的抽样分布已经讨论过,\(E(\bar{Y}) = \mu_Y\),所以\(\bar{Y}\)是\(\mu_Y\)的无偏估计量。类似地,由大数定律可知,\(\bar{Y} \to \mu_Y\),即\(\bar{Y}\)是一致的。

有效性。由于有效性涉及与其他估计量的比较,我们从比较\(\bar{Y}\)和\(Y_1\)的有效性开始。因为\(Y_1, Y_2, ..., Y_n\)是独立同分布的,\(Y_1\)抽样分布的均值为\(E(Y_1) = \mu_Y\),因此\(Y_1\)是\(\mu_Y\)的无偏估计量,其方差为\(Var(Y_1) = \sigma_Y^2\)。根据中心极限定理,\(\bar{Y}\)的方差为\(\frac{\sigma_Y^2}{n}\)。因此,当\(n \geq 2\)时,\(\bar{Y}\)的方差小于\(Y_1\)的方差;也就是说,\(\bar{Y}\)比\(Y_1\)有效。

在\(Y_1, Y_2, ..., Y_n\)所有的加权平均类无偏估计量中,\(\bar{Y}\)是最有效的。换句话说,\(\bar{Y}\)是最佳线性无偏估计量(best linear unbiased estimator,BLUE);即在\(Y_1, Y_2, ..., Y_n\)所有的线性函数类无偏估计量中,\(\bar{Y}\)是最有效的估计量。

\(\bar{Y}\)是\(\mu_Y\)的最小二乘估计量。在所有可能的估计量中,样本均值\(\bar{Y}\)对数据的拟合效果最好,即观测值与\(\bar{Y}\)之间的离差平方和最小。

使下式预测误差\(Y_i -m\)平方和达到最小的估计量m被称为最小二乘估计量(least squares estimator)。\(\bar{Y}\)就是\(\mu_Y\)的最小二乘估计量。

\[\sum_{i=1}^n (Y_i - m)^2\]

随机抽样的重要性

这一假设之所以非常重要,是因为非随机的样本会导致\(\bar{Y}\)有偏。(selection bias)

关于总体均值的假设检验

许多关于周围世界的假设可以简单地被表述为是或否的问题。统计学的任务是基于样本数据提供的证据回答这些问。本节描述了有关总体均值的假设检验(hypothesis tests)。

原假设与备择假设

统计检验的出发点是设定需要检验的假设,被称为原假设(null hypothesis)。假设检验还涉及与原假设进行比较的另一假设,被称为备择假设(alternative hypothesis),即当原假设不成立时,该假设成立。

原假设是指总体均值\(E(Y)\)取某个特定值,记作\(\mu_{Y,0}\)。原假设记作\(H_0\)。因此可表述为

\[H_0: E(Y) = \mu_{Y,0}\]

备择假设指出了当原假设不成立时,什么才是正确的。最为一般化的备择假设是\(E(Y) \neq \mu_{Y,0}\)。因为它允许了E(Y)大于或小于\(\mu_{Y,0}\),所以被称为双边备择假设(two-sided alternative hypothesis)。双边备择假设可写为:

\[H_1: E(Y) \neq \mu_{Y,0}\]

单边备择假设也可能存在,后文将会讨论这一情况。

统计学家面临的问题就是如何利用随机抽样数据来决定是接受原假设\(H_0\),还是拒绝它从而接受备择假设\(H_1\)。如果“接受”原假设,并不意味着统计学家支持它是正确的;相反,它仅仅是被暂时接受了,今后也可能基于其他证据拒绝它。正由于这一原因,统计假设检验可以被表述为拒绝原假设或不能拒绝原假设。

p值

对于任意给定的样本,样本均值\(\bar{Y}\)不太可能恰好等于假设值\(\mu_{Y,0}\)。造成\(\bar{Y}\)和\(\mu_{Y,0}\)存在差异的原因可能是由于真实的均值不等于\(\mu_{Y,0}\)(即原假设是错误的),或者虽然真实值等于\(\mu_{Y,0}\)(原假设正确),但随即抽样使得\(\bar{Y}\)不等于\(\mu_{Y,0}\),而要明确区分这两种可能性则比较困难。然而,虽然样本数据无法提供有关原假设的决定性证据,但可以通过计算概率,即利用衡量抽样不确定性的方法来检验原假设,这一计算过程涉及利用数据计算原假设的p值。

p值(p-value),也称显著性概率(significance probability),是指在原假设为真的情况下,抽取到统计量与原假设值之间的差异程度大于样本计算值与原假设之间差异程度的概率。例如,p值是指抽样得到的\(\bar{Y}\)与原假设值\(\mu_{Y,0}\)的距离大于实际计算的样本均值与原假设值距离的概率。

举例而言,假设你所收集到的最近毕业的大学生样本中,平均工资是22.64美元。则p值是指在原假设(平均工资为20元)为真的条件下,\(\bar{Y}\)的观测值与20美元(原假设下的总体均值)的差异大于实际计算得到的22.64美元与20美元之间差异的概率。如果p值很小,比如为0.5%,则说明在原假设成立的情况下不太可能抽中这种样本;因此,一种合理的结论是原假设不成立。相反,如果p值很大,如40%,则当原假设成立时,很可能仅仅由于随机抽样变化而得到一个22.64美元的样本平均数观测值;因此反对原假设的证据从概率角度上是很微弱的,故不能拒绝原假设。

用数学语言表述p值的概念。令\(\bar{Y}^{act}\)表示利用样本数据实际计算得到的样本均值,\(P_{H_0}\)表示原假设为真时所计算出的概率[即假设\(E(Y_i)=\mu_{Y,0}\)],则:

\[p-value = P_{H_0} [\mid \bar{Y} - \mu_{Y,0} \mid > \mid \bar{Y}^{act} - \mu_{Y,0} \mid]\]

换言之,p值是在原假设下\(\bar{Y}\)的分布位于\(\mu_{Y,0} \pm \mid \bar{Y}^{act} - \mu_{Y,0} \mid\)区域之外的尾部面积。当p值较大时,观测值\(\bar{Y}^{act}\)与原假设一致;当p值较小时,则不一致。

为了计算p值,必须首先知道原假设条件下\(\bar{Y}\)的抽样分布。当样本容量很小时,分布是复杂的。然而,根据中心极限定理,当样本容量较大时,\(\bar{Y}\)的抽样分布近似于正态分布。原假设条件下的正态分布均值为\(\mu_{Y,0}\),因此原假设下\(\bar{Y}\)的分布为\(N(\mu_{Y,0},\sigma_{\bar{Y}}^2)\),其中\(\sigma_{\bar{Y}}^2 = \sigma_{Y}^2 / n\)。只要样本容量足够大,即使不知道Y的总体分布,我们也可以利用大样本下的渐近正态性质来计算p值,但详细的计算仍取决于\(\sigma_Y^2\)是否已知。

当\(\sigma_Y\)已知时p值的计算

当\(\sigma_Y\)已知时,p值计算方法:如果样本容量较大,则原假设下\(\bar{Y}\)的抽样分布为\(N(\mu_{Y,0}, \sigma_{\bar{Y}}^2)\),其中\(\sigma_{\bar{Y}}^2 = \sigma_Y^2 /n\)。因此,在原假设下,\(\bar{Y}\)的标准化形式\(\frac{\bar{Y} - \mu_{Y,0}}{\sigma_{\bar{Y}}}\)服从标准正态分布。因此,p值是指,在原假设条件下,得到一个\(\bar{Y}\)值的概率,其中该\(\bar{Y}\)值与\(\mu_{Y,0}\)之间的距离大于\(\bar{Y}^{act}\)与\(\mu_{Y,0}\)之间的距离;或者说,得到\(\frac{\bar{Y}-\mu_{Y,0}}{\sigma_{\bar{Y}}}\)的绝对值大于\(\frac{\bar{Y}^{act}-\mu_{Y,0}}{\sigma_{\bar{Y}}}\)绝对值的概率。用数学语言表述

\[p-value =P_{H_0} (\mid \frac{\bar{Y}-\mu_{Y,0}}{\sigma_{\bar{Y}}} \mid > \mid \frac{\bar{Y}^{act}-\mu_{Y,0}}{\sigma_{\bar{Y}}} \mid) = 2 \phi (-\mid \frac{\bar{Y}^{act}-\mu_{Y,0}}{\sigma_{\bar{Y}}} \mid)\]

其中,\(\phi\)是标准正态累积分布函数,即p值等于标注正态分布位于\(\pm \frac{\mid \bar{Y}^{act}-\mu_{Y,0} \mid}{\sigma_{\bar{Y}}}\)之外尾部区域的面积。

上式中p值计算依赖于总体分布方差\(\sigma_Y^2\)。在实践中,这一方差通常是未知的(一个例外情况是\(Y_i\)为服从伯努利分布的二值变量,在这种情况下,其方差由原假设确定)。因为一般情况下,在计算p值之前必须首先估计出\(\sigma_Y^2\)的值,所以我们现在回到估计\(\sigma_Y^2\)的问题上。

样本方差、样本标准差与标准误差

样本方差\(S_Y^2\)是总体方差\(\sigma_Y^2\)的估计量,样本标准差\(S_Y\)是总体标准差\(\sigma_Y\)的估计量,而样本均值\(\bar{Y}\)的标注误差是\(\bar{Y}\)抽样分布标准差的估计量。

样本方差和样本标准差。样本方差(sample variance)\(S_Y^2\)为

\[S_Y^2 = \frac{1}{n-1} \sum_{i=1}^n (Y_i - \bar{Y})^2\]

而样本标准差(sample standard deviation)\(S_Y\)是样本方差的平方根。

样本方差的公式看起来和总体方差的公式非常相似。总体方差\(E(Y-\mu_Y)^2\)是\((Y-\mu_Y)^2\)总体分布的均值。同样地,样本方差是\((Y_i - \mu_Y)^2\)的样本均值,\(i=1,2,...,n\),其中做了两点修改:第一,用\(\bar{Y}\)替换\(\mu_Y\);第二,用n-1代替n作为求均值的除数。

进行第一点修改(用\(\bar{Y}\)替换\(\mu_Y\))的原因在于\(\mu_Y\)是未知的,必须对其进行估计;很自然地,\(\mu_Y\)的一个估计量是\(\bar{Y}\)。进行第二点修改(除以n-1而不是n)的原因在于用\(\bar{Y}\)替换\(\mu_Y\)后,在\((Y_i-\bar{Y})^2\)中引入了微小的向下偏差。特别指出的是,\(E[(Y_i - \bar{Y})^2] = \frac{n-1}{n}\sigma_Y^2\)。因此\(E \sum_{i=1}^n (Y_i - \bar{Y})^2 = n E[(Y_i - \bar{Y})^2] = (n-1)\sigma_Y^2\),上式用n-1代替n作为除数修正了这一微小的向下偏差,所以\(S_Y^2\)是无偏差的。

用n-1代替n作为除数被称为自由度(degrees of freedom)修正——这是因为均值的估计用掉了某些信息,即用掉了数据中的1个自由度,因而只剩下了n-1个自由度。

\(\bar{Y}\)的标准误差是指\(\bar{Y}\)的标准差的估计量。\(\bar{Y}\)的标准误差可记作\(SE(\bar{Y})\)或\(\hat{\sigma}_{\bar{Y}}\)。当\(Y_1,Y_2,...,Y_n\)是独立同分布时,有

\[SE(\bar{Y}) = \hat{\sigma}_{\bar{Y}} = S_Y / \sqrt{n}\]

样本方差的一致性。样本方差是总体方差的一致估计量:

\[S_Y^2 \to \sigma_Y^2\]

换句话说,当n较大时,样本方差以很大的概率趋近于总体方差。

\(\bar{Y}\)的标准误差。因为\(bar{Y}\)抽样分布的标准差为\(\sigma_{\bar{Y}} = \sigma_Y / \sqrt{n}\),表明利用\(S_Y/\sqrt{n}\)作为\(\sigma_{\bar{Y}}\)的估计量是合理的。\(\sigma_{\bar{Y}}\)的估计量\(S_Y / sqrt{n}\),被称为\(\bar{Y}\)的标准误差(standard error of \(\bar{Y}\)),记作\(SE(\bar{Y})\)或\(\hat{\sigma}_{\bar{Y}}\)。

当\(\sigma_Y\)未知时p值的计算

因为\(S_Y^2\)是\(\sigma_Y^2\)的一致估计量,所以可以使用标准误差\(SE(\bar{Y})=\hat{\sigma}_{\bar{Y}}\)替代\(\sigma_{\bar{Y}}\)来计算p值。即当\(Y_1, Y_2, ..., Y_n\)是独立同分布时,p值可以用以下公式计算:

\[p-value = 2 \phi (-\mid \frac{\bar{Y}^{act}-\mu_{Y,0}}{SE(\bar{Y})} \mid)\]

t统计量

标准化样本均值\(\frac{\bar{Y}^{act}-\mu_{Y,0}}{SE(\bar{Y})}\)在统计假设检验中起着至关重要的作用,它被称为t统计量(t-statistic)或t比率(t-ratio):

\[t= \frac{\bar{Y}^{act}-\mu_{Y,0}}{SE(\bar{Y})}\]

一般而言,检验统计量(test-statistic)是用来进行假设检验的,而t统计量是检验统计量的一种。

t统计量的大样本分布。当n较大时,\(S_Y^2\)以很高的概率趋近于\(\sigma_Y^2\)。因此,t统计量的分布近似于\(\frac{\bar{Y}^{act}-\mu_{Y,0}}{\sigma_{\bar{Y}}}\)的分布;同时由中心极限定理可知,当n较大时,上述分布近似于标准正态分布。因此,在原假设条件下,当n较大时,t近似地服从于N(0,1)。

p值的公式可以使用t统计量来表示。令\(t^{act}\)表示实际计算出的t统计量,则有:

\[t^{act} = \frac{\bar{Y}^{act}-\mu_{Y,0}}{SE(\bar{Y})}\]

因此,当n很大时,p值可以利用下式计算:

\[p-value = 2 \phi(- \mid t^{act} \mid)\]

给定显著性水平下的假设检验

当进行假设检验时,你可能会犯两类错误:你可能错误地拒绝那些实际上为真的原假设,或者当这些假设不为真时,你却没有拒绝它们。如果你愿意确定一个在容忍范围内犯第一类错误(错误地拒绝了本来为真的原假设)的概率,则进行假设检验时无需计算p值。如果你选择了一个事先给定的拒绝原本为真的原假设的概率(如5%),则当且仅当p值小于5%时才拒绝原假设。

给定显著性水平下的假设检验。假设当p值小于5%时拒绝原假设。因为正态分布处于\(\pm 1.96\)以外的尾部面积是5%,由此可以得到一个简单规则:

\[当\mid t^{act}\mid > 1.96时,拒绝H_0\]

即当通过样本计算出t统计量的绝对值大于1.96时,拒绝原假设。如果n足够大,则原假设条件下的t统计量服从N(0,1)。因此错误地拒绝原假设(拒绝实际上为真的原假设)的概率是5%。

假设检验可能会犯两种类型的错误:第一类错误(type I error)是指拒绝了实际上为真的原假设;第二类错误(type II error)是指没有拒绝实际上错误的原假设。当原假设为真时,我们将事先给定的拒绝原假设的概率(事先给定的犯第一类错误的概率)称为检验的显著性水平(significance level)。检验统计量的临界值(critical value)是指在给定的显著性水平下刚好拒绝原假设的统计量的值。拒绝原假设的统计量的取值集合为拒绝域(rejection region),而无法拒绝原假设的统计量的取值集合为接受域(acceptance region)。原假设为真时错误地拒绝原假设的概率称为检验的水平(size of the test),而当备择假设为真时正确地拒绝原假设的概率称为检验的势(power of the test)。

p值是指当原假设为真时,由于随机抽样的变化而得到的统计量与原假设值之间的差异大于实际观测值与原假设值之间差异的概率。等价地,p值是指能够拒绝原假设的最小显著性水平。

实践中应该选择的显著性水平是多少?在很多情况下,统计学家和计量经济学家通常使用5%这一显著性水平。如果你在5%的显著性水平下去检验大量统计假设,则平均每20次将有1次会错误地拒绝了原假设。但某些时候应该考虑一个更保守的显著性水平。比如,法律案件通常涉及统计学证据,且原假设认为被告是无罪的。那么,我们非常想确定,拒绝原假设(有罪)并非仅仅是样本随机变化的结果。在某些法律设定下,显著性水平被设定为1%,甚至为0.1%,以免犯下这种类型的错误。相似地,如果政府机构正在考虑是否允许一种新药的销售,它们可能会采取一个非常保守的标准,从而使消费者确信市场上的药是有效的。

采用一个极低显著性水平进行假设检验的这一保守行为是有代价的:显著性水平越小,临界值就越大,从而当原假设错误时,更加难以拒绝它。实际上,最保守的方法是从不拒绝原假设,但这就完全失去了假设检验的意义!显著性水平越低,检验的势也越低。

单边备择假设

在某些情况下,备择假设可能是均值大于\(\mu_{Y,0}\)。举例而言,有人认为教育水平对就业有帮助,因此对应的原假设为大学毕业生和非大学毕业生具有相同的收入水平,备择假设不应该是二者的收入水平不同,而是大学毕业生的薪水比非大学毕业生更高。这被称为单边备择假设(one-sided alternative hypothesis),可以写作

\[H_1: E(Y) > \mu_{Y,0}\]

双边备择假设使用的计算p值及假设检验的方法对于单边假设检验同样适用,但有一点需要修正,即t统计量仅在取较大的正值而不是较大的绝对值时拒绝原假设。具体而言,p值是标准正态分布位于计算得到的t统计量右侧的面积。换言之,如果用N(0,1)作为t统计量的渐近分布,则p值为

\[p-value = P_{H_0} (Z > t^{act}) = 1-\phi(t^{act})\]

若以N(0,1)作为t统计量的渐近分布,在5%的显著性水平下,单边检验的临界值为1.64。该检验的拒绝域是所有大于1.64的t统计量值集合。

上式所示的单边假设关注的是超过\(\mu_{Y,0}\)的\(\mu_Y\)取值。如果备择假设变更为\(E(Y) < \mu_{Y,0}\),则前文的讨论除了需要变更符号外依然适用。例如,5%的显著性水平下的拒绝域由小于-1.64的t统计量的值构成。

总体均值的置信区间

由于随机抽样会产生误差,故我们无法仅仅利用样本信息去确定Y总体均值的精确值。但我们可以利用样本数据去构建一个给定概率下包含真实总体均值\(\mu_Y\)的取值集合。这样的集合被称为置信集(confidence set),是\(\mu_Y\)包含在集合之中的给定概率被称为置信水平(confidence level)。\(\mu_Y\)的置信集实际上是均值在上限和下限之间所有可能的取值,因而置信集是一个区间,称为置信区间(confidence interval)。

以下是一种构建总体均值的95%置信集的方法。首先选定均值的某一取值,称其为\(\mu_{Y,0}\)。通过计算t统计量来进行原假设为\(\mu_Y=\mu_{Y,0}\)、备择假设为\(\mu_Y \neq \mu_{Y,0}\)的假设检验;如果统计量的绝对值小于1.96,则在5%的显著性水平下无法拒绝原假设值\(\mu_{Y,0}\),随即在列表中记下这个无法拒绝的\(\mu_{Y,0}\)。然后再任选一个\(\mu_{Y,0}\)进行以上检验;如果不能拒绝,则再将这个值记入列表,不断重复以上过程。实际上,需要尝试所有总体均值的可能取值。如此反复,最终能够得到在5%的显著性水平下双边假设检验不能拒绝的总体均值的所有取值。

这一列表是有用的,因为它概括了基于数据所得到的能够或不能够拒绝(在5%的显著性水平下)的假设值的集合:由于随机抽样会产生误差,故我们无法仅利用样本信息去确定总体均值的精确值。稍做推理便可以发现,该集合包含真实总体均值的概率为95%。

这种构建置信集的方法实际上是不可行的,因为它要求你去检验\(\mu_Y\)所有可能值的原假设。幸运的是,存在一种更加简单的方法。根据t统计量的公式,如果\(\mu_{Y,0}\)的一个试验值与\(\bar{Y}\)的距离大于1.96倍的标准误差,则可以在5%的置信水平下拒绝它。因此,在5%的显著性水平下无法被拒绝的\(\mu_Y\)取值集合是由介于\(\bar{Y}-1.96SE(\bar{Y})\)和\(\bar{Y}+1.96SE(\bar{Y})\)之间的取值所构成的。也就是说,\(\mu_Y\)的95%置信区间为\(\bar{Y}-1.96SE(\bar{Y}) \leq \mu_Y \leq \bar{Y} + 1.96SE(\bar{Y})\)。

到目前为止,所有讨论都集中在双边置信区间。当然,也可以用单边假设检验不能拒绝的\(\mu_Y\)值的集合构造单边置信区间。虽然单边置信区间在统计学的某些分支中有所应有,但在应用计量经济分析中并不常见。

覆盖概率。总体均值置信区间的覆盖概率(coverage probability)是指通过所有可能的随机样本计算出的包含总体真实均值的概率。

不同总体间的均值比较

两个总体均值之差的假设检验

为了刻画两个总体均值之差的检验,令\(\mu_w\)表示刚毕业的女性大学生总体的平均时薪,而令\(\mu_m\)表示刚毕业的男性大学生总体的平均时薪。现考虑原假设为两个总体平均收入之间存在某种程度的差距,如\(d_0\),则原假设和备择假设可以分别写为:

\[H_0: \mu_m-\mu_w =d_0 and H_1: \mu_m - \mu_w \neq d_0\]

如果原假设为男性和女性的收入均值相等,则上式中\(d_0=0\)。

因为两个总体均值是未知的,它们必须通过男女大学生的样本进行估计。假设我们从各自总体中抽取\(n_m\)个男性样本和\(n_w\)个女性样本。令男性样本的平均年收入为\(\bar{Y}_m\),女性样本的平均年收入为\(\bar{Y}_w\)。则\(\mu_m-\mu_w\)的估计量就等于\(\bar{Y}_m - \bar{Y}_w\)。

为了利用\(\bar{Y}_m - \bar{Y}_w\)的原假设\(\mu_m -\mu_w = d_0\),我们需要知道\(\bar{Y}_m - \bar{Y}_w\)的分布。由中心极限定理可知,\(bar{Y}_m\)近似服从分布\(N(\mu_m,\sigma_m^2 / n_m)\),其中\(\sigma_m^2\)为男性收入的总体方差。同样地,\(\bar{Y}_w\)近似服从分布\(N(\mu_w,\sigma_w^2 / n_w)\),其中\(\sigma_w^2\)为女性收入的总体方差。两个正态分布随机变量的加权平均也服从正态分布。因为\(\bar{Y}_m\)和\(\bar{Y}_w\)是由随机抽取的不同样本所计算的,因此它们是独立随机变量。因此,\(\bar{Y}_m - \bar{Y}_w\)服从分布\(N[\mu_m -\mu_w, (\sigma_m^2 / n_m) + (\sigma_w^2 / n_w)]\)。

如果\(\sigma_m^2\)和\(\sigma_w^2\)已知,则可以利用上述的正态分布来计算用于检验原假设\(\mu_m-\mu_w=d_0\)所需的p值。然而,在实践中,总体方差通常是未知的。从而必须进行估计。正如前面章节所介绍的,可以通过样本方差\(s_m^2\)和\(s_w^2\)来估计它们。其中\(s_m^2\)只是使用样本中男生的数据来计算该统计量,同理也可以定义女生的\(s_w^2\)。因此,\(\bar{Y}_m - \bar{Y}_w\)的标准误差为:

\[SE(\bar{Y}_m - \bar{Y}_w) = \sqrt{s_m^2 /n_m + s_w^2 / n_w}\]

这里构造检验原假设的t统计量方法与检验单个总体均值的t统计量类似,即用估计量\(\bar{Y}_m - \bar{Y}_w\)剪去原假设值\(\mu_m-\mu_w\),再除以\(\bar{Y}_m - \bar{Y}_w\)的标准误差。

$$t = \frac{(\bar{Y}_m - \bar{Y}_w) - d_0}{SE(\bar{Y}_m - \bar{Y}_w)}

如果\(n_m\)和\(n_w\)都较大,但原假设为真时,上述t统计量服从标准正态分布。

因为在\(n_m\)和\(n_w\)都较大的情况下,t统计量在原假设下服从标准正态分布,因此双边检验的p值计算与单个总体情形完全相同。

两个总体均值之差的置信区间

单个总体均值的置信区间构造方法可以推广到均值之差\(d=\mu_m - \mu_w\)的置信区间构造中。因为当\(\mid t \mid > 1.96\)时,原假设\(d_0\)的值在5%的显著性水平下被拒绝,故仅当\(\mid t \mid \leq 1.96\)时,\(d_0\)才落入置信集中。

\(d=\mu_m -\mu_w\)的95%置信区间为:

\[(\bar{Y}_m -\bar{Y}_w) \pm 1.96SE(\bar{Y}_m \bar{Y}_w)\]

基于实验数据估计因果效应

在随机对照实验中,从感兴趣的总体中随机选择实验对象(个体,或者根更一般的实体),然后将它们随机分配到接受实验处理的处理组,或者不接受实验处理的对照组。处理组和对照组的样本均值之差便是处理的因果效应估计量。

作为条件期望之差的因果效应

处理的因果效应是指在理想化的随机对照实验中,某一处理对我们感兴趣结果的预期影响。这种影响可以表述为两个条件期望之差。具体地,处理水平x对Y的因果效应(causal effect),即\(E(Y \mid X=x) - E(Y \mid X=0)\),其中\(E(Y\mid X=x)\)是指理想化随机对照实验中Y在处理组(接受处理水平X=x)中的期望值,而\(E(Y \mid X=0)\)是指Y在对照组(接受处理水平X=0)中的期望值。在实验中,因果效应又被称为处理效应(treatment effect)。如果只有两种处理水平(即处理是二值的),则我们可以令X=0代表对照组,而X=1代表处理组。在这种情况下,理想化随机对照实验的因果效应(即处理效应)为\(E(Y\mid X=1) - E(Y \mid X=0)\)。

利用均值之差估计因果效应

如果随机对照实验的处理是二值的,则可以使用处理组和对照组中结果的样本均值之差来估计因果效应。处理无效的假设等价于两者均值相等的假设,因此这时可以比较两个均值之差的t统计量进行检验。两组均值之差的95%置信区间即是因果效应的95%置信区间。

在经济学中,实验往往是高成本且难管理的,同时在某些情况下还涉及道德问题,因此这种实验非常罕见。正因为如此,计量经济学家有时研究“自然实验”,又称准实验,其中某些与处理或个体特征无关的事件使得某些个体得到了处理,就好比它们是随机对照实验的一部分。

样本容量较小时的t统计量

在前面的小节中,t统计量和基于标准正态分布得到的临界值一起被用来进行假设检验和构建置信区间,这是因为当样本容量较大时,中心极限定理保证了采用标准正态分布的合理性。但当样本容量较小时,用标准正态分布去近似t统计量分布的效果并不理想。然而,如果总体本身服从正态分布,检验单个总体均值的t统计量的精确分布就是自由度为n-1的学生t分布,临界值也可以通过学生t分布得出。

t统计量和学生t分布

检验均值的t统计量。利用样本数据\(Y_1, Y_2, ..., Y_n\),可以计算用于检验“Y的均值为\(\mu_{Y,0}\)”这一假设的t统计量。该统计量的公式

\[t = \frac{\bar{Y} - \mu_{Y,0}}{\sqrt{\frac{S_Y^2}{n}}}\]

如果样本容量较大且原假设为真,则一般条件下的t统计量服从标准正态分布。当n较大时,不管Y服从何种分布,用标准正态分布近似t统计量分布是可靠的,但当n较小时,这种近似就不可靠了。t统计量的精确分布依赖于Y的分布,而这可能是非常复杂的。然而,在某种特殊情形下,t统计量的精确分布是相对简单的:如果Y是正态分布的,则t统计量服从自由度为n-1的学生t分布。

检验均值之差的t统计量。即使Y的总体分布是正态的,检验均值之差的t统计量也不会服从学生t分布(学生t分布并不适用,是因为用于标准误差的方差估计量不构成t统计量中服从\(\chi^2\)分布的分母)。

当Y服从正态分布时,基于不同的标准误差公式(即“混合”标准误差公式),可以得到修正后的均值之差的t统计量服从精确的学生t分布。然而,混合标准误差公式仅在两组数据方差相同或每组观测值数量相同的特殊情况下才适用。

将两组数据分别记为m和w,则混合方差估计量为

\[S_{pooled}^2 = \frac{1}{n_m + n_w -2}(\sum_{i=1}^{n_m} (Y_i - \bar{Y}_m)^2 + \sum_{i=1}^{n_w} (Y_i - \bar{Y}_w)^2)\]

其中,第一个求和是针对第m组观测值,而第二个求和是针对第w组观测值,则均值之差的混合标准误差为\(SE_{pooled}(\bar{Y}_m - \bar{Y}_w) = s_{pooled} \times \sqrt{\frac{1}{n_m} + \frac{1}{n_w}}\)。

如果第m组中Y总体服从\(N(\mu_m, \sigma_m^2)\)分布,第w组中Y总体服从\(N(\mu_w, \sigma_w^2)\)分布,两者方差相同\((\sigma_m^2 = \sigma_w^2)\),则使用混合标准误差计算出的t统计量在原假设下服从自由度为\(n_w + n_m -2\)的学生t分布。

使用混合方差估计量\(S_{pooled}^2\)的缺点在于,它仅仅适用于两组总体方差相等的情况。如果总体方差不等,则混合方差估计量是有偏且不一致的。如果总体方差不同,同时使用了混合方差公式,即使数据服从正态分布,原假设下的混合t统计量也并不服从学生t分布。实际上,在大样本条件下它也不服从标准正态分布。因此,除非你有很好的理由去相信总体方差是相同的,否则不应该使用混合标准误差和混合t统计量。

学生t分布在实践中的应用

虽然经济学中很少使用学生t分布,但一些软件使用学生t分布计算p值和置信区间。实践中,这并不构成问题,因为当样本容量较大时,学生t分布和标准正态分布之间的差异是可以忽略不计的。

散点图、样本协方差和样本相关系数

本节将回顾描述变量间关系的三种方法。

散点图

散点图(scatterplot)是关于\(X_i\)和\(Y_i\)的n组观测值的图形,其中每组观测值都被表示为\((X_i, Y_i)\)。

样本协方差和相关系数

我们曾介绍过协方差和相关系数,它们是随机变量X和Y联合概率分布的两个特征。在实践中,由于总体分布是未知的,故我们并不知道总体协方差和相关系数。然而,通过从总体中随机抽取n个样本,根据样本数据\((X_i, Y_i), i=1,2,...,n\),可以估计出总体协方差和相关系数。

样本协方差和相关系数是总体协方差和相关系数的估计量。如同之前讨论过的其他估计量一样,我们可以用样本均值代替总体均值(期望)进行计算,由此得到样本方差(sample covariance,记作\(S_{XY}\))为

\[S_{XY} = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})\]

如同样本方差,上式中平均值也是用n-1代替n作为除数;同样地,这里也要用\(\bar{X}\)和\(\bar{Y}\)分别估计总体均值。当n很大时,除以n或n-1没有太大区别。

样本相关系数(sample correlation coefficient),记为\(r_{XY}\),是指样本协方差和样本标准差之比:

\[r_{XY} = \frac{S_{XY}}{S_X S_Y}\]

样本相关系数度量了由n个观测值所构成的样本中X与Y之间线性关系的强度。如同总体相关系数,样本相关系数也是无量纲的,其取值位于-1~1之间,即\(\mid r_{XY} \mid \leq 1\)。

若对于所有的i均有\(X_i = Y_i\),则样本相关系数等于1;若对于所有的i均有\(X_i = -Y_i\),则样本相关系数等于-1;更一般地,如果散点图是一条直线,则相关系数为\(\pm 1\);若直线向上倾斜,则X与Y之间正相关,且相关系数为1;若直线向下倾斜,则为负相关且相关系数为-1。散点图越接近与直线,相关系数越趋近于\(\pm 1\)。较高的相关系数并不意味着直线的斜率很陡,它仅仅表明,散点图中的点都落在一条直线附近。

样本协方差和相关系数的一致性。和样本方差一样,样本协方差也是一致的。即

\[S_{XY} \to \sigma_{XY}\]

换句话说,大样本下的样本协方差以很高的概率趋近于总体协方差。因为样本方差和样本协方差都是一致的,所以样本相关系数也同样是一致的,即

\[r_{XY} \to corr(X_i, Y_i)\]

相关系数是线性关系的度量。其不能衡量非线性关系。