根据上一章的讨论,多元回归分析提供了一种减少遗漏变量偏差问题的方法,即在回归模型中增加解释变量从而控制这些解释变量的影响。多元回归模型的系数可通过OLS估计,由于不同样本下的估计量有所不同,因此和其他估计量一样,OLS估计量也具有抽样不确定性。

本章将利用标准误差、假设检验和置信区间等方法定量分析OLS估计量的抽样不确定性。与一元回归模型相比,多元回归中新出现的问题是同时涉及两个或多个回归系数的假设,检验这种“联合”假设需要用到一种新的检验统计量,即F统计量。

单个系数的假设检验和置信区间

本节将介绍多元回归模型中单个系数标准误差的计算、假设检验以及置信区间的构造方法。

OLS估计量的标准误差

回顾一元回归的情形,我们用样本均值代替期望从而计算OLS估计量的方差,即\(\hat{\sigma}_{\hat{\beta}_1}^2\)。在最小二乘假设条件下,大数定理意味着样本均值收敛于其对应的总体均值,因此有\(\hat{\sigma}_{\hat{\beta}_1}^2 / \sigma_{\beta_1}^2 \to 1\)。\sigma}_{\hat{\beta}_1}^2的平方根即为\(\hat{\beta}_1\)的标准误差\(SE(\hat{\beta}_1)\),而\(SE(\hat{\beta}_1)\)正是\(\hat{\beta}_1\)的标准差的估计量。

上述结论都可以直接推广到多元回归中。第j个回归系数的OLS估计量\(\hat{\beta}_j\)的标准差可用其标准误差\(SE(\hat{\beta}_j)\)来估计,利用矩阵很容易得到该标准误差的表达式。需要注意的是,一元回归和多元回归的标准误差在概念上并没有区别。OLS估计量的核心思想是,无论回归中有一个、两个还是多个解释变量,估计量在大样本条件下的正态性和标准差估计量的一致性都不会改变。

单个系数的假设检验

我们可能想要检验第j个解释变量系数\(\beta_j\)的真值等于某个特定值(如\(\beta_{j,0}\))。其中,原假设的取值\(\beta_{j,0}\)或来自经济理论,或者来自实际应用的决策问题。如果备择假设是双边的,则这两个假设的数学表述为

\[H_0: \beta_j = \beta_{j,0}; H_1: \beta_j \neq \beta_{j,0}\]

(1) 计算\(\hat{\beta}_j\)的标准误差\(SE(\hat{\beta}_j)\)

(2) 计算t统计量

\[t = \frac{\hat{\beta}_j - \beta_{j,0}}{SE(\hat{\beta}_j)}\]

(3) 计算p值

\[p-value = 2 \phi (- \mid t^{act} \mid)\]

其中\(t^{act}\)为实际计算的t统计量的值。当p值小于0.05,或等价地,\(\mid t^{act} \mid > 1.96\)时,在5%的显著性水平下拒绝原假设。

回归软件一般会自动计算标准误差、t统计量和p值。

单个系数的置信区间

多元回归模型中构造置信区间的方法与一元回归模型相同。

在控制其他解释变量不变的情况下,系数\(\beta_j\)的95%双边置信区间表示该区间包含\(\beta_j\)真值的概率为95%,即在所有可能的随机样本构造的置信区间中有95%包含了\(\beta_j\)的真值。等价地,它是在5%的显著性水平下,双边假设检验不能拒绝的\(\beta_j\)的取值集合。当样本容量足够大时,95%置信区间为

\[\beta_j的95%置信区间 = [\hat{\beta}_j - 1.96SE(\hat{\beta}_j), \hat{\beta}_j + 1.96SE(\hat{\beta}_j)]\]

上述置信区间的构造方法都依赖于OLS估计量\(\hat{\beta}_j\)在大样本下的渐近正态性。因此,这些量化抽样不确定性的方法只有在大样本下才能使用。

联合假设的检验

本节将介绍多元回归系数的联合假设的表述及检验所用的F统计量。

两个或多个系数的假设检验

联合原假设。一般来说,联合假设(joint hypothesis)是指对回归系数施加两个或两个以上约束的假设。考虑如下形式的联合原假设和备择假设:

\[H_0: \beta_j = \beta_{j,0}, \beta_m = \beta_{m,0}, ..., 共q个约束\] \[H_1: H_0的q个约束中至少有一个不成立\]

式中,\(\beta_j, \beta_m, ...\)表示不同的回归系数,\(\beta_{j,0}, \beta_{m,0}, ...\)表示原假设下这些系数的取值。

为什么不能逐个检验系数?虽然看似可以利用常用的t统计量逐个检验每个约束从而检验联合假设,但下述计算表明这种方法并不靠谱。具体地,假设你对联合假设\(\beta_1 = 0 且\beta_2 = 0\)感兴趣,令\(t_1\)表示检验原假设\(\beta_1=0\)的t统计量,\(t_2\)表示检验原假设\(\beta_2=0\)的t统计量。若逐个检验,当\(t_1\)或\(t_2\)的绝对值超过1.96时拒绝联合原假设,将会怎样?

由于这个问题涉及两个随机变量\(t_1\)和\(t_2\),其解答需要知道\(t_1\)和\(t_2\)的联合抽样分布。在大样本下\(\hat{\beta}_1\)和\(\hat{\beta}_2\)服从联合正态分布,因此在联合原假设下,t统计量\(t_1\)和\(t_2\)服从二维正态分布,其中每个t统计量的均值为零且方差为1。

首先考虑两个t统计量不相关,即相互独立的情况。逐个检验时检验的水平是多少即当原假设为真时,拒绝原假设的概率为多少?超过5%!在这种特殊情况下,我们可以准确计算出这种方法的拒绝概率。只有当\(\mid t_1 \mid \leq 1.96\)且\(\mid t_2 \mid \leq 1.96\)时不能拒绝原假设,又由于t统计量相互独立,则\(P(\mid t_1 \mid \leq 1.96且\mid t_2 \mid \leq 1.96) = P(\mid t_1 \mid \leq 1.96) \times P(\mid t_2 \mid \leq 1.96) = 0.95^2 = 90.25%\),所以当原假设为真时,拒绝原假设的概率为\(1-0.95^2 = 9.75%\)。这种逐个检验的方法增加了拒绝原假设的机会,当第一个t统计量无法拒绝原假设时,还可以尝试第二个t统计量,从而非常容易拒绝原假设。

如果解释变量相关,则情况将更加复杂。逐个检验方法的显著性水平取决于解释变量间的相关系数。由于逐个检验方法的检验水平存在问题,即原假设为真时的拒绝概率不等于合意的显著性水平,因此我们需要采用新的方法。

一种途径是改进逐个检验的方法,使其采用不同的临界值以确保总显著性水平等于合意的显著性水平,这种方法称为Bonferroni方法。其优点是应用广泛,缺点是检验的势较低,即在备择假设实际上位真的,它经常无法拒绝原假设。

幸运的是,还有一种更为有效的,特别是解释变量高度相关时检验联合假设的方法,即基于F统计量的检验方法。

F统计量

F统计量(F-statistic)可用于检验回归系数的联合假设。现代回归软件中都编入了F统计量的公式。我们先讨论两个约束条件的情形,然后再推广到q个约束的一般情形。

两个约束的F统计量。当联合原假设具有两个约束\(\beta_1=0\)和\(\beta_2=0\)时,F统计量通过下述公式将两个t统计量\(t_1\)和\(t_2\)联系在一起:

\[F =\frac{1}{2}(\frac{t_1^2 + t_2^2 - 2 \hat{\rhe}_{t_1, t_2} t_1 t_2}{1- \hat{\rhe}_{t_1, t_2}^2})\]

式中,\(\hat{\rhe}_{t_1, t_2}\)为两个t统计量间相关系数的估计量。

为了理解上式中的F统计量,首先假定我们已知t统计量不相关,因而可以去掉包含\(\hat{\rhe}_{t_1, t_2}\)的项,此时上式化简为\(F=\frac{1}{2}(t_1^2 + t_2^2)\),即F统计量为t统计量平方和的均值。在原假设下,\(t_1\)和\(t_2\)是相互独立的标准正态随机变量(因为我们已假设t统计量之间不相关),F统计量服从\(F_{2,\infty}\)分布。在\(\beta_1\)非零或\(\beta_2\)非零(或二者均非零)的备择假设下,若\(t_1^2\)或\(t_2^2\)(或二者)很大将导致检验拒绝原假设。

一般情况下,t统计量之间是相关的,F统计量的公式修正了这种相关性。通过该修正使得在原假设下,无论t统计量是否相关,F统计量在大样本下都服从\(F_{2,\infty}\)分布。

q个约束的F统计量。在原假设下,F统计量在大样本情况下服从\(F_{q,\infty}\)分布,即在大样本下,当原假设成立时,有

\[F统计量服从F_{q,\infty}分布\]

因此,对特定的q和所需的显著性水平,可以从\(F_{q,\infty}\)分布表中查到F统计量的临界值。

利用统计软件计算异方差-稳健的F统计量。如果用异方差-稳健标准误差计算F统计量,则无论误差项是同方差还是异方差,原假设成立和大样本条件下F统计量都服从\(F_{q,\infty}\)。大多数统计软件都默认计算同方差适用的标准误差,因此在某些软件包中你必须选择“稳健”的选项才会利用异方差-稳健的标准误差(或者更一般地,“协方差矩阵”的异方差-稳健估计值)计算F统计量。

利用F统计量计算p值。利用\(F_{q,\infty}\)分布信息可计算F统计量的p值。令\(F^{act}\)代表实际计算得到的F统计量,由于原假设成立条件下F统计量在大样本时服从\(F_{q,\infty}\)分布,因此p值为

\[p-value = P[F_{q,\infty} > F^{act}]\]

上式中的p值可通过查\(F_{q,\infty}\)分布表得到。

“整体”回归F统计量。“整体”回归的F统计量检验的是所有斜率系数均为零的联合假设,即原假设和备择假设为

\[H_0: \beta_1=0, \beta_2=0,...,\beta_k=0; H_1:至少存在一个j使得\beta_j \neq 0, j=1,...,k\]

在该原假设下,尽管截距(在原假设下是\(Y_i\)的均值)可能不为零,但所有解释变量都无法解释\(Y_i\)的任何变化。整体回归F统计量是在原假设下计算的F统计量。在大样本情况下,当原假设为真时,整体回归F统计量服从\(F_{k,\infty}\)分布。

q=1时的F统计量。当q=1时,F统计量只检验单个约束,即联合原假设退化为单个回归系数的原假设,此时F统计量为t统计量的平方。

同方差适用的F统计量

我们正在讨论的问题可采用另一种表述方式:放松原假设的q个约束能否显著提高回归的拟合优度呢?我们清楚,当原假设为真时,这种拟合效果的改善不可能仅仅是随机抽样变化导致的结果。这一重新表述表明,F统计量和回归\(R^2\)之间存在某种联系:大的F统计量似乎对应着\(R^2\)的大幅增加。事实上,如果误差\(u_i\)是同方差的,这种直观表述可用精确的数学公式表示。具体来看,如果误差项是同方差的,F统计量可以用回归拟合效果的改善程度表示,而这种改善用回归残差平方和的减小或回归\(R^2\)的增大来度量。因为该统计量只有在误差项为同方差时才是可靠的,所以称这一F统计量为同方差适用的F统计量。相比而言,异方差-稳健F统计量,无论误差项是同方差还是异方差时都是可靠的。尽管同方差适用的F统计量受到很大限制,但其简单的公式能让我们清楚地认识到F统计量的作用。

同方差适用的F统计量可基于两个回归残差平方和计算得到。第一个回归称为受约束回归(restricted regression),其假定原假设为真。第二个回归称为无约束回归(unrestricted regression),其假定备择假设为真。如果无约束回归中的残差平方和远小于受约束回归中的残差平方和,则拒绝原假设。

同方差适用的F统计量(homoskesdasticity-only F-statistic)由下式给出:

\[F = \frac{(SSR_{restricted} - SSR_{unrestricted}) /q}{SSR_{unrestricted} / (n-k_{unrestricted} -1)}\]

式中,\(SSR_{restricted}\)为受约束回归的残差平方和;\(SSR_{unrestricted}\)为无约束回归的残差平方和;q为原假设下约束条件的个数;\(k_{unrestricted}\)为无约束回归中的解释变量的个数。

基于以上两个回归的\(R^2\)可以得到同方差适用的F统计量的一个等价公式:

\[F = \frac{(R_{unrestricted}^2 - R_{restricted}^2) /q}{(1-R_{unrestricted}^2) / (n-k_{unrestricted} -1)}\]

如果误差项为同方差,则随着样本容量n的增大,利用上式得到的同方差适用的F统计量与异方差-稳健的F统计量之间的差异趋近于零。因此,若误差项为同方差,当原假设成立时,同方差适用的F统计量在大样本下服从\(F_{q,\infty}\)分布。

这些公式易于计算,且有很好的直观解释。但可惜的是,这些公式只能应用于误差项为同方差的情形。由于同方差只是一种特殊情形,在经济数据或其他社会科学数据的应用中很少出现,因此在实际应用中,用同方差适用的F统计量替代异方差-稳健的F统计量得到的结果并不令人满意。

当n较小时应用同方差适用的F统计量,在小样本下,与异方差-稳健F统计量的相差较大。

涉及多个系数的单约束检验

某些经济理论表明,单个约束可能涉及两个或多个回归系数。例如,理论可能意味着原假设是\(\beta_1=\beta_2\)的形式,即第一个和第二个解释变量的影响相同。在这种情况下,原假设的备择假设为两个系数不相等:

\[H_0: \beta_1 = \beta_2; H_1: \beta_1 \neq \beta_2\]

这个原假设只有一个约束,则q=1,但是该约束涉及多个系数(\(\beta_1\)和\(\beta_2\))。为了检验这一假设,我们需要修正现有的方法。具体而言,有两种检验方法,但采用哪种方法更简便则取决于你所使用的软件。

方法一:直接检验约束。一些统计软件包中有专门用于检验类似约束的命令,其采用F统计量,且q=1,因此在原假设下该统计量服从\(F_{1,\infty}\)分布。

方法二:变换回归。如果统计软件不能直接检验此类约束,那么我们可以通过一个技巧来检验上式中的假设,这种方法通过重新表示原来的回归方程,将约束转化为单个系数的约束。为了具体地说明这一方法,假设回归模型中只有两个解释变量\(X_{1i}\)和\(X_{2i}\),则总体回归具有如下形式:

\[Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + u_i\]

接下来介绍这个技巧:减去再加上\(\beta_2 X_{1i}\),可得\(\beta_1 X_{1i} + \beta_2 X_{2i} = \beta_1 X_{1i} -\beta_2 X_{1i} + \beta_2 X_{1i} + \beta_2 X_{2i} = (\beta_1 - \beta_2) X_{1i} + \beta_2(X_{1i} + X_{2i}) = \gamma_1 X_{1i} + \beta_2 W_i\),其中\(\gamma_q = \beta_1 - \beta_2, W_i = X_{1i} + X_{2i}\)。于是总体回归式可改写为

\[Y_i = \beta_0 + \gamma_1 X_{1i} + \beta_2 W_i +u_i\]

由于该方程中的系数\(\gamma_1\)满足\(\gamma_1 = \beta_1 - \beta_2\),故在原假设下有\(\gamma_1 = 0\),而在备择假设下有\(\gamma_1 \neq 0\)。因此通过转化,我们将涉及两个系数的但约束转化为一个回归系数的约束。

因为当前的约束只涉及一个回归系数\(\gamma\),因此可以利用t统计量检验原假设。在实际应用中,先将原有的两个解释变量相加得到新的解释变量\(W_i\),再估计\(Y_i\)对\(X_{1i}\)和\(W_i\)的回归,则系数之差\(\beta_1-\beta_2\)的95%置信区间为\(\hat{\gamma}_1 \pm 1.96SE(\hat{\gamma}_1)\)。

利用相同的技巧可将这种方法推广到回归模型的其他约束。

第一种方法中的F统计量等于第二种方法中t统计量的平方,从这种意义上说,两种方法是等价的。

推广到q>1的情形。原假设中有q个约束,一般其中某些(甚至全部)约束可能涉及多个系数。F统计量可以推广到这类联合假设中,F统计量可以采用q=1时所介绍的两种方法进行计算,至于实践中采用哪种方法比较好则取决于你所使用的回归软件。

多个系数的置信集

本节将研究两个或多个回归系数的置信集构造方法。该方法类似于利用t统计量构造单个系数置信区间的方法,但多个系数的置信集是基于F统计量来构造的。

两个或多个系数的95%置信集(95% confidence set)是指以95%的概率包含这些系数真值的集合,因此置信集是单个系数的置信区间在两个或多个系数时的推广。

计算95%置信区间是找出5%的显著性水平下t统计量不能拒绝的系数取值集合,该方法也可以推广到多个系数的情形。具体而言,假设你想构造两个系数\(\beta_1\)和\(\beta_2\)的置信集。我们已经介绍了如何利用F统计量检验联合原假设:\(\beta_1 = \beta_{1,0}且 \beta_2 = beta_{2,0}\)。假设你想在5%的显著性水平下检验所有\(\beta_{1,0}\)和\(\beta_{2,0}\)的可能取值,对每一组\((\beta_{1,0}, \beta_{2,0})\)的可能取值计算F统计量,如果大于5%的显著性水平下的临界值3.00,则拒绝原假设。由于检验中的显著性水平为5%,因而有95%的样本不能拒绝\(\beta_1\)和\(\beta_2\)的总体真值。因此,利用F统计量在5%的显著性水平下不能拒绝的取值集合便构成了\(\beta_1\)和\(\beta_2\)的95%置信集。

尽管这种尝试所有\(\beta_{1,0}\)和\(\beta_{2,0}\)的可能取值的方法在理论上可行,但在实际应用中使用置信集的公式要简单得多。这个包含任意多个系数的置信集公式是基于F统计量计算得到的。当只有两个系数时,得到的置信集是一个椭圆。

多元回归的模型设定

确定多元回归模型中应包含的解释变量(或者说选择回归模型的设定形式),是很有挑战性的任务,在这方面并不存在通用规则可循。但不必失望,我们仍有一些原则可以参考。首先应从预防遗漏变量偏差的角度思考,依靠你实证分析方面的专业知识,着重获得你感兴趣变量的因果效应的无偏估计,不应仅依赖拟合优度指标(例如\(R^2\)或\(\bar{R}^2\))。

多元回归中的遗漏变量偏差

在多元回归模型中,如果某个遗漏变量是被解释变量的决定因素之一,且与至少一个解释变量相关,则该回归模型系数的OLS估计量存在遗漏变量偏差。

当满足一下两个条件时,遗漏变量偏差产生:

(1) 回归模型中至少有一个解释变量与遗漏变量相关。

(2) 遗漏变量必须是被解释变量Y的一个决定因素。

从数学角度来看,如果遗漏变量偏差的两个条件都成立,则至少有一个解释变量与误差项相关。这意味着给定\(X_{1i}, ..., X_{ki}\)时\(u_i\)的条件期望非零,违背了第一个最小二乘假设。其后果是,即使样本容量很大,遗漏变量偏差仍存在,即遗漏变量偏差的存在意味着OLS估计量是不一致的。

多元回归中控制变量的作用

迄今为止,我们还未明确区分想要估计其因果效应的变量(即我们感兴趣的变量)与控制变量。接下来,本节将详细讨论二者的区别。

控制变量(control variable)不是我们感兴趣的变量,而是在回归中控制某些因素不变的回归变量,如果忽略这些因素,会使得我们感兴趣的因果效应的估计产生遗漏变量偏差。多元回归的最小二乘假设对所有回归变量的处理都是一样的,本节将引入第一个最小二乘假设的另一种表述,以明确区分感兴趣的变量和控制变量。如果该假设成立,则感兴趣变量影响的OLS估计量是无偏的,但控制变量系数的OLS估计量通常是有偏的,且不能解释为因果效应。

为了用数学语言准确地描述感兴趣变量和控制变量的区别,我们将用“条件均值独立”假设替换第一个最小二乘假设(条件均值为零的假设)。考虑一个二元回归,\(X_{1i}\)为感兴趣的变量,\(X_{2i}\)为控制变量。条件均值独立(conditional mean independence)要求\(X_{1i}、X_{2i}\)给定的条件下,\(u_i\)的条件期望不依赖于(独立于)\(X_{1i}\),但可以依赖于\(X_{2i}\)。即

\[E(u_i \mid X_{1i}, X_{2i}) = E(u_i \mid X_{2i})(条件均值独立)\]

在条件均值独立的假设下,感兴趣变量影响的OLS估计量是无偏的,可以解释为因果效应。但控制变量系数的OLS估计量通常是有偏的,且不能解释为因果效应。

条件均值独立的思想是,一旦你控制了\(X_{2i}, X_{1i}\)就可以看作随机分配的变量,即误差项的条件均值不再依赖于\(X_{1i}\)。把\(X_{2i}\)作为控制变量加入模型中使得\(X_{1i}\)与误差项不相关,从而保证OLS可以估计出\(X_{1i}\)的变化对\(Y_i\)的因果效应。然而,控制变量仍然与误差项相关,其系数仍存在遗漏变量偏差,因此不能解释为因果效应。

从字面上看,控制变量这个词不易理解。将控制变量\(X_{2i}\)加入回归模型是因为它能控制影响\(Y_i\)且与\(X_{1i}\)相关的遗漏因素,或者因为它本身可能(但不一定)具有因果效应。因此,由于\(X_{2i}\)同时控制了\(X_{2i}\)的直接影响和与\(X_{2i}\)相关的因素,从而\(X_{1i}\)的稀疏即为\(X_{1i}\)对\(Y_i\)的影响。为了简便起见,常常将\(X_{1i}\)的系数表述为:控制\(X_{2i}\)不变的条件下,\(X_{1i}\)对\(Y_i\)的影响。为了确保条件均值独立假设成立,可以在模型中增加控制变量,以同时控制其自身的直接因果效应(如果有的话)及相关遗漏变量的影响。

理论和实际应用中的模型设定

理论上讲,如果能获得遗漏变量的数据,则可以通过在回归模型中加入遗漏变量来解决遗漏变量偏差问题;但在实际应用中,决定是否在模型中引入某个变量非常困难,需要进行判断。

我们解决遗漏变量偏差问题的方法分为两步。第一步,综合利用专业判断、经济理论与数据收集方法等知识,选择核心或基础回归变量集合,这种使用基础回归变量集合的回归有时被称为基础设定形式(base specification)。基础设定形式应包括最感兴趣的变量及根据专业判断和经济理论选取的控制变量,但专业判断和经济理论很少起决定性作用,并且根据经济理论选取的变量其数据通常难以获得。因此,第二步是列出候选的备选设定形式(alternative specification),即备选的回归变量集合。如果感兴趣变量的系数估计值和所有备选设定形式中的大小差不多,则说明利用基础设定形式得到的估计值是可靠的。但如果感兴趣的变量的稀疏估计值在不同的设定形式中变化很大,则说明最初的设定形式中存在遗漏变量偏差。

\(R^2\)和调整\(R^2\)在实际应用中的解释

\(R^2\)或\(\bar{R}^2\)接近于1表示样本中的解释变量能够很好地预测被解释变量的取值,这使得两个统计量能够成为评价模型预测能力的有用工具,但现实中我们很容易会过分地解读这两个工具。

在使用\(R^2\)或\(\bar{R}^2\)时,要注意以下四个可能出现的“陷阱”:

(1)\(R^2\)或\(\bar{R}^2\)的增大并不一定表明加入模型的变量在统计上显著。无论解释变量是否在统计上显著,将它加入模型中都会使\(R^2\)增加;尽管不一定会增加\(\bar{R}^2\),但即使\(\bar{R}^2\)增加了也不一定表示新加入的回归变量的系数在统计上显著。为了确定新加入的变量是否在统计上显著,你需要用t统计量进行假设检验。

(2)高\(R^2\)或\(\bar{R}^2\)并不表示解释变量是被解释变量的真实原因。设想建立测试成绩对每个学生的停车场面积的回归方程。停车场面积与学术-教师比相关,与学校位于郊区或市区相关,也可能与地区收入相关,而这些都与测试成绩相关,故测试成绩对每个学生停车场面积的回归可能会具有较高的\(R^2\)和\(\bar{R}^2\),但并不存在真实的因果关系。

(3)高\(R^2\)或\(\bar{R}^2\)并不表示不存在遗漏变量偏差。关于测试成绩对学生-教师比回归中遗漏变量偏差的讨论,其中并未涉及回归的\(R^2\),这是因为它在讨论中不起任何作用,无论\(R^2\)是低还是高,都可能存在遗漏变量偏差。反过来,低\(R^2\)也不一定表示存在遗漏变量偏差。

(4)高\(R^2\)或\(\bar{R}^2\)并不一定表示回归变量集的最合适的,而低\(R^2\)或\(\bar{R}^2\)也不一定表示回归变量集不合适。在多元回归模型中,什么样的解释变量才是最合适的,这一问题很难回答,对其讨论将贯穿全书。选取解释变量时必须考虑遗漏变量偏差、数据可得性、数据质量、以及最重要的经济理论和实际应用中的各种问题,所有这些问题都不能简单地用较高(或较低)的\(R^2\)或\(\bar{R}^2\)来回答。

\(R^2\)或\(\bar{R}^2\)能告诉我们,解释变量能否很好地预测或“解释”被解释变量的值。如果\(R^2\)或\(\bar{R}^2\)的值接近于1,则解释变量能够很好地预测被解释变量。如果\(R^2\)或\(\bar{R}^2\)接近于零,则相反

\(R^2\)或\(\bar{R}^2\)不能告诉我们:

  1. 回归模型中包含的解释变量是否在统计上显著。
  2. 解释变量是否是被解释变量变动的真实原因。
  3. 是否存在遗漏变量偏差。
  4. 是否选择了最合适的解释变量集合。

对测试成绩数据集的分析

对基础设定形式和备选设定形式的讨论。

解释变量应该用什么单位?一般而言,变量采用的单位应使回归结果更易于理解或方便解释。

用表格表示回归结果。