前面的章节我们讨论了变量遗漏、变量的测量误差及双向因果关系等导致回归误差项与解释变量相关的问题。其中,变量遗漏偏差可通过在多元回归中加入遗漏变量来解决,但该方法的前提是能够获取相应数据;当存在由Y到X和由X到Y的双向因果偏差时,简单多元回归无法解决该问题,从而需要寻找一种新的方法。

工具变量(instrumental variable,IV)回归是当解释变量X与误差项u相关时,得到总体回归系数一致估计量的一种一般性方法。为理解工具变量回归的原理,将X的变动分为两部分:一部分与u相关(引发问题的部分);另一部分与u无关。一旦能够分离出第二部分的信息,就可以集中研究这些与u无关的X的变动,而忽略那部分使OLS估计量有偏的X的变动。这就是工具变量回归所做的事情,即从一个或多个附加变量中收集与u无关的X变动信息,这些附加变量称为工具变量(instrumental variables)或工具(instruments)。工具变量回归用附加变量作为手段或“工具”分离出X变动信息中与u无关的部分,从而使回归系数估计量具有一致性。

单个自变量和单个工具变量的工具变量估计量

首先考虑可能与回归误差u相关的一元解释变量X的情形。若X与u相关,则OLS估计量不一致,即使当样本容量很大时,OLS估计量也不会接近回归系数的真值。产生X与u之间的相关性的原因是多方面的,包括变量遗漏、变量误差(如测量误差)及双向因果关系(不仅是从Y到X“向前”的因果关系,也是从X到Y“向后”的因果关系)。不论该相关性的来源是什么,只要找到一个有效的工具变量Z,就可以通过工具变量法来估计X变化1个单位对Y的影响。

工具变量回归模型和假设

被解释变量\(Y_i\)和解释变量\(X_i\)的总体回归模型为:

\[Y_i = \beta_0 + \beta_1 X_i + u_i, i=1, ...,n\]

同前,其中\(u_i\)是误差项,代表除X外其他决定\(Y_i\)的遗漏因素。若\(X_i\)与\(u_i\)相关,则OLS估计量不一致,而工具变量估计则可以利用“工具”变量Z分离出X中与\(u_i\)不相关的部分。

1.内生性与外生性

在工具变量回归中有特定术语来区分与总体误差项u相关和不相关的变量。与误差项相关的变量称为内生变量(endogenous variable),与误差项不相关的变量则被称为外生变量(exogenous variable)。这些术语的来源可追溯到包含多个方差的模型,其中“内生”变量是由模型内部决定的,“外生”变量是由模型外部决定的。

2.工具变量有效的两个条件

一个有效的工具变量(“工具”)必须满足两个条件,即工具相关条件(instrument relevance condition)和工具外生条件(instrument exogeneity condition):

(1) 工具变量相关:\(corr(Z_i, X_i) \neq 0\)

(2) 工具变量外生:\(corr(Z_i, u_i) = 0\)

如果工具变量满足相关条件,则工具变量的变动与\(X_i\)的变动有关:如果工具变量满足外生性条件,则它能够捕捉到\(X_i\)变动中的外生变动部分。于是,满足相关性和外生性条件的工具变量捕捉到\(X_i\)中的外生变动,从而可用该外生变动来估计系数\(\beta_1\)。

上述工具变量有效的条件对工具变量回归而言至关重要,本章将反复提到这一点(并推广到多个解释变量和多个工具变量的情形)。

两阶段最小二乘估计量

若工具变量Z满足相关性和外生性条件,则系数\(\beta_1\)的估计可以通过两阶段最小二乘(two stage least squares,TSLS)的工具变量估计来实现。顾名思义,两阶段最小二乘估计量是分两个阶段计算得出的。其中,第一阶段把X分解为两部分:一是与回归误差相关而引发问题的部分;二是与误差无关而不会引发问题的部分。第二阶段使用不会引发问题的部分估计\(\beta_1\)。

第一阶段是建立如下的回归模型:

\[X_i = \pi_0 + \pi_1 Z_i + v_i\]

式中,\(\pi_0\)为截距;\(\pi_1\)为斜率;\(v_1\)为误差项。

该回归对\(X_1\)进行了必要的分解。其中一部分为\(\pi_0 + \pi_1 Z_i\),即可由\(Z_i\)预测出的部分。由于\(Z_i\)是外生的,该部分\(X_i\)与误差项\(u_i\)无关。\(X_i\)的另一部分为\(v_i\),它是\(X_i\)中与\(u_i\)相关从而引起问题的部分。

两阶段最小二乘法背后的思想是利用\(X_i\)中不引起问题的部分\(\pi_0 + \pi_1 Z_i\),而忽略\(v_i\)。该方法的复杂之处在于\(\pi_0\)和\(\pi_1\)的值是未知的,故无法计算\(\pi_0 + \pi_1 Z_i\)。因此,在第一阶段中,我们利用OLS估计并取OLS回归的预测值\(\hat{X}_i = \hat{\pi}_0 + \hat{\pi}_1 Z_i\),其中\(\hat{\pi}_0\)和\(\hat{\pi}_1\)为OLS估计量。

两阶段最小二乘法的第二阶段非常简单:使用OLS建立\(Y_i\)关于\(\hat{X}_i\)的回归,由此得到的估计量即为两阶段最小二乘估计量\(\hat{\beta}^{TSLS}_0\)和\(\hat{\beta}^{TSLS}_1\)。

TSLS估计量的抽样分布

小样本情形下的TSLS估计量的精确分布十分复杂,但其与OLS估计量一样,其在大样本下的分布则较为简单:TSLS估计量是一致的且服从正态分布。

TSLS估计量的公式。虽然TSLS的两阶段看似使估计复杂化了,但仅考虑一个解释变量X和一个工具变量Z时,TSLS估计量有一个较简单的公式。令\(s_{ZY}\)表示Z和Y之间的样本协方差,\(s_{ZX}\)表示Z和X之间的样本协方差。一元工具变量TSLS估计量为

\[\hat{\beta}^{TSLS}_1 = \frac{s_{ZY}}{s_{ZX}}\]

即\(\beta_1\)的TSLS估计量为Z和Y的样本协方差与Z和X的样本协方差之比。

大样本下\(\hat{\beta}^{TSLS}_1\)的抽样分布服从正态分布且\(\hat{\beta}^{TSLS}_1\)具有一致性。

基于大样本分布的推断。方差\(\sigma_{\hat{\beta}_1^{TSLS}}^2\)的估计可由方差和协方差估计得到,\(\sqrt{\sigma_{\hat{\beta}_1^{TSLS}}^2}\)则为工具变量估计量的标准误差。在计量经济学软件包中,这些都可以通过TSLS的回归命令自动完成。由于\(\sigma_{\hat{\beta}_1^{TSLS}}^2\)在大样本下服从正态分布,因此关于\(\beta_1\)的假设检验可采用t统计量,其95%的置信区间为\(\hat{\beta}_1^{TSLS} \pm 1.96 SE(\hat{\beta}_1^{TSLS})\)。

一般工具变量回归模型

一般的工具变量回归模型中有四类变量:被解释变量Y;引发问题的内生解释变量X;其他与误差项不相关的解释变量,称为外生解释变量(included exogenous variable),记为W;工具变量Z。一般地,可能存在多个内生解释变量(X)、多个外生解释变量(W)和多个工具变量(Z)。

为了保证工具变量回归的可行性,工具变量(Z)的个数至少要和内生变量(X)的个数相同。对一个内生解释变量来说(至少)需要一个工具变量。如果没有这个工具变量,TSLS中便不存在第一阶段回归,我们也无法计算工具变量估计值。

工具变量个数和内生解释变量个数之间的关系可描述为:若工具变量的个数(m)等于内生解释变量的个数(k),即m=k,则称回归系数是恰好识别的(exactly identified)。若工具变量的个数(m)大于内生变量的个数(k),即m>k,则称回归系数是过度识别的(overidentified)。若工具变量的个数(m)小于内生变量的个数(k),即m<k,则称回归系数是不可识别的(underidentified)。用工具变量回归方法估计未知系数的前提是恰好识别或过度识别的。

一般工具变量回归及其术语

工具变量回归的一般模型为

\[Y_i = \beta_0 +\beta_1 X_{1i} + ... + \beta_k X_{ki} + \beta_{k+1} W_{1i} + ... + \beta_{k+r} W_{ri} + u_i, i=1,...,n\]

式中,\(Y_i\)为被解释变量;\(\beta_0, \beta_1,..., \beta_{k+r}\)为未知回归系数;\(X_{1i}, ..., X_{ki}\)为k个内生解释变量,\(u_i\)相关;\(W_{1i}, ..., W_{ri}\)为r个外生解释变量,与\(u_i\)不相关;\(u_i\)为误差项,表示测量误差或遗漏因素;\(Z_{1i}, ..., Z_{mi}\)为m个工具变量。

若工具变量个数多于内生解释变量个数(m>k),则系数是过度识别的;若m<k,则系数是不可识别的;若m=k,则是恰好识别的。工具变量回归估计的前提是恰好识别或过度识别的。

工具变量回归中的W既可以是外生解释变量,也可以是控制变量。一般地,如果W是工具变量回归中一个有效的控制变量,W的引入使工具变量与误差项不相关,从而X的系数TSLS估计量是一致的。然而,如果W与误差项相关,则W的系数TSLS估计量将存在遗漏变量偏差,将不具有因果效应推断。工具变量回归中引入控制变量的原理与在OLS中引入控制变量的原理相似。

W成为工具变量回归中有效控制变量的条件与OLS控制变量条件类似。具体地,引入W必须确保u的条件均值不依赖于Z,故条件均值假设成立,即\(E(u_i \mid Z_i, W_i) = E(u_i \mid W_i)\)。

一般工具变量回归模型中的TSLS

单个内生解释变量的TSLS。只有一个内生解释变量X和其他外生解释变量时,所考虑的回归方程为

\[Y_i = \beta_0 + \beta_1 X_i + \beta_2 W_{1i} + ... + \beta_{1+r} W_{ri} +u_i\]

如前文所述,\(X_i\)可能与误差项相关,但\(W_{1i}, ..., W_{ri}\)与误差项不相关。

TSLS第一阶段回归是将X与外生解释变量W和工具变量Z联系在一起:

\[X_i = \pi_0 + \pi_1 Z_{1i} + ... + \pi_m Z_{mi} + \pi_{m+1} W_{1i} + ... + \pi_{m+r} W_{ri} + v_i\]

式子中,\(\pi_0, \pi_1, ..., \pi_{m+r}\)为未知回归系数;\(v_i\)为误差项。

上式被称为X的简化式(reduced form)。它把内生解释变量X和所有可获得的外生变量(包括回归中的外生解释变量W和工具变量Z)联系在一起。

在TSLS第一阶段,用OLS估计上式中的未知系数,回归得到的预测值记为\(\hat{X}_1, ..., \hat{X}_n\)。

在TSLS第二阶段中,在前式中用第一阶段的预测值代替\(X_i\),并估计该式。即用OLS方法估计\(Y_i\)关于\(\hat{X}_i, W_{1i}, ..., W_{ri}\)的回归方程,得到的\(\beta_0, \beta_1, ..., \beta_{1+r}\)估计量就是TSLS估计量。

推广到多个内生解释变量的情形。当有多个内生解释变量\(X_{1i}, ..., X_{ki}\)时,TSLS算法中除了对每一内生解释变量都需要做各自对应的第一阶段回归外,其余过程是类似的。

TSLS的第二阶段是用OLS估计式,并将内生解释变量(X)用各自的预测值\(\hat{X}\)代替。所得\(\beta_0, \beta_1, ..., \beta_{k+r}\)的估计量即为TSLS估计量。

一般工具变量回归模型中的工具变量相关性和外生性

在一般工具变量回归模型中,我们需要对工具变量的相关性和外生性条件进行一些调整。

当存在一个内生解释变量和多个工具变量时,工具变量相关性条件是:给定W时,至少存在一个Z对预测X有帮助。但存在多个内生解释变量时,条件变得相对复杂,因为我们在第二阶段回归中必须排除完全多重共线性。直觉告诉我们,当存在多个内生解释变量时,工具变量必须提供关于这些变量外生变动足够多的信息,以分离出其对Y的影响。

工具变量外生性条件的一般性论述是:每个工具变量必须和误差项\(u_i\)无关。

有效工具变量的两个条件:

m个工具变量构造的集合\(Z_{1i}, ..., Z_{mi}\)必须满足如下两个条件才能成为有效的工具变量:

1.工具变量相关性

  • 一般地,零\(\hat{X}_{1i}^*\)表示\(X_{1i}\)对工具变量(Z)和外生解释变量(W)回归得到的预测值,同时,令“1”表示所有观测值都取1的常数解释变量,则\((\hat{X}_{1i}^*, ..., \hat{X}_{ki}^*, W_{1i}, ..., W_{ri}, 1)\)不是完全多重共线性的。
  • 如果仅有一个X,则要使前面的条件成立,则要求在X对Z和W的回归中,至少包含一个具备非零系数的Z。

2.工具变量外生性

工具变量与误差项无关,即\(corr(Z_{1i}, u_i)=0, ..., corr(Z_{mi}, u_i) = 0\)。

工具变量回归假设和TSLS估计量的抽样分布

工具变量回归假设

工具变量回归模型的变量和误差满足以下假设条件:

(1)\(E(u_i \mid W_{1i}, ..., W_{ri})=0\)

(2)\((X_{1i}, ..., X_{ki}, W_{1i}, ..., W_{ri}, Z_{1i}, ..., Z_{mi}, Y_i)\)是从其联合分布中抽取的独立同分布样本。

(3)不存在大的异常值:X、W、Z和Y均具有非零有限四阶矩。

(4)工具变量有效性的两个条件成立

在满足工具变量回归假设条件下,TSLS估计量是一致的,且在大样本条件下服从正态分布。

利用TSLS估计量的推断

由于在大样本下TSLS估计量的抽样分布是正态分布,故多元回归模型的统计推断(假设检验和置信区间)过程可以推广至TSLS回归。

关于TSLS估计量标准误差,我们需要牢记两点:其一,第二阶段回归所给出的OLS估计量的标准误差是不准确的,因为它未能识别这是两阶段的第二阶段。特别地,第二阶段中的OLS标准差没有基于第二阶段内生解释变量的预测值进行调整。计量经济学软件的TSLS回归命令中包含了经过必要调整的标准误差公式,故在实践中无需担心这一问题。

其二,误差项u可能存在异方差。因此,如果我们对多元回归模型的OLS估计量使用异方差-稳健标准误差一样,这里也应使用异方差-稳健标准误差。

检验工具变量有效性

工具变量回归是否有用取决于这些工具变量是否有效:无效的工具变量得出的结果并无意义。因此,在实际应用中,评价工具变量是否有效变显得尤为重要。

假设一:工具变量相关性

在工具变量回归中,工具变量相关性条件起着非常微妙的作用。从某种角度看,工具变量相关性的作用与增加样本容量的作用类似:工具变量越相关,即工具变量能解释更多X的变化,这意味着工具变量回归中可以利用更多的信息。相关程度越高,工具变量方法给出的估计量越精确,这与样本容量增大会使得估计更加精确的道理一样。此外,TSLS统计推断的依据是TSLS估计量服从正态分布,但根据中心极限定理,服从正态分布的假设在大样本下才成立——而在小样本下却不一定。工具变量的相关性越强,就好比样本容量越大一样,这意味着工具变量越相关,用正态分布作为TSLS估计量及其t统计量的渐近分布的效果越好。

对X变化的解释能力较弱的工具变量称为弱工具变量(weak instruments)。

本节讨论为什么弱工具变量是一个问题,如何检验弱工具变量,以及出现弱工具变量时该如何应对。下面的讨论均假设工具变量是外生的。

为什么弱工具变量是个问题。一旦存在弱工具变量问题,即使样本容量很大,用正态分布去近似TSLS估计量的抽样分布的效果也不理想。因为,尽管为大样本,通常的统计推断方法仍缺乏理论依据。实际上,如果工具变量是弱的,则TSLS估计量会严重地偏向OLS估计量。此外,TSLS估计量\(\pm 1.96\)倍标准误差表示的95%置信区间包含真值的概率可能也远远低于95%。简言之,出现弱工具问题时,TSLS方法不再可靠。

尽管工具变量完全不相关的情形在实践中很少遇到,但它提出了一个问题:实践中工具变量的相关程度为多大时才能使正态分布的近似结果较优?在一般工具变量回归模型中,这个问题的答案非常复杂。然而,幸运的是,在实际应用中,针对单个内生解释变量的情形,存在一种应对的经验法则。

单一内生解释变量情形中的弱工具变量检验。当只存在单个内生解释变量时,检验弱工具变量的一种方法是计算F统计量,该统计量检验的原假设为TSLS的第一阶段回归中所有工具变量的系数均为零。第一阶段F统计量(first-stage F-statistic)度量了工具变量所包含的信息:包含的信息越多,F统计量的期望值越大。一个检验法则是,如果第一阶段F统计量大于10,则无须担心弱工具变量问题。

出现弱工具变量时该怎么办。当拥有很多工具变量时,其中一些工具变量可能比其他弱;当拥有很少的强工具变量及很多弱工具变量时,放弃最弱的工具变量,而在TSLS分析中使用相关程度最强的工具变量。放弃弱工具变量可能会带来TSLS标准误差的增加,但使用弱工具变量得到的标准误差并没有任何意义。

然而,如果系数恰好识别,则我们无法放弃弱工具变量。即使系数是过度识别的,也可能无法拥有足够多的强工具变量来完成识别,故放弃某些弱工具变量变得不可行。在这种情况下,我们面临两个选择:第一种选择是找到其他更强的工具变量,但这说起来容易,做起来却很难。这需要深入了解所遇到的问题,甚至可能需要重新设计数据集和实证研究路线。第二种选择是基于弱工具变量继续进行实证分析,但需要使用TSLS方法以外的其他方法。本章集中研究TSLS,但还有其他一些工具变量分析方法相对于TSLS而言对弱工具不太敏感。

假设二:工具变量外生性

如果工具变量非外生,则TSLS估计量非一致:TSLS估计量依概率收敛于总体回归系数值之外的其他数值。工具变量回归的思想是工具变量中包含了与误差项\(u_i\)无关的\(X_i\)变动的信息。实际上,如果工具变量是非外生的,则其无法刻画\(X_i\)的外生变动,从而工具变量回归无法得出一致估计量。

可以对工具变量外生性假设进行统计检验吗?一方面,当回归系数为恰好识别时,无法检验工具变量为外生的假设。另一方面,如果回归系数是过度识别的,则可以检验过度识别约束,即假设存在足够多的有效工具变量以识别感兴趣的系数,从而可以检验“额外”的工具变量是否是外生的。

首先考虑恰好识别的情形,即拥有的工具变量个数与内生解释变量个数一样多。此时,我们无法进行关于工具变量是否为外生的假设检验。在这种情形下,评价工具变量是否满足外生性条件的唯一方法是听取专家意见及凭借你的个人知识进行判断。

评价工具变量是否外生,要求我们必须根据个人知识进行专业判断。然而,当存在比内生解释变量更多的工具变量时,则可以借助统计学工具进行判断,即过度识别约束检验。

过度识别约束检验。现假设有一个内生解释变量和两个工具变量,则可以计算两个不同的TSLS估计量:一个是使用第一个工具变量,而另一个使用第二个工具变量。由于样本差异性,这两个估计量将会不同,但如果两个工具变量均为外生,则两个估计量将会非常接近。然而,如果这两个工具变量得到的结果非常不同,可能会发现其中一个工具变量或两个工具变量存在问题,则有理由得出其中一个工具或两个工具都不是外生的结论。

过度识别约束检验(test of overidentifying restrictions)隐含了这种比较。之所以称为隐含,是因为该检验并没有真正地计算出所有可能情况下的工具变量估计结果。它的思路如下:工具变量的外生性意味着工具与\(u_i\)无关。这就意味着工具变量应该近似地与\(\hat{u}_i^{TSLS}\)无关,其中\(\hat{u}_i^{TSLS = Y_i - (\hat{beta}_0^{TSLS} + \hat{beta}_1^{TSLS} X_{1i} + ... + \hat{beta}_{k+r}^{TSLS} W_{ri})\)是基于所有工具变量(由于样本差异性,所以是近似无关而非精确无关)进行TSLS估计得到的残差。(注意:这些残差是基于X的真实值而不是其第一阶段预测值得到的。)因此,如果工具变量实际上为外生的,则在\(\hat{u}_i^{TSLS}\)对工具变量和外生解释变量的回归中,工具变量的系数应该为零,从而检验这一假设。

关于过度识别约束检验计算方法,检验的统计量称为J统计量,\(J=mF\),而F统计量为同方差使用的F统计量。

在大样本下,如果工具变量不为弱工具变量且误差同方差,则在工具变量为外生的原假设下,J统计量服从自由度为\(m-k\)的\(\chi^2\)分布(\(\chi_{m-k}^2\))。切记,即使所检验的约束个数为m,J统计量渐近分布的自由度也为\(m-k\),因为只可能检验过度识别的约束,即m-k。

为了说明当系数为恰好识别时(m=k)无法检验回归变量外生性最简单的方法是考虑仅包含一个内生解释变量(k=1)的情形。如果存在两个工具变量,则就可以对每个工具分别计算出TSLS估计量,然后比较二者是否接近。但如果仅有一个工具变量,则你只能计算出一个TSLS估计量,从而无法进行比较。实际上,当系数是恰好识别的,即m=k,过度识别约束检验的J统计量恰好为零。

如何寻找有效的工具变量

实践中,工具变量估计中最困难的部分就是找到既满足相关性又满足外生性的工具变量。这里主要介绍两种方法,分别反映两种不同的计量经济学和统计学建模观点。

第一种方法是根据经济理论寻找工具变量。该方法在金融经济学领域的应用大为成功。然而,经济理论是抽象的,通常考虑不到特定数据集中微小和细节性的差别,故该方法并不总是有效。

第二种构造工具变量的方法是寻找X变化的某些外生根源,而这些根源实际上是由一种导致内生解释变量变化的随机现象造成的。这种方法往往需要对所研究的问题有充分的了解,同时对数据细节仔细挖掘。