在很多领域,如心理学和医学领域,人们普遍使用实验方法来估计因果效应。在一种新药被批准大量使用之前,通常会进行实验,实验人员会随机选择一些病人,使其接受这种药物治疗,同时随机选择另外一些病人,接受一种无害且没有治疗作用的替代物(一种“安慰剂”)的治疗。只有当这种随机对照实验能够提供令人信服的统计证据,证明这种药是安全且有效时,这种药才会被批准广泛使用。

为什么要在计量经济学课程中学习随机对照实验?主要有三个理由:第一,理想化的随机对照实验提供了一种基准,当我们用可观测的数据来估计因果效应时,可以依据这一基准来判断估计的合理性;第二,当我们进行随机对照实验时,实验结果具有重要的影响,所以,理解实验的局限性和有效性威胁,与理解实验的优点是同等重要的;第三,外部环境有时能够提供一种随机化的环境,换言之,由于发生某一外部事件,一些个体得到了处理,并且这些处理“似乎”是随机实施的,或者这一随机性可能是以一些控制变量为条件的。这种“似乎”随机性提供了一种“准实验”或“自然实验”。此时,许多用于随机对照实验的分析方法(经过一些修正)可以用于分析准实验。

本章主要讨论经济学中的实验和准实验。本章用到的统计工具包括多元线性回归、面板数据回归及工具变量回归。本章与其他章节的不同之处并不在于所使用的工具,而在于所分析的数据类型,以及分析实验和准实验时遇到的特殊机会和挑战。

本章提到的方法经常被用于经济社会中的项目评估。项目评估主要是分析项目效果、政策效果,以及某些其他类型的介入或处理的效果。在本章,我们将讨论如何运用实验或准实验方法来评估这些项目。

潜在结果、因果效应和理想化实验

本节将解释如何运用随机对照实验来估计个体水平因果效应的总体均值,以及如何运用多元回归分析工具分析这类实验中的数据。

潜在结果和平均因果效应

一个潜在结果(potential outcome)就是一个个体在潜在处理下得到的结果。这一个体的因果效应是接受处理和不接受处理的潜在结果之间的差异。一般而言,个体的因果效应可以随个体的不同而不同。例如,药物治疗的效果可能与你的年龄、是否吸烟或者其他健康状况有关。问题在于,我们无法对一个单个个体的因果效应进行度量。因为,一个个体要么接受了处理,要么没有接受处理,我们只能观测到这两个潜在结果中的某一个,而无法同时观测到两个潜在结果。

尽管一个单个个体的因果效应无法度量,但在许多应用中,我们只需要知道总体的平均因果效应就已经足够。例如,在评估职业培训项目时,我们只需要权衡受训者的平均花费和受训者找到工作的平均成功次数。我们所研究的个体因果效果的总体均值被称为平均因果效应(average causal effect)或平均处理效应(average treatment effect)。

我们可以利用理想化的随机对照实验,来估计一个给定总体的平均因果效应。如何能够做到这一点呢?

首先假设研究对象是从我们所研究的总体中随机抽取的。因为这些研究对象是通过简单随机抽样选取,他们的潜在结果及因果效应都来自相同的分布,所以,样本因果效应的期望值就是总体的平均因果效应。紧接着,我们假设,这些研究对象被随机分配到处理组或对照组。因为个体的处理状态是随机分配的,个体的处理状态与他/她的潜在结果便是相互独立的。因此,接受处理的期望结果与没有接受处理的期望结果的差值就是因果效应的期望值。因此,当满足以下两个条件:(1)从总体中抽取样本;(2)将个体随机分配到处理组与对照组,则处理组和对照组的潜在结果差异的期望值就是总体的平均因果效应。相对于不处理(\(X_i=0\)),处理(\(X_i=1\))对\(Y_i\)产生的因果效应等于条件期望之差\(E(Y_i \mid X_i = 1) - E(Y_i \mid X_i = 0)\),\(E(Y_i \mid X_i = 1)\)和\(E(Y_i \mid X_i = 0)\)分别表示理想化随机对照实验中处理组和对照组Y的期望值。

一般而言,个体因果效应可能同时依赖于可观测变量和不可观测变量。我们前文已经遇到过因果效应依赖于可观测变量的情况。本章的大部分内容将聚焦在仅仅依赖可观测变量的因果效应方面,而第6小节将把不可观测的异质性纳入因果效应的讨论中。

分析实验数据的计量经济学方法

我们可以通过比较均值的差异,或者使用一个包含用以表达是否接受处理的示性函数和其他控制变量的回归方程来分析随机对照实验的数据。在后一种设定中,带控制变量的差役估计量可以被用于更加复杂的随机化方案中,即随机性依赖于可观测的协变量。

差异估计量。差异估计量(differences estimator)是指处理组和对照组的样本均值之差,可以通过将结果变量Y对二元处理变量X(用以表示是否接受处理的二元变量)进行回归得到:

\[Y_i = \beta_0 + \beta_1 X_i + u_i, i=1,...,n\]

如果X是随机分配的,则\(E(u_i \mid X_i)=0\),此时上式中的\(\beta_1\)的OLS估计量是因果效应的无偏且一致估计量。

带附加解释变量的差异估计量。我们可以通过在回归方程中加入控制变量W来提高差异估计量的有效性,即得到带附加解释变量的差异估计量:

\[Y_i = \beta_0 + \beta_1 X_i + \beta_2 W_{1i} + ... + \beta_{1+r} W_{ri} + u_i, i=1,...,n\]

如果W对Y有解释作用,则加入W会降低回归的标准差,通常也会降低\(\beta_1\)估计量的标准差。为了使上式中的因果效应\(\beta_1\)的估计量无偏,必须满足以下的条件均值独立假设,即\(E(u_i \mid X_i, W_i) = E(u_i \mid W_i)\)。如果\(W_i\)是前处理(pretreatment)特征变量(如性别),且\(X_i\)是随机分配的,则\(X_i\)独立于\(u_i\)和\(W_i\),满足\(E(u_i \mid X_i, W_i) = E(u_i \mid W_i)\)。上式中的解释变量W不能包括实验结果(给定实验结果,\(X_i\)不是随机分配的)。与通常情况一样,即使在条件均值独立的条件下,控制变量的系数也没有因果效应的含义。

估计依赖于观测值的因果效应。若因果效应的大小依赖于观测值,则可以通过在回归方程中加入\(X_i\)的非线性函数或\(X_i\)的交叉项来估计。例如,如果\(W_{1r}\)是一个表示性别的二元示性函数,则男性和女性不同的因果效应可以通过在回归方程中加入交叉项\(W_{1r} \times X_i\)而进行估计。

基于协变量的随机化。若分配到处理组的概率依赖于一个或多个可观测变量W,则这一随机化被称作基于协变量的随机化(randomization based on covariates)。如果随机化依赖于协变量,则一般而言,上式的差异估计量存在遗漏变量偏差。因为给定\(W_i, X_i\)是随机分配的,所以这一遗漏变量偏差可以通过估计加入控制变量\(W_i\)后的带附加解释变量的差异估计量来解决。给定\(W_i, X_i\)的随机分配特征(结合线性回归方程的假设)隐含着,给定\(W_i, X_i\)在上式中独立于\(u_i\)。条件独立性反过来又隐含着条件均值的独立性,即\(E(u_i \mid X_i, W_i) = E(u_i \mid W_i)\)。因此,在上式中,当\(X_i\)是基于\(W_i\)随机分配时,OLS估计量\(\hat{beta}_1\)是因果效应的无偏估计量。

实验的有效性威胁

对所研究的总体而言,如果关于因果效应的统计推断是有效的,则称这一统计研究是内部有效的。当统计推断及其结论能推广到其他总体和环境时,则称这一统计研究是外部有效的。当我们在借助以人为研究对象的实验进行分析时,现实中的很多问题会给这一分析的内部有效性和外部有效性带来威胁。

内部有效性威胁

随机对照实验的内部有效性威胁包括未能完全随机分组、没有遵循处理协议、中途退出实验、实验效应和样本过小。

未能完全随机分组。如果处理没有被随机分配,而是部分依赖于研究客体的特征或偏好,则实验结果将同时反映处理效应和非随机分配的效应。

我们有办法对随机化进行检验。如果处理是被随机分配的,则\(X_i\)将和回归式中的前处理个体特征解释变量W不相关。因此,随机处理检验(test for random receipt of treatment)是指检验\(X_i\)对\(W_{1i}, ..., W_{ri}\)的回归中,\(W_{1i}, ..., W_{ri}\)前的系数是否为零这一原假设。

没有遵循处理协议。在现实实验中,参加实验的人员并不总是按照要求行事。以职业培训项目为例,一些被分配到处理组的实验人员可能最终并未参加培训,从而得不到处理。同样,被分配到对照组的人员反而可能会参加培训。

参与实验的个体不完全按照随机处理协议参加实验,被称为对处理协议的部分服从(partial compliance)。在某些情况下,主持实验的人员知道处理没有被实施(例如,受训者有没有参加培训班),把实际被实施的处理记作\(X_i\)。在部分服从的情形下,即使最初的分配是随机的,但由于个体是否接受处理存在选择行为,致使\(X_i\)与\(u_i\)存在相关性。因此,没有遵循处理协议将导致OLS估计量的偏误。

如果我们有关实际实施的处理(\(X_i\))及最初随机分配情况的数据,就可以用工具变量回归来估计处理效应。处理效应的工具变量估计(instrumental variables estimation of the treatment effect)是利用最初的随机分配(\(Z_i\))作为实际实施的处理(\(X_i\))的工具变量。我们知道,一个合格的工具变量必须满足两个条件,即工具变量相关性及外生性。只要处理协议是被部分遵守的,实际处理水平则会由指派处理水平部分决定,故工具变量\(Z_i\)满足相关性条件。如果初始分配是随机的,则\(Z_i\)与\(u_i\)独立(如果随机化是以协变量\(W_i\)为条件,则在给定\(W_i\)的情况下,\(Z_i\)和\(u_i\)是条件均值独立的),即工具变量满足外生性条件。因此,在初始随机分配和部分服从的实验中,初始随机分配是一个有效的工具变量。

工具变量回归方法要求同时拥有初始随机分配\(Z_i\)和实际实施处理\(X_i\)的数据。在某些情况中,实际实施处理的数据不可获取。例如,在药物实验中,如果有一个实验参与者拿到了药物,但并未使用它,而研究者并未发现这一点,则被记录下来的实际处理数据(接受治疗)是不正确的。有误的实际实施处理数据会导致差异估计量的偏误。

中途退出实验。中途退出实验(attrition)是指被研究个体在被随机分配到处理组或对照组后退出实验的情况。有时候,中途退出原因与实验本身无关。例如,职业培训项目的参与者可能需要照顾生病的家人,从而退出实验。然而,如果中途退出实验的原因和处理本身有关,则中途退出实验会导致因果效应的OLS估计量发生偏误。换言之,因为与处理有关的中途退出实验使得样本选择呈现非随机性,从而将导致选择偏误。

实验效应。实验效应是指,在以人为对象的实验中,仅仅因为成为实验对象本身就会导致实验对象改变其行为方式。有时候,这一现象被称为霍桑效应(Hawthorne effect)。

在某些实验中,“双盲实验”会减轻霍桑效应或实验效应。在“双盲实验”中,尽管研究者和实验对象都知道他们参与了实验,但他们并不清楚自己是在处理组或对照组的哪一组。如果这个实验是“双盲实验”,则处理组和对照组的组员将存在同样的实验效应,从而两组之间实验结果的差异可以归因于药物作用。

在现实的经济实验中,进行双盲实验是不可行的。例如,在职业培训项目中,实验对象和培训教师都清楚实验对象是否正在参加培训。在一个没有被精心设计的实验中,这种实验效应不容忽视。例如,如果实验项目中的教师们认为未来受雇佣的机会依赖于这次实验的结果,则他们可能会格外努力以使实验项目获得成功。为了判断实验效应会不会导致实验结果的偏误,研究人员需要对实验实施的具体细节进行考察。

样本过小。因为以人为实验对象的实验通常成本较高,实验样本有时会很小。小样本不会导致因果效应估计量的偏误,但小样本确实意味着因果效应没有得到精确估计。同时,样本过小会威胁到置信区间及假设检验的有效性。因为统计推断是以正态分布临界值和异方差-稳健标准误差为基础,而这恰恰是在大样本下的近似,小样本下的统计分布通常需要假设扰动项为正态分布。然而,实验数据的正态性假设与可观测数据的正态性假设一样,都是有问题的。

外部有效性威胁

外部有效性威胁导致实验结果难以推广到其他总体和环境。外部有效性威胁主要包括以下两种情况:第一,实验样本的代表性不足;第二,小型实验的条件与大规模推广时的现实条件不同。

样本的代表性不足。我们在推广实验结果时,必须保证我们所研究的总体与我们感兴趣的总体之间具有充分的相似性。如果职业培训项目的实验对象为有犯罪前科的人,则实验结果就有可能推广到其他有犯罪前科的人。然而,由于对犯罪记录很忌讳,所以实验结果可能无法推广到那些无犯罪前科的工人。

关于样本的代表性不足,另一个例子是,实验参与者是志愿者。即使志愿者被随机分配到处理组和对照组,但因为这些志愿者可能比一般的总体具有更大的动力,从而导致处理产生更大的因果效应。更一般地,如果我们从所关心的总体中非随机地选择样本,可能会导致根据这一样本(如志愿者)得到实验结果无法推广到我们所关心的这一总体。

实验项目与实际项目的差异。为了能够有效推广实验结果,必须保证我们所关心的政策或项目必须与我们所研究的政策或项目有充分的相似性。一个比较重要的问题是,一个在严格监控下小范围实施的实验项目可能与现实中实际实施的项目截然不同。如果实际实施的项目规模较大且范围较广,则范围的扩大可能使得项目无法得到与实验相同的质量控制,或者得到的资金支持较少,这都会使得范围较大的实际项目不如小范围的实验项目那么有效。实验项目和实际项目的另一个差异是持续期的不同,实验项目只持续到实验结束,而实际项目可能会持续更长的时间。

一般均衡效应。与范围和持续时间相关的问题涉及经济学家眼中的”一般均衡”效应。把一个小范围、短期的实验项目推广为广泛实施的、永久的项目可能会充分改变经济环境,以至于实验结果无法被推广。用计量经济学术语来表达:在保持市场环境或政策环境不变的条件下,一个内部有效的小规模实验能够正确度量因果效应,但一般均衡效应告诉我们,当这些项目被广泛实施时,这些环境因素实际上不可能保持不变。

准实验

随机对照实验的统计知识和研究方法能被运用到非实验的环境中。在准实验(又被称为自然实验)中,随机性是通过个体境况的变化产生的,使得处理看上去似乎是被随机分配的。这些个体境况的变化可能源于多变且不易预测的法律制度、所在地区、政策或项目实施的时点、自然随机事件(如生日、降雨等)或者其他与所研究的因果效应无关的因素。

有两种类型的准实验:在第一种准实验中,我们把个人(或更一般的主体)是否接受处理看作似乎是随机决定的。在这种情况下,我们可以利用OLS估计以二元处理变量\(X_i\)作为解释变量的回归模型,从而得到因果效应的估计结果。在第二种准实验中,这种“似乎”的随机变化只在一定程度上决定处理水平。在这种情况下,因果效应可以通过工具变量回归进行估计,其中的工具变量为这一“似乎”随机变化。

倍差估计量

在控制可观测变量W的条件下,如果准实验中的处理是“似乎”随机分配的,则处理效应可以用差异估计量的回归模型进行估计。但是,由于研究人员未能控制实验的随机化,即使在控制了W后,处理组和对照组的样本仍然存在差异。为此,一种解决方法是不再比较结果Y,而是比较处理前和处理后结果的变化,以此对处理前两个组的Y值差异进行调整。由于这个估计量衡量了组间变化的差异,或随时间变化的差异,该估计量被称为倍差估计量。

倍差估计量。令\(\bar{Y}^{treatment, before}\)表示实验前处理组Y的样本均值,令\(\bar{Y}^{treatment, after}\)表示实验后处理组的样本均值,\(\bar{Y}^{control, before}\)和\(\bar{Y}^{control, after}\)分别表示实验前后对照组中Y的均值变化为\(\bar{Y}^{control, after} - \bar{Y}^{control, before}\)。倍差估计量(differences in differences estimator)是处理组中Y的均值变化减去对照组中Y的均值变化:

\[\hat{\beta}_1^{diffs-in-diffs} = (\bar{Y}^{control, after} - \bar{treatment, before}) - (\bar{Y}^{control, after} - \bar{Y}^{control, before}) = \Delta \bar{Y}^{treatment} - \Delta \bar{Y}^{control}\]

倍差估计量可以用回归符号表示,令\(\delta Y_i\)表示实验后第i个个体的Y值减去实验前的Y值,则倍差估计量是回归中\(\beta_1\)的OLS估计量

\[\Delta Y = \beta_0 + \beta_1 X_i + \mu_i\]

附加额外解释变量的倍差估计量。倍差估计量可以扩展到包含其他解释变量\(W_{1i}, ..., W_{ri}\)的情形,这些变量刻画了实验前的个体特征。可以用多元回归模型将这些额外解释变量包括进来:

\[\Delta Y_i = \beta_0 + \beta_1 X_i + \beta_2 W_{1i} + ... + \beta_{1+r} W_{ri} + u_i, i=1,...,n\]

上式中,\(\beta_1\)的OLS估计量是附加额外解释变量的倍差估计量(differences in differences estimator with additional regressors)。如果在给定\(W_{1i}, ..., W_{ri}\)的条件下,\(X_i\)是“似乎”随机分配的,则\(u_i\)满足条件均值独立假设,从而上式中\(\beta_1\)的OLS估计量是无偏的。

这里描述的倍差估计量只考虑了两期,即实验前和实验后两个时期。在某些情况下,我们会遇到包含多期的面板数据。利用面板数据回归方法,可将倍差估计量拓展到多期的情形。

运用重复横截面数据的倍差估计量。一个重复横截面数据(repeated cross sectional data)集是一个关于横截面数据的集合,其中每个横截面数据对应到一个不同的时期。例如,数据集包含2004年400个个体的观测数据和2005年500个其他个体的观测数据,共有900个不同个体的观测数据。重复横截面数据的一个应用案例是政治民意调查,即通过一系列随机抽选的可能选民的调查结果来测量民众的政治偏好。这一调查在不同的时期重复进行,每次调查选取不同的调查对象。

采用重复横截面数据的前提是,如果个体(或者更一般的实体)是从相同的总体中随机抽取的,则前一期的个体数据可以作为后一期的处理组和对照组中个体数据的代理。

假设存在两期,则重复横截面数据对应的回归模型为

\[Y_{it} = \beta_0 + \beta_1 X_{it} + \beta_2 G_i + beta_3 D_t + \beta_4 W_{1 it} + ... + \beta_{3+r} W_{rit} + u_{it}\]

其中,\(X_{it}\)是在时期t(t=1,2),第i个个体实际接收处理的二元变量,\(G_i\)是表示个体是否在处理组(如果观测值处于实验前的时期,则表是否在代理处理组)的二元示性变量,\(D_t\)是二元变量,第一个时期取0,第二个时期取1。如果第i个个体在第二个时期处于处理组,则他/她接收处理,即\(X_{it}=1\)。故在上式中,\(X_{it} = G_i \times D_t\),也就是说,\(X_it\)是\(G_i\)和\(D_t\)的交叉项。

给定W的情况下,如果准实验使用处理\(X_{it}\)“似乎”是随机分配的,则上式中的因果效应估计量,即\(\beta_1\)的OLS估计是无偏的。如果存在的时期多于两个,则上式需要进行改进,应包含T-1个二元变量以表示不同的时期。

工具变量估计量

如果准实验得到了一个影响处理接受情况的变量\(Z_i\),若\(Z_i\)的数据和实际接受处理\(X_i\)的数据都能够通过实验得到,且如果\(Z_i\)“似乎”是随机分配的(或者在给定了额外的控制变量\(W_i\)的条件下“似乎”随机分配的),则\(Z_i\)是\(X_i\)的一个合格的工具变量,系数能够通过两阶段最小二乘法得到。

断点回归

准实验的另一个应用场景:是否接受处理完全或者部分依赖于可观测变量W是否超过了某个阈值。例如,假定当一个学生的学年末平均绩点(GPA)低于某个阈值,则这个学生将要被要求参加暑期学校。那么,估计这一强制性暑期学校效果的一个方法是,比较那些平均绩点刚刚低于阈值的学生(因此,需要参加暑期学校)和那些平均绩点刚刚超过阈值的学生(因此,不需要参加暑期学校)在实验后的结果。实验结果Y可以是下一学年的GPA、学生是否退学或者未来的收入。只要这一阈值除了拥有要求学生参加强制性暑期学校的作用以外,再没有其他任何特殊点,则可以将结果在断点处的跳跃看成是暑期学校的影响。

因为在阈值处,是否接受处理出现了跳跃或断点,从而把那些利用阈值处接受处理概率的断点信息进行的研究称为断点回归(regression discontinuity)设计。共有两种断点回归设计:精确断点回归和模糊断点回归。

精确断点回归设计。在精确断点回归设计中,是否接受处理完全由W是否超过阈值决定:所有GPA低于\(w_0\)的学生将参加暑期学校,所有GPA大于或等于\(w_0\)的学生则不用参加暑期学校;也就是说,如果\(W < w_0\)时,\(X_i=1\),如果\(\)W \geq w_0\(时,\)X_i=0\(。此时,阈值处Y的跳跃等于\)W=w_0\(处子样本的平均处理效应,这也可以作为我们感兴趣的更大总体中平均处理效应的近似值。如果除了由于处理所导致的断点之外,回归函数是W的线性函数,则处理效应可以通过回归方程中\)\beta_1$$的估计值来得到:

\[Y_i = \beta_0 + \beta_1 X_i + \beta_2 W_i + \mu_i\]

如果回归方程是非线性的,则可以使用W的非线性函数。

模糊断点回归设计。在模糊断点回归设计中,跨越阈值是决定是否接受处理的一个因素,但并不是唯一的决定因素。例如,假设GPA在阈值以下的一些学生没有参加暑期学校,而GPA在阈值以上的学生反而参加了暑期学校。如果是否接受处理的决定过程非常复杂,而阈值规则只是这个复杂决策过程中的一部分,则此时模糊断点回归适用。在模糊断点设计中,一般而言,\(X_i\)与上式中的扰动项相关。如果超越阈值仅仅增加了接受处理的概率,则此时可以使用工具变量方法。具体而言,反映是否超越阈值的二元变量\(Z_i\)(当\(W < w_0\)时,\(Z_i=1\),当\(\)W \geq w_0\(时,\)Z_i=0\()会影响是否真正接受处理,且\)Z_i\(与\)u_i\(不相关,故\)Z_i\(可以作为\)X_i\(的工具变量。因此,在模糊断点回归中,\)\beta_1$$可以利用工具变量估计式得到。

准实验的潜在问题

同所有的实验研究一样,准实验也面临着内部及外部有效性威胁。对内部有效性的一个特别重要的潜在威胁是:“似乎”随机化是否被当作是真正随机的。

内部有效性威胁

随机对照实验的内部有效性威胁也可以用于准实验,但需要一些修正。

未能完全随机分组。准实验依赖于诸如法律变化、突发不相关事件等个体境况的差别,来提供“似乎”随机化的处理分配。如果这种“似乎”随机方案无法提供一个随机化的处理水平X(或工具变量Z),则OLS估计量通常是有偏的(或工具变量估计是不一致的)。

在真实的实验中,一个用以检验非随机化的方法是检查处理组和对照组的系统性差异。例如,通过将X(或Z)关于个体特征(W)进行回归,且检验W项前的系数为零的假设。如果存在不能由准实验的性质来解释的差异,这就是准实验无法产生真正随机化的证据。即使X(或Z)和W之间不存在关系,X(或Z)仍有可能与误差项中的某些不可观测因素相关。因为这些因素是不可观测的,这种可能性无法被检验,必须通过专家的经验和判断来评估“似乎”随机化假设的有效性。

没有遵守处理协议。在一个真实的实验中,当处理组中的成员没有接受处理,或者对照组中的成员接受了处理,又或者两者同时发生时,没有遵守处理协议的问题就产生了。在这种情况下,因果效应的OLS估计量存在选择偏误。在一个准实验中,没有遵守处理协议的另一种情况是:“似乎”的随机化影响了(但不是决定了)处理水平。在这种情况下,基于准实验的工具变量估计量具有一致性,即使OLS估计量不具有一致性。

中途退出实验。关于中途退出实验,准实验和真实实验的相似点在于:当中途退出实验是由于个人的选择或者特征而发生时,则会引致处理水平与扰动项的相关性。中途退出实验会导致样本选择偏误,故因果效应的OLS估计量是有偏且非一致的。

实验效应。准实验的一个优势在于:因为准实验不是真实发生的实验,个体没有理由认为他们是实验对象。因此,准实验中不存在类似霍桑效应的实验效应。

准实验中的工具变量有效性。评估一项使用工具变量回归的研究的重要一步是仔细考虑工具变量是不是真的有效。在准实验研究中,工具变量是“似乎”随机决定的,这一条件总的来说仍然是正确的。正如之前讨论的,工具变量的有效性需要满足工具变量的相关性及工具变量的外生性。因为工具变量的相关性能够通过使用统计方法来验证,所以在这里,我们重点关注第二点,即如何判断工具变量外生性。

尽管随机分配的工具变量看起来必然是外生的,然而,实际可能并非如此。Angirst(1990)在研究服兵役的经历对退役后收入的因果效应时,利用抽签系统分配的服役资格,即抽签数字作为工具变量。抽签数字实际上是随机分配的,但是,正如Angrist(1990)指出并讨论的,如果一个较小的抽签数字导致了人们采用逃避抽签或避免被抽中的行为,这一逃避行为也影响了他们退役后的收入,则一个较小的抽取数字(\(Z_i\))会和影响退役后的收入的不可观测因素(\(u_i\))相关。也就是说,即使\(Z_i\)是随机分配的,但\(Z_i\)和\(u_i\)依然是相关的。简言之,一个工具变量仅仅是随机分配的或者仅仅是“似乎”随机决定的,并不意味着这个工具变量必然是外生的,即并不意味着\(Z_i\)和\(u_i\)的相关系数必然为零。因此,即使工具变量是从准实验中得到,我们依然要严格检查其外生性。

外部有效性威胁

准实验研究使用的是观测数据,从而准实验研究的外部有效性威胁通常与基于观测数据的常规回归研究的情形相类似。

在这里,我们需要重点考虑的问题是,在准实验研究中,那些产生“似乎”随机性的特殊事件可能导致外部有效性威胁。通常情况下,一项研究能否推广到特定的总体和环境中,这依赖于研究的细节,我们必须“一事一议”地进行审查和评估。

异质性总体下的实验和准实验估计

因果效应可能因个体的不同而不同。之前我们讨论了随着可观测变量(如性别)而变化的因果效应的估计问题。在这一节中,我们将考虑因果效应中的不可观测差异。我们把因果效应中存在不可观测差异的情形称为异质性总体。为了简化问题且把讨论聚焦在不可观测异质性上,在这一节中我们将省略控制变量W;然而我们这一节的讨论结论对包含控制变量的回归依然适用。

如果总体是具有异质性的,则第i个个体拥有他/她自己的因果效应,即\(\beta_{1i}\):\(\beta_{1i}\)是第i个个体接受或不接受处理的潜在实验结果的差。运用这些符号,总体回归方程可以表示为:

\[Y_i = \beta_{0i} + \beta_{1i} X_i + u_i\]

因为\(\beta_{1i}\)随着总体内个体的变化而变化,并且个体是从总体中随机抽取的,因此\(\beta_{1i}\)是一个随机变量,并且,像\(u_i\)一样,反映了个体间的不可观测差异。平均的因果效应是因果效应的总体均值,记作\(E(\beta_{1i})\);换句话说,它是所研究总体的一个随机抽取给他的因果效应期望值。

如果总体异质性是以上式的形式存在,则之前几节中所介绍的估计量估计的是什么?我们首先考虑当\(X_i\)是“似乎”随机决定时的OLS估计量;在这种情况下,OLS估计量是平均因果效应的一致估计量。然而,当\(X_i\)受到\(Z_i\)的部分影响时,运用Z作为工具变量得到的工具变量估计量是因果效应的加权平均,其中,受到工具变量影响最大的个体的权重最大。

异质性因果效应的OLS估计

如果因果效应存在异质性,且\(X_i\)是被随机分配的,则差异估计量是平均因果效应的一致估计量。

异质性因果效应的工具变量估计