本章将讨论如何估计X的变化对Y的当期值及未来值的影响,即X的变化对Y的动态因果效应(dynamic causal effect)。例如,佛罗里达州的一次霜降将如何影响橙汁价格的变化路径?我们将通过分布滞后模型来讨论如何建模、如何估计动态因果效应。在分布滞后模型中,\(Y_t\)被表示为\(X_t\)当期值和过去值的函数。

动态因果效应

动态因果效应和时间序列数据

之前我们将因果效应定义为理想化随机对照实验的结果:例如,如果一位园艺研究人员将肥料随机分配到一些番茄地中,然后衡量番茄地的番茄产量,则被施过肥的番茄地和没有被施肥的番茄地的产量之差便是肥料对番茄产量的因果效应。这一实验概念中包含多个实验对象(多块番茄地或多个人),从而实验数据是横截面类型(不同番茄地的番茄产量),或者是面板数据类型(工作培训实验项目之前和之后的不同个体的收入)。因为存在多个实验对象,所以可以设定处理组和对照组,并由此估计处理的因果效应。

在应用时间序列数据时,我们需要修正这种以理性化随机对照实验结果为基础的因果效应定义。具体而言,我们可以考虑一个重要的宏观经济问题:估计一次没有被预期到的短期利率变化对一个给定国家的当期和未来经济活动的因果效应,其中经济活动用GDP来衡量。我们需要把不同的经济体随机分配到处理组和控制组。处理组中的中央银行随机改变利率,而控制组中的中央银行不改变利率。然后记录两个组在随后几年中的经济活动变化(用GDP来衡量)。但是,如果我们只对某个特定国家(如美国)的这种因素效应感兴趣,我们该怎么做呢?这个实验要求我们克隆出不同的美国,并把一些克隆体随机分配到处理组,把剩下的克隆体分配到控制组。显然,这种随机对照实验是不可行的。

然而,在时间序列数据中,我们可以把随机对照实验看作在不同时点上(例如20世纪70年代,20世纪80年代,以此类推)对同一个实验对象(如美国经济)给与不同的处理(如随机改变利率)。在这个框架下,一个研究对象同时扮演了处理组和对照组的角色:有时候美联储会改变利率,而在另外一些时候美联储保持利率不变。因为我们能够收集到不同时点上的数据,因此我们能够估计动态因果效应,即我们所感兴趣的处理对实验结果的影响的时间路径。

动态因果效应和分布滞后模型。因为动态因果效应是随时间变化而产生的,从而用来估计动态因果效应的计量经济学模型需要包含滞后项。为了达到这个目的,我们可以将\(Y_t\)表示为\(X_t\)的当期值及r个滞后项的形式:

\[Y_t = \beta_0 + \beta_1 X_t + \beta_2 X_{t-1} + \beta_3 X_{t-2} + ... + \beta_{r+1} X_{t-r} + u_t\]

其中,\(u_t\)是误差项,它包含了\(Y_t\)的测量误差及被遗漏的解释变量。上式所示的模型被称为分布滞后模型(distributed lag model)。

为了说明上式的含义,我们可以考虑一个修正版本的番茄产量/化肥实验:因为今天使用的化肥可能会在土地中留存几年,因此园艺研究人员想要分析施肥对番茄产量的因果效应将如何随时间而变化。于是,她设计了一个为期3年的实验,她把她的番茄种植地随机划分为四个组:第一组只在第一年施肥,第二组只在第二年施肥,第三组只在第三年施肥,第四组作为对照组,不进行施肥。四块地上的番茄年年都在生长,然后在第三年称重每块地上的番茄产量。三个处理组分别由二元变量\(X_{t-2}, X_{t-1}和X_t\)表示,其中t表示第三年(称重番茄产量的那一年),如果土地属于第一组(即在第一年施肥),则\(X_{t-2}=1\);如果土地在第二年施肥,则\(X_{t-1}=1\);如果土地在第三年施肥,则\(X_t=1\)。结合上式来分析(将该公式运用到一块土地上),在最后一年施肥的因果效应为\(\beta_1\),在第二年施肥的因果效应为\(\beta_2\),在第一年施肥的因果效应为\(\beta_3\)。如果施肥的因果效应在施肥当年是最大的,则\(\beta_1\)将大于\(\beta_2\)和\(\beta_3\)。

更一般地,\(X_t\)的系数\(\beta_1\)度量了\(X_t\)的单位变化对\(Y_t\)的当期因果效应或即时因果效应。\(X_{t-1}\)的系数\(\beta_2\)度量了\(X_{t-1}\)的单位变化对\(Y_t\)的因果效应,或等价地,它度量了\(X_t\)的单位变化对\(Y_{t+1}\)的因果效应;换句话说,\(\beta_2\)是X的单位变化对Y未来一期的值的因果效应。总体而言,\(X_{t-h}\)的系数度量了X的单位变化对Y未来h期的值的因果效应。动态因果效应\(X_t\)的变化对\(Y_t, Y_{t+1}和Y_{t+2}\)等的因果效应,即动态因果效应是对Y的当期值和未来值的因果效应所组成的序列。因此,在分布滞后模型中,动态因果效应是系数\(\beta_1, \beta_2, ..., \beta_{r+1}\)所组成的序列。

时间序列分析的隐含条件。在使用时间序列模型分析动态因果效应时需要一些隐含的前提条件。首先,在我们的样本考察期内,动态因果效应不能发生变化。数据的联合平稳性能够保证这一点。我们可以使用QLR统计量来检验总体回归函数的稳定性,可以估计在不同子样本下的动态因果效应。第二个隐含条件是,解释变量X必须和误差项不相关,我们接下来开始讨论这个隐含条件。

两种类型的外生性

外生解释变量是指解释变量和回归误差项不存在相关性,内生解释变量是指解释变量和误差项存在相关性。这个术语可以追溯到多方程模型,其中内生变量是指由模型决定的变量,而外生变量是指由模型之外的因素决定的变量。粗略地将,如果我们想要使用分布滞后模型来估计动态因果效应,解释变量X必须和误差项不相关。即X必须是外生的。然而,因为我们要处理的是时间序列数据,我们需要重新凝练外生性的概念。事实上,我们使用的外生性概念有两种。

第一种外生性概念是指,给定\(X_t\)的当期值和所有的过去值,误差项的条件均值为零,即\(E(u_t \mid X_t, X_{t-1}, X_{t-2}, ...) =0\)。这个概念修正了横截面数据多元回归中的零均值假设,哪里只要求\(E(u_t \mid X_t, X_{t-1}, ..., X_{t-r})=0\),其中\(X_t, X_{t-1}, ...,X_{t-r}\)是包含在回归方程中的解释变量。相比之下,条件期望中包含\(X_t\)的所有滞后值意味着所有更早期的因果效应(即滞后阶数超过r的因果效应)均为零。因此,在这个假设下,r阶分布滞后系数构成了所有非零的动态因果效应。我们可以把这个假设\(E(u_t \mid X_t, X_{t-1}, X_{t-2}, ...) =0\)称为基于过去和现在的外生性,但是,由于这个概念和第12章中的外生性概念类似,所以我们仍使用术语外生性(exogeneity)。

关于外生性的第二个概念是指,给定\(X_t\)的当期值、所有的过去值及所有的未来值,误差项的条件均值为零,即\(E(u_t \mid ..., X_{t+2}, X_{t+1}, X_t, X_{t-1}, X_{t-2}, ...)=0\),这被称为严格外生性;为了简单起见,我们也将它称为基于过去、现在和未来的外生性。本章引入严格外生性概念的原因在于,当X是严格外生时,动态效应估计量比分布滞后模型系数的OLS估计量更有效。

外生性和严格外生性的差别在于,严格外生性将X的未来值也加入条件期望中。因此,严格外生性能够推导出外生性,但反之不成立。一种理解这两个概念之间差异的方法是:考虑这两个概念中所隐含的X和u的相关性。如果X是外生的,则\(u_t\)和\(X_t\)的当期值及过去值不相关。如果X是严格外生的,则\(u_t\)还和\(X_t\)的未来值不相关。如果\(Y_t\)的变化会导致\(X_t\)未来值发生变化,则即使\(X_t\)是外生的,但它不是严格外生的。

使用外生解释变量估计动态因果效应

如果X是外生的,则我们可以通过分布滞后模型进行OLS估计以得到X的动态因果效应。本节将讨论在什么条件下基于OLS估计量的统计推断是可信的,同时本节将介绍动态乘数和累积动态乘数的概念。

分布滞后模型的假设

分布滞后模型的四个基本假设与横截面数据多元回归模型的四个基本假设类似,但分布滞后模型的基本假设已针对时间序列数据做了修正。

第一个假设:X是外生的。这个假设拓展了横截面数据多元回归模型中的零条件均值假设,将该假设拓展到了“给定X的所有滞后值”的情形。这个假设意味着分布滞后模型中系数包含了所有非零的动态因果效应。因此i,总体回归函数总结了X对Y的动态因果效应。

第二个假设由两部分组成:(1) 变量是平稳的;(2) 当时间间隔变大时,不同期的变量值是相互独立的。这个假设和ADL模型中的对应假设是一样的

第三个假设:不存在大的异常值,即变量具有大于八阶的非零有限矩。这比本书其他部分使用的有限四阶矩的假设要强。这一较强的假设可以用在HAC方差估计量的推导中。

第四个假设:变量之间不存在完全多重共线性。这一假设和横截面数据多元回归模型中假设一样。

推广到多个X的情形。分布滞后模型可以直接推广到多个X的情形:额外的变量X和它们的滞后项可以作为解释变量加入分布滞后模型中,这些新加入的解释变量也必须服从上述模型假设。尽管推广到多个X的做法在概念上简单直接,但这么做会使得表述变得复杂,不利于我们对分布模型估计和推断思想的理解。正是出于这个原因,本章没有直接涉及多个X的情形。

存在序列相关的u、标准误差和推断

在分布滞后模型中,误差项\(u_t\)可能存在序列相关,即\(u_t\)可能和它的滞后项存在相关性。自相关可能由于包含在\(u_t\)中的遗漏变量存在自相关而导致。

\(u_t\)的自相关性不会影响OLS估计的一致性,也不会引入偏误。但是,如果误差项是自相关的,则由OLS得到的标准误差是非一致的,我们必须使用另一个公式来计算标准误差。因此,序列相关和异方差有相似性:当误差项实际上是异方差时,同方差适用的标准误差是“错误”的,因为当误差项为异方差时,使用同方差适用的标准误差得到的统计推断是错误的。类似地,当误差项存在序列相关时,基于独立同分布的误差项计算的标准误差是“错误的”,因为它会导致统计推断具有误导性。这个问题的解决方法是采用HAC标准误。

动态乘数和累积动态乘数

动态因果效应的另一个名称是动态乘数。累积动态乘数是直到某一给定的滞后项的累积因果效应;因此,累积动态乘数衡量的是X对Y的累积因果效应。

动态乘数。X的单位变化在h期后对Y的因果效应,即\(\beta_{h+1}\),这被称为h期动态乘数(dynamic multiplier)。因此,X对Y的动态乘数是\(X_t\)和它的滞后项前的稀疏。例如,\(\beta_2\)是一期动态乘数,\(\beta_3\)是二期动态乘数,以此类推。使用这个术语,零期动态乘数是\(\beta_1\),即X的变化对同期Y的因果效应。

因为动态乘数是使用OLS估计得到的,从而它们的标准误差是OLS回归系数的HAC标准误。

累积动态乘数。h期累积动态乘数(cumulative dynamic multiplier)是X的单位变化对之后h期Y值的累积因果效应。因此,累积动态乘数是动态乘数的累积和。零期累积乘数为\(\beta_1\),一期累积乘数为\(\beta_1 + \beta_2\),h期累积动态乘数为\(\beta_1 + \beta_2 + ... + \beta_{h+1}\)。所有的单个动态乘数之和\(\beta_1 + \beta_2 + ... + \beta_{r+1}\)表示X的变化对Y的累积长期因果效应,被称为长期累积动态乘数(long-run cumulative dynamic multiplier)。

累积动态乘数可以直接使用分布滞后模型的修正模型进行估计。修正后的模型为

\[Y_t = \sigma_0 + \sigma_1 \Delta X_t + \sigma_2 \Delta X_{t-1} + \sigma_3 \Delta X_{t-2} + ... + \sigma_r \Delta_{t-r+1} + \sigma_{r+1} X_{t-r} + u_t\]

上式中的系数\(\sigma_1, \sigma_2, ..., \sigma_{r+1}\),事实上是累积动态乘数。使用上式估计累积动态乘数的好处在于:因为方程系数的OLS估计量是累积动态乘数,上式中的系数的HAC标准误便是累积动态乘数的HAC标准误。

异方差和自相关一致标准误

如果误差项\(u_t\)是自相关的,虽然OLS系数估计量是一致的,但通常使用的截面数据的OLS标准误差是非一致的。这意味着,常规的统计推断(基于通常的OLS标准误差的假设检验及置信区间)是有误导性的。例如,OLS估计量\(\pm\)1.96倍常规标准误差的置信区间包含系数真值的概率不是95%,即使在大样本下依然如此。本部分首先推导具有序列相关的误差项下的OLS估计量的方差,然后开始讨论异方差和自相关一致(HAC)标准误。

误差项存在序列相关时的OLS估计量分布

为了简化分析,考虑没有滞后项的分布滞后模型中的OLS估计量\(\hat{\beta}_1\)。具体而言,此时考虑如下模型:

\[Y_t = \beta_0 + \beta_1 X_t + u_t\]

模型符合基本假设。本节将证明\(\hat{\beta}_1\)的方差可以表示为两部分的乘积,这两部分分别是误差项不存在序列相关时的\(Var(\hat{\beta}_1)\)及针对自相关的校正因子。

OLS估计量\(\hat{\beta}_1\)可以写为

\[\hat{\beta}_1 = \beta_1 + \frac{\frac{1}{T} \sum_{t=1}^T (X_t - \bar{X})u_t}{\frac{1}{T} \sum_{t=1}^T (X_t - \bar{X})^2}\]

HAC标准误

无论误差项是否是异方差,以及无论\(v_t\)是否存在序列相关,调整后的\(\hat{\beta}_1\)方差估计量都是一致的。所以称这个估计量为\(\hat{\beta}_1\)的异方差和自相关一致(HAC)估计量,HAC方差估计量的平方根为\(\hat{\beta}_1\)的HAC标准误。

HAC方差公式。\(\hat{\beta}_1\)方差的异方差和自相关一致估计量是:

\[\tilde{\sigma}_{\hat{\beta}_1}^2 = \tilde{\sigma}_{\hat{\beta}_1}^2 \hat{f}_T\]

严格外生解释变量的动态因故效应估计

当\(X_t\)是严格外生时,我们可以使用两个方法来估计动态因果效应。第一种方法是估计自回归分布滞后模型(而不是直接估计分布滞后模型),通过自回归分布滞后模型的系数估计量来计算动态乘数。第二种方法是使用广义最小二乘法(GLS)估计分布滞后模型的系数。尽管通过GLS估计出的系数个数和OLS估计出的系数个数一样,但GLS估计量的方差更小。为了更直观地说明这一点,我们将这两种方法应用到一个误差项为AR(1)过程且只含有一个滞后项的分布滞后模型中。当分布滞后模型包含更多滞后项时,这两个估计量的优势更大,因此我们将以上分析推广到误差项为AR(p)过程的分布滞后模型中。

HAC标准误

问题:分布滞后模型中的误差项\(u_t\)可能存在序列相关。如果是这样,则OLS系数估计量是一致的,但OLS标准误差的估计量不是一直的,从而使得假设检验结果和置信区间存在误导性。

解决方法:应该使用异方差和自相关一致标准误来计算系数估计量的方差。HAC估计量包含了m-1个自协方差和方差的估计;在实践中,使用HAC标准误需要我们选择截断参数m。然后,我们可以根据解释变量和误差项中自相关阶数的高低来增加或减少m。

误差项为AR(1)过程的分布滞后模型

假设X的变化对Y的因果效应只持续两期:换言之,即时效应是\(\beta_1\),下一期的效应为\(\beta_2\),但在此之后不再存在任何影响。符合这种设定的模型如下:

\[Y_t = \beta_0 + \beta_1 X_t + \beta_2 X_{t-1} + u_t\]

误差项存在序列相关。当误差项存在序列相关时,如果我们用OLS方法估计分布滞后模型,则基于OLS标准误差的统计推断便具有误导性。出于这个原因,我们可以使用OLS方法估计\(\beta_1\)和\(\beta_2\),但其标准误差应采用HAC标准误。

在本节中,我们对\(u_t\)的序列相关采用不同的设定。当\(X_t\)严格外生时,这种方法假设\(u_t\)服从AR过程,我们利用AR模型的设定可以推出比分布滞后模型中OLS估计量更有效的估计量。

具体而言,假定\(u_t\)服从AR(1)模型

\[u_t = \phi_1 u_{t-1} + \tilde{u}_t\]

其中,\(\phi_1\)是自回归参数,\(\tilde{u}_t\)不存在序列相关性。

ADL模型的OLS估计

GLS估计

含其他滞后项且误差项为AR(p)过程的分布滞后模型