如果能够获取相关数据,多元回归是分析因果效应的一个非常有用的工具。然而,当某些变量的数据无法获取时,便无法将这些变量纳入回归模型中,从而致使回归系数的OLS估计量可能存在遗漏变量偏差。

为此,本章将介绍一种方法,它能够处理那些无法得到观测数据的遗漏变量的影响。这种方法需要一种特殊类型的数据,即面板数据。这些数据是通过对同一组个体在两期或多期内的观测得到。通过研究被解释变量随时间发生的变化,可以消除那些个体间不同但在时间上保持不变的遗漏变量影响。

面板数据

面板数据(panel data,也称纵向数据,longitudinal data),指的是n个不同个体在T个不同时期被观测到的数据。

在描述截面数据时,用下标i表示个体,如\(Y_i\)表示第i个个体的变量Y。在描述面板数据时,我们需要引进其他符号从而可同时表示个体和时期。为此我们采用双下标而不是单下标进行标注,其中,第一个下标i表示观测个体,第二个下标t表示观测时期,因此\(Y_{it}\)表示n个个体中的第i个个体在T期中的第t期被观测到的变量Y的值。

其他一些关于面板数据的术语则描述了是否存在观测值的缺失:平衡面板(balanced panel)具备所有观测值,即所有变量在每个个体和每一时期都能被观测到。如果至少有一个个体在至少一个时期中存在数据缺失,则这种面板称为非平衡面板(unbalanced panel)。

固定效应回归

固定效应回归是一种控制面板数据中随个体变化但不随时间变化的遗漏变量的方法。固定效应回归可以用于每个个体存在两期或两期以上观测值的情形。

固定效应模型具有n个不同的截距,每个截距对应一个个体。这些截距可以用一系列的二元(或指示)变量来表示。这些二元变量包含了所有在个体间不同但不随时间变化的遗漏变量的影响。

固定效应回归模型

我们将回归模型中的被解释变量和解释变量分别记作\(Y_{it}\)和\(X_{it}\)

\[Y_{it}=\beta_0 + \beta_1 X_{it} + \beta_2 Z_i + u_{it}\]

其中,\(Z_i\)表示随i发生变化但不随时间变化的不可观测变量。我们想要估计出\(\beta_1\),即保持不可观测的i的特征Z不变的情况下,X对Y的影响或效应。

由于\(Z_i\)随i发生变化但不随时间发生变化,因此上式中的总体回归模型可以理解为含有n个截距,每个截距对应一个i。具体地,令\(\alpha_i = \beta_0 + \beta_2 Z_i\),则上式可转化为

\[Y_{it} = \beta_1 X_{it} + \alpha_i + u_{it}\]

上式就是固定效应回归模型(fixed effects regression model),其中\(\alpha_1, ..., \alpha_n\)可视为待估的未知截距,每一个i对应一个截距。\(\alpha_i\)为特定i的截距,源于i的总体回归线,该总体回归线为\(\alpha_i +\beta_1 X_{it}\)。总体回归线的斜率系数\(\beta_1\)对所有i都相同,但总体回归线的截距对不同的i有不同的取值。

由于上式中的截距\(\alpha_i\)可视为属于第i个个体的“效应”,因此\(\alpha_1, ..., \alpha_n\)被称为个体固定效应(entity fixed effects)。个体固定效应的差异源于随个体变化但不随时间变化的遗漏变量,如上式中的\(Z_i\)。

固定效应回归模型中特定第i个个体的截距也可以用对应第i个个体的二元变量来表示。数学中通常使用表示两组中其中一组的一个二元变量来表示这种总体回归线。如果我们的数据集中只包含两个个体,那么二元变量回归模型适用。然而,由于数据集中个体数量多于两个,因此我们需要其他的二元变量来描述所有特定个体的截距。

为了使用二元变量构建固定效应模型,令\(D1_i\)表示当i=1时等于1、否则等于0的二元变量,令\(D2_i\)表示当i=2时等于1、否则等于0的二元变量,以此类推。但在回归方程中不能同时包含所有这n个个体的二元变量和一个共同截距项,因为如果这么做的话,解释变量间将存在完全多重共线性(即“虚拟变量陷阱”),所以我们任意地略去第一组的二元变量\(D1_i\)。于是,上式的固定效应回归模型可以等价地表示为

\[Y_{it} = \beta_0 + \beta_1 X_{it} + \gamma_2 D2_i + \gamma_3 D3_i + ... + \gamma_n Dn_i + u_{it}\]

其中,\(\beta_0, \beta_1, \gamma_2, ..., \gamma_n\)为待估位置参数。为了推导上上个式子中截距和上个式子中系数的关系,需要比较两个方程式中每个i的总体回归线。在上式中,第一个州的总体回归方程为\(\beta_0 + \beta_1 X_{it}\),因此\(\alpha_1 = \beta_0\)。对于i=2, …, n,相应的总体回归方程为\(\beta_0 + \beta_1 X_{it} + \gamma_i\),因此对于\(i \geq 2\)有\(\alpha_i = \beta_0 +\gamma_i\)。

因此,上面两个式子是表述固定效应回归模型的两种等价方法。在前式中,用n个特定i的截距来表示。而在后式中,固定效应回归模型具有一个共同截距项和n-1个二元解释变量。在两个方程中,解释变量X的斜率系数对于每个州都是相同的。前式中特定个体i的截距与后式中的二元解释变量具有相同的来源:随i发生变化但不随时间变化的不可观测变量\(Z_i\)。

推广到具有多个X情形的固定效应回归模型

固定效应回归模型为

\[Y_{it} = \beta_1 X_{1,it} + ... + \beta_k X_{k,it} + \alpha_i + u_{it}\]

其中,\(i-1,...,n; t=1,...,T\)。\(X_{1,it}\)表示第i个个体在时期t对第一个解释变量的取值,\(X_{2,it}\)为第二个解释变量的取值,以此类推。\(\alpha_1,...,\alpha_n\)为对应个体的截距项。

等价地,固定效应回归模型也可以表示为由一个共同截距项、X及n-1个二元变量组成的形式:

\[Y_{it} = \beta_0 + \beta_1 X_{1,it} + ... + \beta_k X_{k,it} + \gamma_2 D2_i + \gamma_3 D3_i + ... + \gamma_n Dn_i + u_{it}\]

其中,当i=2时,\(D2_i=1\),否则\(D2_i=0\),以此类推。

估计和推断

原则上,固定效应回归模型中设定的二元变量可由OLS来估计。然而,在这个回归方程中有k+n个回归变量(k个X,n-1个二元变量和一个截距项),所以在实际应用中,这个OLS回归方程是烦冗的,当个体数量较大时某些软件包将无法估计这种回归方程。对此,计量经济学软件中有专门针对固定效应回归模型OLS估计的特定程序。这些特定程序等价于全体二元变量回归的OLS估计,但由于这些特定程序运用了一些固定效应回归中特有的代数简化,因此运算速度更快。

“个体中心化”OLS算法。回归软件对于固定效应模型中OLS估计量的计算一般分为两步。第一步,每个变量减去该变量在特定个体层面上的平均值。第二步,使用“个体中心化”变量估计回归方程。

“前后”(差分)回归与二元变量设定。尽管含有二元变量的固定效应回归模型与“前后”差分回归模型看上去差别很大,然而在T=2的特殊情况下,如果去除“前后”设定形式中的截距项,则二元变量设定下\(\beta_1\)的估计量与“前后”设定下的\(\beta_1\)估计量是等价的。

抽样分布、标准误差和统计推断。在截面数据的多元回归中,如果关于多元回归模型的四个最小二乘假设成立,那么在大样本下OLS估计量服从正态分布。其方差可由数据估计得到,而方差估计量的平方根,即标准误差,可用于(采用t统计量的)假设检验及构造置信区间。

同样地,在面板数据多元回归中,如果一系列假设(称为固定效应回归的假设)成立的话,则在大样本下固定效应OLS估计量也服从正态分布,由数据可以估计出该分布的方差,方差估计量的平方根即标准误差,可用于构建t统计量和置信区间。在给定标准误差的情况下,统计推断——假设检验(包括使用F统计量的联合假设)和置信区间的构建——与截面数据多元回归相同。

时间固定效应回归

个体固定效应可以控制不随时间变化但随个体变化的变量所产生的影响,同理,时间固定效应可以控制不随个体变化但随时间变化的变量所产生的影响。

由于新车安全性能的提升是在全国范围内发生的,这能够减少所有州的交通事故死亡人数。因此,将汽车安全性能作为一个随时间变化但不随州变化的遗漏变量是合理的。为了更明确地体现出汽车安全性能对交通事故死亡率的影响,我们用\(S_t\)表示汽车安全性能,得到:

\[Y_{it} = \beta_0 + \beta_1 X_{it} +\beta_2 Z_i + \beta_3 S_t + u_{it}\]

其中\(S_t\)不可观测,单个下标t强调汽车安全性能随时间变化但不随州变化。由于\(\beta_3 S_t\)表示决定\(Y_{it}\)的变量,若\(S_t\)与\(X_{it}\)相关,则回归中遗漏\(S_t\)就会导致遗漏变量偏差。

只有时间效应

我们暂时假设变量\(Z_i\)没有出现,即将\(\beta_2 Z_i\)这一项从上式中去掉,只保留\(\beta_3 S_t\)。我们的目标是在控制\(S_t\)的条件下估计\(\beta_1\)。

尽管\(S_t\)不可观测,但由于它随时间变化而不随州变化,正如可以消除州变化但不随时间变化的变量\(Z_i\)的效应一样,我们也可以消除\(S_t\)的影响。在个体固定效应回归模型中,由于\($Z_i\)的存在使得固定效应回归模型中每个州都有自己的截距项(或固定效应)。类似地,由于\(S_t\)随时间变化但不随州变化,因此由\(S_t\)可以得到一个每一时期都有其截距项的回归模型。

只包含单个解释变量X的时间固定效应回归模型(time fixed effects regression model)为

\[Y_{it} = \beta_1 X_{it} + \lambda_t +u_{it}\]

该模型中每个时期的截距项\(\lambda_t\)都不相同。上式中的截距项\(\lambda_t\)可认为年份(或更一般的,时期t)对Y的“效应”,因此\(\lambda_1, \lambda_2, ..., \lambda_t\)被称为时间固定效应(time fixed effects)。时间固定效应的变化源于随时间变化但不随州变化的\(S_t\)这样的遗漏变量。

正如个体固定效应模型可以用n-1个二元指示变量表示一样,时间固定效应模型也可以用T-1个二元变量表示:

\[Y_{it} = \beta_0 + \beta_1 X_{it} + \sigma_2 B2_t + ... + \sigma_T BT_t + u_{it}\]

其中\(\sigma_2, ..., \sigma_T\)为未知系数,且当t=2时,\(B2_t =1\),否则\(B2_t = 0\),以此类推。同之前的固定效应回归模型一样,这个时间固定效应模型中包含了一个共同的截距项,同时为了避免完全多重共线性而略去了第一个二元变量\(B1_t\)。

在交通死亡事故的回归中,时间固定效应的设定形式使得我们能够消除诸如全国范围内引进的随时间变化但在给定年份内不随州变化的安全标准这样的遗漏变量所引起的偏差。

同时包含个体与时间固定效应

如果某些遗漏变量不随时间变化但随州变化(如各州文化规范),而其他遗漏变量不随州变化但随时间变化(如国家安全标准),那么合理的做法是在模型中同时加入个体(州)和时间效应。

整合的个体和时间固定效应回归模型(entity and time fixed effects regression model)为

\[Y_{it} = \beta_1 X_{it} + \alpha_i + \lambda_t + u_{it}\]

其中,\(\alpha_i\)为个体固定效应,\(\lambda_t\)为时间固定效应。这个模型也可以等价地用n-1个个体二元指示变量和T-1个时间二元指示变量及一个共同截距项表示:

\[Y_{it} = \beta_0 + \beta_1 X_{it} + \gamma_2 D2_i + ... + \gamma_n Dn_i +\sigma_2 B2_t + ... + \sigma_T BT_t + u_{it}\]

式中,\(\beta_0, \beta_1, \gamma_2, ..., \gamma_n 及\sigma_2,...,\sigma_T\)为未知参数。

当存在其他可观测的回归变量“X”时,则在上式中加入这些变量。

整合的个体和时间固定效应回归模型同时消除了由时间上相同的不可观测变量和州间相同的不可观测变量所引起的遗漏变量偏差。

估计。时间固定效应模型与整合的个体和时间固定效应模型都是多元回归模型的变形。因此,它们的系数可以通过加入额外的时间二元变量后由OLS进行估计。

固定效应回归假设和固定效应回归的标准误差

在面板数据中,同一个个体的回归误差项可以是跨时间相关的。与异方差一样,这种相关性不会导致固定效应估计量有偏,但会影响固定效应估计量的方差并由此影响标准误差的计算。本章介绍的固定效应回归的标准误差称为集群标准误(clustered standard errors),不仅对异方差是稳健的,对同一个个体的跨时间相关性也是稳健的。当存在很多个体(n很大)时,可以使用通常的大样本下的正态分布性质和F临界值计算假设检验和置信区间。

本节对集群标准误进行讨论。我们首先介绍固定效应回归假设,固定效应回归假设将最小二乘回归假设扩展到了面板数据中;在这些假设下,当n充分大时,固定效应估计量渐近服从正态分布。为了使符号尽可能简单,本节中讨论个体固定效应回归模型,即不包含时间效应。

固定效应回归假设

固定效应回归的四个假设将关于截面数据的四个最小二乘假设推广到了面板数据中。

固定效应回归假设:

\[Y_{it} = \beta_1 X_{it} + \alpha_i + u_{it}, i=1,...,n, t=1,...,T\]

其中

  1. \(u_{it}\)条件均值为零:即\(E(u_{it} \mid X_{i1}, X_{i2}, ..., X_{iT}, \alpha_i) = 0\)
  2. \((X_{i1}, X_{i2}, ..., X_{iT},u_{i1}, u_{i2}, ..., u_{iT}), i=1,...,n\),是从总体联合分布中抽取的i.i.d.(独立同分布)样本。
  3. 不存在大的异常值:\((X_{it}, u_{it})\)具有非零的有限四阶矩。
  4. 不存在完全多重共线性。

对于多元回归变量,需将\(X_{it}\)替换为\(X_{1,it}, X_{2,it}, ..., X_{k,it}\)。

第一个假设是,在给定某个个体的X的所有T期取值时,误差项的条件均值为零。这一假设与截面数据中的第一个最小二乘假设具有相同的作用,即表明不存在遗漏变量偏差。要求误差项\(u_{it}\)的条件均值不依赖于个体X的任何取值——过去的、现在的或者是未来的,这比截面数据的第一个最小二乘假设增加了一些细微但重要的内容。如果当前的\(u_{it}\)与X的过去值、当前值或未来值相关,这个假设将不成立。

第二个假设是,单个个体的变量与其他个体的变量具有相同但独立的分布;也就是说,变量在个体i=1,…,n间是独立同分布的。如同截面数据的第二个最小二乘假设,如果个体是从总体中通过简单随机抽样获取的,则固定效应回归的第二个假设成立。

固定效应回归的第三个假设和第四个假设与截面数据的第三个和第四个最小二乘假设类似。

在面板数据的最小二乘假设下,当n充分大时,固定效应估计量是一致的且服从正态分布。

面板数据假设与截面数据假设的一个重要区别在于假设2。当每一个观测值相互独立时,即数据通过简单随机抽样取得时,截面数据对应的假设2成立。相比之下,面板数据对应的假设2成立,则要求变量在不同个体之间是相互独立的,但对同一个个体内部并不施加这样的约束。举例说明,假设2允许同一个个体的\(X_{it}\)在时间上相关。

对于不同的s和t,如果\(X_{is}\)与\(X_{it}\)相关,即给定个体的\(X_{it}\)在时间上相关,则称\(X_{it}\)存在自相关(autocorrelated,即与自身不同时期的值相关)或序列相关(serially correlated)。时间序列数据中普遍存在自相关:今年发生的事情往往与下一年发生的事情相关。在交通死亡事故的例子中,第i个州在第t年的啤酒税\(X_{it}\)存在自相关:在大多数时期内,立法机构不会更改啤酒税,因此如果第i个州某一年的啤酒税相对于其均值较高,那么在下一年也趋向于较高。同理,思考一下为什么\(u_{it}\)也可能存在自相关。根据前文所述,\(u_{it}\)包含了随时间变化的因素,这些因素是\(Y_{it}\)的决定因素,但并未包含在解释变量中,而这些遗漏的解释变量中的某些变量可能存在自相关。例如,当地经济下滑可能会导致失业并减少上下班交通工具的使用,从而在两年或更长的时间内降低交通思维事故。统一,对主干道路的改进工程,不仅可以技术减少工程完工当年的交通事故,也可减少未来几年内的交通事故。遗漏这些可以持续多年的变量就会导致回归误差项的自相关。但不是所有的遗漏因素都会导致\(u_{it}\)的自相关;例如,恶劣的冬季驾车条件很可能影响死亡事故,但如果某个州的冬季天气状况在当年和下一年间是相互独立的,那么误差项中包含的这种成分是序列不相关的。不过,一般而言,只要某些遗漏变量是自相关的,\(u_{it}\)就会存在自相关。

固定效应回归的标准误差

如果回归误差项存在自相关,则通常用于截面回归的异方差-稳健标准误差公式将不再正确。理解这一问题的一种方法是与异方差性做类比。在截面数据回归中,如果误差项存在异方差,那么仅适用于同方差的标准误差公式将不再正确,因为此时的公式是在错误的假设(同方差假设)下推导出来的。同理,如果误差项存在自相关,那么通常的标准误差公式也将不再正确,因为这些公式也是在错误的假设(无序列相关假设)下推导出来的。

如果\(u_{it}\)存在潜在的异方差和潜在的同一个体内的序列自相关,则适用的标准误差称为异方差和自相关一致标准误(heteroskedasticity-and-autocorrelation-consistent standard errors)或简称HAC标准误(HAC standard errors)。本章适用的标准误差是HAC标注误的其中一种类型,即集群标准误(clustered standard errors)。之所以称为“集群”,是因为该标准误差允许回归误差在同一集群或组内具有任意形式的相关性。在面板数据中,每个集群包含一个个体,因此集群标准误允许存在异方差及同一个个体内任意形式的自相关,但认为个体之间的误差是不相关的。也就说,集群标准误允许存在于第二个固定效应回归假设保持一致的异方差和自相关。