【Method】计量导论(一)经济问题和数据
广义上讲,计量经济学是基于经济理论和统计工具分析经济数据的一门科学和艺术。
经济理论提供了回答经济问题的思路,但具体数值答案必须通过经验分析(数据分析)才能得到。由于我们是基于数据来回答这些定理问题,所以给出的答案往往具有某种不确定性。因此,我们不仅需要给出问题的数值解,还需要给出评价答案精确度的方法。
我们将使用的分析方法是多元回归模型,它是计量经济学的主要内容。该模型提供了一种在保持其他变量不变的情形下,量化某一变量变化对另一变量产生的影响的数学方法。
因果效应和理想化随机对照实验
因果关系意味着某一特定行为会导致某一特定的可度量的后果。
因果效应的估计
若给番茄苗施加一定量的肥料,如100克/平方米,我们如何度量其对番茄产量(以千克计)的因果效应呢?
度量这种因果效应的一种方法是做实验。在这个实验中,园艺研究人员种植很多块番茄地,除了施肥量不同之外,对每块地的其他管理都一样,即一些番茄地施肥100克/平方米,而其余番茄地不施肥。另外,为了保证每块地的其他差异与是否对其施肥无关,我们由电脑随机决定对哪些地施肥。在番茄生长季节末,园艺研究人员会称量每块地收获的番茄,施肥与未施肥番茄地在每平方米土地上的平均产量之差即为施肥对番茄产量的因果效应。
这就是一个随机对照实验(randomized controlled experiment)的例子。我们说它是“对照”的,某种意义上是指存在着没有接受处理(未施肥)的对照组(control group)和接受处理(施肥100克/平方米)的处理组(treatment group)。我们说它是“随机”的,某种意义上是指处理(施肥)是随机分配的。这种随机分配消除了可能存在的系统性关系,例如番茄地接受的阳光是否充足与是否给它施肥之间的系统性关系,因此处理组和对照组之间唯一的系统性差别在于是否接受处理。如果该实验规模足够大且能够被准确实施,则我们可以估计出处理(施肥100克/平方米)对结果(番茄产量)的因果效应。
这里的因果效应(causal effect)被定义为某一给定行为或处理(treatment)对结果的影响,类似于理想化随机对照实验中的度量。在这样一个实验中,导致处理组和对照组结果差异的原因只能是某一处理本身。
理想化随机对照实验的概念对我们是有帮助的,它给出了因果效应的定义。然而,这种理想化实验在现实中是不可能完成的。实际上,由于计量经济学实验通常是不道德的、无法圆满实施的或者代价高昂的,因而这类实验十分罕见。但是,理想化随机对照实验的概念确实提供了基于实际数据进行因果效应分析的理论基准。
预测和因果关系
尽管预测不需要涉及因果关系,但经济理论揭示的变量间关系等信息有助于预测。我们可以通过多元回归分析将经济理论所揭示的历史关系进行量化,并检验这些关系随着时间的变化是否仍保持稳定,以及对未来做出定量预测并评估这些预测的精确性。
数据:来源和类型
计量经济学中的数据主要来源于实验或者对现实世界的观测。
实验数据与观测数据
实验数据(experimental data)来源于为评估某种处理(或某项政策),抑或研究某种因果效应而设计的实验。由于这些经济上、实践上及道德上的问题,经济学实验相对罕见。相反地,大部分经济数据都是通过观察现实行为而获得的。
通过观察实验之外的实际行为而获得的数据被称为观测数据(observational data)。我们在尝试用计量经济学方法估计因果效应时,观测数据给我们带来很大挑战,从而需要设计和引入计量工具以解决这些挑战。现实中,“处理”的水平(如番茄实验中的施肥量)并非随机分配,所以我们很难将其他相关因素产生的效应与“处理”效应区分开。计量经济学的许多内容都致力于研究如何解决在用现实数据估计因果效应过程中所面临的问题。
不论是实验数据还是观测数据,数据可分为三种主要类型:截面数据、时间序列数据及面板数据。
截面数据
截面数据(cross-sectional data)是在同一时间收集到的关于不同个体(如工人、消费者、公司或事业单位等)的数据。
有了截面数据,我们可以通过研究某一特定时期内不同的人、公司或其他经济个体之间的差异,以此来了解变量之间的关系。
时间序列数据
时间序列数据(time series data)是对同一个体(如个人、公司、国家等)在多个不同时期内收集到的数据。
通过对某一个体一段时间的追踪,时间序列数据可用于研究变量随着时间推移而发生的演变,同时可以预测这些变量的未来值。
面板数据
面板数据(panel data),也被称为纵向数据(longitudinal data),是多个个体分别在两期或多个时期内观测到的数据。
我们可以从过面板数据中很多不同个体的经历和每个个体的变量随时间的变化情况来了解经济关系。