在之前的章节中,我们均假定总体回归函数是线性的,即总体回归函数的斜率是常数,因此X变化1个单位对Y的影响并不依赖于X本身的取值。然而,当X的变化对Y的影响依赖于一个或多个解释变量的取值时,情况会怎样?在这种情形下,总体回归函数是非线性的。

本章将介绍两类建立非线性回归模型的方法。其中,第一类适合用于解释变量\(X_1\)的变化对Y的影响依赖于\(X_1\)本身取值时的情形。第二类方法适用于解释变量\(X_1\)的变化对Y的影响依赖于\(X_2\)取值时的情形。

非线性回归的一般建模方法

本节将展示非线性回归建模的一般方法,该方法是将多元回归模型推广到非线性回归模型的情形,从而可利用前面章节的方法进行估计和检验。

非线性设定形式中X的变化对Y的影响

在固定其他解释变量\(X_2,...,X_k\)不变的情况下,当解释变量\(X_1\)变化\(\delta X_1\)时,被解释变量Y的变化是多少?当总体回归函数为线性时,该效应很容易计算,Y的变化为\(\delta Y = \beta_1 \delta X_1\),其中\(\beta_1\)为\(X_1\)的总体回归系数。但当回归函数为非线性形式时,Y的预期变化依赖于解释变量的取值,从而其计算较为复杂。

非线性回归函数的一般公式。本章中所讨论的非线性回归模型具有如下形式。

\[Y_i = f(X_{1i}, X_{2i},...,X_{ki}) + u_i, i=1,...,n\]

其中,\(f(X_{1i}, X_{2i},...,X_{ki})\)为非线性回归函数(nonlinear regression function),它是解释变量\(X_{1i}, X_{2i}, ..., X_{ki}\)的非线性函数,\(u_i\)为误差项。例如,总体回归函数为\(f(Income_i) = \beta_0 + \beta_1 Income_i + \beta_2 Income_i^2\)

由于总体回归函数是给定\(X_{1i}, X_{2i}, ..., X_{ki}\)时\(Y_i\)的条件期望,因此上式考虑到了该条件期望是\(X_{1i}, X_{2i}, ..., X_{ki}\)的非线性函数的可能性,即\(E(Y_i \mid X_{1i}, X_{2i}, ..., X_{ki}) = f(X_{1i}, X_{2i}, ..., X_{ki})\),其中f可能是非线性函数。如果总体回归函数是线性的,则\(f(X_{1i}, X_{2i}, ..., X_{ki}) = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + ... + \beta_k X_{ki}\),即将上式转化为线性回归模型。但是,上式也可能为非线性回归函数。

\(X_1\)变化对Y的影响。在控制其他解释变量\(X_2, ..., X_k\)不变的情形下,\(X_1\)变化\(\delta X_1\)时对Y的影响为解释变量分别取\(X_1 + \delta X_1, X_2, ..., X_k\)和\(X_1, X_2, ..., X_k\)的Y的期望值之差。这两个期望之差\(\delta Y\)正好是在保持\(X_2, ..., X_k\)不变的情况下,\(X_1\)变化\(\delta X_1\)时Y的总体均值的变化。\(X_1\)的变化对Y的影响为\(\delta Y = f(X_1 + \delta X_1, X_2, ..., X_k) - f(X_1, X_2, ..., X_k)\)。

由于回归函数f是未知的,因此\(X_1\)的变化对Y的总体效应也是未知的。为了估计这个总体效应,需要先估计总体回归函数。一般将估计所得的函数记为\(\hat{f}\)

二次回归模型只是多元回归模型的变形。可以利用OLS方法来估计和检验未知的总体系数。

非线性设定形式中系数的解释。在非线性模型中,对回归函数的解释最好通过以下两种方式:绘制回归函数图,或者计算一个(或多个)解释变量变动对Y的影响的预测值,而不是仅仅关注该解释变量的系数。

利用多元回归模型刻画非线性关系的一般方法

本章建立非线性回归模型的一般方法分为五个步骤:

  • 确定可能的非线性关系。最佳做法是根据经济理论及你对实际问题的理解提出一种可能的非线性关系。在分析数据之前,先问问自己:将Y和X联系起来的回归函数的斜率是否有可能依赖于X或其他解释变量的取值。为什么有可能存在这种非线性关系?这种关系具有怎样的非线性形式?
  • 写出非线性函数且利用OLS估计其参数。
  • 确定非线性模型是否改进了线性模型的拟合效果。即使你认为回归函数应该是非线性形式,也不代表它真的是非线性的。你必须通过实证检验以确定非线性模型是否合适。在大多数情况下,你可以利用t统计量和F统计量来检验原假设“总体回归函数是线性的”和备择假设“总体回归函数是非线性的”。
  • 画出所估计的非线性回归函数。在图中可以观察估计出的回归函数拟合数据的效果是否好。
  • 估计X变化对Y的影响。计算一个或多个解释变量X变化对Y的影响。

一元非线性函数

本节将介绍两种非线性回归函数的建模方法。简便起见,我们将讨论只包含一个解释变量X的非线性回归函数,但在之后小节,我们将对该模型进行修正,以加入多个解释变量。

本节讨论的第一个方法是多项式回归,它是上一节中的二次回归模型的推广。第二个方法是对数模型,即利用X和或Y的对数。尽管这两个方法是分别介绍的,但它们也可以结合起来使用。

多项式回归模型

设定非线性回归函数的一种方法是利用X的多项式。一般而言,令r代表回归中X的最高次项的次数,则r阶多项式回归模型(polynomial regression model)为

\[Y_i = \beta_0 + \beta_1 X_i + \beta_2 X_i^2 + ... +\beta_r X_i^r + u_i\]

当r=2时,上式为二次回归模型。当r=3时,则X的最高次方为\(X^3\),此时称为立方回归模型(cubic regression model)。

多元回归模型的估计和推断方法都可以直接应用到多项式回归模型中,即上式中的未知系数\(\beta_0, \beta_1,...,\beta_r\)可通过OLS方法进行估计。

检验总体回归函数为线性的原假设。如果总体回归函数是线性的,则总体回归函数中不应出现二次项和高次项。因此,回归函数是线性的原假设(\(H_0\))与回归是r阶多项式的备择假设(\(H_1\))可表示为:

\[H_0: \beta_2=0, \beta_3=0,...,\beta_r=0; H_1: 至少有一个\beta_j \neq 0, j=2,...,r\]

此时,对该原假设“回归函数是线性的”的检验可通过检验上式中\(H_0\)和\(H_1\)来实现。由于\(H_0\)是对多项式回归模型系数的q=r-1个约束的联合假设,从而可以利用F统计量进行检验。

应该采用几阶多项式?换言之,多项式回归模型中应包含X的多少次方?这需要在灵活性和统计精确度方面进行权衡:提高回归的阶数r会使得回归函数更具有灵活性,可以匹配更多的图形形态,原因是r阶多项式的图像最多可以有r-1次弯曲(拐点);但提高r也意味着增加了更多的解释变量,可能会降低所估计的系数的精确度。

因此,非线性回归模型的阶数应足够大,以使模型能够充分拟合数据,但也不能太多。不幸的是,这一原则在实际应用中几乎没有什么用!

确定多项式阶数的一个可行方法是判断最高次(r阶)变量的系数是否为零,如果是,则可以在回归中去掉这项。由于我们是按顺序检验单个假设,因此该方法称为顺序假设检验,其步骤如下:

  1. 选定最大的r值,并估计该r阶多项式回归模型。
  2. 利用t统计量检验\(X^r\)的系数(\(\beta_r)为零的假设,如果拒绝该假设,则回归中应该包含\)X^r$$,采用阶数为r的多项式回归。
  3. 如果不能拒绝上一步中的假设\(\beta_r=0\),则去掉回归中的\(X^r\),并估计r-1阶多项式回归。检验\(X^{r-1}\)的系数为零的假设,如果拒绝该假设则采用阶数为r-1的多项式回归。
  4. 如果不能拒绝上一步中\(\beta_{r-1}=0\)假设,则继续这一过程,直到多项式中最高次项的系数显著为止。

以上方法还缺少一步:如何确定初始的多项式阶数r。在很多实际经济问题中,非线性函数都较为平滑,通常不存在急剧的跳跃或“尖峰”。因此,选择较小的多项式阶数比较合适,如2阶,3阶或4阶,这样在第一步就应以r=2或3或4开始。

多项式回归模型中系数的解释。我们不能简单解释多项式回归模型中的系数。解释多项式回归的最好方法是画出估计所得的回归函数,并计算X变动引起Y变动的估计值。

对数回归模型

另一种设定非线性回归函数的方法是利用Y和/或X的自然对数。对数变换可以将变量的变动转化为其百分比的变动,且很多关系用百分比表示更加直观和自然。

对数与百分比。对数与百分比的关系为:当\(\delta x\)很小时,\(x+\delta x\)的对数与x的对数之差约为\(\delta x /x\)。公式表示为

\[ln(x + \delta x) - ln(x) \sim \frac{\delta x}{x} (当\frac{\delta x}{x}很小时)\]

三种对数回归模型。对数变换有三种情形:对X做对数变换而Y保持不变;对Y做对数变换而X保持不变;同时对X和Y做对数变换。每种情形下对回归系数的解释都不尽相同,接下来我们将分别讨论这三种情形。

情形I:X为对数形式而Y不是。这种情形下的回归模型为

\[Y_i = \beta_0 + \beta_1 ln(X_i) + u_i, i=1,...,n\]

由于模型中没有对Y取对数而仅对X取对数,因此有时也称其为线性对数模型(linear-log model)。

在线性对数模型中,X变化1%引起Y的变化为0.01\(\beta_1\)。

情形II:Y为对数形式而X不是。在这种情形下,回归模型为:

\[ln(Y_i) = \beta_0 + \beta_1 X_i + u_i\]

由于模型中仅对Y取对数而没有对X取对数,因此称其为对数线性模型(log-linear model)。

在对数线性模型中,X变化一个单位(\(\delta X =1\))引起Y的变化为\(100 \times \beta_1%\)。

情形III:X和Y都为对数形式。在这种情形下,回归模型为:

\[ln(Y_i) = \beta_0 + \beta_1 ln(X_i) + u_i\]

因为模型中X和Y都为对数形式,因此称该模型为双对数模型(log-log model)。

在双对数模型中,X变化1%将会引起Y变化\(\beta_1%\)。

比较对数设定形式的困难。哪一种对数回归模型对数据的拟合效果最好?我们可以利用\(\bar{R}^2\)来比较对数线性模型和双对数模型。类似地,我们也可以比较线性对数模型和线性回归。

我们如何比较线性对数模型和双对数模型呢?不幸的是,由于这两个模型的被解释变量不同(一个是\(Y_i\),一个是\(ln(Y_i)\)),所以不能用\(\bar{R}^2\)进行比较。我们知道\(\bar{R}^2\)度量了被解释变量的方差中能被解释变量解释的比例,但双对数模型和线性对数模型的被解释变量不同,因此比较二者的\(\bar{R}^2\)没有意义。

由于这个原因,在具体应用中的最佳做法是根据经济理论和经验判断来确定Y的对数形式是否有意义。

当Y为对数形式时Y的预测值的计算。若被解释变量Y取对数,则可以利用估计的回归方程直接计算\(ln(Y)\)的预测值,但若想计算Y本身的预测值则还需要一些技巧。

为了说明这一点,我们不用\(ln(Y)\)而使用Y改写该式。得,

\[Y_i = exp(\beta_0 + \beta_1 X_i u_i) = e^{\beta_0 + \beta_1 X_i u_i}\]

给定\(X_i\)时,\(Y_i\)的期望为\(E(Y_i \mid X_i) = E(e^{\beta_0 + \beta_1 X_i} e^{u_i} \mid X_i) = e^{\beta_0 + \beta_1 X_i} E(e^{u_i} \mid X_i)\)。问题在于即使\(E(e^{u_i} \mid X_i) = 0\),但\(E(e^{u_i} \mid X_i) \neq 1\),故\(Y_i\)的预测值不能简单地由\(\hat{\beta}_0 + \hat{\beta}_1 X_i\)得到,即不能简单地令\(\hat{Y}_i = e^{\hat{\beta}_0 + \hat{\beta}_1 X_i}\)。由于缺少因子\(E(e^{u_i} \mid X_i)\),故该预测值是有偏的。

一种解决方法是估计因子\(E(e^{u_i} \mid X_i)\),并利用该估计值计算Y的预测值。但这种做法通常很复杂,特别是当\(u_i\)存在异方差时,将更加复杂,因此我们不再做深入讨论。

另一种解决方法是直接计算\(ln(Y)\)的预测值,而不计算Y的预测值。这是因为,当被解释变量用对数形式时,通常表示分析中利用对数形式较为方便。我们在实际应用中通常采用这种方法。

解释变量的交互项

本节将说明如何在多元回归模型中考虑两个解释变量之间的交互作用。学生-教师比和英语学习者比例之间可能存在的交互作用就是一个例子,更一般的情况是:某个解释变量的变化对Y的影响取决于另一个解释变量的取值。我们将分别从以下三种情形加以讨论:两个解释变量都是二元变量;一个解释变量为二元变量,另一个解释变量为连续型变量;两个解释变量都是连续型变量。

两个二元变量的交互作用

考虑收入对数\([Y_i,其中Y_i = ln(Earnings_i)]\)对是否拥有大学学位(\(D_{1i}\),当第i个员工具有大学学历时,\(D_{1i}=1\))及性别(\(D_{2i}\),当第i个员工为女性时,\(D_{2i}=1\))这两个二元变量的回归。\(Y_i\)对这两个二元变量的线性回归模型为

\[Y_i = \beta_0 + \beta_1 D_{1i} + \beta_2 D_{2i} + u_i\]

该回归中,\(\beta_1\)表示性别保持不变,大学学历对收入的影响;\(\beta_2\)表示教育程度保持不变时,性别对女性收入对数想影响。

上式的设定有一个重大的局限性:当控制性别时,该设定形式下男性和女性拥有大学学历的效果相同,但事实上并不一定如此。用数学语言表述就是,在固定\(D_{2i}\)不变时,\(D_{1i}\)对\(Y_i\)的影响可能依赖于\(D_{2i}\)。换言之,拥有大学学历和性别之间可能存在交互作用,因此在就业市场上,文凭的价值对男性和女性是不同的。

尽管上式的设定并没有考虑大学学历和性别的交互作用,但通过引入一个新的回归变量-两个二元变量的乘积\(D_{1i} \times D_{2i}\),可以很容易地予以修正。得到的回归方程为

\[Y_i = \beta_0 + \beta_1 D_{1i} + \beta_2 D_{2i} + \beta_3 (D_{1i} \times D_{2i}) + u_i\]

我们称这个新的回归变量\(D_{1i} \times D_{2i}\)为交互项(interaction term)或交互回归变量(interacted regressor),称上式的回归模型为二元变量的交互回归模型(interaction regression model)。

上式中的交互项使得拥有大学学历(\(D_{1i}由\)D_{1i}=0\(变为\)D_{1i}=1\()对收入对数\)(Y_i)\(的影响取决于性别\)(D_{2i})\(。为了从数学上证明这一结论,需要计算变化的总体效应。第一步,在给定\)D_{2i}\(时计算\)D_{1i}=0\(时\)Y_i\(的条件期望,即\)E(Y_i \mid D_{1i} = 0, D_{2i}=d_2) = \beta_0 + \beta_1 \times 0 + \beta_2 \times d_2 + \beta_3 \times( 0 \times d_2) = \beta_0+\beta_2 d_2\(,其中用到了条件均值为零的假设\)E(u_i \mid D_{1i}, D_{2i}) = 0\(;第二步,对于\)D_{2i}\(相同的取值,计算\)D_{1i}=1\(时\)Y_i\(的条件期望,即\)E(Y_i \mid D_{1i}=1, D_{2i}=d_2) = \beta_0 + \beta_1 \times 1 + \beta_2 \times d_2 + \beta_3 \times(1 \times d_2) = \beta_0 + \beta_1 + \beta_2 d_2 + \beta_3 d_2$$。该变化的效应为两个期望值之差,即

\[E(Y_i \mid D_{1i} = 1, D_{2i} = d_2) - E(Y_i \mid D_{1i} = 0, D_{2i} = d_2) = \beta_1 + \beta_3 d_2\]

因此,在二元变量交互模型中,获得大学学位(\(D_{1i}\)变化1个单位)的效应取决于性别(\(D_{2i}\)的值),如果某人是男性\((d_2 = 0)\),则获得大学学位的效应为\(\beta_1\);而如果某人是女性\((d_2=1)\),则该效应为\(\beta_1 +\beta_3\)。因此,交互项的系数表示女性和男性获得大学学位的效应之差。

尽管这个例子是用收入对数、大学学历及性别来描述的,但其说明的问题却具有一般性。二元变量交互回归模型可使得某个二元解释变量变化的效应取决于另一个二元变量的取值。

包含二元变量的回归中系数的解释方法:首先计算二元变量集合所描述的各种可能情形中Y的期望值,然后比较这些期望值。每个回归系数都可用某个期望值或某些期望值之差来表示。

连续型变量和二元变量的交互作用

接下来考虑收入对数(\(Y_i = ln(Earnings_i)\))对工龄(\(X_i\))这一连续型变量和是否拥有大学学历(\(D_1\),当第i个人为大学毕业生时\(D_i=1\))这一二元变量的回归。Y与连续型变量X之间的关系的总体回归线以三种方式依赖于二元变量D。

两条回归线只有截距不同。对应的总体回归模型为

\[Y_i = \beta_0 + \beta_1 X_i + \beta_2 D_i + u_i\]

这就是我们熟悉的多元回归模型,其总体回归函数关于\(X_i\)和\(D_i\)是线性的。当\(D_i=0\)时,总体回归函数为\(\beta_0 + \beta_1 X_i\),截距为\(\beta_0\),斜率为\(\beta_1\);当\(D_i=1\)时,总体回归函数为\(\beta_0 + \beta_1 X_i + \beta_2\),则斜率仍为\(\beta_1\),但截距为\(\beta_0 + \beta_2\)。因此\(\beta_2\)表示这两条回归线的截距之差。用收入的例子表述,\(\beta_1\)表示在保持大学学历不变的情况下,增加一年工作经验对收入对数的影响;\(\beta_2\)表示在保持工龄不变的情况下,拥有大学学历对收入的影响。在这种设定下,工龄增加一年的效应与是否拥有大学学历并没有关系。

两条回归线的截距和斜率都不相同。不同的斜率使得对于大学毕业生和非大学毕业生,工龄增加一年所产生的影响不同,为此,加入一个交互项,得到:

\[Y_i = \beta_0 + \beta_1 X_i + \beta_2 D_i + \beta_3 (X_i \times D_i) + u_i\]

其中,\(X_i \times D_i\)是一个新变量,表示\(X_i\)和\(D_i\)的乘积。为了解释该回归中的系数,我们要利用上一节中包含二元变量的回归系数的解释方法。结果表明,当\(D_i=0\)时,总体回归函数为\(\beta_0 + \beta_1 X_i\);当\(D_i=1\)时,总体回归函数为\((\beta_0+\beta_2)+(\beta_1 + \beta_3)X_i\)。因此,刻画\(Y_i\)与\(X_i\)之间关系的两种不同的总体回归函数取决于\(D_i\)的值。两截距之差为\(\beta_2\),而两斜率之差为\(\beta_3\)。在收入的例子中,\(\beta_1\)表示员工没有大学学历\((D_i=0)\)时工龄增加一年的效应,而对于拥有大学学历的员工,该效应为\(\beta_1 + \beta_3\),因此\(\beta_3\)表示对大学毕业和非大学毕业的员工,工龄增加一年的效应之差。

第三种可能情形是:两条回归线的斜率不同,但截距相同。在这种情况下,交互回归模型为

\[Y_i = \beta_0 + \beta_1 X_i + \beta_2 (X_i \times D_i) + u_i\]

在收入的例子中,这种设定形式考虑到工龄对收入对数的效应在大学毕业生和非大学毕业生之间的差别,但在没有工作经验时二者的期望收入对数是相同的。换言之,这种形式要求大学毕业生和非大学毕业生的总体平均入职工资水平是相同的。这种形式在实际应用中没什么意义。

二元变量和连续型变量的交互作用

通过交互项\(X_i \times D_i\)可使刻画\(Y_i\)和连续型变量\(X_i\)之间关系的总体回归线的斜率依赖于二元变量\(D_i\)。存在以下三种可能:

  1. 截距不同,斜率相同:
\[Y_i = \beta_0 + \beta_1 X_i + \beta_2 D_i + u_i\]
  1. 截距不同,斜率不同:
\[Y_i = \beta_0 + \beta_1 X_i + \beta_2 D_i + \beta_3 (X_i \times D_i) + u_i\]
  1. 截距相同,斜率不同:
\[Y_i = \beta_0 + \beta_1 X_i + \beta_3 (X_i \times D_i) + u_i\]

两个连续型变量的交互作用

现在假设两个解释变量(\(X_{1i}\)和\(X_{2i}\))都是连续的。例如\(Y_i\)表示第i个员工收入的对数,\(X_{1i}\)表示他的工龄,\(X_{2i}\)表示他受教育的年限。如果总体回归函数是线性的,则工龄增加一年对收入的影响不依赖于受教育年限,或等价地,受教育年限增加一年的影响不依赖于工龄。但事实上,这两个变量可能存在交互作用,即工龄增加一年对收入的影响依赖于受教育年限。我们可以在线性回归模型中加入交互项(\(X_{1i}\)和\(X_{2i}\)的乘积)来模拟这一交互作用,即

\[Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \beta_3 (X_{1i} \times X_{2i}) + u_i\]

交互项的存在使得\(X_1\)的单位变化的影响依赖于\(X_2\)的取值。计算得到,\(\delta Y = (\beta_1 +\beta_3 X_2) \delta X_1\)。因此在保持\(X_2\)不变时,\(X_1\)的变化引起Y的变化为

\[\frac{\delta Y}{\delta X_1} = \beta_1 + \beta_3 X_2\]

该值依赖于\(X_2\)。在收入的例子中,若\(\beta_3\)为正,则员工受教育年限每增加一年,工龄增加一年对收入对数的影响增大\(\beta_3\)。

类似地,可计算在保持\(X_1\)不变时,\(X_2\)的变动对Y的影响为\(\delta Y / \delta X_2 = (\beta_2 + \beta_3 X_1)\)。

以上两个计算结果共同表明,交互项系数\(\beta_3\)为”\(X_1\)和\(X_2\)同时增加1个单位的效应”超过“\(X_1\)和\(X_2\)分别单独增加1个单位的效应之和”的部分。即当\(X_1\)变动\(\delta X_1\)且\(X_2\)变动\(\delta X_2\)时,Y的期望变化为\(\delta Y = (\beta_1 + \beta_3 X_2) \delta X_1 + (\beta_2 + \beta_3 X_1) \delta X_2 + \beta_3 \delta X_1 \delta X_2\),其中第一项为固定\(X_2\)时\(X_1\)变化的效应,第二项为固定\(X_1\)时\(X_2\)变化的效应,最后一项\($\beta_3 \delta X_1 \delta X_2\)表示\(X_1\)和\(X_2\)同时变动的额外效应。