原理

参数绑定和参数共享

目前为止,我们讨论对参数添加约束或惩罚时,一直是相对于固定的区域或点。例如\(L^2\)正则化(或权值衰减)对参数偏离零的固定值进行惩罚。然而,有时我们可能需要其他的方式来表达我们对模型参数适当值的先验知识。有时候,我们可能无法准确地知道应该使用什么样的参数,但根据相关领域和模型结构方面的知识得知模型参数之间应该存在一定相关性。

我们经常想要表达的一种常见依赖是某些参数应该彼此接近。考虑以下情形:有两个模型执行相同的分类任务(具有相同的类别),但输入分布稍有不同。形式地,我们有参数为\(w^{(A)}\)的模型A和参数为\(w^{(B)}\)的模型B。这两种模型将输入映射到两个不同但相关的输出\(\hat{y}^{(A)} = f(w^{(A)}, x)\)和\(\hat{y}^{(B)} = f(w^{(B)}, x)\)。

我们可以想象,这些任务会足够相似(或许具有相似的输入和输出分布),因此我们认为模型参数应彼此靠近:\(\forall i, w_i^{(A)}\)应该与\(w_i^{(B)}\)接近。我们可以通过正则化利用此信息。具体来说,可以使用以下形式的参数范数惩罚:\(\Omega(w^{(A)}, w^{(B)}) = \|w^{(A)} - w^{(B)} \|_2^2\)。这里我们使用\(L^2\)惩罚,但也可以使用其他选择。

这种方法由Lasserre et al. (2006)提出,正则化一个模型(监督模式下训练的分类器)的参数,使其接近另一个无监督模式下训练的模型(捕捉观察到的输入数据的分布)参数。构造的这种架构使得分类模型中的许多参数能与无监督模型中的参数匹配。

参数范数惩罚是正则化参数使其彼此接近的一种方式,而更流行的方式是使用约束:强迫某些参数相等。由于我们将各种模型或模型组件解释为共享唯一的一组参数,这种正则化方法通常被称为参数共享(parameter sharing)。和正则化参数使其接近(通过范数惩罚)相比,参数共享的一个显著优点是,只有参数(唯一一个集合)的子集需要被存储在内存中。对于某些特定模型,如卷积神经网络,这可能可以显著减少模型所占用的内存。

卷积神经网络

目前为止,最流行和广泛使用的参数共享出现在计算机视觉的卷积神经网络(CNN)中。

自然图像有许多属性是对转换不变的。例如,猫的照片即使向右边移了一个像素,仍保持猫的照片。CNN通过在图像多个位置共享参数来考虑这个特性。相同的特性(具有相同权重的隐藏单元)在输入的不同位置上计算获得。这意味着无论猫出现在图像中的第i列或i+1列,我们都可以使用相同的猫探测器找到猫。

参数共享显著降低了CNN模型的参数数量,并显著提高了网络的大小而不需要相应地增加训练数据。它仍然是将领域知识有效地整合到网络架构的最佳范例之一。

稀疏表示

前文所述的权重衰减直接惩罚模型参数。另一种策略是惩罚神经网络中的激活单元,稀疏化激活单元。这种策略间接地对模型参数施加了复杂惩罚。

\(L^1\)惩罚诱导稀疏的参数,即许多参数为零(或接近于零)。而表示的稀疏描述许多元素是零(或接近零)的表示。

表示的正则化可以使用参数正则化中同种类型的机制实现。

表示的范数惩罚正则化是通过向损失函数J添加对表示的范数惩罚来实现的。我们将这个惩罚记作\(\Omega(h)\)。和以前一样,我们将正则化后的损失函数记作\(\tilde{J}\):

\[\tilde{J}(\theta;X,y) = J(\theta;X,y) + \alpha \Omega(h)\]

其中\(\alpha \in [0, \infty]\)权衡范数惩罚项的相对贡献,越大的\(\alpha\)对应越多的正则化。

正如对参数的\(L^1\)惩罚诱导参数稀疏性,对表示元素的\(L^1\)惩罚诱导稀疏的表示:\(\Omega(h)=\|h\|_1 = \sum_i \mid h_i \mid\)。当然\(L^1\)惩罚是使表示稀疏的方法之一。其他方法还包括从表示上的Student-t先验导出的惩罚(Olshausen and Field, 1996; Bergstra, 2011)和KL散度惩罚(Larochelle and Bengio, 2008b),这些方法对于将表示中的元素约束于单位区间上特别有用。Lee et al. (2008) 和 Goodfellow et al. (2009)都提供了正则化几个样本平均激活的例子,即令\(\frac{1}{m} \sum_i h^{(i)}\)接近某些目标值(如每项都是.01的向量)。

还有一些其他方法通过激活值的约束来获得表示稀疏。例如,正交匹配追踪(orthogonal matching pursuit)(Pati et al., 1993)通过解决以下约束优化问题将输入值x编码成表示h

\[arg min_{h, \|h\|_0 <k>} \| x -Wh\|^2\]

其中\(\|h\|_0\)是h中非零项的个数。当W被约束为正交时,我们可以高效地解决这个问题。这种方法通常被称为OMP-k,通过k指定允许的非零特征数量。Coates and Ng (2011)证明OMP-1可以成为深度架构中非常有效的特征提取器。

含有隐藏单元的模型在本质上都能变得稀疏。