【Method】深度学习正则化(三)半监督学习&多任务学习
原理
半监督学习
在半监督学习的框架下,P(x)产生的未标记样本和P(x,y)中的标记样本都用于估计\(P(y \mid x)\)或者根据x预测y。
在深度学习的背景下,半监督学习通常指的是学习一个表示\(h=f(x)\)。学习表示的目的是使想同类中的样本有类似的表示。无监督学习可以为如何在表示空间聚集样本提供有用线索。在输入空间紧密聚集的样本应该被映射到类似的表示。在许多情况下,新空间上的线性分类器可以达到较好的泛化(Belkin and Niyogi, 2002; Chapelle et al., 2003)。这种方法的一个经典变种是使用主成分分析作为分类前(在投影后的数据上分类)的预处理步骤。
我们可以构建这样一个模型,其中生成模型P(x)或P(x,y)和判别模型\(P(y \mid x)\)共享参数,而不用分离无监督和监督部分。我们权衡监督模型准则\(-log P(y\mid x)\)和无监督或生成模型准则(如\(-log P(x) 或 -logP(x,y)\))。生成模型准则表达了对监督学习问题解的特殊形式的先验知识(Lasserre et al., 2006)。即P(x)的结构通过某种共享参数的方式连接到\(P(y \mid x)\)。通过控制在总准则中的生成准则,我们可以获得比纯生成或判别训练准则更好的权衡(Lasserre et al., 2006; Larochelle and Bengio, 2008a)。
多任务学习
多任务学习(Caruana, 1993)是通过合并几个任务中的样例(可以视为对参数施加的软约束)来提高泛化的一种方式。正如额外的训练样本能够将模型参数推向具有更好泛化能力的值一样,当模型的一部分被多个额外的任务共享时,这部分将被约束为良好的值(如果共享合理)。通常会带来更好的泛化能力。
多任务学习通常可以分为两类相关参数:(1)具体任务的参数(只能从各自任务的样本中实现良好的泛化);(2)所有任务共享的通用参数(从所有任务的汇集数据中获益)。
因为共享参数,其统计强度可大大提高(共享参数的样本数量相对于单任务模式增加的比例),并能改善泛化和泛化误差的范围(Baxter, 1995)。当然,仅当不同任务之间存在某些统计关系的假设是合理的(意味着某些参数能通过不同任务共享)时才会发生这种情况。
从深度学习的观点看,底层的先验知识如下:能解释数据变化(在与之相关联的不同任务中观察到)的因素中,某些因素是跨两个或更多任务共享的。