深度学习技巧之Early Stopping（早停法）

一、早停法简介（Early Stopping）

当我们训练深度学习神经网络的时候通常希望能获得最好的泛化性能（generalization performance，即可以很好地拟合数据）。但是所有的标准深度学习神经网络结构如全连接多层感知机都很容易过拟合：当网络在训练集上表现越来越好，错误率越来越低的时候，实际上在某一刻，它在测试集的表现已经开始变差。

图1、理想中的训练集误差和验证集的误差模型的泛化能力通常使用模型在验证数据集（**validation set**）上的表现来评估。随着网络的优化，我们期望的理想中的泛化错误如图1所示。即当模型在训练集上的误差降低的时候，其在验证集上的误差表现不会变差。反之，当模型在训练集上表现很好，在验证集上表现很差的时候，我们认为模型出现了**过拟合**（overfitting）的情况。

解决过拟合问题有两个方向：降低参数空间的维度或者降低每个维度上的有效规模（effective size）。降低参数数量的方法包括greedy constructive learning、剪枝和权重共享等。降低每个参数维度的有效规模的方法主要是正则化，如权重衰变（weight decay）和早停法（early stopping）等。

早停法是一种被广泛使用的方法，在很多案例上都比正则化的方法要好。图1是我们经常看到论文中出现的图，也是使用早停法出现的一个结果。其基本含义是在训练中计算模型在验证集上的表现，当模型在验证集上的表现开始下降的时候，停止训练，这样就能避免继续训练导致过拟合的问题。其主要步骤如下：

将原始的训练数据集划分成训练集和验证集

深度学习技巧之Early Stopping（早停法）

一、早停法简介（Early Stopping）

DataLearner 官方微信

二、如何使用早停法

2.1、停止标准简介

2.2、停止标准选择规则

热门博客