正则项(Regularization)是在机器学习中使用的一种技术。机器学习算法通常使用某个确定的目标函数,或者代价函数来优化算法,使其能够更好地拟合训练数据。正则项是一种添加到目标函数中的额外项,它的作用是限制模型参数的选择,以避免过度拟合。
一般来说,模型在学习过程中会尽可能地去拟合训练集的数据,但过拟合的风险也同时存在。过拟合是指模型过于复杂,在训练集上表现良好,但在新数据上表现较差。过度拟合通常会导致真实表现不佳、无法泛化以及可能无法有效地预测。
为了克服这个问题,可以使用正则项将原始目标函数中的参数进行惩罚,从而减小复杂度。
对于许多机器学习任务,如分类、回归等,正则化技术是非常重要的。接下来我们会从数学、应用、机器学习等不同角度来说明正则项的作用。
数学角度
在数学角度上,正则项是一种约束条件,加入正则项可以用下面两个式子来表示:
其中,$J$ 是目标函数, $\lambda$ 是正则化参数, $R(w)$ 是约束条件。
正则项是目标函数中的一个附加项,用于限制模型的复杂性,从而降低过拟合的风险,它可以有两种形式:L1正则项和L2正则项。
L1正则项是模型参数值的绝对值之和,形式化的表示为:
$$ R(w) = \Vert w \Vert_{1} = \sum_{i=1}^{n} |w_{i}| $$
L2正则项是欧几里得距离的平方(模型参数平方值之和),形式化的表示为:
$$ R(w) = \Vert w \Vert_{2}^{2} = \sum_{i=1}^{n} w_{i}^{2} $$
应用角度
从应用的角度来看,在许多机器学习应用中,数据集通常是通过收集和整理相关的数据信息来得到的。但是,由于数据集的噪声和特征数量以及复杂性等因素,过度拟合是一个普遍存在的问题。
为了解决这个问题,引入了正则项这一概念。正则项通过约束模型参数的值来减少过度拟合的风险,促进了模型的泛化能力。
例如,在图像分类问题中,每个图像都被表示为像素值的向量,向量的长度可能是几百万甚至更多的。如果不使用正则项,学习得到的模型可能会在像素级别上过度拟合,并在新的图像上表现不佳。
机器学习角度
从机器学习的角度来看,正则项是结构风险最小化的一种实现方式。结构风险最小化可以形式化表示为:
$$ \hat{f}(x) = \operatorname*{argmin}_{f \in H}[\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i}))+\lambda J(f)] $$
其中,$L$ 是损失函数,$H$ 是假设空间,$J$ 是正则化惩罚项, $\lambda$ 是惩罚参数。
结构风险最小化是在保证泛化能力的前提下,同时优化训练误差和正则项的数学问题。当模型的复杂性增加时,正则项的权重就会增加,从而减少过度拟合的风险。
扫码领取最新备考资料