Non-deep Learning Approaches

几十年来,人们提出了许多使用传统机器学习技术来管理噪声标签的方法。这些方法可分为四类,如下所示

Data Cleaning

通过排除标签可能损坏的样本来清理训练数据。Bagging and boosting方法用于过滤假标签样品,以去除权重较高的样品,因为假标签样品往往比真标签样品显示出更高的权重。

此外,各种方法,如k-最近邻、离群点检测和异常检测,已经被广泛地用于从噪声训练数据中排除假标记样本。

尽管如此,这一系列的方法都存在过度清洁的问题,甚至会过度删除真实的标记样本。

Surrogate Loss

受0-1损失函数的噪声容限,许多研究人员试图解决其固有的局限性,如计算困难和非凸性,使得梯度法无法使用。

因此,提出了几个近似于0-1损失函数的凸代理损失函数,以在二元分类设置下训练指定的分类器。

然而,这些损失函数不能支持多类分类任务。

Probabilistic Method

假设特征分布有助于解决从噪声标签中学习的问题[41],通过聚类估计每个标签的置信度,然后用于加权训练方案[42]。

这种置信度还用于将硬标签转换为软标签,以反映标签的不确定性[43]。

除了这些聚类方法外,还提出了几种用于图形模型的贝叶斯方法,以便在学习过程中使用任何类型的先验信息[44]。

然而,由于模型参数的增加,这一系列方法可能会加剧过度拟合的问题

Model-based Method

由于支持向量机和决策树等传统模型对噪声标签不具有鲁棒性,因此人们在提高这些模型的鲁棒性方面付出了很大的努力。

为了建立一个稳健的支持向量机模型,在目标[45],[46]中对学习过程中的错误分类样本进行惩罚。

另外,在训练数据不完全可靠的情况下,利用新的分割准则对多个决策树模型进行了扩展,以解决训练数据不完全可靠时的过拟合问题[47],[48]。

然而,将这些模型中的设计原则应用于深度学习是不可行的。