5 - 训练与测试（重新理解机器学习的可靠性）-白红宇

5 - 训练与测试（重新理解机器学习的可靠性）

阅读量：798 次

发布时间：2023-04-16

本文共 699 字，大约阅读时间需要 2 分钟。

在机器学习的学习过程中，我们面临着两个核心问题：一是如何确保模型的输出误差与输入误差足够接近，二是如何有效降低输入误差。对于前者，当备选函数集的大小M趋近于无穷大时，我们需要探讨如何将其有效降低到有限的范围内。

在二元分类问题中，我们可以通过分析霍夫丁不等式来理解这一点。霍夫丁不等式揭示了一个重要的概念：如果一个算法A选择了一个不好的备选函数h，那么在训练数据集D上，这个函数h会导致较高的误差率。为了确保算法A的鲁棒性，我们需要限制这种不良事件发生的概率。

为了实现这一点，霍夫丁不等式采用了Union Bound方法来估计这些不良事件的上限。然而，Union Bound可能会过度估计这些事件的发生概率，因为它假设了所有事件是互斥的。实际情况下，某些备选函数可能会相似，这意味着它们的不良事件可以被合并，从而减少总的误差率。

在二元分类任务中，一个有效的方法是分析线性划分的有效数。对于N个输入变量，线性划分的有效数可以被限制在2^N以内，这有助于将无限的备选函数集有效降低到有限的范围。具体来说，对于二元分类问题，输入数据可以被划分为不同的区间，每个区间对应不同的输出类别。

此外，霍夫丁不等式还涉及到一个关键概念——Break Point。Break Point是指当输入数据量达到一定规模时，算法无法进一步降低误差率的临界点。对于二维可分线性分类器（2D-PLA），Break Point被确定为4。这意味着当输入数据量超过4时，算法能够保证一定的泛化性能。

总之，通过分析霍夫丁不等式和成长函数的性质，我们可以理解如何在机器学习中有效限制备选函数集的规模，从而提高模型的性能和可靠性。

转载地址：http://pngfk.baihongyu.com/

你可能感兴趣的文章