博客
关于我
5 - 训练与测试(重新理解机器学习的可靠性)
阅读量:798 次
发布时间:2023-04-16

本文共 699 字,大约阅读时间需要 2 分钟。

在机器学习的学习过程中,我们面临着两个核心问题:一是如何确保模型的输出误差与输入误差足够接近,二是如何有效降低输入误差。对于前者,当备选函数集的大小M趋近于无穷大时,我们需要探讨如何将其有效降低到有限的范围内。

在二元分类问题中,我们可以通过分析霍夫丁不等式来理解这一点。霍夫丁不等式揭示了一个重要的概念:如果一个算法A选择了一个不好的备选函数h,那么在训练数据集D上,这个函数h会导致较高的误差率。为了确保算法A的鲁棒性,我们需要限制这种不良事件发生的概率。

为了实现这一点,霍夫丁不等式采用了Union Bound方法来估计这些不良事件的上限。然而,Union Bound可能会过度估计这些事件的发生概率,因为它假设了所有事件是互斥的。实际情况下,某些备选函数可能会相似,这意味着它们的不良事件可以被合并,从而减少总的误差率。

在二元分类任务中,一个有效的方法是分析线性划分的有效数。对于N个输入变量,线性划分的有效数可以被限制在2^N以内,这有助于将无限的备选函数集有效降低到有限的范围。具体来说,对于二元分类问题,输入数据可以被划分为不同的区间,每个区间对应不同的输出类别。

此外,霍夫丁不等式还涉及到一个关键概念——Break Point。Break Point是指当输入数据量达到一定规模时,算法无法进一步降低误差率的临界点。对于二维可分线性分类器(2D-PLA),Break Point被确定为4。这意味着当输入数据量超过4时,算法能够保证一定的泛化性能。

总之,通过分析霍夫丁不等式和成长函数的性质,我们可以理解如何在机器学习中有效限制备选函数集的规模,从而提高模型的性能和可靠性。

转载地址:http://pngfk.baihongyu.com/

你可能感兴趣的文章
Objective-C实现数乘以二multiplyByTwo算法(附完整源码)
查看>>
Objective-C实现数列的和(附完整源码)
查看>>
Objective-C实现数字图像处理算法(附完整源码)
查看>>
Objective-C实现数组切片(附完整源码)
查看>>
Objective-C实现数组去重(附完整源码)
查看>>
Objective-C实现数组循环右移三次(附完整源码)
查看>>
Objective-C实现数组的循环右移(附完整源码)
查看>>
Objective-C实现数组的循环左移(附完整源码)
查看>>
Objective-C实现数组逆置 (附完整源码)
查看>>
Objective-C实现数除以二divideByTwo算法(附完整源码)
查看>>
Objective-C实现整个字符串转换为小写字母算法(附完整源码)
查看>>
Objective-C实现整数N以内的质数算法(附完整源码)
查看>>
Objective-C实现文件传输(附完整源码)
查看>>
Objective-C实现文件分割(附完整源码)
查看>>
Objective-C实现文件拷贝(附完整源码)
查看>>
Objective-C实现文件断点传输(附完整源码)
查看>>
Objective-C实现文件的删除、复制与重命名操作实例(附完整源码)
查看>>
Objective-C实现无序表查找算法(附完整源码)
查看>>
Objective-C实现无锁链表(附完整源码)
查看>>
Objective-C实现无锁链表(附完整源码)
查看>>