博客
关于我
5 - 训练与测试(重新理解机器学习的可靠性)
阅读量:798 次
发布时间:2023-04-16

本文共 699 字,大约阅读时间需要 2 分钟。

在机器学习的学习过程中,我们面临着两个核心问题:一是如何确保模型的输出误差与输入误差足够接近,二是如何有效降低输入误差。对于前者,当备选函数集的大小M趋近于无穷大时,我们需要探讨如何将其有效降低到有限的范围内。

在二元分类问题中,我们可以通过分析霍夫丁不等式来理解这一点。霍夫丁不等式揭示了一个重要的概念:如果一个算法A选择了一个不好的备选函数h,那么在训练数据集D上,这个函数h会导致较高的误差率。为了确保算法A的鲁棒性,我们需要限制这种不良事件发生的概率。

为了实现这一点,霍夫丁不等式采用了Union Bound方法来估计这些不良事件的上限。然而,Union Bound可能会过度估计这些事件的发生概率,因为它假设了所有事件是互斥的。实际情况下,某些备选函数可能会相似,这意味着它们的不良事件可以被合并,从而减少总的误差率。

在二元分类任务中,一个有效的方法是分析线性划分的有效数。对于N个输入变量,线性划分的有效数可以被限制在2^N以内,这有助于将无限的备选函数集有效降低到有限的范围。具体来说,对于二元分类问题,输入数据可以被划分为不同的区间,每个区间对应不同的输出类别。

此外,霍夫丁不等式还涉及到一个关键概念——Break Point。Break Point是指当输入数据量达到一定规模时,算法无法进一步降低误差率的临界点。对于二维可分线性分类器(2D-PLA),Break Point被确定为4。这意味着当输入数据量超过4时,算法能够保证一定的泛化性能。

总之,通过分析霍夫丁不等式和成长函数的性质,我们可以理解如何在机器学习中有效限制备选函数集的规模,从而提高模型的性能和可靠性。

转载地址:http://pngfk.baihongyu.com/

你可能感兴趣的文章
oracle在日本遇到的技术问题
查看>>
Oracle在线重定义
查看>>
oracle基础 管理索引
查看>>
Oracle增量跟新
查看>>
oracle备份恢复之rman恢复到异机
查看>>
oracle复习(一)
查看>>
ORACLE多表关联UPDATE 语句
查看>>
Oracle多表查询与数据更新
查看>>
oracle如何修改单个用户密码永不过期
查看>>
UML- 类图
查看>>
oracle字符集
查看>>
oracle存储参数(storage子句)含义及设置技巧
查看>>
Oracle学习
查看>>
ui 图片素材网站
查看>>
Oracle学习总结(10)——45 个非常有用的 Oracle 查询语句
查看>>
Oracle学习总结(2)——Oracle数据库设计总结(三大范式)
查看>>
Oracle学习总结(3)——Navicat客户端连接Oracle数据库常见问题汇总
查看>>
Oracle学习总结(4)——MySql、SqlServer、Oracle数据库行转列大全
查看>>
Oracle学习总结(5)—— SQL语句经典案例
查看>>
Oracle学习总结(6)—— SQL注入技术
查看>>