专栏名称: AI科技评论
「AI科技评论」是国内顶尖人工智能媒体和产业服务平台,专注全球 AI 业界、学术和开发三大方向的深度报道。
目录
相关文章推荐
51好读  ›  专栏  ›  AI科技评论

机器学习验证集为什么不再有新意?

AI科技评论  · 公众号  · AI  · 2020-03-01 13:30

正文

请到「今天看啥」查看全文


30 的比例分割训练集和测试集”(70–30 train-test split)或大数据出现之前的黑暗时代遗留下来的方法。
另一个阻碍是: 我们许多人在学习“除了测试集之外,我们还应该有一个独立验证集用于调整超参数”的过程中都会遇到一个问题: 如果我们仅通过调整超参数就会导致测试集过拟合,那么就不会导致验证集过拟合吗? 然而针对这一问题,研究者们还没有找到一个好的答案。
对于该问题的回答当然是肯定的。 这会导致验证集过拟合,并且这已经不是新鲜事了。在 本文中我尝试探索一些方法来思考为什么会发生这种情况,并希望通过这样做,还能开辟出一条更深入地理解过拟合和数据划分的道路,而不仅仅是讨论上面这两个人们为准备面试而需要了解的命题陈述。
本文首先将探讨损失曲面(Loss Landscapes)的概念,以及如何利用样本曲面与总体曲面之间的关系理解验证集泄漏。 在此过程中,我将基于一些简化的假设来开发有用的心理模型(Mental Model )。 最后,我将通过一个快速的实验来验证我们对损失曲面和心理模型的理解。

一、损失曲面

双变量函数(GitHub代码地址: https://gist.github.com/rayheberer/bd2d94443e77b9734d52a7a4c736bbf3)
如果你熟悉机器学习,尤其是研究过神经网络和梯度下降算法,以及阅读过下面这篇关于梯度优化算法的(文中有丰富的可视化图片和动画)文章,那么你对损失曲面概念一定不陌生。
文章地址:https://ruder.io/optimizing-gradient-descent/#visualizationofalgorithms


具体而言,损失曲面就是将机器学习模型的损失或误差作为其参数的函数。
如果你觉得这个概念过于简单而不必特别关注,我十分能理解。 尽管你已经理解了相关基本概念,但“损失曲面”实际上是这类函数的名称,知道它后你可以轻松查阅各种有趣的内容和相关研究。
相关阅读参考:https://arxiv.org/abs/1712.09913



“曲面”一词唤起了我们的物理直觉。图源自 Fabrizio Conti
损失曲面是可以通过梯度下降或其他方法(例如模拟退火、演化方法)进行遍历的函数。 即使你要处理的函数通常位于高维空间中, 这样命名让我们不由得根据物理直觉来思考它。






请到「今天看啥」查看全文