专栏名称: AI科技评论
「AI科技评论」是国内顶尖人工智能媒体和产业服务平台,专注全球 AI 业界、学术和开发三大方向的深度报道。
目录
相关文章推荐
人工智能产业链union  ·  【AI加油站】第十三部:《Transform ... ·  昨天  
爱可可-爱生活  ·  《爱可可微博热门分享(6.7)》 ... ·  昨天  
爱可可-爱生活  ·  【Anthropic团队内部如何用Claud ... ·  2 天前  
爱可可-爱生活  ·  【50个最热门的大语言模型(LLM)面试问题 ... ·  2 天前  
爱可可-爱生活  ·  《爱可可微博热门分享(6.6)》 ... ·  3 天前  
51好读  ›  专栏  ›  AI科技评论

斯坦福大学马腾宇:无法理解现有的深度学习算法?那就设计一个能理解的!

AI科技评论  · 公众号  · AI  · 2020-01-21 14:23

正文

请到「今天看啥」查看全文


然而在深度学习的时代,模型的泛化都非常难以解释,原因就是很多传统的观点并不再适用了。 但是有一个传统的观点还是有效的,它就是奥卡姆剃刀定律(Occam's Razor),指的是低复杂度的模型也可能泛化得很好
不过这种「低复杂度」其实是很难定义的,因此更核心的问题是如何正确定义模型复杂度,以及我们可以通过什么方法能衡量并找到正确定义的复杂度。这是他们希望通过一些理论研究来解决的问题。
常见的方法是隐式的正则化方法, 分析该方法可以聚焦于两个方面:第一,算法更偏好低复杂度的方案;第二,低复杂度的模型泛化得很好 。分析好这两个方面, 就可以理解现有的算法,同时探索新的度量复杂度的方法 ——因为算法偏好的复杂度基本就是正确的复杂度度量方法。
马腾宇以其团队开展的一些工作为例阐述了一些发现:
  • 第一,在模型训练和收敛方面,学习率至关重要。例如在他们最近的一篇 NeurIPS 论文中证明了,一个使用了大学习率的两层神经网络,只能表示线性的函数,因而即使使用了很复杂的模型,在有噪声的情况下也只能表示一些非常简单的解,从而使得模型要比想象中更简单些,这实际上是噪声在深度学习中起到了正则化的作用。

  • 第二,初始化方法对模型的复杂度,也有同样的效果。例如 Chizat Bach 在 2019 年发表了一篇论文,证明了大的初始化状态更容易得到最小的神经切线核范数解。而他们自己的一些工作,则证明了小的初始化更偏向于得到更加「丰富」的状态,会比核状态更有意思,比如说最小的 L1 解或者原子核范数解。Woodworth 等人有一项工 作基本上就说明: 一个较小的初始化的模型,会收敛到一个最小的 L1 解而不是 L2 解上。
这些工作的核心思想是,不同的算法有不同的偏好,而不同的偏好则会有不同的复杂度量,学习率会有偏好,初始化状态也有偏好。

二、隐式/算法的正则化是理解深度学习的唯一方法吗?

如果想要理解深度学习,是不是只有理解隐式/算法的正则化这一种方法呢?






请到「今天看啥」查看全文