专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
InfoTech  ·  DeepSeek更新了! ·  2 天前  
人工智能与大数据技术  ·  15亿美元AI独角兽崩塌,全是印度程序员冒充 ... ·  昨天  
51好读  ›  专栏  ›  大数据文摘

强化学习之父 Rich Sutton 最新演讲:用「去中心化神经网络」应对深度学习局限性

大数据文摘  · 公众号  · 大数据  · 2024-12-31 12:00

正文

请到「今天看啥」查看全文


其次,我们已经展示了深度学习在长时间的强化学习中可能会崩溃。这些问题已经得到了解决。我们通过引入变异和选择性生存来解决它们,也就是尝试一系列事物并保留好的那些。因此,我认为这是去中心化目标的基础,这些 Agent 将尝试为网络做出贡献。我认为用这些术语来思考将会是有用的。
我将展示的第二件事,是来自阿尔伯塔大学的一些新工作,他们开发了这些在线流算法用于强化学习,这一直是我们在深度学习中无法与之竞争的流算法。流算法意味着数据流经它们,它们不保存任何数据,每个数据有一个固定的计算量,你不需要保存任何东西,所以你可以在事情发生时完全处理它们,然后丢弃它们。这是自然的学习方式。
首先,我应该定义一下我所说的去中心化神经网络是什么意思。它是一个其神经元追求的目标与整个网络的目标不同的网络。去中心化意味着没有中央控制器。有多个 Agent 在执行任务,但作为一个整体,我们希望最终能形成一个强大的智能网络。
例如,整个网络可能寻求最大化其强化学习系统的奖励,或者它可能寻求按照训练集的指示对图像进行分类以监督学习系统。但单个神经元可能有其他目标,比如它们可能想要提供网络中其他神经元发现有用的信号。这是一个局部目标,或者是它们可能想要自我规范化,并且在一定时间分数内保持活跃。这是它们独立于网络整体目标的局部目标的衡量。所以,去中心化神经网络的说法是一个由追求目标的组成部分构成的目标寻求系统。
现代强化学习最初被构想为一个去中心化的神经网络。所以,如果 Andy Bartow 和我可能是现代强化学习之父,那么 A. Harry Klopf 就是祖父,因为他是让我们开始这一切工作的人。他写了《The Hedonistic Neuron》这本书,提出单个神经元。他将单个神经元视为寻求目标的实体,寻求事物和避免事物。大脑中的神经元类似于社会中的人。每个人都是享乐主义者。
他实际上认为新的通常的神经元试图获得兴奋并避免被抑制。他非常注重这个短语,即从寻求目标的组件中寻求目标的系统。而Andy Barton和我在1980年左右在马萨诸塞大学工作时研究了它。
Klopf 的科学贡献是认识到这种去中心化的观点,或者只是思考想要东西的代理,这对我们今天来说并不明显。当时,它在所有工程学、所有控制论、所有神经网络中都是不存在的。没有代理想要某物的概念。它已经变成了监督学习,即他们不想要某物,他们只是做他们被告知的事情。他们不试图改变世界,他们试图匹配世界正在做的事情。而 Klopf 认识到了这一点,并在资助了 Andy Barton 和我在马萨诸塞大学的工作。所以他真的是现代强化学习的祖父。
实际上强化学习像山一样古老。Marvin Minsky 在他的博士论文中做了关于强化学习的研究,但他后来它变得不流行了,因为他们并不真正接受代理寻求事物的想法。他们认为它变成了监督学习。
这些是一些真实神经元的时间延迟摄影,它们在培养中,但重点是这些神经元正在伸出纤维。它们的树突和轴突末端有生长锥,不这样想是很难的:这些神经元试图做一些事情。
它们试图找到其他单元连接,其他神经元连接,并参与网络。所以,这是鼓舞人心的,但我们可能会想象我们的神经元以这种方式工作,就像 Harry Klopf 所做的那样。
所以,我认为一个去中心化的神经网络应该在三个层面上进行适应。它应该适应连接线,正如我们刚刚看到的,神经元伸出连接线与其他神经元形成连接;然后我们还要适应权重;第三,虽然不那么明显,我们要适应步长参数,这些参数决定了学习的速度,有时它们被称为学习率参数,但最好称之为步长参数。我相信,这对于神经网络的未来来说是一个非常重要的理念,所以我们将会讨论它。
现在,如果我们想改变结构,首先就注意到传统的深度学习,它们有一个非常固定的预设计结构,通常是分层的,并且这些层有特殊的功能。另一种做法是让网络自然生长,所以你可能会从一个输出单元和几个传感器、输入开始,然后随着你添加新的特征,你会得到一个更复杂的网络。在这个过程中,你会一点一点地积累神经元,变得更加复杂、更有能力。
所以我认为,如果这是一个去中心化的网络,并且试图为网络做出贡献,这将是一种更自然的方式。一旦为网络做出了贡献,你就成为了网络的一部分。在那之前,你只是在探索并尝试做一些有助于贡献的事情。
第一个观点是我们区分网络中已经学习过的部分,我将这部分称为骨干网络。你确定了权重是非零的,特别是它们通过网络连接并影响网络的输出。现在确实在现代神经网络中,许多神经元根本不是这样的,它们对网络的输出没有贡献。所以,我们中的一些人会称它们为死亡的,我不想让你认为它们是死亡的,所以我将给它们一个不同的名字,将称它们为边缘部分。
骨干网络是我们目前正在使用的,我们学到的知识,而边缘部分是我认为它们在边缘嗡嗡作响并试图形成一些对网络有用的功能,一些信号,然后网络将选择性地倾听。所以本质是我们要保护和维护骨干网络。在边缘部分,我们希望它更具探索性。这实际上几乎与常规反向传播所做的相反。如果你想反向传播,如果你影响了输出,那些线性概率反向传播会改变。通过梯度下降,你将改变那些已经影响输出的,而那就是误差。而那些不影响任何东西的,你根本不会改变它们,因为它们的梯度将为零。
为了更直观地说明这一点,我做了这张图。这里有一个神经网络,经过完全学习后,它们都有很多死亡单元。所以这里的黑色代表骨干网络,蓝色代表边缘部分。我们可以简单地修剪掉边缘部分,只保留骨干网络。这就是骨干网络和边缘部分的概念。






请到「今天看啥」查看全文