正文
这种新型模型的行为机制建立在一项新型表征的基础之上,即基于神经元集群随时间推移形成的同步化活动。Sakana 团队认为这种机制更贴近生物大脑的工作原理,尽管这并非严格意义上的生物学模拟。连续思维机能够利用新的时间维度、丰富的神经元动态和同步信息来“思考”任务并在给出答案前进行规划。之所以在命名中使用“连续”一词,因为连续思维机在推理时完全在内部“思维维度”中运作。它在处理数据时是异步的:它可以以相同的方式针对图片这样的静态数据或序列数据进行推理。研究中,Sakana 团队在一系列任务上测试了这一新模型,发现它能够解决各种问题,并且通常能以非常易于解释的方式完成。
该团队所观察到的神经元动态与真实大脑中测得的动态更为相似,而与传统的神经网络相比则显得大相径庭,后者表现出的行为多样性要少得多。连续思维机中的神经元呈现出不同频率与振幅的振荡特性。有时,单个神经元会表现出不同的频率,而其他神经元则仅在执行任务时才显示活动。需要说明的是,所有这些行为都是完全自然涌现的,并非由研究人员设计到模型之中的,而是作为添加时序信息和学习解决不同任务时的副作用而出现的。
图 | 连续思维机的神经动力学与当前流行的人工神经网络中的动力学之间的比较(来源:
arXiv
)
测试任务:迷宫求解和图像事物分类
由于引入了新的时间维度,连续思维机的一个主要优势在于,该模型随时间推移解决问题的动态过程可以被实时观察和可视化。传统 AI 系统可能仅通过神经网络的一次遍历来对图像进行分类,而连续思维机则可以采取多个步骤来“思考”如何完成任务。为了展示连续思维机的功能和可解释性,Sakana 团队展示了两个任务:迷宫求解和照片中物体的分类。
迷宫求解
在迷宫求解任务中,Sakana 团队向连续思维机呈现了一个二维的自上而下的迷宫,并要求连续思维机输出解决迷宫所需的步骤。这种形式的挑战性之处在于,由于模型必须理解迷宫的结构并规划解决方案,而不仅仅是输出路径的视觉表示。连续思维机的连续“思维步骤”使其能够制定计划,并能让人直观地看到它在每个思维步骤中关注了迷宫的哪些部分。令人惊讶的是,连续思维机学习了一种非常类似人类的解迷宫方法。Sakana 团队在相关论文中表示,他们能够直观地观察到,模型通过其注意力模式的动态变化,在迷宫中实时探索路径的过程。
视频 | 连续思维机通过观察(使用注意力)并直接生成步骤(例如左转和右转等)来解决迷宫问题。它直接利用神经动力学的同步性(即使用同步性本身的线性探测)来实现这一点(来源:Alon Cassidy)
这一行为尤其令人印象深刻的是,它自然地从模型的架构中产生。在设计连续思维机的时候,Sakana 团队并没有为其设计追踪迷宫中的路径的方法,而它通过自我学习自行开发了这种方法。此外,当允许更多的思考步骤时,连续思维机会继续沿着路径走,甚至超过它被训练到的点,这表明它确实已经学会了解决同一问题的通用方法。
图像识
别
ImageNet 是 2012 年引发深度学习革命的经典图像分类基准测试。传统图像识别系统仅通过一步即可做出分类决策,但是连续思维机则能通过多步处理来检查图像的不同部分,然后再做出决策。这种逐步处理的方法不仅使 AI 的行为更具可解释性,还提高了准确性:它“思考”的时间越长,答案就越准确。这使得连续思维机能够自行决定在更简单的图像上花费更少的时间进行思考,从而节省能源。例如,在识别大猩猩时,连续思维机的注意力会从眼睛转移到鼻子再转移到嘴巴,这种模式与人类的视觉注意力非常相似。
视频 | 视频展示了连续思维机在图像分类时的行为示例。热力图显示了连续思维机在处理图像时关注的区域,箭头则指向了关注的中心(来源:Alon Cassidy)
这些注意力模式为深入了解模型的推理过程打开了一扇窗口,展示了模型认为哪些特征对于分类最为相关。
这种可解释性不仅对于理解模型的决策很有价值,而且对于识别和处理偏差或失效模式也可能非常有用。
既是与常规深度学习的分道扬镳,也体现了哲学上的转变
尽管现代 AI 是基于被称为“人工神经网络”的大脑模型,但即便在今天 AI 研究与神经科学之间的重叠程度却出人意料地低。一直以来,人们选择沿用 20 世纪 80 年代开发的模型,这是因为该模型简单、训练高效,并且在推动 AI 发展方面不断取得成功。另一方面,神经科学正在创建更准确的大脑模型,但这主要是为了帮助人们理解大脑,而不是试图创建更优越的智能模型,当然两者之间也有可能相互促进。这些神经科学模型尽管增加了复杂性,但通常仍不如目前最先进的 AI 模型表现优异,因此可能并不值得为了发展 AI 而去进一步研究它们。