专栏名称: 图灵编辑部
是好书,把我们联系在一起
目录
相关文章推荐
高才-高校人才网  ·  温州商学院2025年人才招聘简章 ·  5 小时前  
高才-高校人才网  ·  广西机电职业技术学院2025年高层次人才招聘 ·  昨天  
鼠绘情报站  ·  海贼王1151话情报丨乔巴救下贾巴!洛基申请 ... ·  2 天前  
51好读  ›  专栏  ›  图灵编辑部

一个图灵奖的诞生!

图灵编辑部  · 公众号  ·  · 2025-05-30 11:15

正文

请到「今天看啥」查看全文


1980年代末我到麻省大学时,阿比卜刚结束在南加州大学一年的学术休假,决定离开麻省大学,正式加盟南加州大学,担任南加大一堆系(包括计算机、生物、生物医学工程、电气工程、神经科学,还有心理)的教授。但阿比卜最终并未成为开天辟地的宗师,有愧于他的天分和才华。南加州大学没有因为他的到来而添彩,而麻省大学计算机系却因为他的出走而失去了自己的特色和主心骨。遗传算法的祖师爷霍兰德说过:老师的影响力很大程度上要看有没有出息的学生,学生是学术圈生态环境的一个环节。麻省大学有阿比卜需要的生态环境,南加州大学则有名无实。阿比卜晚年为自己日渐衰落的学术影响力找过借口,他认为原因之一是马尔(David Marr,计算机视觉的大佬,在1980~1990年代颇具影响力)学派的当道。马尔和那一小撮把他当神一样供奉的学生曾经一度统治了视觉研究领域,马尔的早逝加剧了马尔神话,他的书 Vision (《视觉》)也成为学生们的“圣经”。阿比卜认为马尔的工作源于自己的工作,但“圣经”里并没提及,仿佛一切都是马尔自己一夜之间发明的。

1975年麻省大学的莱斯曼(Ed Riseman)在美国计算机学会的《人工智能分会快报》( SIGART Newsletter )上发表过一篇文章,介绍麻省大学计算机与信息科学系(COINS)的人工智能研究,当时的COINS开始分为理论、系统(包括软件和硬件)和控制论三个方向,而控制论后来成为人工智能。这种分法也是后来所有计算机系的标配。COINS当时一共有13位教授,其中5位从事人工智能和控制论。阿比卜一开始坚持“控制论”而拒绝用“人工智能”,有两方面原因:其一,他毕竟是维纳的学生,且他终身的学术兴趣是为大脑建模(brain modeling);其二,“人工智能”这个词儿的流行是在1970年代中期。按照阿比卜的一家之言,人工智能是控制论的替代品。至少从时间轴上看,这也不能算错。维纳的控制论自问世从没进入过人工智能的主流,现在更无人问津。大概只有强化学习还留有些许控制论的影子。

COINS的人工智能研究分为两条线,一条以莱斯曼为首的人工智能路线,另一条是阿比卜亲自挂帅的脑理论(Brain T h eory)路线,阿比卜的组内还有在哺乳动物视觉系统做过重要工作的意大利神经生理学家斯宾尼利(Nico Spinelli),当时有传他被提名过生理诺奖。阿比卜还成立了“系统神经科学中心”(Center for Systems Neuroscience),联合心理、生理以及医学的资源。因为阿比卜本人涉猎极广,人工智能和自然智能这两条路线互有借鉴。

1980 年代末的某一学期,麻省大学的一学期人工智能课程独树一帜,由计算机系的所有人工智能教授联合开,每人负责一个主题(如下表),主要参考书目是费根保姆和寇恩等主编的《人工智能手册》,每个老师也会有自己的教辅材料。计算机系如此开课只此一回,但让我赶上了。

图片

以上课表证明在阿比卜离开时,麻省大学的计算机和人工智能的教师团队确是顶流。


强化学习的诞生:巴托和萨顿

和莱斯曼于1975年发表文章的同期,《人工智能分会快报》( SIGART Newsletter )还刊登了另一篇题为“自然智能与人工智能之比较”( A comparison of natural and artificial intelligence )的文章,作者是主管美国空军人工智能资助的克劳普夫(Harry Klopf)。阿比卜和斯宾尼利(Nico Spinelli)联合向克劳普夫申请课题经费,申请成功后,阿比卜和斯宾尼利招了一个博士后做具体工作,他就是安德鲁·巴托。巴托到任时,阿比卜去学术度假了。

图片

安德鲁·巴托( 1948 —)

莱斯曼文章中没有提到巴托。巴托在密歇根大学的博士论文研究的是细胞自动机,他在那里的两位老师也都是做细胞自动机出身,其中霍兰德( John Holland )发明了遗传算法,也是“涌现”( emergence )概念的提出者。

克劳普夫 资助阿比卜和 斯宾尼利 的条件之一是,课题组必须招收一个他的熟人 ——一位从 斯坦福大学刚毕业的 “极聪明的本科生”理查德·萨顿。萨顿本科学的是心理学,研究动物怎么适应环境一直是他的兴趣。由于 克劳普夫的安排,萨顿到了了麻省大学并成为巴托的第一个博士生。

图片

理查德·萨顿 ( 1957-)

巴托加入麻省大学时,正是神经网络的低潮,于是他学老师,把自己的实验室命名为 “可适应系统”( Adaptive Systems ),这个名字听起来和神经网络保持一定距离。 1980 年代中期,随着 Hopfield 网络的流行和通用逼近定理的出现,人们逐渐改变对神经网络的看法。在加州大学圣地亚哥分校由几位认知心理学家领导的 PDP (平行分布处理)运动标志着神经网络的一次短暂的复兴。辛顿和巴托都是这次 PDP 运动的干将。

但此时巴托和萨顿已经形成了他们自己关于学习的第一性原理,那就是强化学习。 他们 有时也把强化学习中的目标制导(goal-seeking)称为“享乐主义”(hedonistic),即学习系统想最大化环境对自己的某种奖励。“享乐主义”这个说法源自他们的资助人克劳普夫1982年的一本书,书名即《享乐主义的神经元》( Hedonistic Neuron )。关于个体的策略和集体的行为之间的关系,道金斯有所谓“自私的基因”的说法,这和“享乐主义的神经元”异曲同工,两种说法都旨在为类生物(biology-inspired)系统建立基本公理。

作为空军项目的结项,巴托和萨顿联合撰写了报告(见 Barto & Sutton-1981 ),在结项报告上签字的 PI 是斯宾尼利。此报告的题目“ goal-seeking ”就是“享乐主义”的意思,后来巴托和萨顿将这一概念称为“奖励假设”( Reward Hypothesis ),也就是“奖励就够了”( Reward is enough )。

克劳普夫1997年56岁时英年早逝,他事实上也是强化学习的奠基者之一,如果现在还活着,今年图灵奖的名单上应该有他的名字。







请到「今天看啥」查看全文