专栏名称: 腾讯研究院
【腾讯研究院 ★ Tencent Research Institute】 网聚智慧,连接世界!网罗互联网前沿理念、传递互联网发展声音、汇集互联网研究成果、推动互联网法治进程。
目录
相关文章推荐
新浪科技  ·  【#董明珠寄语高考学子##董明珠劝考生父母不 ... ·  19 小时前  
新浪科技  ·  【#Switch2首日更新开始推送#,启用所 ... ·  昨天  
新浪科技  ·  【#雷军称不打价格战#:YU7不会只比SU7 ... ·  2 天前  
51好读  ›  专栏  ›  腾讯研究院

专访上海交大讲席教授徐雷:人工智能走了20年弯路之后|AI&Society百人百问

腾讯研究院  · 公众号  · 科技媒体  · 2025-02-17 17:00

正文

请到「今天看啥」查看全文


AI&Society百人百问: 人工智能行业这两年非常热,有很多共识,也有很多非共识,您觉得现在技术发展遇到瓶颈了吗?有哪些是可能突破的方向?比如深度推理的慢思考?或者在框架上会有一些创新吗?

徐雷: 这个问题很大,给我多点时间,讲得清楚些,后头你再有什么问题都好答了。

回答这个问题,要从两个角度看。 一个是从人工智能的历史与发展角度,再一个是从人工智能本身涉及的逻辑或哲学角度。
为了理解人工智能发展,先大致看一下人的智能演化。最早是记忆,看到图像,看到现实中东西能记得住。记得越来越多了以后呢,自然就会产生把它们分类,就是要区别对待。然后呢,相似的东西要比对,再往前一点就是类推。早期的智能就这样发展了,而发展到一定程度,东西太多了,类别太多了,就要归纳成一些抽象的概念,到了抽象的这个空间里,就形成了所谓的推理,就要去解决问题。人类智能大致就是这样走过来的。
怎么样检验脑中记的对不对呢?看是否记住一个东西,就看能否回忆出它,例如经常一下子就认出这个人了,更为深刻些,看能否描述所记东西的特征,甚至重建它的图像,其实这就是生成。你脑中生成了一个虚像,看它是不是你所记的,这就是生成式的记忆识别。回忆、生成、识别、推断、类推、类比这类行为,构成所谓的形象思维。
智能的发展与语言文字的演化有很大关系,中华文化的文字,就很大程度上体现了形象思维,基于我们文字上发展的人类智能中形象思维的比重很大。西方文字发展走了另一条路,大概在5000年以前,不知何因,古埃及的象形文字转变成了符号文字,符号文字的不断演化,促进了抽象思维,它把很多形象一一抽象为概念,变成一个个符号,变成一串发音形成了语言串。这种把看到的现实中的东西都变成了符号,语言就是符号串,易于形式化与抽象推理,高度的抽象逐渐形成了数学语言,可以认为是人类抽象思维发展的第一个高峰。
数学语言就是符号串语言的一个子集或子语言,本质上都是符号串,这样语言、逻辑、数学就后来走到一起,出现了数理逻辑与形式语言,出现了现代计算机,是人类抽象思维发展的第二个高峰,也是借助机器再继续发展人类抽象思维的开端,所以你不能说现在计算机做的就不是智能,它做能够形式化、程序化了的抽象思维。但是,这种智能发展受限,做不到完全机器自动化,原因是基础不牢和能力有限。后面来解释这两点。
计算机出现不久,就来到1956年人工智能的诞生。早期将人类智能大致分为两种形式,一种是聪明的大脑 (数学家、战略家、哲学家、大侦探) 所做的事,大都属于抽象思维,称为高级智能或智能的高级阶段。另一种是每个人的大脑日常都要干的事,也就是前面讲的记忆、识别、回忆、生成、推断、类推、类比等形象思维活动,有人认为是低级智能或者智能的低级阶段。聪明人都喜欢挑战,以精英学校为主的那些精英们,谁会愿意挑战低级的呢?加上符号语言刚在计算机上的成功背景,人工智能一开始,自然地就走入了符号人工智能方向。
不过,人工智能要面对的是人类所在的现实世界,怎么能够将现实世界里的东西,智能地转化到符号人工智能所针对的符号串呢?那时的计算机做不了的,也没有广泛深入的探索。到了70年代末80年代初的知识工程与专家系统,这类工作主要是人工完成的,作为知识表示的很多规则也都靠人去。于是,以抽象思维为主要特征的符号人工智能走到死胡同。为什么?因为是空中楼阁,或者沙地起高楼,基础不牢,它把形象思维这一个阶段跳过去了。这就是为什么之前的AI热潮又落下去的原因。
很有意思的是,受过中国文化熏陶的学者,则不会低估形象思维的地位。特别值得提到的是钱学森先生,也是交大的老校友了,他在75到80年期间搞思维科学,当时就非常有远见地指出形象思维在智能中很重要,而当时AI界主流都在搞符号AI。事实上,符号人工智能诞生后不到两年,注重形象思维的探索也开始了。美籍华人Chow, C. K,在57年发表的论文中首先用统计决策理论的办法,去识别文字符号,标志模式识别的开始。他早年去台湾前就读上海大同大学,它的电机、机械专业后来并入了上海交大,尽管考证他学的专业有些困难,大概率地讲他也是交大校友。60年代末70年代初,模式识别也起来了,当时又有另外一个美籍华人叫傅京孙 (Fu King-Shun) 是领袖,创立了国际模式识别学会和现在大家知晓的模式识别顶刊IEEE Tr PMAI,可以说是当今刷脸行业的祖师爷。
1980年前后,模式识别与符号AI同时进入我国,并没有明显分家。在傅先生支持下,在清华常迵先生和北大程民德先生的领导下,模式识别在我国的发展更为系统化,我国的学科设置,有关智能的博士点,始于81年在清华,为一级学科自动化下的二级学科的模式识别与智能控制。我就是在常先生和阎平凡教授的共同指导下,于1986年底完成做博士论文,是我国这个专业的第一个毕业的博士。在我国出现计算机一级学科与人工智能相关的专业,要到九十年代以后。特别值得一提的是,以清华北大中科院为核心的所谓信息科学金三角,对推动我国相关学科发展,尤其是高校和科研院所相关人才的培养打下了基础,这解释了,为什么深度学习高潮再起时,全球参与的华人最多,尤其我国在刷脸识别很快领先,尽管微软的北京研究院有引领作用,那大量人才哪里来,来自80年起我国这方面人才培养的基础。还有,当时中国科学院没有信息学部,只有技术科学部的信息学组,常先生和程先生分别担任正副组长,在他们的领导下发展成为现在的信息学部。
从50年代末起,也有西方学者一开始从形象思维入手的,尽管不是主流。这里特别提到两位,一是Frank Rosenblatt,1958年也考虑识别英文字符,不过有的是只有一个神经元的Perceptron感知机学习。后来还用多层神经网络开发了MARK I感知机,他就是神经网络学习的鼻祖。遗憾的是,1969年符号AI的超级大咖Marvin Minsky明斯基和Seymour Papert写了《Perceptrons》一书,批判了这条路线,导致了神经网络研究的停滞,也就是有人所称人工智能的第一次潮落,这种说法不对,当时符号AI正红火,是神经网络研究或形象思维探索的第一次潮落。不过,感知机学习却被纳人模式识别研究为经典,直到1985年作为神经网络研究再次涨潮的一个重要出发点。
另一位西方学者是P.V.C Hough,1959年提出Hough transform (HT) ,简称HT变换,1962年批准为美国专利,旨在让计算机识别图像中的直线,后来发展到识别圆与各种形状,引起了后来广泛而持续的研究,HT变换可以说是今天计算机视觉的开端。还有,Hough用它来识别bubble chamber照片中高能粒子的运动轨迹,也可以说是开了今天AI for Sciences的先例。1990年前后,作为第一作者我在芬兰与E.Oja合作,提出了Randomized Hough transform (RHT) ,对HT在机制和性能上皆有突破性发展, 相当于HT2.0而引起了广泛的追随、应用、和发展。
第二次形象思维的潮起,也是当今人工智能持续高潮20年的源头,是80年代初到90年代初的神经网络研究高潮。前面提过,最基本的智能就是记忆。记忆不像计算机找到代码地址,然后把它调出来,那不叫记忆,那叫调用。记忆是什么呢?就是我看一眼你的形象,哪怕只看到一半或一部分,脑子里就把你的整个形象调出来了,这叫基于内容的记忆,或者叫联想记忆。早在60年代就有人做,但是做的效果不够好。1982年约翰·J·霍普菲尔德 (John J. Hopfield) 利用物理学中的自旋相互作用原理,通过能量函数描述神经网络的状态空间,能够通过不断反转神经元的状态实现能量最小化,从而达成稳定储存的“记忆”‌。它的联想记忆虽然记得不多,但用片段的记忆可以联想回忆出稳定的记忆,是早期神经网络研究的第一个突破。
1985年前后,戴维·朗姆哈特 (David Rumelhart) 等人在UCSD搞了一个PDP Research Group,出来一批成果,聚集了推动神经网络研究再次潮起多个核心人物,有今天人人皆知的Hinton和Jordan,那时候Hinton为访问助理教授,Jordan是Rumelhart的博士生。PDP Group 出了一批成果,最著名的是1986年发表于Nature的反向传播学习算法,作者为Rumelhart 、Hinton,与Ronald Williams。可以说是突破性地发展了前面所提Rosenblatt的多层Perceptron学习,标志着多层神经网络学习也即当今深度学习的开端。这个突破与Hopfield的突破,以及PDP Group的推动,合起来导致了80年代末神经网络的高潮。
1991年夏在西雅图开的IJCNN即国际神经网络大会上,我有两篇论文发表 (其中一篇与MoE有关,后面会 谈到) ,有个机会与Rumelhart、Hinton围坐于一个小圆桌喝咖啡短叙,那时Rumelhart高大帅酷,很遗憾地,他后来得了阿兹海默症于2011年离去了,当今认知科学的最高奖以他名字命名,被认为是认知科学领域的诺奖,也可以说他是当今人工智能持续高潮的最重要的源头之一。92年我到他的学生、MIT的Michael Jordan团队再做博士后,目睹Jordan与Hinton一起做为两个最重要的核心人物,引领NIPS或改称NeurIPS会议,发展为当今人工智能的最高顶会。后来,神经网络研究逐渐走向第二次潮落,Jordan又重新以原先符号人工智能残余的机器学习 (machine learning) 小组为基础,推动机器学习十余年来的大发展。
促进这轮人工智能持续20年高潮的再兴起,有三个最主要的引擎,一个是Jordan推动机器学习的大发展,奠定了再兴起的基础,另一个是Hinton团队2006年的工作,指明了前路。90年代初前后,已经提出了很多模型。受制于当时数据、算力之有限,实验规模不能做的很大,你有你的模型和学习算法,我有我的模型和学习算法,都不知道好坏,不晓得突破的出路在哪里。Hinton又回去做多层神经网络学习,和他的两个学生发现,层数增加了以后,效果好了很多,层数多了就是网络更深了,所以就把神经网络学习改了个词,叫深度学习,深了就等于参数多了,也就是大模型的开始。第三个是算力经过二、三十年的发展而大大提高,九十年代初要算一年的工作,缩减到只算几天或几小时。实际上,我于1991年也提出过一个多层神经网络学习模型,将基于能量理论的全连接的Hopfield网改变为层状Hopfield网,简称LMSER学习,与十多年后Hinton团队在2006年提出的RBM学习,不仅模型结构一样,学习算法上也基本类似。只不过当年算力太弱。现在只要算几小时的实验,按当时我在MIT用的算力,可能一年都算不出来。没有实验反馈信息,形不成一个思考的轮回,无法知道效果好坏。
有了这些引擎,深度学习成功了、大火爆了,这标志 一个新的开始,意味着从1956年到2006年,人工智能走过弯路,又回到了形象思维,走上了正确轨道。 大火爆后的第二个接力是什么呢?其实就是 AlphaGo,下围棋是过去符号人工智能也是抽象思维的经典问题,还是不可能解决的天花板,因为其计算复杂性是指数爆炸的。但是AlphaGo就解决了,而且超过人。为什么呢。我们很多人以为,是因为有蒙特卡罗树搜索,其实不是,这种树搜索起到一些作用,但没讲到核心。
基于抽象思维的AI棋类对弈的问题求解过程,也是树搜索过程,搜索中每一步面临若干分支,需要多择一,某个分支是否被选取决于针对该分支估计得到的一个评估值,反映进入该分支后能够最终实现目标的机会或信度,这个值在经典AI中称为heuristics启发值h,而在AlphaGo或通常的强化学习中叫value价值v。两者的含义类似,这里就用v。每个分支的v值在树搜索过程中不断地动态修正估值,估值的好坏决定搜索效率的好坏,在经典AI中用的启发估值的树搜索,除了一些极为特殊的场景,这种树搜索过程仍然是指数爆炸的,所谓蒙特卡罗树搜索也是这类树搜索的一种,仅仅靠它不会带来核心的改变。
是什么带来核心改变的呢?是深度学习让神经网络看到棋盘做形象思维,不仅也对价值v做估计,还估计所谓策略,即当前棋盘状态下为了获胜,各分支中每个被选择的概率p,这里得到的v和p被结合到体现抽象思维的树搜索过程中,大大提高了搜索效率。用一句俗话说,就是开了天眼,该怎么做有效现在看到了,正是因为过去一下子看不到,才要去预想推理很多步。换言之,需要在大脑中苦想的抽象思维,可以借助“看见了”的形象思维,而显著简化。AlphaGo中就这样用形象思维的加入,打开了抽象思维的瓶颈,这个可以认为是深度学习或大模型学习的第二个里程碑。
反过来,也可以把抽象思维引入以形象思维为主的过程,以提高可靠性与准确性,更高的做法是两种思维互补和谐地用,这稍后再谈。






请到「今天看啥」查看全文