专栏名称: 知识分子
《知识分子》是由饶毅、鲁白、谢宇三位学者创办的移动新媒体平台,致力于关注科学、人文、思想。我们将兼容并包,时刻为渴望知识、独立思考的人努力,共享人类知识、共析现代思想、共建智趣中国。欢迎关注。
目录
相关文章推荐
51好读  ›  专栏  ›  知识分子

港大马毅:“百模大战”资源消耗惊人,智能本质到底是什么?

知识分子  · 公众号  · 科学  · 2025-01-23 08:31

正文

请到「今天看啥」查看全文



然后到了几千年前,数学与科学的出现又一次大大推动了智能的发展。人类学会了抽象的能力,超越了之前单纯从经验的数据里寻找规律。这期间到底发生了什么?到目前为止大家并不是很清楚,但是我们知道,作用机制从本质上和生物智能的早期机制是非常不一样的。我们做学问一定要把历史搞清楚。


02

智能研究历史:
起源、寒冬与大爆发




那么真正开始对智能进行研究,这件事情的起源在哪里?今天一提到智能,大家都说是起源于 1956年 (达特茅斯会议定义的) 的“AI”,这显然是不正确的。人类对智能机制的深入研究至少可以追溯到上世纪40年代。当时,以诺伯特·维纳为代表的一大批杰出科学家,开始探索机器模拟动物和人类智能的可能性。


他们研究了哪些问题呢?比如研究“一个系统怎么从外部世界学习有用的信息,这些信息怎么组织管理、度量”,他的学生香农创立了信息论;维纳本人研究“动物是如何学习的,反馈、纠错”,这是控制论和系统论;然后是“怎样通过跟外部环境或者对手博弈,不断地提高决策质量”,这是冯·诺伊曼的对策论和博弈论。维纳的思想还直接影响并催生了40年代初沃伦·麦卡洛克和沃尔特·皮茨提出人工神经网络首个数学模型。包括图灵研究计算 (computing) 如何通过机器实现,他提出图灵测试本质上也是相信人和机器之间的计算机制应该存在着统一性。我们看到,维纳的《控制论》英文名就叫Cybernetics: on Control and Communication in the Animal and the Machine。这些科学家就是想知道动物感知和预测外部世界的能力,以及这种系统的本质和机理到底是什么。对这些科学家来说,他们都坚信——智能背后的数学机制是统一的。一旦找到了并实现了这些机制,动物与机器之间的界限将变得模糊——我们可以将其称为“诺伯特·维纳测试”。


人工神经网络的诞生与发展本身,同样是人类从生物学和神经科学研究中获得灵感的结果。既然动物是一种智能存在性的证明,那么我们就可以去研究神经的工作原理。这促使了神经元的数学模型的诞生,即人工神经元。有了数学模型之后,当时大家比较急,或者说对智能的后续发展开始变得过分乐观,觉得既然掌握了神经元的数学模型,那就可以去构建神经网络,制造感知机,并且去训练它。大家如果去看50年代的《纽约时报》对感知机的报道会发现,我们现在在人工智能上吹的牛当时已经吹过了,比如机器能够自主学习和思考,人类将不再需要劳动等等,这都是50年代神经网络模型出现后的社会讨论。但是后来发现其实不行,不work。


直到80年代,人们才意识到可能还有一些关键因素没有被充分理解,所以又重新开始研究大脑的工作原理,从而诞生了卷积神经网络,这也是1989年的图灵奖。


大家可以看到,40 年代之后,有了人工神经元的模型后,开始建立了系统和网络,有了神经网络的概念。在过去大概 80 年的时间里,神经网络几起几落,这是一个基本的发展历史。最早由于 practice比较粗糙,效果并不是很好,当然理论上也发现了神经网络有它的局限性,让大家在70年代对神经网络的能力产生了一些质疑,导致在70 年代进入了一个寒冬。但是在 80、90 年代还是有不少人仍在坚持,比如Hinton、LeCun 等等,而且在设计越来越好的算法,去训练神经网络,包括 Backpropagation 等。到 2000 年,神经网络又进入第二个寒冬,原因主要是在做分类的问题上,出现了一个支持向量机的工作,由于它的数学理论比较严谨、算法比较高效,所以对神经网络也带来一些冲击。一直到2010年以后,神经网络随着数据以及算力的加持,它的性能得到逐渐的提高,才带来了这些年的蓬勃发展。


最近这十几年,凭借算力和数据的支持,人工神经网络的应用开始迎来飞跃,直到今天。特别是在文本、图像和科学领域尤为突出。比如说 在Transformer 下,不管是文本、图像,甚至在各方面的科学数据上都取得了非常显著的成效。所以其实近年来AI的成果,实际上是多年前的理念在技术层面的实现。


03

从黑盒到白盒




现代深度神经网络一直是黑盒子。因为基于这些深度网络的人工智能系统都是基于经验或者试错的方式设计出来的。当然,这个黑盒子的确取得了很多非常突出的成果。所以不少人会认为深度网络作为“黑盒子”,只要能用、好用就足够了。从工程角度看,这或许没问题,但从科学角度来看,我觉得这难以接受。更何况历史上,但凡影响力巨大的事物,一旦它还是一个“黑盒子”,就极有可能被人利用。


以天文为例,历史上,在天体物理、牛顿力学诞生之前,迷信与巫师活动盛行。一些人会利用民众对天文现象的无知制造恐惧,从而达到自己的目的。而科学家的重要的价值和责任之一就是要破除这种现象。从这个角度出发,我们必须要搞清楚,智能究竟是什么,这些深度网络究竟在做什么、能做什么。


我们需要研究怎么把智能定义为一个科学问题,明确其科学问题的核心,探究它的数学本质,以及确定正确的计算方法——这些议题现在必须被提上日程。


今天的主题是“AI for science”。科学到底是什么,能做什么?某种程度上讲,科学就是感知到并学习外部世界,然后获取可预测的信息和规律。


这里有很多例子,比如气象学,正是因为世界并不是完全随机的,有一些是可以找到内在规律的,我们才能预测天气。物理规律的发现同样是如此。比如一个球的下落,我们知道它是遵循物理定律的。但其实,从智能的角度,我们在座的每个人甚至是阿猫阿狗都是“牛顿”。因为人和猫狗这样的动物其实都对外部世界建立了极为精准的物理模型。比如当玩的球下落的时候,猫和狗能够迅速且精准地接住,甚至比人还准。它们不需要懂牛顿定律,却能不断学习,并用学到的东西对外部物理世界做出精准预判。学习到的是什么呢?是外部世界的数据的分布规律。


那能不能从数学角度把这些规律统一起来呢?其实是可以的。牛顿定律和动物学到的物体运动的规律差别仅在于表达的方式不同,语言不同,但在数学上其实是具有一致的表现形式的。比如说一个物体在不受外力影响的情况下,会在一条直线上运动,我们很容易判断它在下 一 秒出现在哪里,它不会随机出现在其它的地方。当然还有更复杂的可预测的问题,它可能不是一条直线,很可能是一个平面,或者是多条直线,甚至多个平面、多个曲面等等,数据里面很多的信息就是通过这种结构体现出来的。


我们学习就是要从这些观测到的高维空间中的数据里面学到低维的数学结构和特征,学到以后还要把它组织好、表示好,这也是现在AI领域的前沿课题。


学习到低维结构有哪些好处呢?低维结构具有很多很好的性质,比如completion (补全) 、denoising (去噪) 和error correction (纠错)


首先,completion补全。数据分布在一条线上,部分缺失,AI能够填补这些空白,就像GPT做填空题一样。事实上Transformer就在做这件事,nothing else。


第二是denoising,去噪。当我们识别出数据中的噪声并找到规律后,就能清除噪声,就像我们的大脑会自动清晰化模糊的图像。这就是Diffusion model在做的事,大家现在经常看到的以及用到的用AI生成声音、图像的功能和应用,本质上就是在做这个,nothing else。








请到「今天看啥」查看全文