主要观点总结
文章主要介绍了科学四十人闭门耕:人工智能与机器人讨论会,邀请了几位学者就人工智能与机器人领域的机遇、挑战及未来发展趋势进行了深入的探讨。讨论涵盖了从演化计算、机器学习到机器人操作等多个方面,以及对于机器人如何更好地与人类互动、实现具身智能等问题的探讨。同时,讨论了科技成果转化的难点,以及如何通过教育和创新推动科技产业的发展。
关键观点总结
关键观点1: 科学四十人闭门耕:人工智能与机器人讨论会
讨论会邀请了多位学者就人工智能与机器人领域的机遇、挑战及未来发展趋势进行了深入探讨。
关键观点2: 演化计算与机器学习
学者姚新讨论了演化计算的核心思想,并强调了机器学习在解决实际问题中的应用。
关键观点3: 机器人操作与具身智能
学者王煜和孙若愚探讨了机器人操作面临的挑战,以及具身智能机器人如何更好地与人类互动。
关键观点4: 科技成果转化
学者王煜指出了科技成果转化过程中的难点,并强调了商业化和投资中的挑战。
关键观点5: 教育和创新
讨论强调了教育和创新在推动科技产业发展中的重要性,并提倡跨学科教育以提升研究生的综合素质。
正文
这些是自然生物系统所做出的适应,而我们现在在人工系统中也开始提出这样的问题。为什么我们需要一个大型的深度神经网络和端到端的计算,需要如此巨大的算力?例如,我去抓一个鸡蛋,是否需要从头到尾都进行这样的计算?这是最不经济的。因此,这里面有许多非常有趣的问题值得探讨。
孙若愚:
在具身智能科学问题的层面,可以从多个角度探讨。从大模型的角度,一个问题是:应该仅仅用语言模型作为一个接口来控制机器人,还是开发“机器人大模型”?这涉及到大模型领域目前讨论热烈的一个话题:世界模型的存在与否。有人认为,仅依靠语言或书本知识学习,是无法与现实世界相联系的。这里就涉及到grounding的概念,即如何将抽象的数学模型或表示与现实世界中的表示联系起来。如果能够实现这种联系,那么在开发机器人和具身智能时,只需要确保接口的正确性就好了。这是一种观点。
另外一种观点是,仅靠语言学习不够,还需要学习视觉世界模型。最近讨论的一个例子是Sora,它是否有世界模型。主流观点认为,即使Sora有世界模型,也是非常初级的。如果是这样的话,那么对物理世界的建模如何实现?至于语言模型,它依赖于大量的数据,比如10万亿的数据。但在视觉模型方面,可能需要10万亿的视频数据。这些数据从哪里来?这是为什么许多公司都在进行视频数据生成,走的是视觉大模型的路线。这是技术上我看到的不同的可能性。
在具身智能应用层面,一个重要的问题是具身智能到底应该做什么?具身智能本身只是一个形态,而不是一个目标。目标通常可以分为To B和To C两种。To B可能与智能制造相关,To C是家用服务。我们在新闻中看到的大部分应用是家用服务,比如叠衣服和斯坦福的炒菜机器人。从技术角度来看,一个重要的挑战是泛化的,即在一个场景中叠好衣服之后,是否能在另一个场景中叠好衣服。机器人做服务的挑战在于能否在一万个不同的场景下都能提供服务。
夏志宏:
王煜老师曾经用一个非常形象的比喻来描述大模型与人工智能的关系:大模型就像是大脑,而机器人的整体结构,包括人体机器人,要比大脑复杂得多。我们可能都有这样的体会,有时候我们心里明白很多事情,却无法表达出来,或者不知道如何行动。就像一个伟大的小说家,他可能充满了创作的灵感和冲动,却无法将这些想法转化为文字。机器人也是如此,即使它的“大脑”非常发达,也需要“小脑”或者更细分的“中脑”来协调和控制动作。
王煜老师提出的另一个有趣的观点是,我们现在的模型似乎是先在机器上计算好,然后再将这些计算结果装入机器人,让机器人执行我们想要它完成的任务,但人类并不是这样工作的。以打网球为例,当你看到网球飞来时,你需要迅速估计球的位置和轨迹。对于经验丰富的网球选手来说,他们在对方击球的瞬间就已经做好了准备,这时起作用的不再是大脑,而是中脑和小脑。王老师能给我们进一步阐释一下有关大脑、中脑和小脑的看法吗?
王煜:
在机器人领域,尤其是对于我们这些机器人创业公司来说,一个核心问题是如何将智能赋予机器人,使其能够执行任务并吸引投资,最终在市场上取得成功。这是一个充满挑战的技术问题,不同的人有不同的思路。主要分为两大派别:一派主张使用大型语言模型和世界模型,将所有可能发生的物理现象、语言现象和视觉信息融合到一个超级大模型中,通过端对端的方式处理问题。这种观点在年轻的AI研究者和一些顶尖教授中较为流行,尤其是在清华、北大等学府。
另一派,像我们这种有白头发的,因为做过机器人,我们试图把机器人放到车间里,也试图把机器人放在家里洗碗,我们知道有多难,所以,我们是认为智能应该从基础做起,逐步扩展到更广泛的应用。要让机器人在通用环境中与人类交互、吸收信息、感知和处理,就必须具备智能。因此,大型语言模型等工具变得至关重要。
例如,如果家里有服务机器人,当主人说“我饿了”,机器人需要考虑很多事情:家里有没有冰箱?冰箱里有什么食物?主人喜欢吃什么?等等。但最终,当机器人需要拿出盘子时,这就涉及到它的具体技能。我现在正在推广一个概念,叫做“具身技能”,这是指机器人能够执行具体任务的能力,比如系鞋带、打扣子或拧螺丝。这些技能通常是通过学习和练习获得的,而不是通过大脑的直接参与。
另一个重要的点是,当我们进入一个新的环境,比如成为一名熟练工人,我们通常会接受训练,学会特定的技能。这些技能是我们潜在的能力,而不是依赖于外部的设计模型。现在的关键是如何找到一种人工智能学习方法,让机器人能够发挥这些潜力,学会并执行这些技能。当然,机器人的硬件也必须具备相应的功能,比如精确的手指控制、丰富的触觉感知以及眼手协调能力。
投资者通常希望看到机器人能够解决问题并展现出能力,但他们往往不理解大脑、中脑、小脑等复杂概念。他们更倾向于看到大型世界模型,做得很好,能够解决问题。尽管存在争议,但我认为,这两条路子一直发展下去,终究会有一条成功,事情能够有个结论的。
夏志宏:
孙老师能否分享一下关于如何通过机器学习和深度学习算法,为已经制造好的机器人提供更高级别的智能赋能?
孙若愚:
一个方向是把自我学习算法引入到机器人中。但最近我看到一个有趣的问题:即使机器人或模型可以自我学习,我们是否应该给予它们这样的机会?有人甚至建议通过立法来禁止模型的自我进化。这背后的原因是对不可控性的担忧。现在,安全人工智能是一个非常热门的话题。即使是语言模型,我们如何能确保它在不断学习后不会说出不恰当的话?如果一个机器人会切水果,我们如何确保它不会去切割墙壁或者伤害人类?在通过深度学习赋予机器人更多能力之前,我们或许要解决安全控制问题。
夏志宏:
姚老师,是否可以通过演化算法让已经预训练好的机器人进一步演化,从而赋予它们更多的能力?
姚新:
演化算法的研究者们认为,智能的发展路径可能并非只有一条,而且也不应该只有一条。目前的大模型基本上是基于这样一种理念:尽可能收集全球的数据,如果数据收集得足够全面,或者即使不全面,也能通过自我生成数据来构建一个庞大的模型,这个模型如此之大,包含了你能想到的一切,从而解决问题。但演化计算的研究者们往往认为这种理念背后隐含了一个假设,即世界是静态的。然而,在一个动态且充满不确定性的世界中,我们如何能保证收集到的数据是全面和准确的呢?
演化计算的研究者们更多关注于如何处理这种不确定性和动态性。他们认为,定义问题时本身就存在固有的不确定性,这不仅仅是环境的不确定性。打一个不恰当的例子,在机器学习中,许多研究者花费大量精力在设计损失函数上,一旦损失函数确定,数学家们就会寻找最优的解决方案。但问题是,一旦损失函数确定,它就不能在机器学习过程中改变。然而,在现实生活中,许多问题的目标是难以形式化的,而且损失函数在实际学习过程中往往是会变化的。
因此,演化计算的研究者们一直在思考如何应对这些不确定性和动态性,这可能是一个有趣的研究课题。大家猜测,生物进化过程中大脑分区的出现,可能就是为了应对时间上的不确定性和动态性,例如快速反应和慢速反应的区分。当然,这些目前还没有定论。
夏志宏:
我们从小就对机器人充满了好奇,那时计算机还没有智能,我们看到机器狗或机器猫能够走路就感到非常激动。现在,机器人走路的技术已经相当成熟,但我想问的是,为什么我们现在能够让机器人走路走得很好,却难以让它们的手像人类的手那样灵活运作呢?
姚新:
如果我们去伦敦的科学博物馆,会发现一张图,它展示了人脑中各个器官,特别是运动器官如手和脚的映射区域。在这张图中,手部在脑区中占据了一个巨大的区域。从神经元的数量和脑区面积来看,控制手的部分显然需要更多的脑部资源,这是一个观察到的现象。至于为什么手的控制会如此复杂,可能需要生物学家提供更多的解释。
我读过的资料表明,手的控制不仅需要更多的自由度,而且手的控制能力与语言能力的发展确实存在相关性。目前尚不清楚这两者之间是否存在因果关系,但相关性是确实存在的。这种相关性背后的原因可能是模型研究者需要进一步探究的课题。
如果这是真的,那么我们可以推断,控制脚的任务在某种程度上比控制手要简单,至少从脑区活动的角度来看是这样。这也许能解释为什么目前控制脚部的机器人技术相对容易一些,而控制手部则更具挑战性。
以前我和一位机器人研究者闲聊时,我开玩笑说,如果你想一举成名,就做一个能控制筷子夹取花生的机械手。我说,如果你能做到这一点,你一定会登上头版头条,因为用机械手控制筷子夹取花生涉及到视觉、推理、触觉等多种感觉的整合,这是一个巨大的挑战。如果你能将这些控制整合到一个系统中,那将是一项了不起的成就。
王煜:
姚老师提到的使用筷子夹花生的例子,是一个非常典范的机器人操作任务。夏老师的问题实际上触及了机械工程专业的核心问题,即如何控制一个具有动力学特性的机械系统,使其达到预期表现。在机器人领域,主要的功能分为移动和操作两大类。移动功能的发展相对迅速,而操作功能的进展则相对缓慢。
从本质上讲,移动涉及到的是机器人系统本身状态的改变,例如位置、速度和加速度,而不直接改变其环境。尽管机器人在与环境的交互中可能会遇到不确定性和干扰,如地面的不平整或冰面,但其主要任务是控制自身的稳定性。而操作则完全不同,它要求机器人通过与环境的互动,特别是使用工具,如筷子,来改变环境中的物体状态,例如夹起花生或拧紧螺丝。这涉及到机器人、工具和目标物体三者之间的复杂互动。
对于移动机器人而言,目标函数通常很明确:保持机器人的重心稳定,控制其姿态,以及达到预定的位置和加速度。所有这些目标都可以被量化和描述,从而确保机器人不会摔倒或偏离路径。强化学习作为一种强大的工具,能够处理这些问题,而底层的模型预测控制则为机器人提供了精确的动作执行。在硬件方面,传感器和执行器的发展也取得了显著进步,使得机器人能够以每秒千赫甚至万赫的速度接收和处理反馈信息。这些技术的应用使得机器人能够执行复杂的动作,如翻跟头或跳跃,而不会失去平衡。
然而,在机器人操作领域,尤其是涉及与环境互动的任务时,问题就变得更加复杂。硬件的发展相对滞后,而且最棘手的挑战在于如何定义一个合适的目标函数来处理环境的不确定性和干扰。例如,对于一个机器人来说,要把扣子扣上的任务看似简单,但在学习过程中,机器人很难从连续的尝试和错误中学习到有效的反馈,因为在整个过程中,除非扣子完全扣上,否则机器人获得的反馈始终是失败的,这使得学习过程变得非常漫长和艰难。因此,如何设计一个能够有效指导机器人学习复杂操作技能的目标函数,是当前机器人研究者面临的一个重大挑战。
除了强化学习,还有模仿学习、遥控学习,甚至有些研究者提出了“想象学习”,通过想象来学习完成任务。如果能够开发出有效的学习方法,相信机器人的操作能力将能够与移动能力同步发展,这正是人工智能领域的专家应该关注的问题。
孙若愚:
Yann LeCun
(杨立昆)
说,比起强化学习他更喜欢模型预测控制,认为强化学习在学习新任务时需要大量尝试、效率较低,而模型预测控制则提供了更高效的解决方案。
我最近思考的一个问题是手的操作,抓取任务的复杂性令人惊讶。尽管有很多关于抓取的研究,但这个问题仍未完全解决。抓取的困难在于要处理的物体形状、材质和力度控制的多样性,即使是机器人手的设计也存在多种形态,这使得抓取任务的泛化能力成为一个关键挑战。人类在生活中并未见过所有要抓取的物体,但看到新的物体都可以抓。这个泛化能力是从哪里来的?泛化是机器学习最困难的问题之一,因为实话讲,我们也不完全清楚大模型的泛化能力是从哪里来的。
机器学习大佬Sanjeev Arora去年提出一个“skill mix”的概念,强调大模型具备学习技能和组合技能的能力,在抓取任务中怎么学习技能的组合还不清楚,但我们仍然对底层机制了解不够。结合数据与模型预测控制的方法,或许能为未来的研究提供更高效的解决方案。
夏志宏:
在机器学习领域,我们把所有我们知道的文字信息都放入计算机中,让机器通过概率论来学习。比如,我们在ChatGPT中输入一句话后,它会计算接下来最可能的语句。但是,这个概率的概念与人类智能,特别是创新和灵感的产生,似乎是相反的。我们通常认为一个人有创造力是因为他做了一些小概率的事情,比如,爱因斯坦提出的相对论在他那个时代就是一个小概率事件。因此,我们经常讨论智能,如何找到那些小概率但具有重大影响的事情。
到目前为止,我们看到的机器学习都是关于大概率事件的,这些是大多数人都能想到的事情,只是我们的容量没有那么大而已。我想知道,三位对这个有什么看法?我们如何让机器学习能够挖掘出这种灵感,找到那些大家都想不到的事情?
姚新:
在之前的讨论中,我们几位同事曾经聊到,现在的机器学习在某种程度上类似于数学中的归纳法。通过观察大量数据,我们可以归纳出一些规律,但这些规律并不是真正的证明,它们可能正确也可能错误。因此,机器学习的目的并不是为了回答那些需要创造性思维的问题,而是基于它所见过的海量数据,预测未来可能遇到的情况与之前数据的概率关系。