专栏名称: 知识分子
《知识分子》是由饶毅、鲁白、谢宇三位学者创办的移动新媒体平台,致力于关注科学、人文、思想。我们将兼容并包,时刻为渴望知识、独立思考的人努力,共享人类知识、共析现代思想、共建智趣中国。欢迎关注。
目录
相关文章推荐
51好读  ›  专栏  ›  知识分子

2025展望:我们到底处在AI发展的哪个历史节点上?

知识分子  · 公众号  · 科学  · 2025-01-20 19:59

主要观点总结

本文梳理了关于AI技术的多个方面的进展和趋势,包括通用人工智能的路径、不同领域的进展、底层逻辑以及产业影响等。文章展望了AI的未来,并讨论了AI从业人员和公众可以期待的变革。

关键观点总结

关键观点1: 文章概述了AI技术的快速发展和其对社会的深远影响。

本文介绍了当前AI的发展状况,展望了未来几年的AI趋势。

关键观点2: AI在多个领域取得显著进展。

包括自然语言处理、图像生成、智能体(Agents)、编程助手、具身智能等领域都取得了重要突破。

关键观点3: AI的底层逻辑正在发生变化。

文章讨论了Scaling law的发展,以及Transformer架构和生成模型在AI中的重要作用。

关键观点4: AI产业正在进入百花齐放阶段。

随着技术的进步,AI正在渗透到各个领域,包括硬件、教育、医疗和数字仿真等。


正文

请到「今天看啥」查看全文


第四条路径是数字生命。


通过算法实现从微观尺度到宏观尺度生命过程机理的仿真,就可以直接解锁智能的奥秘,从而能创造出真正的超级智能。目前这个方向还在萌芽阶段。


02

2024的4个关键进展


让我们先回望 2024, 从年初的 Sora开始,几乎每个月都有AI热点新闻出现,长文本、多模态、具身智能、编程助手、思维推理、Agentic System、大模型训练优化等,让人目不暇接。 相比2023年AI进展集中在大语言模型上,2024年可谓是百花齐放,无论是深度和广度都出现了飞跃。 显然,即使没有GPT-5的发布,这仍然是AI技术大爆发的一年。 而在这么多进展里,有四项进展值得重点关注。


2.1 视频生成


Sora的出现意义重大,是视频生成领域的一个重要转折点。在Sora之前,行业对视频生成已多有研究,但只停留在学术研究层面,效果差强人意,没法达到商业化服务的水准。Sora展示了利用DiT可扩展架构的有效性,吸引了全球同行们快速跟进,推动视频生成从学术研究到工业级应用的重大跨越,国内也出现了可灵、海螺、通义万相、混元、豆包等优秀的视频生成模型。


视频生成模型的突破意义不仅在于推动内容生产方式的变革,也在于展现了可扩展架构的生成模型在视觉方向的巨大潜力。自然语言数据是人类知识以文字形式的数字化记录,所以自然语言大模型是知识的压缩,可以通过大语言模型来逼近从而超越人类的智能。同样,图像/视频是对环境和物体的数字化,也包含知识本身的展现。例如,球体的下落是物理规律的呈现、投篮是人类操作技能的展现等。所以不仅仅大语言模型,视频大模型也是通往AGI的重要组成要素。随着图像/视频基础模型的性能提升,特别是SOTA级别开源模型的丰富,常见视觉任务大都会围绕生成式基础模型重新构建,大一统的视觉任务架构也会出现。另外,传统视觉相关的仿真也逐步会和视频生成模型深入融合,从而重塑新一代的仿真链路,例如世界模型可以看做是其中一个方向。而基于仿真和模拟的技术方向,例如机器人,也会因为视频生成模型的成熟发展速度大大加快。在一些垂直领域,例如医疗和微观组织研究等,数据缺乏的问题也会因为视频生成模型找到新的解决途径,从而加快相关领域的突破。


视频生成技术的快速迭代促进各类内容工具的涌现,例如达摩院推出寻光AI视频创作平台,用AI重塑视频工作流,释放行业创造力。


2.2 智能体(Agent)和系统


在2023年AutoGPT出现时,行业从业者就意识到基于大模型构建Agent应用的巨大潜力。进入2024年,Agent相关的落地应用初步展现,如Anthropic发布了Computer use让AI可以控制电脑操作,智谱发布了AutoGLM来重塑手机应用的使用方式。“一句话下单2000杯咖啡”,依托思维推理和自我改进机制,Agent得以执行实现类似的自动化任务。为此,Anthropic发布了MCP协议 (Model Context Protocol) ,方便大模型连接数据和应用等局部和在线资源,从而可以构建起以大模型为核心、Agent为应用的生态系统,人工智能操作系统的雏形也已经显现。阿里巴巴通义大模型也在此深耕,通义完整的基础模型系列、一站式大模型服务平台百炼、模型开源平台ModelScope和互连协议等构成新一代人工智能系统架构的基础设施。


Agent的重要性在于,它依托基础模型和软硬件互联协议,会给人机交互方式和系统架构带来根本性的变革。历史上每一次人机交互的变化都带来了系统级的变革,就像键盘鼠标之于PC互联网、手机触屏之于移动互联网。


目前我们的系统设计还是基于鼠标点击或者手指触控交互的嵌套式图形界面系统。这一次AI的突破带来语言/语音/视觉等多模态信息为交互媒介的人机交互变革。Agent不仅会大大丰富系统和应用的广度,也将会在多模态交互逻辑下大大缩短应用使用的链路和构造逻辑,从而引发系统在AI时代的重构。这将是个人电脑和智能手机视窗系统诞生以来最大的一次实质性变革。传统操作系统将在人工智能操作系统的牵引下和AI深度融合,从而诞生在AI时代更加扁平、更加连接开放、更加自动化的新型操作系统和应用范式。


2.3 编程助手


从人机交互的角度去看,AI大模型带来了基于语言输入的全新交互方式。例如,可以通过语言提示输入到大模型,调用大模型的功能来得到结果,包括回答语言相关的问题、生成代码、生成网站、生成图像视频等。


语言不仅仅是人类日常交流的媒介,也成了大模型时代的编程语言本身,这对于软件来说是个突破性的进步。从机器语言、汇编语言、C/C++、Java、Python等到现在自然语言,计算机语言经历着由繁到简的发展过程。但是在大模型以前,计算机编程都是需要专业学习、长期练习才能掌握。自从自然语言成为计算机编程语言本身,软件从专业技能就变成了大众化的工具,人人都可以成为高级程序员,这对于使用软件是巨大的飞跃。人类利用软件工具来提升社会生产力和效率从来都没有像今天这么便捷。所以基于大语言模型的编程助手的价值显著,将成为大模型时代不可或缺的基础工具。


过去一年编程助手发展迅速,国外像Github Copilot、Cursor、Windsurf、Bolt,国内如阿里巴巴的通义灵码以及字节的豆包MarsCode等相继涌现。可以预料编程助手在新的一年里将会取得实质性进展,并成为最快成功商业化的AI产品之一。


2.4 具身智能


我们可以粗略将研究机器人智能的AI技术称之为具身智能。多模态大模型可以视为是机器人的知识技能,具身智能大模型 (目前还没有共识的范围定义) 可以看作是机器人的操作和移动技能。


AI驱动的机器人是物理智能体,既可以决定人类利用工具的生产力水平,又可以直接决定社会生产效率和国民生产总值,所以至关重要。特别是人形机器人,可以看作是人的物理化,他可以超越工具属性本身,作为人类社会智能体的一员发挥作用,所以人形机器人可以拓展社会的运作模式和维度。


在具身算法上,谷歌、UC Berkeley、清华、字节等机构都发表了不同架构的具身智能大模型,初步验证了Scaling law在机器人方向上的有效性。并为其引入多模态融合等新维度,让业界看到了机器人技术突破的希望。仿真上,英伟达正在推动机器人仿真系统的工业化落地应用,开源仿真系统也在快速迭代,为机器人的仿真和批量数据生产打下基础。数据上,行业内的数据生产标准和基础设施也在发展中,智元开源的真机数据集也已经达到百万级别的体量。计算芯片上,英伟达也会在2025年量产针对人形机器人的端侧芯片和开发板,使AI在机器人的端侧开发更加便利和高效。硬件上,特斯拉正在推动人形机器人的量产,这将促使机器人本体供应链走向成熟,从而也会使硬件本体成本大幅下降。所以综合这几个维度来看,具身智能已站在新一轮爆发周期的起点上。但是机器人商业化的路径存在较大不确定性,和机器人形态以及对应的技术成熟度都有直接关系。


除了作为工具属性,智能机器人以下特点值得突出:


一是数据采集端口。数据是模型的基础,机器人将会是增量数据采集的端口。谁有消费级机器人数据,谁有条件做出最好的AI。







请到「今天看啥」查看全文


推荐文章
苏米的星座馆  ·  第一眼看过去,这五位姑娘你选谁?
8 年前