专栏名称: 深网腾讯新闻
《深网》是一档原创深度报道栏目,挖掘TMT领域热门公司、事件和人物中的隐秘故事,探究背后的深层逻辑。
目录
相关文章推荐
新华社  ·  全球品牌,如何赢在中国? ·  昨天  
人民日报  ·  今天,爸爸没来送考 ·  昨天  
观察者网  ·  韦东奕抖音账号粉丝超过600万 ·  2 天前  
51好读  ›  专栏  ›  深网腾讯新闻

专访智源研究院院长王仲远:AI泡沫论是相对的 | AI光年

深网腾讯新闻  · 公众号  · 社会  · 2024-11-06 10:18

主要观点总结

本文是对智源研究院院长王仲远的访谈,主要讨论了人工智能的发展,包括大模型技术、AI安全以及未来AGI的到来等话题。

关键观点总结

关键观点1: 关于人工智能的发展

王仲远认为人工智能的发展已经进入到了一个新的阶段,特别是在大模型方面,已经取得了一些突破性的进展。他提到了技术的发展路线选择,以及对于未来技术发展的预测和期待。

关键观点2: 关于AI安全

王仲远强调了AI安全的重要性,并提到了智源研究院在AI安全方面的一些工作和思考。他表示人工智能技术在不断进步的同时,也需要关注其安全性,确保人工智能技术的发展能够为人类服务而不是管控人类。

关键观点3: 关于AGI的到来

王仲远认为这一代人有可能会见证AGI的诞生,下一代人可能会与AGI共存。他谈到了AGI可能会带来的影响,以及AI和人类未来的关系。

关键观点4: 关于投资和技术商业化

王仲远给出了一些关于投资大模型技术或文生视频模型等的建议,包括关注技术战略型投资,以及从投资到实现商业化所需的时间跨度等问题。

关键观点5: 关于AI泡沫论

王仲远认为任何技术的讨论都可能有争论和泡沫,关键在于技术的突破和商业模式是否能够支撑市场期望。他认为人工智能技术的发展本身不是泡沫,而是真正的技术革命。


正文

请到「今天看啥」查看全文


《AI光年》:2024诺贝尔物理学奖获得者、“AI教父”Geoffrey Hinton(杰弗里·辛顿)教授认为,在AI领域,生物智能最终战胜了机器智能,您怎么看?

王仲远: 今年 3 月智源研究院举办的北京 AI 安全国际对话上,辛顿教授分享,他终于想明白了为什么 数字智能一定会超越生物智能 。人类大脑的神经网络不能直接复制给另外一个人,每个人学习所形成的神经网络都是独一无二的。不能把一个高智商的人的参数复制给另外一个人,使其具备同样的智能,但机器可以复制。

如果不考虑能耗的情况之下,机器智能有它独特的优势。当我们训练出一个非常强大的人工智能神经网络,它存在数字世界里,可以非常容易复制,每一个模型可以继续训练变得更优秀。只要模型的性能还能够持续提升,复制效率和学习效率比人类高得多。人类的学习效率其实非常低,我们只能读几千本、几万本书,但是机器可以把人类历史上的所有的书籍都阅读完。未来当人工智能写的书籍比人类书籍质量还高时,这种合成的数据就可能反哺智能进一步的提升。

《AI光年》:OpenAI的草莓目前好像部分地解决了大模型的幻觉问题,你怎么看?

王仲远: 幻觉是阻碍大模型产业化落地的一个问题。这个问题不会被消除,但是会被不断地改进,直到控制在一定的范围内。

事实上,难道人类就没有“幻觉”问题吗,就能确保说的每句话都是正确的吗?关键还是幻觉比例的问题,以及是否知道可能出现幻觉。产业界当前通过信息检索增强的方案来作为解决幻觉问题的解法之一,智源研究院所研发的 BGE 模型,它是一种检索增强的模型,近期登顶了全球AI开源社区Hugging Face月度模型下载量榜首,成为了在信息检索增强方向非常重要的模型。当大模型需要回答法律、医疗或者产品的问题,必须有根有据。通过基于知识库的文档检索增强,增强模型回答的准确性,所以这是一个非常重要的基础模型。

Open AI的草莓模拟的是人脑的思考过程,会反思,纠正自己的错误,直到找到一个可能的答案。这样的双系统(快系统和慢系统)未来会逐渐成为主流。检索系统也是一种路径。正常回答问题时,如果知道这个答案就直接回答,不知道可能就会去搜索、查资料再来回答这个问题,搜索和查资料就是检索增强。

《AI光年》:ChatGPT 被认为是大脑的模拟器,Sora被称为物理世界的模拟器。多模态会不会是未来的趋势?

王仲远: 人工智能的研究都会参考人脑的工作机制。人脑虽然有不同的分区,但它是一个整体的结构。人脑不仅仅处理文字信息,还处理很多模态的信息,声音、图像乃至更复杂、更多元的信号。所以我们相信,统一原生的多模态大模型一定是未来的技术发展路径。

当前多模态技术仍然没有收敛,行业在做多模态的理解与生成所使用的技术路线是完全不一样的。智源研究院在研究一套能够将二者统一的原生多模态世界模型的技术路线。行业现在多模态生成模型基本上走的是 Diffusion Transformer 这样的 DiT 基础路线,理解模型通常都是以语言模型为核心,再把视觉信号、其他信号映射到语言模型这样的一条技术路线。这种图像生成和视频生成的效果确实非常惊艳。

但是两者需要合为一吗?不同的科学家有不同的观点。不过,我们相信,多模态生成模型和多模态理解模型是要统一的。因为人的大脑是有视频生成能力的,我们每一天都在做梦,大脑每一天都在产生各种各样的画面和场景。这种生成能力也很可能会成为校准理解能力的信号,从而进一步提升理解能力。最后的世界模型是更接近人脑的,不仅要理解、推理世界,还要能跟这个世界交互。

《AI光年》:你刚才谈到了两种技术路线,这两种技术路线有没有难易之说?

王仲远: 不是这两种技术路线的难易,而是我们要走一条全新的技术路线,叫原生多模态世界模型的技术路线,国内没有几个团队在尝试这条技术路线,因为它确实非常难。

智源研究院在过去半年的时间里攻克了一个又一个的基础难关,直到今天依然不能说完全攻克,但终于将不同的模态,将生成和理解的能力压缩在了一起。希望做到World in one,One for world。这是我们一个技术路径的选择。这个路径的选择,从创业的维度来讲,有可能会失败。没有失败的科研就不是真正的创新。失败也是创新的形式之一,是必经路径。但永远要有信念,技术理想。

10月21日,智源研究院基于下一个token预测,发布了原生多模态世界模型Emu3,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。下一个token预测为构建多模态AGI提供了一条前景广阔的道路。


国内文生视频领域没有跳脱旧模式

《AI光年》:今年国内的文生视频领域比较卷,你怎么看待这种现象?

王仲远: 世界模型和文生视频模型是两码事。当前的 DiT 架构能否走到世界模型,从技术路径判断上是有争议的,因为它的天花板是有限的。Autoregressive 的技术路线天花板高很多。过去的这段时间,文生视频模型国内发布的越来越多,有点像去年大语言模型,因为已经有一个机构验证了这条技术路径。国内很多企业去跟进,这种跟进也有价值和意义。但国内所发布的文生视频模型并没有跳脱旧模式,依然是技术跟随。

《AI光年》:这么卷有没有意义?

王仲远: 短视频赛道在过去几年非常火,文生视频一定找得到它的业务产品和商业模式。当这条技术路径效果非常好的时候,值得去做,因为有商业需求,但是它并不一定是达到 AGI 的技术路线。从实现AGI的角度,当前文生视频的技术路线不一定是完美的技术路线。

《AI光年》:去年卷大模型,今年卷文生视频,一级市场一直有声音,现在出来了AI 泡沫论,你怎么看?

王仲远:







请到「今天看啥」查看全文