正文
近几年来在 AI 领域,就有很多学者从工业界回到了学术界,或者从学术界进入工业界。您的观察是怎样
的?
刘国瑞:
现在的情况已
经很不一样了。以前最前沿的研究很多都是在学校做的,
因为那时候主要是理论驱动,大学里老师和学生把理论模型建立好,工业界拿去把它实现应用,就是这么个模式。这种情况一直到深度学习(
Deep Learning
)时代之前基本如此。
但当深度学习和大数据时代到来后,情况变了。因为需要极大的计算资源和海量的数据。这些东西只有大的工业界公司才拿得出来:只有实力雄厚的大公司才买得起那么多 GPU 算力,也只有它们的产品在全球铺开后才能收集到真实的大数据。
学校呢,既没那么多经费买算力,也缺少大规模的真实数据,这就导致大多在做一些“玩具”式的研究,这在近年来大模型的发展上体现得尤为明显。
唐小引:
您
提到了两个关键点——算力与数据。
我们面临着最新的情况,大模型预训练数据几乎已被充分利用,这会导致模型的扩展发展放缓,
“真实的数据”越来越少,合成数据由此兴起。
当然,哪怕在大公司里也有商业 KPI 等各方面压力。所以您看,现在工业界其实也并非什么“象牙塔”。在您看来,这种情况下科研模式会有什么变化?
刘国瑞:
我跟你讲一个我自己的体会。我这次选择离开学校,全职投入新公司(
Origin Wireless
),有很大的原因就是:在学校里做科研,有天花板,而在公司里,环境不一样,反而可能走得更远。首先是责任和承诺的问题——我的投资人把钱投给我,我的团队里那么多人放弃原来的工作追随我,我们有一个共同的梦想——想去改变世界,让这个世界变得更美好。我对他们有一个 Promise(
承诺
)。为此我离开学校,放弃了原本优渥的教授薪水,到公司拿远低于以前的报酬。这对我来说是一个牺牲,但我愿意,因为我要兑现我的承诺,对我来说是一个重大的决定。
还有一个原因,就像你说的,我这个研究项目本质上是 AI。为什么我要成立公司来做?因为如果我在学校里做“无线感知 AI”这件事,往往只是些“玩具”,无法真正落地。我需要一个工程团队写代码,把它跑在现实世界里,才能收集真实的数据。当我们有了真数据,而且从世界各地收集各种不同环境下的真数据,我才能不断有新的发现和突破。事实也是如此——我们因为有了真实产品去收集大数据,才做出了别人做不到的成果。
所以我想说的是,为什么现在很多研究只能在工业界做,就是这个道理。我在学校里的许多同事、教授,他们根本没办法开展我这样的项目——学校不具备那个环境和资源。
唐小引:
您刚才将学校里的研究称为“玩具”,而工业界的是“真实数据、真实产品”。可否进一步细化一下,您认为“真实”的维度包括哪些要素呢?
刘国瑞:
其实也不用划分什么维度。以前搞研究主要是做理论模型,这方面大学老师和学生最擅长,建立模型推导公式都很厉害。不过现在的思维模式完全不同了,因为有了深度学习。Deep Learning 的强大之处在于它能够从数据中“学习”。所以深度学习需要的是什么?就是数据,而且是越多、越大、越多样越好。算法本身并不挑剔你的数据是什么,只要数据够多、覆盖够广,就能学出来。哪怕数据质量良莠不齐,只要它是真实产生的,算法都可以从中提取规律——关键在于数据必须是真实发生的,而不是你凭空捏造的,否则没有用。
唐小引:
但是现在国内外都在兴
起用合成数据(
Synthetic Data
)来弥补真实数据不足。例如利用模型造数据,以扩充训练集。对此您
怎么看?
NVIDIA 创始人
黄仁勋
先生前不久也特别提到了合成数据的重要性。
刘国瑞:我猜黄先生自己未必真正了解合成数据是什么
,他毕竟是做硬件起家的。合成数据、数据增强(
Data Augmentation
)这些技术,说白了都是没办法中的办法。什
么意思呢?我们团队自己也会用一些这样的手段。比如采集无线信号数据时,频宽(
Band Width
)或设备有限,不可能面面俱到。那该怎么办?我们会用多个不同的天线组合去采集,把原有的数据做一些“排列组合”,让模型以为有更多样的环境。同样地,我们会对已有数据做一些时间上的移位,仿佛在不同时间发生过类似的事件。通过人为引入这些变化,好像扩充了数据集——因为本来也有可能发生这样的情况,只是你没刚好收集到,于是你模拟一些出来。这样做确实可能提升模型泛化,因为你让系统以为“这种情况也出现过”。但问题在于,这些合成的情形毕竟没有真正发生过。
你用合成方法,无非是基于已经见过的情况做些随机变换、组合作用。如果有某种情况是你完全没见过的,是合成不出来的,对不对?所以
合成数据能起到一定作用,但不是无穷无尽的作用,只能有限地带来一些改善。
唐小引:
您刚才分享了您的求学和职业选择,可以看到随着年岁增长,在后来的重要关头都很清楚自己要什么,比如最终选择全职创业。而读您的书,我也发现早期有些时候您其实是未知、迷茫状态,但依然做出了选择。所以我不禁想问一个有趣的问题:
如果让您的人生重来一次,对于那些当年并不确定的时刻,现在回头来看已经明了了,您会怎么选择呢?
刘国瑞:
好,我来回答这个假设的问题。首先,我们没法选择自己的父母,人生的起点很大程度上是机遇。我能来到这个世上,与你在这里对话,其实都是数千万分之一的巧合。人的诞生本身就是偶然。所以父母无法选择,人生一开始的大方向往往也不由我们决定。
虽然我们不能决定自己的出身和童年环境,但
我们在人生道路上可以做一件事:当道路往前发展时,每当出现分岔点,我们可以做出选择。
人生一路走来会遇到各种分岔:你决定学医还是学理工?决定出国留学还是留在家乡?一次次的选择塑造了你的道路。人生整体也许无法由你设计,但每当来到分岔口,你可以决定转向哪一边。一旦做了决定,就沿着新的方向继续走下去。就像结婚一样,当你决定了要和某人步入婚姻,就很难再走回头路了。所以关键问题是:
在分岔点上,你如何做决定?我的做法是始终秉持自己的初心。
整本书里你也看到,我这一辈子追求的并不是名和利,我追求的是真理,我立志做一名科学家、工程师,所以我一辈子就沿着这个初心一直走下去了。
你问如果人生重来我会如何选择,其实我也不知道具体会选哪条路,因为人生充满了不确定性。但无论面对什么选择,我都会问自己:
我的初心是什么?我想追求什么?我想成为怎样的人?
以这个为基准来做决定。我想只要初心不变,走哪条路都会殊途同归。
唐小引:
是的。这让我想到一个细节:其实您也是在实践中逐渐发现了自己的兴趣和追求。比如您在台大念书时,因为李老师(
当时唯一一位旅美之后回台任教的年轻老师
)的课程,您喜欢上了通信与信息信号处理。当时如果换一个老师、教另一个课程,也许您的兴趣方向就变了,对吗?
刘国瑞:
没错。所以冥冥之中自有定数。每个人的人生轨迹可能早就暗合着某种安排。我打个比方,从物理定律来看,宇宙大爆炸(
Big Bang
)之后,其实所有事情在宏观上都是确定性(
Deterministic
)的。当然,中间夹杂着一些随机性(
Randomness
),但很多关键节点上,会觉得像是注定一般。为什么恰好碰到那个老师?为什么世界上有你这样独一无二的个人存在?这些概率极其渺小,却发生了。
唐小引:
您整个职业生涯确实有一条清晰的主线,一直专注在通信领域并有所建树。我在技术圈遇到很多人可能是学通信、数学、物理等出身,但后来转到计算机、人工智能领域发展。而您始终扎根在通信和信号处理。
当初有没有纠结过要不要改行?比如在计算机科学大热的年代,您有没有考虑过去攻读或从事计算机领域?
刘国瑞:
哈哈,我告诉你,在我们那个时代,计算机科学(
Computer Science
)基本上就是教人写程序、搞编程。当时流行的语言像 Fortran、Pascal,当时 C 语言才刚出来没多久。计算机科学那时候主要研究操作系统这些,老实说非常枯燥。我当年觉得那很无趣。反观电机工程(
Electrical Engineering
)则是
一个包罗万象的大领域,计算机科学与工程、控制、物理与光电、激光(
雷射
)等等都囊括其中。如果你学计算机科学,在当时其实是钻进一个很小的专门化领域去了。
而我选择的通信,确切说是
信号处理,恰恰是如今很多 AI 技术最根本的基础
。可以说,现代 AI 许多最基础的算法理论都是从信号处理演变而来的。信号处理发展出了机器学习、
神经网络等等。
现在像 Hinton(