AI圈的科学家、二手科学家、伪科学家和吃瓜群众们,应该没人没看过《人工智能简史》吧?尼克老师的这本大作,把纷乱的AI发展史,用扎实的科技脉络和有趣的八卦故事串联起来,让内行有所得,外行有料看。(甭担心,本文不带货。)
近来,听说怹又出了集科技洞察与八卦灵魂于一体的新作——《理解图灵》,为了要个签名,我找到了尼克老师。哪知道一聊,才有醍醐灌顶的收获!原来,OpenAI在AI上的勇猛精进,并非只是“大力出奇迹”,而是有根本的第一性原理做支撑!
为了记录所得,我跟科技文艺两门抱的@东东枪 老师一起,拉尼克做了次深谈,放在了小宇宙播客“科技修道院”中,链接在下面(也可到B站@科技修道院 或@北冥乘海生 收看视频)。
既然是聊第一性原理,那就不是爬多少数据、堆多少算力这样的工程问题,而是从根本上探讨AI模型的学习过程,捷径在哪里。为此,尼克老师先问了一个看似大而无当,实则提纲挈领的问题:学习的定义是什么?
听到这个问题时,我一头雾水,确实没想过这事,当然,想了肯定也想不明白!
其实,AI这门学问的开山鼻祖,香农门下的一绝顶下两豪杰之一——麦卡锡,早在提出AI概念的达特茅斯会议前后,就已经想清了这个问题,并且给出了一个严谨的定义:学习,是图灵机的逆。
考虑到可能有人对图灵机的概念未必熟悉,咱们不打算展开说,上面的还可以改成另一种更通俗的表达:学习,是计算的逆。
乍一听很费解是吧?我也是。可是在听完尼克老师耐心的讲解以后,我一下载茅塞顿开!这里的“学习”,并不单指“机器学习”,就算是我们人类的学习,也可以被这个定义统摄起来!
拿小学生学算术来说吧,什么是计算?就是根据自己弄熟了的运算规则,把一个式子的得数搞出来,这个过程,其实用图灵机也能实现;那么学习呢?就是不断做题目,对答案,最后把运算规则烂熟于胸的过程。一个是根据规则得结果,一个是不断对结果得规则,前者就是计算,而后者就是学习!这个定义,实在是太妙了!
知道这个定义有啥用呢?没什么直接用处,不过它给后续跟学习相关得远离工作,准备了一个坚实的零公里出发点。接下来的故事,就跟OpenAI的工程突破大有关系了。
有了“学习是图灵机的逆”这个数学定义,计算机科学家们开始向前探索。而重要的结论,诞生于60年代。同为达特茅斯七侠之一的所罗门诺夫,一顿操作猛如虎,得出了一个重要而又不太为人所知的结论:学习,等价于“next token prediction”,也就是“猜猜下一个”。这事儿,还有个更有文化的名字——所罗门诺夫归纳法。
听到这儿,您是不是狠狠拍了下大腿?原来,小学数学兴趣班上那些“看数找规律,写出下一个”的烧脑题目,真的是学习路上的法门啊!那咱也别抱怨了,接着刷吧!
至于“next token prediction”这个词儿本身,更是让人觉得似曾相识——没错,OpenAI的黑话里用到的“token”,其实就是在用典,也就是说,从学习是图灵机的逆,到所罗门诺夫归纳法,这一系列第一性原理的秘籍,早就为OpenAI的工程师所谙熟于心,在他们的研究过程中起到了定海神针的作用。
您说这是瞎编?还真不是!大家有兴趣的话,可以去找找去年从OpenAI出来的首席科学家Ilya在伯克利的讲座,人家自己把这些讲得明明白白。
可是,这跟超车谷歌有什么关系呢?熟悉大模型的朋友应该了解,谷歌用的BERT,是从一串词里抠掉一个,从两个方向来预测的“完形填空”模型。这比起所罗门诺夫说的“猜猜下一个”,这又有什么劣势呢?
尼克老师说,有了所罗门诺夫的指导,就会知道,双向的“完形填空”式建模,其实是脱了裤子放屁,它消耗的算力,要比“猜猜下一个”高得多。因此,不是说BERT做不出GPT的效果,而是说在同样的算力下,两者的效果差距会很明显。据说,有好事者算了一卦,说是如果按照现在的算力增长速度来看,如果坚持BERT路线,那大约在十年以后,他也会赶上现有的GPT水准。
说实在的,这些看似掉书袋的重要原理,在AI圈子里几乎是无人问津,更谈不到相信和运用。当然,还是有一个关心的,那就是Ilya,我相信是这样的第一性原理,给了他在追赶谷歌的路上遥遥挂在前方的一盏明灯,也引导他的团队最终超车。这个故事,确确实实闪耀着第一性原理的伟大光辉。
当然,上面只是我漏洞百出的抛砖引玉,而尼克老师的讲解,比这个要更有趣,也更有高度。说完这些,他还提出了一个令人深省的观点:人工智能的可解释性是不可能的!人类要追求比自己强大的认知能力,就一定是自己无法直观理解的。听到这里,我们对人类的命运、技术的前途,陷入了深深的沉思......
破车别碍好道,大家还是扫码关注,自行收听吧!顺便说一句,尼克老师还给我们挖了个坑,说要聊聊全球第一个程序员的爱情故事,他说要把这个故事改成剧本,肯定比《奥本海默》精彩得多!