正文
断非如此。
我来举个例子。比如,CVPR是(IEEE)计算机视觉领域的“学术奥斯卡”,在2024年收到的论文投稿量为11875篇,最终只录用了2719篇,论文接收率仅为23%;并且,2024年CVPR官方认证的杰出/优秀论文总共只有10篇,是年投稿量的1‰。可见,创新研究很难,有大价值的创新更是难上加难,怎么可能是一通百通呢?
再谈谈梁文锋的经验。
梁文锋在接受暗涌Wave主笔于丽丽的专访时说,2012年伊尔亚(Ilya)提出AlexNet,使沉寂多年的人工智能技术研究重新苏醒,而幻方从2014年就开始同步跟踪,准备将AI应用到量化交易中。
他们的思想准备很早,行动也很早。
(图源:pixabay)
更重要的是,按于丽丽在文中的描述,梁文锋总是一个“每天看论文,写代码,参与小组讨论”、“兼具强大的infra工程构架能力和模型研究能力、既可从高处做精准判断,又可在细节上强过一线研究员、拥有令人恐怖的学习能力、能调动资源、完全不像一般意义上的老板”。
梁文锋说,“外部(外人)看到的是幻方2015年后(光彩绚丽)的部分,但其实我们做了16年(从2008年开始)。
我们经历了一个漫长的积累过程(不都是坦途)。
幻方有很强的技术和创新基因,幻方的成功在某种程度上增强了我们对技术驱动型(大)创新的信心。”
我听朋友说过,幻方的团队早期也经历过毕业就创业、创业创业没钱了;没钱了就解散、后来有点钱了,再聚在一起再创业的过程。没有笃定、没有爱和痴迷,是不可能这么做的。
当然,DeepSeek的成功,一定是这个聪明团队整体的成功。
但梁文锋作为领军统帅,有16年漫长的积累过程,在长期处理复杂问题、长期学习实践中沉淀出的经验,包括组织高密度人才实现有效创新的经验,才是DeepSeek可以组队不到2年、就拿到大结果的第一原因。
在DeepSeek_V2, _V3, _R1, 和Janus Pro等公开的论文中,我看到了几处
金融量化模型常见的处理手法
。
(图源:pixabay)
比如,DeepSeek_V2创新提出的细颗粒度MoE混合专家模型,通过提高专家专业化程度,减少了知识冗余、降低了训练成本、减少了推理计算量;这个技术思路,就可类比于在量化因子模型中,不是用某个因子(专家)来解释整体A股5300支股票的大截面,而是用特定的因子来解释特定二级行业的股票子截面,这样的因子就是细颗粒度因子。
(MoE混合专家模型并不是DeepSeek首先提出来的。谷歌的GShard_MoE 将分布式切片训练框架(GSha rd,Google Sha rding)与混合专家模型(MoE)做结合。但
DeepSeek“聪明地、灵巧地”提出了细颗粒度MoE方法,产生了显著的效果提升
;
又如,DeepSeek在Janus中创新引入统一的自回归架构,我看到了金融时间序列中ARMA、ARIMA、GARCH等自回归模型的影子;
再比如,Engle(诺贝尔经济学奖2003得主)在 2002 年提出了多标的动态条件相关系数模型 DCC-GARCH(2002),将多标的时间序列的波动性特征,纳入统一的多变量波动率模
型,这是将不同标的的特征做时间序列上的对齐(Alignment)或同步(Synchronization)的(建模)方法。
而Janus中引入的统一自回归架构,也是以
时序
生成为范式(也就是时序对齐,比如将眼神、面部表情、口型、声音、肢体动作等多模态做时序对齐),这就突破了传统多模态模型在生成连贯性上的瓶颈、在模态交互深度上的瓶颈、和在任务泛化性上的瓶颈。
Janus的这种架构创新,提升了现有任务性能,为统一的多模态生成模型提供了全新的技术路线。
上述这两个不同领域的模型,我认为思想方法是类通的。
(图源:pixabay)
跨领域可以找到灵感
,有时候,在A领域很常见的数理方法或思路,B领域的研究人员很难想到,即便灵光一现想到了,多半将信将疑,未必敢投入精力做工程验证。
如何恺明(ResNet创造者)在香港中文大学的一次讲座中提到的,“科研(创新)中95%的时间是令人沮丧的”。他的原话是,“研究总是充满了挫折、情绪和沮丧,它与你能想到的所有负面词语有关。这就是现实(真实情况)。如果你没有经历过这些,说明你没有做出最好的研究。我的生活就是这样:我可能95%的时间都很沮丧,而剩下的5%时间(是在想法完成后)花在完成论文上。然后进入下一个(沮丧)周期。”
我本人做量化策略研究的感觉大致如此,很多次有新的策略想法,
想到的时候热血澎湃,设计的时候理顺复杂逻辑的过程让人煎熬,看到结果也就是最后搞明白的时候,却非常沮丧
:“哦,原来是这样啊、我怎么这么蠢、没事先想到这一层呢。”
分析一个创新,可能全球研究者想到了一万条路径;而有经验的领军统帅,能快速pass掉其中的9900条,只在剩余的100条路径上寻找宝藏。
这就是经验的价值。
统计学中的各种算法工具,可以类比为数学兵器,兵器可能有999件,但每一类兵器适用于什么场景、解决什么问题,这个太需要历练、太需要经验、太需要直觉了。
我敢断言,
整个幻方量化和DeepSeek的模型团队,身体力行的梁文锋经历的沮丧和痛苦最多
,所以他的经验和直觉最多。
(图源:pixabay)
他本科阶段在浙江大学学习电子信息工程,研究生阶段学习信息通信和人工智能,毕业后长期做量化金融模型,从2014年就开始follow人工智能领域的论文,可能在多个领域有深入思辨、有长期经验。
在研究中,找出新方法的人最值得称颂。