专栏名称: AIGC新智界
区块链/数字货币/比特币中文资讯,创立于2011年,200多位专栏作入驻平台,国内最大区块链资讯原创基地(公众号【原创】认证),我们为以下合作伙伴供稿:火币、OKCoin、BTC.com、BTCC、币看、BTC123、比特时代、挖币网
目录
相关文章推荐
51好读  ›  专栏  ›  AIGC新智界

为什么中国只有一个 DeepSeek?

AIGC新智界  · 公众号  · 比特币  · 2025-02-10 17:42

正文

请到「今天看啥」查看全文



首先,由于整个市场对技术创新的敬畏之心变弱,2023 年 ChatGPT 大火后,中国的第一批大模型技术探路者中,只有智谱一家成为了资本的宠儿,最早突破 200 亿人民币估值大关、跻身大模型第一梯队。(月之暗面是 2023 年后成立的,故不算在其中)


而由清华自然语言处理实验室(THUNLP)走出的其余两家创业公司面壁、深言,在资本市场的呼声远不如后来的新势力。


尤其是面壁智能(因为深言选择了聚焦产品),作为国内最早提出要做“平民版大模型”、跟 DeepSeek 的技术愿景与创新方向最像、甚至比 DeepSeek 还早成立的一家公司,直到 2024 年年底完成一笔 3 亿人民币的融资后、估值也才不到 35 亿人民币,距离第一梯队的 200 亿门槛相差极远。


据雷峰网 AI 科技评论过去两年与超 50 位大模型投资人的交流所知,同是清华出身、同有技术先发优势、同有优秀年轻技术人才的智谱与面壁之所以相差那么大,主要有几方面原因:


一是清华学术派追基座模型的只押一家,因为“对教授创业持保留意见”;二是智谱的愿景更好理解,早期对外融资时说“对标 OpenAI”、VC 立刻就懂,但面壁由于一开始就强调底层模型训练效率优化,在热钱最多的 2023 年一度被认为是一家类似潞晨、硅基的“AI Infra”公司。


面壁智能在 2023 年没拿到太多钱、无法投入基座大模型,通过类似 DeepSeek V3 这样的基座大模型训练直观反馈高效训练的重要性,2024 年就只有走端侧小模型,而后者对“高效训练”的代言效果远没有 DeepSeek V3 这样的工作好。


2022 年、2023 年在融资时,面壁就打出“高效训练”的旗号去融资,但几乎在 VC 那吃遍了闭门羹。


其次,也是承接没有对技术敬畏之心的大环境前提,2023 年大模型浪潮来临后,中国的 AI 科技 VC 其实并没有沉下心来研究 AGI 这项技术,而是为了迅速上桌将钱投向了“曾打过胜仗的连续成功创业者”,哪怕这些团队此前压根没有过任何大模型研发经历。


这当中,最典型的代表是王慧文的光年之外与王小川的百川智能。


当前估值超过 200 亿人民币的大模型公司中,只有智谱唐杰、月之暗面杨植麟等人是从 2020 年大模型未出圈时就开始了对大模型的技术探索,百川智能、MiniMax与阶跃星辰的团队大多都是在 2023 年之后才展开。


譬如,MiniMax 的创始人闫俊杰是计算机视觉出身,而大模型起初解决的是语言智能(多模态是另一篇章)。不过 MiniMax 最早是靠产品 Glow 出圈、而非底层大模型技术获得资本青睐的,所以这是另外一个维度,且靠近闫俊杰的人对他的评价都是“很有技术追求”。


DeepSeek 的研发团队同样是从 0 开始学习大模型技术,苦读论文、死磕实验,所以没有任何迹象表明一个从前未曾训练过大模型的团队无法通过在 2023 年之后的努力学习来补足技术的短板,但从过去两年的行业发展来看,百川智能在基座模型上的升级并不频繁,重心转向医疗行业大模型。


由于不训练视频等大模型,百川的研发成本较其他公司更低,现金流充裕——但这只对百川有利,对整个大模型行业的发展是没有贡献的。


假设在资源有限的情况下,没有技术能力的团队占据了大量的资本资源,反之有技术能力的团队却只能得到极少的资本资源,钱、才的系统性错位注定产生的结果只有遗憾、没有未来。


如若 AGI 大模型技术果真已没有上升的空间、各家的技术壁垒已经逐渐拉平,那么互联网时代拼资源、拼资本的打法或许也能分到最后一杯羹。但对技术有敬畏之心的创业者始终保持清醒的头脑,依然能看到现有大模型底层算法与架构等在训练与推理中所存在的不足,知道 AGI 仍有许多具体且高难度的问题要解决。


也就是说, 底层技术的持续创新能力仍是大模型公司的护城河,纯拼资源的互联网方法论暂不适用当前中国的大模型发展。 ——但这些话大概率不会得到大部分中国科技 VC 的认可,因为 2023、2024 年的大模型投资甚至还有“Club Deal”这样的玩法……


在过去两年的大模型发展中,一个不愿意学习技术的 VC,比一个不愿意学习技术的研发所产生的杀伤力,可能还要更大。


泡沫期终将结束。潮水褪去后,谁在裸泳也将一目了然。


AGI 军团可遇不可求


市场对技术缺乏敬畏之心的另一个影响是: 为了迎合市场,(当然还有突破大厂围剿的考虑),过去两年中国大模型创业公司的目光也从长期的 AGI 转到短期的商收、产品打磨上。


这一打法的变化也是因为上述行业的误判,以为大模型再无创新之处。坚定追求 AGI 的创业者必须同时兼顾商业与技术,而对 AGI 产生怀疑或彻底被市场声音迷惑的团队则要么放弃预训练、全面转向 C 端应用或干脆只基于开源模型微调行业大模型。


从 GPT-3 到 ChatGPT 的出现经历了两年半,但市场却普遍呈现出一个“规律”: 国内的大模型从基座到商业化只要两年 。尽管一些大模型公司能同时坚持“L2”与“L4”两步走,但在人才与研究资源的投入上没有一家公司能像 DeepSeek 一样对 AGI 这么纯粹。







请到「今天看啥」查看全文