专栏名称: 东吴大都督
东吴计算机公众号
目录
相关文章推荐
51好读  ›  专栏  ›  东吴大都督

【东吴计算机】计算机行业一季度投资策略:全面科技自信

东吴大都督  · 公众号  · 股市  · 2025-02-11 16:17

正文

请到「今天看啥」查看全文


低空经济:
1)空管:莱斯信息;规划设计:华设集团;监视:四创电子、纳睿雷达;空天地一体化:中科星图。
2)试点城市:深圳:深城交;重庆:宗申动力;成都:四川九洲;苏州:苏交科;杭州:浙江交科;合肥:四创电子。
3)整机:万丰奥威;引擎:宗申动力;电机:卧龙电驱;飞控:纵横通信。
4)电机:英搏尔;飞控:纵横通信;零件:长源东谷;应用:西域旅游、祥源文旅。
5)无人机:国安达、绿能慧充、纵横股份。
脑机接口: 塞力医疗、岩山科技、诚益通、三博脑科等。
  • 风险提示 政策推进不及预期,技术发展不及预期,行业竞争加剧。



目录


1. 全面科技自信
2025年春节期间,三家基础电信企业力推最新AI技术普惠应用,均全面接入DeepSeek开源大模型,实现在多场景、多产品中应用,针对热门的DeepSeek-R1模型提供专属算力方案和配套环境,助力国产大模型性能释放。
DeepSeek的出现,有望带来AI应用的真正落地。
资本层面: 资本市场的反应是最直观的晴雨表。当下,AI及相关产业在股市中强势上涨,这一现象清晰地表明,DeepSeek的出现为资本领域注入了强大的活力,这种积极的走势无疑是行业发展的重大利好。
市场层面: DeepSeek的横空出世,极大地推动了全球 AI 市场的应用落地与产业化进程。中国拥有庞大的市场体量,这为 AI 行业应用企业提供了广阔的发展空间,有望迎来全面爆发。在这片沃土上,一批类似互联网时代的 AI 平台型和应用型企业将茁壮成长。
技术层面: DeepSeek在技术领域意义非凡,特别是在中文处理能力上表现卓越。虽然目前它还存在幻觉问题、未完全开源以及推理冗余等不足,但其低成本算力训练模式极大地降低了技术门槛,吸引了更多机构和企业投身于技术生态创新。
创新层面: DeepSeek为创新搭建了坚实的基础,未来,类似李飞飞 50 美元式的创新成果有望大量涌现。面向行业和个人的特色技术创新将加速迭代,下一代 AI 技术的创新成果也将更快地从实验室走向实际应用。
产品层面: 得益于可开源的基座权重,今年行业和个人应用产品的推出速度将显著提升。这对于新的应用创业者而言,是一次不可多得的机遇。与互联网不同,AI 具有去中心化和广泛渗透的特性,这将促使 AI 的行业和个人应用更加多元化。
用户层面: 企业和个人正在加速融入 AI 时代。如今 AI + 已不再是要不要做的问题,而是如何做好的问题。用户需求的释放将为行业带来非常大的发展红利。
综上所述,我们正站在一个大时代的风口浪尖,机遇正在加速向我们涌来。

2. 模型平权、推理爆发,看好端侧+应用,具备独特数据和场景的IT厂商 受益

2.1. 近期事件:前沿模型与Agent层出不穷
1)1月20日,DeepSeek-R1模型发布并开源,以RL路径实现了大模型的底层范式创新,大幅降低了先进模型的训练+推理成本,性能比肩SOTA(不含多模态),标志着中国AI从跟随者走向创新者。 降本核心创新点在于DeepSeekMOE架构、FP8混合精度框架、MLA多头潜在注意力机制、纯RL强化学习不依赖人工数据标注的监督微调等。目前微软、AMD等各类厂商都已宣布支持DeepSeek-R1并将其整合进自己的产品。
事件: 幻方子公司深度求索于2024年12月和2025年1月分别发布推理大模型DeepSeek-V3和DeepSeek-R1同时开源。在多项基准测试中,它在数学、编程等推理上的表现已经和 OpenAI 的 o1 不分伯仲,但训练和API 调用成本便宜了90-95%。综合看,V3和R1在研究范式上实现了一些原创式创新,对全球大模型研究带来重要影响。
DeepSeek-V3-Base 已成为当前性能最强的开源基础模型,DeepSeek-R1与GPT-o1性能相近。 V3在MMLU 基准测试中准确率达85.6%,在GSM8K数学任务中准确率达92.3%。DeepSeek-R1 在 MMLU、MMLU-Pro 和 GPQA Diamond 等教育知识基准上相比 DeepSeek-V3 显示出卓越性能,在数学任务上的性能与 OpenAI-o1-1217 相当,远超其他模型。

Deepseek-V3通过架构和工程优化显著降低成本 :基于提升性能和降低成本的双重目标,通过架构设计有效减少了对高性能硬件(GPU)的依赖,1)DeepSeek-V3 采用了MLA(多头部潜在注意力机制)来确保推理效率,2)使用 DeepSeekMoE(自研混合专家)来实现经济高效的训练,3)通过DualPipe 算法实现了计算-通信重叠,减少管道气泡,提升训练效率,4)首个在超大规模模型上成功验证了FP8混合精度加速训练框架的有效性。最终DeepSeek-V3完整训练仅需278.8万H800 GPU小时,训练部分成本仅为557万美元,远低于国内外其他已知模型。

R1在强化学习领域实现原创突破 :1)开源 DeepSeek-R1-Zero,首次验证了纯RL(强化学习)在 LLM 中显著增强推理能力的可行性,没有进行SFT(监督微调),避免了大量标注数据的成本和耗时。2)R1提出了多阶段训练策略(冷启动 SFT -> RL -> COT + 通用数据 SFT(80w)->全场景 RL),有效兼顾准确率与可读性。3)直接用上面的 80w 数据进行SFT,展示了知识蒸馏在提升小模型推理能力方面的潜力,并开源多个大小不一的蒸馏模型(1.5B~70B)。4)在 DeepSeek-R1-Zero 的训练历程中,还出现了模型自我反思的“顿悟时刻”。
2)1月29日,阿里通义千问旗舰版模型Qwen2.5-Max发布 ,预训练数据超过20万亿tokens,比肩Claude-3.5-Sonnet,在多项公开主流模型评测基准上录得高分,甚至高于GPT-4o、DeepSeek-V3及Llama-3.1-405B。
3)2月3日,ChatGPT发布新Agent“Deep Research” ,基于o3模型做了特殊优化,把推理大模型的思考能力用于联网搜索,综合多个信息来源,一次查询响应时间5分钟-30分钟不等,目标是“完成人类专家需要几个小时的复杂研究任务”。在“人类最后的考试”上,Deep Research刷新了最高分,比o3-mini高推理设置分数高出一倍

2.2. 影响:模型平权,推理爆发

国产大模型开始引领基础创新,成本下降+性能提升+模型平权为推理侧爆发筑下基础:

1)中国科技重估。 Deepseek的底层创新最为重要,R1相当于在优秀的基础模型上,不再使用大量人工标注数据做“答案参考”监督微调,而是直接上强化学习(RL)让模型自己琢磨如何获得高分,更加直接地激励模型学会长链推理和反思等能力。标志着中国AI从跟随者向创新引领者转变,直接引发全球对中国科技创新的重视并对中国资产进行重估(参考美股中概上涨)。
2)开源和低成本让模型层面的差距迅速缩小,为推理侧应用(包括端侧和软件)的爆发打下基础。 参考过去移动互联网App的爆发也是显著受益于流量费用的下降,才给了用户和创业厂商广泛的物探。Deepseek开源模型有望引领全球大模型研究路线创新和成本下降,为AI Agent等应用爆发打下基础。小型团队不需要重资产投入就可以蒸馏出先进小模型(适用于各类端侧mini场景),并且端侧算力就可以跑通小模型, 2025年或是端侧的爆发元年
3)对算力影响:训练+推理的整体需求依然乐观。 未来的AI投入不再盲目“大力出奇迹”,逐渐将重心从预训练转向推理,但训练+推理的整体需求依然乐观。参考从2G到4G流量费用不断降低,但因为用量的指数级提升,导致整体市场规模依然快速增大。

2.3. 大模型重构产业加速,场景+数据+铲子价值提升,看好推理+应用

国产大模型开始引领基础创新,成本下降+性能提升+模型平权为推理侧爆发筑下基础:

Deepseek加速模型平权和普及,垂直模型和Agent应用有望迎来井喷期。 Deepseek不仅是单一模型的创新突破,更加速带动了大模型在各产业的实际应用。目前各类云厂商、软件开发厂商、端侧产品厂商都纷纷宣布接入deepseek,我们认为这只是第一步。

后续我们看好场景和数据积累深厚的公司率先享受AI Agent红利。 过去各类厂商受限于模型性能、准确率以及成本的考量,并未大精力投入AI模型的实际应用,处在观望期。Deepseek的开源加速了这一过程,人人都可以蒸馏出先进水平的小模型并私有化部署。

1)模型层面的壁垒打破以后, 影响应用效果的决定因素变为了场景和数据积累 ,利好B端软件服务商。 从场景看,例如医疗行业,有大量医院IT开发经验的厂商便可以基于医院数据积累,针对性蒸馏出适用于该场景的AI Agent;例如财税行业,针对企业大量积累的财务、税务、业务交互数据积累,可以调优出更适合客户使用的Agent产品。

2)模型平权以后, 强者恒强 ,弱者有望追赶差距,软件产业同步享受技术革新beta。 模型能力和算力不再是主要壁垒,数据规模和质量、亦或是独特的场景优势,就成为竞争的关键因素。过去AI能力相对较弱的二线厂商也有望享用全球领先的模型性能,不论是对内开发流程的降本增效,还是对客户的应用服务效果,软件行业整体受益。







请到「今天看啥」查看全文