正文
数据要素当前发展主要有以下问题:1)数据治理难度较大;2)数据流通存在安全风险;3)数据利益分配复杂。DeepSeek有望破除数据要素发展障碍:
1)治理效率提升:
本地化部署实现非标数据快速治理,多部门协同生成垂类模型。
2)流通安全保障:
通过垂直模型或应用对源数据进行封装,在流通阶段数据的载体是垂直模型或应用,可以真正做到数据不出域、可用不可见。
3)方便利益分配:
通过将DeepSeek本地化部署、封装成小模型,政府部门可以直接开放API接口,按照调用次数收费,数据权属更清晰的同时,也方便统一定价、收益分配。
中国有望形成在国家基础底座大模型之上训练各地方和各行业垂类模型的局面:
我们预期未来各地方都会有自己的大模型,然后自下而上的蒸馏成为市、省、国家级别的大模型,各行业基于全国基础底座大模型再训练出各自的垂直模型,这些过程尤其需要高质量数据集的支持。
数据产业持续推进,地方动作不断:
公共数据定价方面,近日,福建省率先发布全国首个公共数据运营服务定价收费标准。数据标注方面,《合肥数据标注产业发展规划(2025-2027年)》发布,提出力争到2027年底,合肥市标注数据规模达3000TB,构建11个以上行业高质量数据集,拉动标注产业规模达30亿元,支撑相关产业规模超千亿。
投资建议:
中国已经逐步实现算力降本、模型平权,数据有望成为中国AI产业弯道超车的主要抓手。DeepSeek有望破除公共数据放开障碍,推动数据要素市场化,
建议关注数据基础设施、数据标注、数据运营相关标的,以及拥有独特高质量数据集的公司。
相关标的:高质量数据集:深桑达A、云赛智联、国新健康、中远海科、易华录、久远银海等。数据标注:海天瑞声等。
风险提示:
政策推进不及预期,行业竞争加剧。
美国主导的“算力霸权”体系构建:硬件+算法的双重垄断。
回顾标普500成分股总市值和涨跌幅变化,截至2024/12/31,总市值前八位的公司(苹果、英伟达、微软、亚马逊、谷歌、脸书、特斯拉、博通)均为AI相关标的,构成了标普500总市值的35%,在2023/1/3-2024/12/31期间总市值增长超10万亿美金,占标普500总市值增长的62%。从行业分布来看,这八家公司主要分布在上游半导体(英伟达、博通)、中游云服务和基础模型(微软、亚马逊、谷歌、脸书),下游应用主要集中在AI终端(苹果、特斯拉),上游算力芯片环节,英伟达表现尤其亮眼,在2023/1/3-2024/12/31股价录得820%涨幅,可见美国在OpenAI掀起全球AI变革后,产业价值增量主要体现在算力和算法基础。
美国AI战略:通过出口管制进一步加强算力、模型霸权。
2025年1月,拜登政府发布全球AI出口管制规则,芯片禁令正式出台。该规则将全世界国家和地区分为三级(Tier 1,Tier 2,Tier 3),分别接受不同级别的管控。Tier 3将面临最严格的限制级别,适用于中国、俄罗斯等总计约24个所有美国武器禁运的国家和地区,向这些地区的数据中心出口芯片,将被全面禁止。对于AI模型的参数权重,新规要求,企业不能在属于Tier 3的国家和地区部署高性能的闭源模型。如果有AI公司需要对通用开源模型进行微调,且过程需要消耗大量算力,那就必须要向美国政府申请许可,才能在属于Tier 2的国家和地区开展相关操作。
中国AI战略:以数据要素形成非对称突破,构建中国特色AI发展范式。
习近平总书记指出:“谁能把握
大数据
、人工智能等新经济发展机遇,谁就把准了时代脉搏。”作为一项通用技术,人工智能是提升国家竞争力、维护国家安全的重要抓手,已成为国际竞争的焦点。
算力方面,以华为、寒武纪、沐曦等为代表的国产芯片厂商持续寻求自主可控技术突破,此外根据路透社,中国计划首次发布指导意见,鼓励在全国范围内使用开源RISC-V芯片,RISC-V有可能发展成和X86、ARM三足鼎立的一个指令集, RISC-V本质上是一种开放标准,将会塑造一个开源芯片新世界,进一步降低下游应用的算力成本。
模型方面,DeepSeek开源带动大模型平权。2024年12月,DeepSeek正式上线V3首个版本并同步开源,2025/2/24-2025/2/28期间,DeepSeek每天开源一个核心技术项目,覆盖AI模型训练、文件系统优化等多个领域。而2025年3月,OpenAI正式上线史上最贵API——o1-pro,o1-pro输入价格150美金/每百万token,输出价格600美金/每百万token,调用定价为DeepSeek-V3的百倍以上。
中国通过开源全球领先的大模型实现了模型平权,相当于放弃了部分云业务收入,同样降低了下游应用的成本,同时也限制了美国的商业模式。