主要观点总结
Sarvam AI发布的混合语言模型Sarvam-M基于Mistral Small构建,支持印度本地语言,但反响平平。尽管有风投批评其成果与融资不匹配,但公司努力针对印度本土需求开发模型。模型发布背后的战略意义及社区争论也被讨论。
关键观点总结
关键观点1: Sarvam AI发布名为Sarvam-M的混合语言模型,基于Mistral Small构建,支持印度本地语言。
模型被视为印度本土AI研究的一项突破,但上线后反响平平,仅获得少量下载。
关键观点2: 存在关于模型性能、实用性及分发策略的争议。
风投公司Menlo Ventures投资人Deedy Das批评该模型成绩“令人尴尬”,并表示实际效果与受众接受度不匹配。网友就模型的实用性、应用场景及软硬件基础设施等提出不同观点。
关键观点3: Sarvam AI的愿景与目标。
Sarvam AI的目标是在印度大规模普及生成式AI,并致力于构建印度自己的基础AI模型。创始人Vivek Raghavan和Pratyush Kumar强调需要拥有从数据生成到模型部署的完整技术链。
关键观点4: 模型的争议背后反映了印度AI发展的挑战与问题。
包括如何平衡产品的实用性、市场匹配度以及资金来源和交付成果之间的落差等问题。同时,开发针对印度本土需求的AI模型的意义以及所面临的民族主义情绪也受到关注。
正文
Sarvam AI 成立于 2023 年 7 月,由 Vivek Raghavan 和 Pratyush Kumar 联合创办,目标是在印度大规模普及生成式 AI。两位创始人此前都参与了专注于印度语言开源 AI 的研究项目 AI4Bharat。Raghavan 曾长期在 UIDAI(主管 Aadhaar 的机构)任职,Kumar 毕业于 ETH 苏黎世并拥有 IIT 孟买背景,是 AI4Bharat 的联合创始人,专注于推进印度本土语言 AI 应用。
Kumar 的愿景非常明确:印度需要属于自己的基础 AI 模型——不仅仅是对西方模型的“适配”,而是真正从零构建、使用印度本地数据训练,并在本土环境中安全部署。他接受媒体采访时表示,“到了 2040 年,印度必须拥有可以独立训练和部署基础模型的公司。”
“DeepSeek 证明,训练强大的模型不需要几十亿美元。这改变了 AI 竞争的基本规则。”Kumar 说道。对于 Sarvam 而言,这是一次重大战略机遇。
Kumar 认为,AI 主权不只是构建基础模型,更是要拥有从数据生成到模型部署的完整技术链。与许多仅对现有模型进行微调的初创公司不同,Sarvam 决心打造自己的模型。它最初与 Meta 合作,对 Llama 模型进行印度语言方向的优化,但很快意识到自身的真正使命是:打造属于印度自己的 AI 技术栈。
但这次发布的 Sarvam-M 却是基于法国 AI 初创公司的 Mistral Small 构建。据悉,目前 Sarvam 正筹备开发一个 700 亿参数的模型,预估成本为 4000–5000 万美元。
根据 Sarvam 的技术报告,
Sarvam-M 在性能上已超越 Llama-4 Scout
,并且在与更大规模模型(如 Llama-3.3 70B 和 Gemma 3 27B)对比时也表现稳健。“原始的 Mistral Small 模型在印度语言方面存在明显提升空间。”不过,模型在英文知识评估(如 MMLU)上出现了 1% 的小幅下降。
该公司对这一进展感到自豪。该公司联合创始人 Vivek Raghavan 表示,“Sarvam-M 是我们为印度打造自主 AI 的重要基石。”
Das 的批评不仅仅针对下载量。他认为,Sarvam 的做法反映出了它“错位的雄心”。
“很明显,没人需要一个稍微好点的 240 亿参数印度本地语言模型。如果你想训练模型,那应该有一个非常充分的理由。”Google 和 TWO.ai 已推出覆盖所有这些语言但更便宜、表现更佳的模型,Das 补充道,“我并不是反对 Sarvam,只是认为现在他们的成果远远配不上他们获得的融资。”
根据公开信息,Sarvam 目前已获得