正文
必须有一套强大的软件平台,保障集群的稳定运行。”
百度智能云混合云总经理杜海同样认为,获得行业重要客户的信任,
基础能力是关键因素。
对于集群稳定性以及使用效率的关注,已经成为了行业的新趋势。
国内具备万卡集群建设能力的公司屈指可数,能同时兼具高效算力统筹与算力优化能力的企业更是凤毛麟角。这类企业不仅需要突破芯片性能、集群架构等硬件瓶颈,还需在算力调度算法、资源利用率优化、多模态任务适配等软件层面实现深度创新。
凭借全栈自研能力,
百度成功点亮自研三万卡集群。
自研驱动的模式消除了硬件、软件与生态融合的壁垒,使昆仑芯算力集群成为性能领先的单体集群。沈抖表示,这是国内首个如此大规模采用昆仑芯P800和海光CPU全国产方案的集群。
当算力集群规模触及当前技术边界时,拥有强大的软实力才能发挥出硬件的潜能。百舸平台是支持一云多芯及国产开源模型的算力管理平台,其可以有效提升集群训练推理效率,保障集群稳定性的同时,突破利用率瓶颈。
“百舸平台是百度自主研发的核心组件,百舸4.0支持多种异构芯片、不同的高速网络互联技术,以及高性能存储和相关存储架构技术。”杜海说,“在这之上,我们通过全套云原生组件解决通信问题,百舸平台不仅支持单一的英伟达芯片或昆仑芯,还能兼容多种芯片的不同通信协议与算力规则,实现统一调度。”
目前,百舸平台实现了超高的稳定性,
3万卡集群有效训练时长占比超95%
,且具备秒级故障感知与定位能力,通过自动回滚机制可快速恢复集群运行,保障了业务的无间断。同时,百舸平台创新性采用混合云形态进行集群交付与运营,通过全局优化计算节点和存储资源,
资源利用率提升50%,大幅降低算力成本
,提供“快、稳、省”的算力服务体验。
集群利用率方面,百舸平台已具备成熟的10万卡集群部署和管理能力,
且在万卡集群上实现了99.5%以上的有效训练时长
,能够将不同的芯片混合训练大模型的效率折损控制在5%以内,达到业界最领先的水平。
“最能打动客户的,正是百舸平台把集群稳定性以及算力利用率不断调至更优状态。”杜海说,“百舸平台的设计理念是从应用、模型、框架到芯片,自上而下地将四层体系深度融合,只有这样端到端的体系,才能让集群效能最大化。”
百舸平台的兼容性与自主性也非常出色,得益于百舸平台践行的“一云多芯”策略,除昆仑芯外,还适配多种主流国产芯片,满足企业在不同算力架构下的自主部署需求,让客户的算力选择自主可控。
在算力选择自主可控的基础上,百舸平台还具备对不同规模算力的兼容性。杜海表示,百舸平台支持在一体机部署轻量化版本(百舸 Lite);同时,针对百卡、千卡等不同集群规模,平台提供差异化的集群化组网方案,确保业务开展过程的平滑性。
在对AI部署非常关键的模型支持方面,百舸平台向上适配主流大模型框架,对包括DeepSeek在内的国产开源模型的训练与推理均表现稳定且性能优异。以DeepSeek R1满血版为例,基于百舸+昆仑芯的方案,昆仑芯P800单机8卡配置可实现2437tokens/s吞吐,而百舸DeepSeek一体机在支持500人团队并发使用时,推理延迟平均在50毫秒以内。
开发超100万个企业级AI应用,千帆平台正在成为「智能体」工厂
昆仑芯与百舸平台的深度协同,为大模型提供了直接的硬件支撑与平台保障。在此前提下,一站式企业级大模型平台千帆为大模型能力的整合和场景落地提供有力支撑。
4月25日的Create2025百度AI开发者大会上,文心大模型4.5 Turbo及文心大模型X1 Turbo正式发布。