全球AI基础设施投资趋势 - 2025年全球数据中心投资预计达约5800亿美元,超过同年全球石油供应投资额5400亿美元,差额为400亿美元 [2] - AI云竞争的本质正从单一算力供应转向对底层硬件、系统架构、编译优化、算力调度、模型服务等全链路的深度整合 [5] - 行业头部公司为掌控能力和效率,正不可避免地走向从应用到模型、框架、云基础设施再到芯片的端到端垂直整合 [21] 国际AI基础设施竞争格局 - 谷歌依托TPU形成高度定制化AI算力体系 [4] - 亚马逊AWS持续押注自研芯片并与云服务深度绑定以实现更高能效比和更低成本 [4] - OpenAI联手博通自研AI加速器并布局独立AI云服务业务以减少对外部算力供应链的依赖 [4] - 英伟达不断提升GPU性能,深入高速互联等关键领域,并向云端延伸,越来越像一家完整的AI基础设施公司 [4] 百度AI基础设施全栈布局 - 公司构建覆盖芯片、集群到平台的全栈式、规模化AI Infra解决方案,包括昆仑芯P800三万卡集群、百舸平台及天池超节点 [2] - 昆仑芯团队始于2011年FPGA AI加速器项目,是国内最早源自真实业务场景的AI芯片研发团队,并于2018年启动昆仑芯研发完成3次迭代 [5] - 百度智能云2020年开启"云智一体"战略,在2023年中国AI公有云服务195.9亿元市场中以24.6%份额连续六年位居第一 [5] 百度AI基础设施技术演进 - 昆仑芯未来五年路线图包括2026-2027年两款新品及天池256/512超节点上市,天池256超节点卡间互联总带宽提升4倍,主流大模型推理任务单卡tokens吞吐提升3.5倍 [8][9] - 天池512超节点最高支持512卡极速互联,卡间互联总带宽提升1倍,单节点可完成万亿参数模型训练 [9] - 通过XPU驱动通信模式实现高效直通通信,万卡带宽有效性达95%,接近理想线性扩展 [11] - 百舸平台通过全面故障检测体系精准定位慢节点和故障卡,保障大规模训练稳定性 [11] 百度AI基础设施应用成效 - 公司国产化算力底座稳定支持搜索、推荐等核心业务及大模型训练与推理,Qianfan 70B VL等SOTA模型在5000卡昆仑芯集群训练而成 [13] - 百度蒸汽机视频生成模型在6000卡昆仑芯集群炼成,发布时在VBench-12V榜单位列全球第一 [13] - 基于"百舸平台+昆仑芯P800"的国产万卡集群通过信通院测评获最高"五星级"评级 [15] - 百舸平台支撑北京人形机器人创新中心训练72B开源具身多模态大模型Pelican-VL 1.0,性能提升20.3%,超过同级别开源模型10.6% [16] - 平台帮助招商银行、国家电网、中国钢研、同济大学等头部机构实现国产算力规模化部署 [20]
AI云狂飙持续,百度亮出了全栈 AI Infra底牌