AI云原生

搜索文档
传统云还在「卖铁」,下一代云已在「炼钢」:火山引擎xLLM如何一张卡榨出两张的性能!
机器之心· 2025-05-27 04:11
大模型推理效率挑战 - 大模型性能提升但企业面临推理成本高、算力投入大、效果不成正比的问题 [2] - 推理效率成为大模型落地的新门槛,企业需堆叠GPU以满足TPOT和TPS指标 [2] - 行业普遍通过增加GPU数量解决问题,但核心问题在于算力利用率不足 [2][24] xLLM框架性能优势 - 在输入3500:输出1500场景下,xLLM单卡TPS达SGLang 0.4.5的2.05倍 [12] - 在输入2500:输出1500场景下,xLLM单卡TPS达SGLang 0.4.5的2.28倍 [12] - 极限情况下xLLM单机总吞吐达6233 TPS,是开源框架的十倍 [13] - 相同吞吐水平下xLLM平均TPOT为30ms,比开源框架低64% [13] - Hopper 96G机型使用xLLM成本比141G机型开源方案低89% [12] xLLM技术架构创新 - 采用P/D角色分离架构,实现Prefill和Decode阶段算力独立优化 [17] - 配备高性能KV Cache传输能力,支持跨节点跨GPU数据高效移动 [17] - 支持异构计算组合,可部署不同角色到不同GPU卡型 [18] - 具备池化部署能力,根据流量特征动态扩缩角色资源 [18] - 多级KV Cache存储方案平衡缓存效率与计算开销 [19] AI云原生战略布局 - xLLM集成至ServingKit推理套件,13秒完成模型显存加载 [21][22] - ServingKit在开源引擎基础上优化,TPS提升2.4倍 [22] - 提出以AI负载为中心的基础架构新范式 [20] - 强调"巧炼钢"理念,通过全栈优化提升单卡利用率 [24][25] 行业趋势与解决方案 - 企业需求从"卡多卡新"转向"算力高效利用" [24][25] - 面临推理潮汐和异构算力调度两大核心挑战 [23] - Hopper 96G+xLLM组合已验证在性价比上的优势 [25] - 云服务竞争重点转向工程优化能力而非硬件堆叠 [25]
火山引擎的野心,不止是一个“更聪明的模型”
搜狐财经· 2025-04-24 11:19
但问题也随之而来: 推理能力和多模态能力,真的从实验室走向了可落地的规模化吗? 2025年春天,AI行业的一系列动作释放出一种不同以往的信号。GPT-4o以更强的多模态处理能力强化人机交互;DeepSeek R2持续推进开源攻势,刷新国 产模型的技术期待;而字节跳动旗下的火山引擎,在杭州举行了一场没有太多华丽词藻但含金量颇高的发布会,核心关键词只有三个:深度思考、多模态 推理、全栈Agent。 AI模型从"语言输出者"走向"任务执行者",从生成文字、图像,到开始操作浏览器、编辑视频、理解图表乃至"看图做决策"。这并非简单的模型功能更 新,而是AI能力边界的一次实质性拓展。在这场变化中,字节推出的豆包1.5thinking模型、Seedream3.0文生图引擎、OS Agent平台化方案,构成了一个系 统性的技术组合,也预示着其未来在AI生态中的角色将不再只是"提供一个大模型"。 Agent的门槛是否已经抬升?开发者与企业会为这种能力买单吗? 在国产模型陷入"开源焦虑"时,字节为何依旧坚持平台化和自研路线? 火山引擎强调的"AI云原生"到底是Buzzword,还是产业基础设施的重构? 这些问题不仅关乎一场发布会 ...