Workflow
大模型推理效率
icon
搜索文档
SGLang原生支持昇腾,新模型一键拉起无需改代码
量子位· 2025-12-21 14:13
henry 发自 凹非寺 量子位 | 公众号 QbitAI 当Agent在应用侧不断加速,推理系统能否承受随之而来的真实负载,正在成为行业关注的焦点。 这是12月20日在杭州收官的 SGLang AI 金融 π 对 上,被反复提及的一个背景。 在这场聚焦大模型推理效率的"π对"上—— Agent的Vibe被暂时搁到一边,真正摆上桌面的,是推理系统在真实负载中的工程问题: 高并发请求 、 长上下文窗口 、 多轮推理 、 内存 管理, 以及在具体金融agent场景下的 一致性生成 问题。 同时,在活动讨论中,昇腾作为算力平台也被多次提及。 当前,昇腾已作为SGLang原生支持的后端之一进入主仓库,随着 SGLang推理引擎的更新,DeepSeek、Qwen、GLM等模型可以在不调整 模型参数、不引入额外插件的情况下直接运行,HiCache、Mooncake等系统能力也在对应版本中引入。 可以说,这次SGLang AI金融π对呈现的,并非零散技术点,而是一条清晰的推理工程演进路径——从缓存与内存体系,到权重更新、强化学 习效率,再到算力与模型生态的协同。 接下来,我们具体来看。 而在特定的部署场景,如 金融Agen ...