大模型推理效率 - 财报，业绩电话会，研报，新闻 - Reportify

大模型推理效率

搜索文档

SGLang原生支持昇腾，新模型一键拉起无需改代码

量子位· 2025-12-21 14:13

henry 发自凹非寺量子位 | 公众号 QbitAI 当Agent在应用侧不断加速，推理系统能否承受随之而来的真实负载，正在成为行业关注的焦点。这是12月20日在杭州收官的 SGLang AI 金融 π 对上，被反复提及的一个背景。在这场聚焦大模型推理效率的"π对"上—— Agent的Vibe被暂时搁到一边，真正摆上桌面的，是推理系统在真实负载中的工程问题：高并发请求、长上下文窗口、多轮推理、内存管理，以及在具体金融agent场景下的一致性生成问题。同时，在活动讨论中，昇腾作为算力平台也被多次提及。当前，昇腾已作为SGLang原生支持的后端之一进入主仓库，随着 SGLang推理引擎的更新，DeepSeek、Qwen、GLM等模型可以在不调整模型参数、不引入额外插件的情况下直接运行，HiCache、Mooncake等系统能力也在对应版本中引入。可以说，这次SGLang AI金融π对呈现的，并非零散技术点，而是一条清晰的推理工程演进路径——从缓存与内存体系，到权重更新、强化学习效率，再到算力与模型生态的协同。接下来，我们具体来看。而在特定的部署场景，如金融Agen ...

大模型推理效率

Artificial Intelligence

大模型推理效率

Artificial Intelligence