独家 | 清华00后博士融资数千万,打造全球现象级端侧算力引擎,性能领跑行业
Z Potentials·2025-12-26 03:43
图片来源: 万格智元 当人们还在用"对话更聪明了"来描述大模型的进步时,AI正在从回答问题走向交付结果,而这个过程伴随而来的是token消耗的指数级跃迁。算力需求的爆 炸,并不是危言耸听,而是一场正在到来的结构性变化。与算力需求同步增长的,是另一条更残酷的现实曲线:云端推理的成本与不确定性。只要核心供 给仍然建立在云端GPU集群、并以按token计费的方式出售算力,那么"用得越多、付得越多"的难题就永远无解。更关键的是,Agent越强、调用越频繁、链 路越长,成本越难以预测。于是,一个过去被低估、如今必须被正面回答的问题浮出水面: 算力究竟该继续堆在云端,还是应该被重新"分配"到每个人手 边的终端? 答案正越来越清晰—— 端侧必须承担算力负载 。原因并不复杂:第一,端侧天然具备成本封顶的优势,用户的硬件一次性投入后,边际推理成本趋近于 零;第二,端侧带来响应时间封顶,无需把请求发往云端再等待回传,延迟可控;第三,也是最常被忽略但却十分关键的一点:隐私。云端推理意味着数 据、上下文、行为轨迹需要离开设备;而端侧推理让计算留在本地,从系统架构层面实现隐私保护,极大降低个人与企业长期使用Agent的成本。 然而,端 ...