苹果端侧AI两连发,模型体积减半、首字延迟降85倍,iPhone离线秒用
核心观点 - 苹果发布两条多模态主线FastVLM和MobileCLIP2 主打快速响应和轻量化部署 模型和Demo已全面开放 支持Safari网页直接体验 实现大模型在手机端的高效运行 [1] 技术特性 - FastVLM采用自研FastViTHD编码器 通过动态缩放和混合设计处理高分辨率图像 首字延迟仅为竞品LLaVA-OneVision-0.5B的1/85 [2][4] - FastVLM在0.5B/1.5B/7B参数规模下均保持低延迟和高精度 在7项视觉语言任务中准确率与竞品相当但延迟显著更低 [6] - MobileCLIP2通过多模态蒸馏和数据增强技术 在ImageNet-1k上零样本精度与SigLIP-SO400M/14相当但参数量减半 iPhone 12 ProMax延迟比DFN ViT-L/14低2.5倍 [9][14] 应用场景 - FastVLM支持实时字幕生成 在无障碍场景中实现盲文输入与屏幕阅读器同步 [21][23] - MobileCLIP2支持离线图像检索和描述 无需云端算力 保障数据安全且响应即时 [14][17] - 两者组合可覆盖实时字幕 相机翻译 相册语义搜索等场景 通过Core ML+Swift Transformers工具链集成至iOS/macOS应用 [17][19][24] 开发者支持 - 提供Hugging Face模型卡和WebGPU Demo Safari授权摄像头即可体验实时功能 [8][15][17] - 配套Core ML工具链和WWDC文档 支持调用GPU与神经引擎 优化性能与能耗 [19][24] - 兼容性存在部分限制 WebGPU在不同浏览器和机型表现不一致 端侧模型需权衡算力与续航 [24]