Workflow
FastVLM
icon
搜索文档
苹果端侧AI两连发,模型体积减半、首字延迟降85倍,iPhone离线秒用
36氪· 2025-09-08 02:42
核心观点 - 苹果发布两条多模态主线FastVLM和MobileCLIP2 主打快速响应和轻量化部署 模型和Demo已全面开放 支持Safari网页直接体验 实现大模型在手机端的高效运行 [1] 技术特性 - FastVLM采用自研FastViTHD编码器 通过动态缩放和混合设计处理高分辨率图像 首字延迟仅为竞品LLaVA-OneVision-0.5B的1/85 [2][4] - FastVLM在0.5B/1.5B/7B参数规模下均保持低延迟和高精度 在7项视觉语言任务中准确率与竞品相当但延迟显著更低 [6] - MobileCLIP2通过多模态蒸馏和数据增强技术 在ImageNet-1k上零样本精度与SigLIP-SO400M/14相当但参数量减半 iPhone 12 ProMax延迟比DFN ViT-L/14低2.5倍 [9][14] 应用场景 - FastVLM支持实时字幕生成 在无障碍场景中实现盲文输入与屏幕阅读器同步 [21][23] - MobileCLIP2支持离线图像检索和描述 无需云端算力 保障数据安全且响应即时 [14][17] - 两者组合可覆盖实时字幕 相机翻译 相册语义搜索等场景 通过Core ML+Swift Transformers工具链集成至iOS/macOS应用 [17][19][24] 开发者支持 - 提供Hugging Face模型卡和WebGPU Demo Safari授权摄像头即可体验实时功能 [8][15][17] - 配套Core ML工具链和WWDC文档 支持调用GPU与神经引擎 优化性能与能耗 [19][24] - 兼容性存在部分限制 WebGPU在不同浏览器和机型表现不一致 端侧模型需权衡算力与续航 [24]
苹果沉默一年,终于亮出AI底牌
虎嗅APP· 2025-09-05 13:56
苹果端侧AI战略 - 苹果在HuggingFace上全面开源视觉语言模型FastVLM和MobileCLIP2 构成其端侧AI小模型战略核心[4][5] - FastVLM在生成第一个token的响应速度上比同类模型LLaVA-OneVision-0.5B快85倍 视觉编码器规模缩小3.4倍[7][9] - 7B版本性能优于Cambrian-1-8B模型 响应速度快7.9倍 通过混合视觉编码器FastViTHD实现速度与性能平衡[9] 技术实现特点 - FastVLM采用卷积网络和Transformer融合的混合视觉编码器 减少高分辨率图像处理产生的tokens数量[10] - 模型支持0.5B/1.5B/7B多个尺寸 可在iPhone等个人设备实现实时浏览器字幕功能[13][14] - 处理单帧画面仅需1-2秒 8帧关键帧分析在几秒内完成 在保证速度同时维持极高准确性[16][22] 行业背景与战略定位 - 苹果面对AI进展缓慢质疑 内部组建AKI团队瞄准ChatGPT 同时推进端侧小模型B计划[36] - 2024年7月开源DCLM-7B模型性能逼近Mistral-7B和Llama3 显示小模型技术积累[37] - WWDC 2024宣布Apple Intelligence由多个高度优化的AI小模型组成矩阵处理日常任务[37] 商业逻辑与竞争优势 - 端侧AI战略基于用户体验/软硬件生态/用户隐私三大基石 符合品牌承诺[39][44] - 本地设备处理避免敏感数据上传 与百度合作因隐私政策分歧受阻[42][44] - 利用A系列/M系列芯片边际性能 实现最经济可持续的商业模式[46][48] 行业趋势 - 英伟达认为小模型是Agent未来 初创公司通过小模型切入医疗/金融等垂直领域[48] - 行业对小模型兴趣升温 但苹果将其提升到生死存亡战略高度[49][51]
苹果推出的视频识别模型:FastVLM,让AI有了眼睛
36氪· 2025-09-05 00:06
模型技术特点 - 基于Qwen2-7B进行深度训练的开源视觉语言模型 参数量为7B [1] - 通过逐帧提取图像特征并汇总 结合文本向量数据库实现视频流识别 [2] - 支持高分辨率图像理解与视频文本关系解析 可处理2小时视频字幕并在数秒内完成生成 [6] - 在16GB显存的M2芯片设备上可运行 显存占用低于10GB [1][5] 应用场景优势 - 支持原生移动端与Web浏览器部署 可识别物理世界物品/字体/内容含义 [3] - 提供端到端离线解决方案 保障数据隐私安全 [6] - 延迟显著低于同类产品 适用于MR/AR眼镜、机器人视觉、医疗诊断及生活服务场景 [5][6] - 通过RAG技术拓展多模态应用能力 实现视频文本转换与场景适配 [6] 行业影响 - 降低AI应用算力门槛 使手机/平板等终端设备具备本地化AI部署能力 [10] - 推动边缘计算发展 未来算力资源将更多集中于复杂场景而非基础应用 [10] - 为AI产品经理提供视觉一体化解决方案 优化产品设计框架 [11]
苹果沉默一年,终于亮出AI底牌
虎嗅· 2025-09-04 14:21
苹果开源视觉语言模型FastVLM和MobileCLIP2 - 苹果在HuggingFace上全面开源视觉语言模型FastVLM和MobileCLIP2 构成端侧AI小模型战略核心 [1][3] - FastVLM在部分任务响应速度比同类模型LLaVA-OneVision-0.5B快85倍 视觉编码器规模缩小3.4倍 [2][6] - FastVLM-7B版本与Cambrian-1-8B对比时性能更优 生成首个token响应速度快7.9倍 [6] 技术架构与性能表现 - 采用新型混合视觉编码器FastViTHD 结合卷积网络和Transformer 输出更少但更精华的tokens [7][9] - 支持高分辨率图像快速编码 在iPhone等个人设备实现实时任务处理 [5][14] - 提供0.5B/1.5B/7B多个版本 实测单帧画面分析时间仅1-2秒 8帧解读在几秒内完成 [13][17] 端侧AI战略定位 - 苹果通过小模型战略强化隐私保护 数据处理完全在设备端完成 避免云端传输敏感信息 [43][49] - 端侧AI保障用户体验可靠性 摆脱网络依赖 在无信号环境下保持核心智能功能在线 [50] - 利用A系列/M系列芯片边际性能 将计算任务分配至本地设备 形成经济可持续的商业模式 [51][53] 行业背景与战略布局 - 苹果面对AI竞争压力 内部组建AKI团队瞄准ChatGPT 同时推进端侧小矩阵模型开发 [40][41] - 2024年7月发布DCLM-7B开源模型 性能逼近Mistral-7B/Llama3等同级模型 [41] - WWDC 2024宣布Apple Intelligence由多专业小模型组成 处理邮件整理/文稿润色等日常任务 [41] 行业趋势与差异化路径 - 英伟达等企业重视小模型作为Agent未来 初创公司聚焦医疗/金融等垂直领域微调应用 [54] - 苹果端侧战略与其硬件生态/隐私承诺深度绑定 区别于行业主流云端大模型路径 [43][56] - 行业普遍追求参数规模时 苹果通过专才型小模型在细分场景实现更精准性能表现 [50]
苹果新研究:不微调、不重训,如何让AI提问效率暴增6.5倍?
机器之心· 2025-09-02 09:33
苹果与高校合作AI研究突破 - 苹果与牛津大学和香港城市大学合作提出BED-LLM新方法 使AI解决问题能力提升6.5倍 成功率从14%暴增至91% 无需微调或重新训练[1] - 核心突破在于让AI学会提出完美问题 通过自适应信息收集实现智能交互[2][5] BED-LLM技术原理 - 基于序贯贝叶斯实验设计框架 通过迭代过程最大化预期信息增益(EIG)[7][9] - 采用三重智慧设计:追求真实信息增益而非表面不确定性 强制逻辑自洽纠正遗忘症 条件生成策略实现针对性提问[14][16][18] - 通过先采样后过滤策略确保答案逻辑一致性 使用逻辑过滤器剔除矛盾选项[17] 性能验证结果 - 在20个问题猜谜游戏中 Mistral-Large模型预测名人成功率从14%提升至91%[20] - 在动物数据集上 Qwen2.5-72B模型成功率从45%提升至94% Mistral-Large从33%提升至95%[20] - 电影推荐任务中表现显著改进 模型跨服测试显示即使在模型失配情况下性能优势依然稳固[21][24] 技术应用前景 - 将LLM从被动知识库转变为主动信息收集者 实现真正意义上的智慧对话[26] - 适用于多轮猜谜游戏 任务澄清 IT任务自动化和迭代式外部工具使用等场景[4]
苹果FastVLM视觉语言模型开放试用:视频字幕生成速度可提升85倍
环球网资讯· 2025-09-02 04:07
公司技术发布 - 苹果发布视觉语言模型FastVLM 并已在Hugging Face平台开放访问 [1] - 模型提供近乎即时的高分辨率图像处理能力 [2] - 视频字幕生成速度提高85倍 [2] - 模型体积比同类产品小3倍以上 [2] 技术性能表现 - 用户可在浏览器内加载轻量级FastVLM-0.5B版本 [2] - 在16GB M2 Pro MacBook Pro设备上加载耗时数分钟 [2] - 加载完成后可准确识别用户外貌 房间环境及周边物体 [2] 技术应用优势 - 模型在浏览器本地运行确保数据不离开设备 [2] - 支持完全离线运行模式 [2] - 轻便性与低延迟特性特别适合可穿戴设备应用场景 [2] - 在辅助技术领域展现显著应用潜力 [2]
AI周观察:英伟达沙特交易驱动风险偏好提升,端侧AI加速渗透
国金证券· 2025-05-18 14:39
报告行业投资评级 未提及 报告的核心观点 本周全球聊天助手应用活跃度上升,模型方面有新进展;英伟达应对出口限制,与沙特合作股价上行;CoreWeave营收超预期但亏损扩大;2025年一季度全球智能手机和AI笔电销量增长,看好AI手机和AI PC未来销量 [2] 各目录总结 海外市场行情回顾 - 截至5月9日,戴尔、Cloudflare、特斯拉等海外AI相关个股本周收盘价较上周均有不同程度上涨,涨幅在1.12%-19.06%之间 [6] 国内AI应用访问量回升,AI Coding热度持续提升 - 本周海外聊天助手类应用活跃度多数上升,ChatGPT、Gemini等环比提升6%-8%,国内豆包、ChatGLM等提升约20% [2][10][11] - OpenAI发布云端AI编程智能体Codex,腾讯发布混元图像2.0模型,苹果推出视觉语言模型FastVLM [2][11] 英伟达:政策放松驱动股价上行,盈利预期仍待验证 - 2025年美国收紧对华高端AI芯片出口控制,英伟达推出降规版H20芯片,2025年积压中国订单达180亿美元 [2][12] - 美国撤销对沙特和阿联酋的先进AI芯片出口禁令,英伟达与沙特签署合作协议 [15] - 受沙特订单刺激,英伟达股价上行,但市场对FY2026盈利预期未上调,政策仍是核心定价变量 [16] CoreWeave FY25Q1:营收超预期,全年展望强劲但亏损扩大 - CoreWeave 2025年Q1营收9.82亿美元,同比增长420%,净亏损扩大至3.15亿美元 [19] - 管理层预计Q2营收10.6-11亿美元,全年营收上调至49-51亿美元,2025年资本开支预算200-230亿美元 [22] - OpenAI与公司签订最高达119亿美元合作协议,报告期末收入积压总额259亿美元,同比增长63% [22] 消费电子动态 2025年一季度全球智能手机市场销量同比低增速上升 - 2025年一季度全球智能手机销量约3.01亿台,同比增长0.38%,实现端侧AI部署的手机销量约8200万台,同比增长约89% [2][23] - 实现端侧AI部署的手机中,苹果、三星、小米、vivo、OPPO销量排名前五 [23] - 中高端手机平均内存容量自2023年第一季度不断提升,看好AI手机销量增长 [34] AI PC继续渗透 - 2025年一季度全球AI笔电出货量约1800万台,同比增长约201%,渗透率达40.74% [2][35] - AMD与英特尔控制约62%的AI PC市场份额,苹果与高通的ARM架构AI PC占据约38%的市场份额 [37] - 因Windows系统切换和PC设备换机周期,预计AI PC销量将继续增长 [40]
85倍速度碾压:苹果开源FastVLM,能在iphone直接运行的视觉语言模型
机器之心· 2025-05-16 16:31
苹果开源FastVLM模型 - 苹果开源高效视觉语言模型FastVLM,可在iPhone上直接运行,优化苹果设备性能[2][3] - 模型推出0.5B、1.5B、7B三个参数量级版本,提供stage2和stage3两阶段微调权重[7] - 代码仓库包含基于MLX框架的iOS/macOS演示应用,提升用户体验[3] FastVLM技术优势 - 首个token输出速度比同类模型提升85倍,视觉token数量比传统ViT少16倍[6] - 采用新型混合视觉编码器FastViTHD,融合卷积层和Transformer模块[6] - 多尺度池化和下采样技术显著降低图片处理所需视觉token数量[6] 模型架构创新 - FastViTHD专为高分辨率视觉语言处理设计,参数量比ViT-L/14小2.4倍,速度快6.9倍[37] - 架构包含五个阶段,前三阶段使用RepMixer模块,后两阶段采用多头自注意力[36] - 支持静态与动态输入分辨率策略,在目标分辨率下实现最佳精度-延迟平衡[49] 性能表现 - 在38项多模态零样本任务中表现与ViT-L/14相当,推理速度快5.6倍[37] - 相同0.5B LLM条件下性能媲美LLaVa-OneVision,TTFT快85倍[16] - 参数量仅为ConvNeXT-XXL的1/6.8,速度提升3.3倍[42] 应用场景 - 兼容主流LLM并适配iOS/Mac生态,适合边缘设备和端侧AI应用[6] - 支持图像自动生成陈述、问答、数据分析和对象识别等功能[6] - 优化实时图文任务场景,显著提升AI与图像交互体验[6]
iOS 19还没来,我提前在iPhone上体验到了苹果最新的AI
虎嗅· 2025-05-15 12:04
苹果FastVLM模型发布 - 苹果低调开源视觉语言模型FastVLM 包含0.5B 1.5B和7B三种参数量级 支持iPhone iPad Mac等设备本地运行[3][10] - 模型启动速度极快 1.5B版本TTFT仅1211毫秒 0.5B版本TTFT可维持在1000ms以内 交互体验流畅[6][13][14][40] - 模型基于自研AI框架MLX和视觉编码网络FastViT-HD构建 采用卷积与Transformer融合架构 比同类模型推理速度快2-3倍[45][46][47][49] 技术架构创新 - FastViT-HD通过多尺度特征融合减少视觉token数量 在256×256分辨率下仅输出16个token 显著降低计算负担[52][53] - 引入帕累托最优曲线 帮助开发者找到性能与延迟最优组合 适合不同算力终端设备部署[55][56] - 训练数据仅为其他方法1/3~1/5情况下 在TextVQA等基准测试中效果堪比主流模型[57][58] 应用场景与战略布局 - 模型可能部署于苹果计划2027年推出的智能眼镜 配合专用低功耗芯片N401实现AI-first设备[59][60][61][62] - 体现苹果"端侧优先"战略 目标将AI嵌入系统底层而非作为功能补丁 覆盖iPhone iPad Mac及未来新硬件[63][64][65][66] - 模型开放性设计可被系统原生组件 第三方App及未来智能眼镜系统一键调取[70] 行业对比与生态建设 - 功能类似OPPO"一键问屏"和字节Seed1.5-VL 但底层依托自研MLX框架 补齐苹果芯片AI编程生态[72][73][74][75] - MLX框架类似PyTorch 优化内存管理与运行效率 鼓励开发者在MacBook上训练部署模型[76] - 通过FastVLM等模型布局 苹果正为未来5-10年硬件形态铺路 推动AI成为系统和设备原生部分[79][80][81]
OpenAI推出医疗开源测试基准HealthBench;苹果发布可在iPhone上运行的极速视觉语言模型FastVLM | 全球科技早参
每日经济新闻· 2025-05-12 23:53
OpenAI推出医疗开源测试基准HealthBench - OpenAI推出HealthBench开源基准测试,旨在衡量AI系统在医疗健康领域的能力 [2] - HealthBench由262位来自60个国家/地区的医生合作打造,包含5000段真实健康对话 [2] - 采用48562个独特的医生编写的评分标准进行开放式评估,涵盖紧急情况、全球健康等多个健康背景和行为维度 [2] - 该基准测试有望为AI在医疗健康领域的能力评估提供更全面、准确且具实践意义的参考标准 [2] 苹果发布极速视觉语言模型FastVLM - 苹果发布专为高分辨率图像处理优化的视觉语言模型FastVLM,可在iPhone等移动设备上高效运行 [3] - FastVLM通过创新的FastViTHD视觉编码器,实现高达85倍的编码速度提升 [3] - 该模型为实时多模态AI应用铺平道路,展现苹果在AI技术领域的创新实力 [3] FDA宣布使用AI技术加速药品审批流程 - FDA宣布在所有中心引入AI技术,以缩短药品审批时间 [4] - 该决定基于一项针对科学审查员的生成性AI试点,AI工具可帮助科学家减少重复性工作 [4] - 使用AI后,科学审查任务时间从三天缩短至几分钟,显著提升审核效率 [4] 特斯拉推出AI代理提升客户服务 - 特斯拉推出专门用于处理客户沟通服务的AI代理,可检测沟通延迟和监测对话情绪 [5] - AI代理能自动将重要诉求上报管理层,已在十个试点地点推出 [5] - 客户在手机应用输入"Escalate"后,系统将在两周延迟后自动上报问题 [5] Gemini 2.5 Pro实现6小时视频理解 - 谷歌Gemini 2.5 Pro支持长达6小时的视频分析,拥有200万Token的超大上下文窗口 [6] - 该模型首次实现通过API直接解析YouTube链接,在VideoMME基准测试中准确率达84.7% [6] - Gemini 2.5 Pro现已通过Google AI Studio向开发者开放体验,标志着AI向视频驱动的多模态产品转型 [6][7]