Workflow
ATOKEN
icon
搜索文档
苹果传统强项再发力,视觉领域三种模态终于统一
机器之心· 2025-09-22 10:27
机器之心报道 编辑:冷猫 苹果新品发售的热度还没消退,大家都在讨论新手机的硬件进化。 而在 AI 功能方面,苹果仍然没有拿出什么颠覆性的应用,Apple Intelligence 在国内仍然遥遥无期。 再叠加上近期苹果 AI 团队和 硬件团队的人才流失 ,这一切似乎对苹果而言都不是太乐观。 虽说苹果在大模型领域上总是吃瘪,但说一个不冷不热的知识:苹果在计算机视觉领域的智能研究是其传统强项。 在构建和视觉相关的大模型时,有一个非常显著的痛点。视觉模态包含图像、视频和三维这三种,这些视觉模态具备不同是数据维度和表征方式,在研究中几乎 不可避免的需要分开处理,使得视觉模型被拆分为三个相不互通的研究领域,难以实现视觉领域的统一泛化。 但大语言模型却已经通过统一的分词方案展现出了强大的泛化能力。 然而, 视觉 AI 仍然呈现 出割裂状 态 ,不同任务与模态依赖专门化的模型:图像、视频和三维资产通常需要独立的分词器,这些分词器往往只在 高保真重建 或 语义理解 其中之一上进行优化,而极少兼顾二者。 为此, Apple 研究团队 提出了 ATOKEN(A Unified Tokenizer for Vision) ,针对这 ...