ATOKEN - 财报，业绩电话会，研报，新闻 - Reportify

ATOKEN

搜索文档

苹果传统强项再发力，视觉领域三种模态终于统一

机器之心· 2025-09-22 10:27

苹果AI研究现状 - 公司近期新品硬件关注度高，但AI功能缺乏颠覆性应用，且Apple Intelligence在国内暂无明确推出时间[1][2] - 公司面临AI团队与硬件团队人才流失的挑战[3] - 尽管在大模型领域进展相对滞后，但公司在计算机视觉领域的智能研究是其传统强项[4] 视觉AI领域的核心挑战 - 视觉模态包含图像、视频和三维资产，其数据维度和表征方式不同，导致研究领域割裂，难以实现统一泛化[4] - 与已展现强大泛化能力的大语言模型不同，视觉AI不同任务与模态依赖专门化模型，分词器通常只优化高保真重建或语义理解单一目标[5] ATOKEN技术方案与核心创新 - ATOKEN是首个能够在图像、视频和三维资产上实现统一处理的视觉分词器，兼顾重建质量与语义理解[5][6][8] - 核心创新在于提出共享的四维潜在空间，将视觉模态表示为特征-坐标对集合，能优雅处理任意分辨率与时序长度[10][11][12] - 采用纯Transformer架构，引入四维旋转位置嵌入来处理四维时空输入[8][13][15] ATOKEN训练方法 - 采用四阶段渐进式训练课程，从图像扩展到视频和三维资产，证明多模态学习能增强单一模态性能[16][17][19] - 训练结合无对抗的训练目标、感知损失与Gram矩阵损失，确保训练稳定性并实现最先进重建质量[8] ATOKEN性能表现 - 图像处理：在ImageNet上16×16压缩下取得0.21 rFID，优于UniTok的0.36 rFID；语义理解保持82.2%分类准确率[23] - 视频处理：在DAVIS数据集上取得3.01 rFVD和33.11 PSNR；在MSRVTT视频文本检索上达到40.2% R@1[24] - 三维资产处理：在Toys4k数据集上实现28.28 PSNR，超过专用分词器Trellis-SLAT的26.97 PSNR；零样本分类准确率达90.9%[29] - 该技术标志着构建具备通用性与泛化能力的视觉表征取得重要进展，为下一代多模态AI系统奠定基础[6][27]

苹果(US:AAPL)

大语言模型

大语言模型