Joint Embedding Predictive Architecture (JEPA)
搜索文档
LeCun的JEPA已进化为视觉-语言模型,1.6B参数比肩72B Qwen-VL
机器之心· 2025-12-20 07:00
模型架构与核心创新 - 基于Yann LeCun提出的联合嵌入预测架构,开发了首个用于通用领域视觉-语言任务的非生成式模型VL-JEPA [1][2][3] - 核心创新在于将传统视觉-语言模型在数据空间的token生成学习,转变为在潜空间的语义嵌入预测,从而专注于任务相关语义并忽略表层语言形式的多变性 [4][11][12] - 模型通过x-encoder和y-encoder分别处理视觉输入和目标文本,由预测器学习从视觉嵌入和文本查询到目标文本嵌入的映射,训练目标定义在嵌入空间而非数据空间 [12] 技术优势与效率提升 - 非生成式与非自回归特性使模型仅需一次前向传递即可产生连续的目标语义嵌入流,实现了极低的延迟,特别有利于实时在线应用 [13][17] - 在匹配的训练条件下,VL-JEPA在零样本描述生成和分类上性能一致更高,且使用的可训练参数仅为对比模型的大约一半,表明嵌入空间监督提高了学习效率 [20] - 通过选择性解码策略,仅在预测嵌入流发生显著变化时才进行解码,实验表明该策略将解码操作次数减少了约2.85倍,同时保持了以平均CIDEr分数衡量的输出质量 [21][22] 性能表现与评估结果 - 基础模型VL-JEPA_BASE在平均分类准确率和检索recall@1方面优于CLIP、SigLIP2和Perception Encoder等对比模型 [24] - 经过监督微调后的VL-JEPA_SFT模型,在组合视觉推理、复杂对象计数和对象幻觉等多个视觉问答数据集上,达到了与InstructBLIP和Qwen-VL等成熟视觉-语言模型系列相当的性能 [28] - 作为一个统一的通用模型,VL-JEPA_SFT接近了针对单个基准优化的专用模型的性能 [28] 应用前景与行业意义 - 该技术旨在使AI系统具备理解物理世界的能力,以协助人类在现实世界中学习、推理、规划和行动,目标应用包括需要实时响应的可穿戴设备和机器人 [8] - 模型能够以低延迟和低推理成本处理实时任务,如实时动作跟踪、场景识别或规划,解决了传统自回归解码模型在实时任务中面临的延迟挑战 [17][19]