Workflow
Joint Embedding Predictive Architectures (JEPA)
icon
搜索文档
LeCun力荐的JEPA杀入LLM,用CV的思路训练LLM,性能鲁棒性双丰收
机器之心· 2025-09-22 07:26
文章核心观点 - Yann LeCun及其团队提出LLM-JEPA架构 将计算机视觉领域的联合嵌入预测架构(JEPA)成功扩展至大型语言模型领域 通过嵌入空间预测任务增强模型抽象能力 同时保留生成能力 [7][8][10] - LLM-JEPA在多项实验中被验证显著优于传统自回归训练目标 在微调和预训练阶段均能提升模型性能 且对过拟合表现出强鲁棒性 [10][23][32] 技术架构创新 - 核心设计采用JEPA理念 将文本和代码视为同一概念的多种视图 通过编码器提取嵌入向量 预测器基于自注意力机制实现权重绑定 度量方式采用余弦相似度 [15][16][17] - 损失函数结合传统自回归损失和JEPA目标 通过超参数λ平衡两项损失 编码器通过两次独立前向传播避免跨视角信息泄露 [15][16] 性能验证结果 - 在Llama3、Gemma2、Olmo等主流模型及NL-RX、GSM8K等数据集上 微调后准确率显著提升 例如Llama-3.2-1B-Instruct在实验中准确率从54.38%提升至60.59% [11][23][33] - 预训练实验表明 采用LLM-JEPA的模型在表示学习质量上优于传统方法 下游情感分类任务准确率提升 如rotten_tomatoes数据集从56.57%提升至57.76% [32][33] 应用潜力与局限性 - 方法展现出提升推理与生成能力的潜力 但当前依赖配对数据导致泛化性受限 且训练计算开销为传统方法的三倍 [35][36] - 未来计划通过掩码自注意力等优化降低计算成本 并探索更大规模预训练实验 [35]