离散扩散模型
搜索文档
最火VLA,看这一篇综述就够了
具身智能之心· 2025-11-03 00:03
文章核心观点 - 视觉-语言-动作模型是当前人工智能领域极具吸引力的前沿阵地,其目标是让机器人具备听懂人话、看懂世界、动手干活的能力 [7] - ICLR 2026会议上VLA模型相关投稿量从去年的个位数飙升至164篇,增长了18倍,显示出该领域的爆发式增长 [6] - 学术界对VLA尚无统一定义,但核心标准是模型必须使用经过大规模互联网级别视觉-语言数据预训练的骨干网络 [8][9] VLA概念定义与区分 - VLA模型强调基因,必须继承自强大的视觉语言模型,具备语言理解、视觉泛化和任务迁移能力 [9][12] - 大型行为模型强调养料,指在大规模多任务机器人演示数据上训练出的策略 [11][13] - 一个在大量机器人数据上微调的VLA同时也是一个LBM,但LBM不一定是VLA [13][14] - 简单拼接独立视觉编码器和文本编码器的模型应称为多模态策略,而非VLA [11] ICLR 2026 VLA八大技术趋势 - **高效架构新范式**:离散扩散模型成为新风向,可并行生成整个动作序列,在LIBERO评测中取得近乎饱和表现 [15][16][17] - **具身思维链**:让机器人生成动作前先产生中间推理步骤,提升计划与解释能力,在SIMPLER等评测中表现突出 [18][19][20][21] - **动作分词器**:将连续高频机器人动作转换为VLM能理解的离散词汇,包括FASTer Tokenizer和OmniSAT等新进展 [22][25][31] - **强化学习微调**:作为VLA策略的微调利器,代表作在LIBERO和SIMPLER上分别取得99%和98%的成功率 [26][27][32] - **效率优化**:通过HyperVLA的超网络机制和AutoQVLA的智能量化等技术降低硬件门槛,使VLA走向平民化 [28][29][33] - **视频预测赋能**:利用视频生成模型理解时序动态和物理规律,为机器人控制提供强先验知识 [30][35][36] - **真实评测基准**:社区开发如RoboCasa365和WorldGym等新基准,致力于打破对现有测试集的过拟合 [37][40][47] - **跨体态学习**:通过X-VLA的软提示、XR-1的统一视觉-运动编码等技术让模型适应不同结构的机器人 [41][43][48] 行业现状与挑战 - 主流仿真评测存在性能天花板问题,开源模型仿真得分高但真实世界表现仍难匹敌前沿产品如Google的Pi-0.5 [44][45] - 头部公司凭借海量高质量真实数据、更看重开放环境和泛化能力的评测维度以及大规模工程支持占据优势 [49] - 数据质量中的噪声、歧义和次优行为可能限制模型上限,上下文学习机制向机器人领域的迁移或是通用VLA的突破口 [50] 作者背景与权威性 - 作者Moritz Reuss是德国卡尔斯鲁厄理工学院四年级博士生,2025年Apple AI/ML学者奖得主 [4][46][52] - 作为将扩散模型引入机器人策略研究的先行者,其研究成果多次发表于RSS、ICLR、NeurIPS等顶级会议 [4][52]
会自检的VLA!ReflectDrive:更安全更高效scaling的端到端框架(理想&清华)
自动驾驶之心· 2025-09-27 23:33
文章核心观点 - 提出ReflectDrive新型学习框架,通过离散扩散的反思机制实现安全轨迹生成,解决端到端自动驾驶在安全性和多模态性能方面的核心挑战 [2][3] - 该方法首次将离散扩散应用于端到端自动驾驶轨迹生成,集成反思机制实现无梯度安全引导再生,在NAVSIM基准测试中展现出接近人类水平的安全关键轨迹生成能力 [7][13][35] - 框架核心是将二维驾驶空间离散化构建动作代码本,通过微调预训练扩散语言模型用于规划任务,结合目标条件生成和安全引导再生两阶段优化 [6][14][20] 技术方案创新点 - **离散化表示**:对二维驾驶空间进行离散化处理,将连续路径点映射为离散令牌对,实现鸟瞰图空间中高效搜索可行解 [15] - **反思推理机制**:包含目标条件轨迹生成与安全引导再生两个阶段,通过评分函数引导实现迭代自校正,无需梯度计算 [20][22][25] - **安全锚点搜索**:对于不安全路径点,在曼哈顿邻域内进行局部搜索确定更优令牌对,作为轨迹修复的安全锚点 [26][27] 性能评估结果 - **基准测试表现**:在NAVSIM基准测试中,ReflectDrive的PDMS综合评分达91.1,使用真值智能体信息时提升至94.7,接近人类水平的94.8 [35][38] - **安全指标提升**:与无反思推理版本相比,DAC提升3.9个百分点至99.3,TTC提升1.3个百分点至93.5,NC提升0.8个百分点至97.7 [37] - **进度优化效果**:EP指标提升7.9个百分点至86.9,使用真值智能体时进一步提升至88.9,超过人类水平的87.5 [37][38] 技术优势特点 - **多模态行为建模**:通过目标条件生成捕捉多样驾驶行为,支持在交叉口选择不同转向方向等大规模调整 [23][24] - **实时性能优化**:局部搜索在小型离散邻域进行,大多数安全违规可在1-3次反思迭代内解决,推理开销可控 [31] - **修复能力强化**:利用离散扩散模型的修复能力,以安全锚点为条件对轨迹片段再生,保持全局连贯性 [11][26] 应用前景展望 - **可扩展架构**:离散令牌结构支持并行解码和双向特征融合,实现可扩展训练,为自动驾驶系统提供可靠解决方案 [3][19] - **实际部署潜力**:实验表明通过更准确的检测与预测结果,系统性能可进一步提升,有望全面超越人类驾驶性能 [38][44]
AI动态汇总:智谱发布GLM-4.5,蚂蚁数科发布金融推理大模型Agentar-Fin-R1
中邮证券· 2025-08-06 02:33
根据提供的研报内容,未发现涉及量化模型或量化因子的具体构建与测试内容。该报告主要聚焦于AI领域的技术动态与产品发布,包括以下核心内容: 1. **智谱发布GLM-4.5大模型** - 采用混合专家架构,总参数量3550亿,激活参数320亿[12] - 三阶段训练流程:通用文本预训练、专项数据精调、强化学习对齐[12] - 在AGI评测中综合得分63.2,智能体任务准确率26.4%[15] 2. **蚂蚁数科金融推理大模型Agentar-Fin-R1** - 基于Qwen3架构的双引擎设计,支持金融场景专用推理[20] - 在FinEval1.0评测得分87.7,风险定价任务位列第一[23] 3. **商汤"悟能"具身智能平台** - 核心"开悟"世界模型支持4D环境构建与多视角视频生成[27] - 演示案例中机器人实现PPT讲解与动态交互[28] 4. **京东JoyInside附身智能品牌** - 整合RAG、TTS等多模态技术,支持情绪检测与长期记忆[33] - 教育机器人接入后对话轮次提升148%[33] 5. **字节Seed Diffusion Preview模型** - 离散扩散架构实现2146 tokens/秒的代码生成速度[37] - 在CanItEdit基准pass@1准确率54.3%[39] 6. **通义千问Qwen3-30B-A3B模型** - MoE架构每次推理仅激活33亿参数,支持256K长文本处理[44] - 数学推理测试AIME25得分61.3,较前代提升183%[47] 7. **腾讯Tairos具身智能平台** - "三脑协同"模型划分感知、规划、行动模块[52] - 复杂任务链成功率超80%,动态纠偏响应300毫秒[52] 8. **Goedel-Prover-V2定理证明系统** - 8B参数模型性能达DeepSeek-Prover-V2-671B的83.3%[58] - MiniF2F测试集Pass@32准确率88.1%[60] 注:以上总结未包含风险提示、免责声明等非核心内容[7][65][68][69]。报告重点为AI技术进展,未涉及量化投资相关模型或因子[1][2][3][4][5][6]。