Workflow
GRANT
icon
搜索文档
小米7篇论文入选顶会AAAI,前沿领域全覆盖!
自动驾驶之心· 2025-12-22 03:23
文章核心观点 - 小米在AAAI 2026顶会上有7篇论文入选,覆盖了从音效编辑、语音问答、3D具身智能到自动驾驶等多个AI前沿领域,展示了其在底层技术上的全面布局和持续投入的成果 [5][6] 大规模Text-to-SQL的Schema链接 - 提出AutoLink框架,将传统一次性加载整个数据库Schema的模式,转变为让大语言模型像智能代理一样迭代式探索,只加载当前任务相关的部分 [9] - 该方法在Bird-Dev数据集上实现了97.4%的严格召回率(SOTA),在Spider-2.0-Lite上召回率达91.2%,执行准确率全球排名第二 [10] - 框架能有效处理超过3000列的大型数据库,保持高召回率、低token开销和稳健表现 [10] 大模型推理加速 - 提出SpecFormer模型,重新定义推测解码中草稿模型的角色,结合单向与双向注意力机制,使其既能理解全局上下文,又能并行生成预测 [12] - 该方法无需构建庞大的草稿树即可实现稳定加速,尤其在大批量推理场景下仍能持续提升速度 [13][15] - 相比传统方法,训练成本更低,硬件要求更友好,适合规模化部署 [15] 长语音问答 - 提出CLSR模型,旨在解决长语音处理中信息稀疏、计算成本高的问题,通过端到端检索直接从长语音中抽取最相关的片段,无需依赖庞大的ASR流水线 [16][17][23] - 引入“文本化中间表征”,将语音特征转换为类似文本的结构,以更自然、准确地进行跨模态对齐 [23] - 在四个跨模态检索数据集上均取得显著优势,超越了传统语音检索器及“ASR + 文本检索”的组合方案 [23] 多模态音效编辑 - 提出AV-Edit框架,通过结合视觉、音频、文本三模态信息来实现精细、自然且与画面一致的声效编辑 [20][21] - 核心是使用对比式音频-视觉掩码自编码器进行多模态预训练,再基于此表征训练多模态扩散Transformer,以自动移除噪声、补全声音并生成符合语境的声效 [24] - 在音效编辑任务中达到SOTA,并在更广泛的音频生成领域展现出强竞争力 [31] 具身智能任务调度 - 提出ORS3D新任务定义,要求智能体在理解语言、在3D场景中定位对象的同时,根据可并行的子任务设计最优时间安排 [26][32] - 构建了大规模数据集ORS3D-60K,覆盖4000个真实场景和6万个包含可并行子目标的复合任务 [26] - 提出GRANT模型,通过引入“调度标记”机制,使模型能明确规划任务的并行与顺序执行,在语言理解、3D grounding和调度效率三方面均取得强竞争力表现 [27][28] 空间导航 - 提出Spatial Navigation新任务,包含空间物体导航和空间区域导航两个子任务,旨在让机器人理解更复杂的空间关系指令 [33][40] - 构建了包含10,000条轨迹的空间导航数据集,以支持训练 [34] - 提出SpNav框架,结合视觉语言模型解析指令并识别目标,通过地图执行精确导航规划,在模拟与真实场景中均取得领先表现 [34][35] 自动驾驶长尾场景生成 - 提出VILTA方法,一种面向长尾场景的对抗性轨迹生成方法,将视觉语言模型引入训练闭环,对周围车辆的未来轨迹进行精细编辑 [36][37] - 引入运动学后处理机制,确保生成的对抗性轨迹满足车辆动力学约束,具有物理合理性 [38] - 在CARLA仿真中的实验表明,使用VILTA生成的场景进行强化学习优化,可显著降低自动驾驶策略的碰撞率,提升系统在复杂情形下的稳定性 [38]
AAAI 2026 Oral | 华科&小米提出具身智能新范式:教机器人「时间管理」
具身智能之心· 2025-11-27 00:04
文章核心观点 - 研究团队提出了一种名为GRANT的新型3D多模态大模型,通过将运筹学知识引入具身智能领域,使机器人能够进行并行任务规划,从而显著提升任务执行效率[2] - 该方法在ORS3D-60K数据集上的实验结果显示,任务完成效率相比基线方法提升了30.53%,3D定位精度提升了1.38%,综合性能提升了10.46%[19] - 这项工作标志着具身智能研究从单一的“语义理解”向高阶的“运筹决策”跨越,为未来智能管家机器人的实际应用奠定了基础[22] 研究背景与痛点 - 当前具身智能机器人通常只能按顺序串行完成任务,缺乏人类“统筹方法”的能力,导致执行效率低下[3] - 核心问题在于现有机器人缺乏运筹学知识,无法识别哪些任务可以并行执行,哪些必须独占注意力[5] - 例如,面对“微波炉热饭35分钟”和“洗水槽20分钟”的指令,机器人串行执行需55分钟,而人类并行执行只需35分钟[8] 技术方案与创新 - 提出了基于运筹学知识的3D定位任务调度新任务,并构建了包含4,376个场景和60,825个复合任务的大规模数据集ORS3D-60K[6][12] - 数据集中平均指令长度达311个单词,包含复杂的时间约束和空间描述,并经过运筹学求解器验证提供最优调度方案[13] - 设计了GRANT框架,采用“大模型+求解器”协同架构,通过调度令牌机制让LLM负责语义理解,外部求解器负责数学优化[16][19] 数据集特点 - ORS3D-60K数据集规模达60,825个任务,远超同类数据集如TaPA的15,418个任务和LEO的13,848个任务[12] - 数据集创新性地将子任务分为非并行化任务和并行化任务,前者需持续操作,后者仅需启动和检查[15] - 该数据集填补了现有数据集中缺乏运筹学调度与3D空间联合考察的空白[22] 实验结果 - 在时间效率指标上,GRANT相比Grounded 3D LLM等基线方法提升30.53%[19] - 3D定位准确率达到53.49%,显著高于3D-VisTA的13.73%和PQ3D的14.03%[18] - 实际案例显示,模型将总耗时从74分钟压缩至45分钟,效率提升39%[21]
AAAI'26 Oral | 华科&小米提出新范式:教机器人「时间管理」,任务效率提升30%以上!
具身智能之心· 2025-11-26 10:00
文章核心观点 - 研究团队提出了一种名为GRANT的新型3D多模态大模型,通过将运筹学知识引入具身智能任务规划,使机器人能够像人类一样进行并行任务调度,从而显著提升任务执行效率[2] - 该方法的核心创新在于“大模型+求解器”的协同架构,让大语言模型负责语义理解和场景感知,而外部优化求解器负责复杂的数学规划,实现了任务完成效率30.53%的提升[2][16] - 此项工作标志着具身智能研究从单一的“语义理解”向高阶的“运筹决策”跨越,为开发真正具备“时间管理”能力的智能管家奠定了基础[22] 研究背景与痛点 - 现有具身智能机器人通常只能按顺序串行完成任务,缺乏人类“统筹方法”的能力,导致执行效率低下[3][5] - 根本原因在于现有机器人缺乏运筹学知识,无法识别哪些任务可并行处理,哪些任务必须独占注意力,同时还需在复杂3D场景中精准定位物体[6] 数据集创新 - 研究团队构建了首个融合运筹学知识的大规模3D具身数据集ORS3D-60K,包含4,376个真实室内场景和60,825个复合任务[10][12] - 该数据集平均指令长度高达311个单词,远超其他数据集,并且每条任务都经过运筹学求解器验证,提供了数学上的最优调度方案作为标注[12] - 数据集根据运筹学原理将子任务细分为非并行化子任务和并行化子任务,迫使模型进行全局最优规划而非局部决策[12][15] 技术方法与架构 - GRANT模型包含四个核心组件:3D场景编码器、大语言模型、调度令牌机制和3D定位头[16][19] - 调度令牌机制是关键创新,LLM不直接计算时间,而是预测子任务属性,然后通过特殊令牌调用外部优化求解器进行动态规划计算最优时间表[16][19] - 这种架构实现了“懂人话、认东西”与“算时间、排工序”的专业分工,结合了多模态理解与数学优化优势[19] 性能表现与实验结果 - 在ORS3D-60K数据集上,GRANT在综合性能指标上达到53.49,相比基线方法提升10.46个百分点[18] - 任务执行效率相比基线方法提升30.53%,同时3D定位精度不仅没有牺牲反而提升1.38%[19] - 实际案例显示,模型能将总耗时从74分钟压缩至45分钟,效率提升39%,并在每一步都实现高精度3D物体定位[21]