文章核心观点 - 小米在AAAI 2026顶会上有7篇论文入选,覆盖了从音效编辑、语音问答、3D具身智能到自动驾驶等多个AI前沿领域,展示了其在底层技术上的全面布局和持续投入的成果 [5][6] 大规模Text-to-SQL的Schema链接 - 提出AutoLink框架,将传统一次性加载整个数据库Schema的模式,转变为让大语言模型像智能代理一样迭代式探索,只加载当前任务相关的部分 [9] - 该方法在Bird-Dev数据集上实现了97.4%的严格召回率(SOTA),在Spider-2.0-Lite上召回率达91.2%,执行准确率全球排名第二 [10] - 框架能有效处理超过3000列的大型数据库,保持高召回率、低token开销和稳健表现 [10] 大模型推理加速 - 提出SpecFormer模型,重新定义推测解码中草稿模型的角色,结合单向与双向注意力机制,使其既能理解全局上下文,又能并行生成预测 [12] - 该方法无需构建庞大的草稿树即可实现稳定加速,尤其在大批量推理场景下仍能持续提升速度 [13][15] - 相比传统方法,训练成本更低,硬件要求更友好,适合规模化部署 [15] 长语音问答 - 提出CLSR模型,旨在解决长语音处理中信息稀疏、计算成本高的问题,通过端到端检索直接从长语音中抽取最相关的片段,无需依赖庞大的ASR流水线 [16][17][23] - 引入“文本化中间表征”,将语音特征转换为类似文本的结构,以更自然、准确地进行跨模态对齐 [23] - 在四个跨模态检索数据集上均取得显著优势,超越了传统语音检索器及“ASR + 文本检索”的组合方案 [23] 多模态音效编辑 - 提出AV-Edit框架,通过结合视觉、音频、文本三模态信息来实现精细、自然且与画面一致的声效编辑 [20][21] - 核心是使用对比式音频-视觉掩码自编码器进行多模态预训练,再基于此表征训练多模态扩散Transformer,以自动移除噪声、补全声音并生成符合语境的声效 [24] - 在音效编辑任务中达到SOTA,并在更广泛的音频生成领域展现出强竞争力 [31] 具身智能任务调度 - 提出ORS3D新任务定义,要求智能体在理解语言、在3D场景中定位对象的同时,根据可并行的子任务设计最优时间安排 [26][32] - 构建了大规模数据集ORS3D-60K,覆盖4000个真实场景和6万个包含可并行子目标的复合任务 [26] - 提出GRANT模型,通过引入“调度标记”机制,使模型能明确规划任务的并行与顺序执行,在语言理解、3D grounding和调度效率三方面均取得强竞争力表现 [27][28] 空间导航 - 提出Spatial Navigation新任务,包含空间物体导航和空间区域导航两个子任务,旨在让机器人理解更复杂的空间关系指令 [33][40] - 构建了包含10,000条轨迹的空间导航数据集,以支持训练 [34] - 提出SpNav框架,结合视觉语言模型解析指令并识别目标,通过地图执行精确导航规划,在模拟与真实场景中均取得领先表现 [34][35] 自动驾驶长尾场景生成 - 提出VILTA方法,一种面向长尾场景的对抗性轨迹生成方法,将视觉语言模型引入训练闭环,对周围车辆的未来轨迹进行精细编辑 [36][37] - 引入运动学后处理机制,确保生成的对抗性轨迹满足车辆动力学约束,具有物理合理性 [38] - 在CARLA仿真中的实验表明,使用VILTA生成的场景进行强化学习优化,可显著降低自动驾驶策略的碰撞率,提升系统在复杂情形下的稳定性 [38]
小米7篇论文入选顶会AAAI,前沿领域全覆盖!