Chain of Thought (CoT)
搜索文档
最近做 VLA 的一些心得体会
自动驾驶之心· 2025-12-11 00:05
视觉语言模型在自动驾驶应用中的核心挑战与解决方案 - 文章核心观点:视觉语言模型在自动驾驶领域展现出潜力,尤其在可解释性方面具有优势,但其在落地应用前仍需克服幻觉、3D空间理解不足和速度慢等关键挑战,行业正通过改进感知范式、训练任务、模型交互和推理过程来应对这些问题[3] VLM应用于AD的主要问题与改进方向 - 幻觉问题具体表现为无中生有和视而不见,其根源在于静态感知,解决方案包括转向动态感知、通过多次校验或DPO减少训练数据及模型产生的幻觉、以及允许模型“回头放大看看”[3] - 3D空间理解能力不足源于预训练任务多为2D,解决方案是在训练时加入空间定位任务,例如混合具身数据,研究证明额外使用3D感知和PnC轨迹生成模块效果更好[3] - 速度慢是主要瓶颈,可通过KV Cache、Visual token压缩、以及通过混合数据和强化学习让模型学会“按需思考”并根据提示调节思考深度来优化[3] VLM在自动驾驶中的技术评估与学习范式 - 从学术评估指标看,VLA方案与基于Diffusion的方案效果不相上下,VLM的核心优势在于其可解释性[3] - 学习范式需要从模仿学习转向偏好学习,在强化学习阶段,多任务同时训练比单任务分阶段训练效果更好[3] - 防止基础模型发生灾难性遗忘的最简单有效方法是增加预训练数据[3] 提升VLM模型性能的技术路径 - 提供更丰富的监督信号有助于模型学到更好的表征,具体方式是在VLM基础上增加其他任务头,如预测下一帧画面、3D占据与流、物体检测、交通信号灯识别等,这种方式有助于实现缩放定律[3] - 思维链技术很重要,但在海量数据下应用不易,除了纯文本形式,多模态思维链正在兴起[3] - 目前VLM中视觉与语言的交互不足,限制了其作为基础模型的效果,改善思路是增强视觉-语言交互,例如Qwen3-VL使用Deepstack将图像token输入到LLM的不同层,或引入图像生成的辅助任务[3] 轨迹生成与模型评估的现状 - 轨迹的输出方式不重要,无论是VLM直接以文本输出、输出特殊token映射为轨迹,还是接扩散头生成轨迹,效果都不错,工业界主要采用扩散头生成轨迹,因其速度最快[3] - 评估面临挑战,闭环测试指标比开环差,原因包括训练目标与在线部署目标不一致,以及训练时的离线传感器数据与测试时实时观测数据分布不同[3] 关于思维链的深入探讨 - 是否需要推理时也加入视觉思维链?研究指出,仅用图像生成做思维链对视觉规划任务的指标和泛化性都有提升,例如FSDrive用图像思维链代替文本思维链可提升场景理解并降低碰撞率[3] - 让模型在思维链过程中调用工具能取得更好效果,例如调用视角、查看历史、放大、测距等[3] - 目前VLM添加思维链后在AD中效果不佳的原因包括:思维链质量不高、因果关系不强;测试集不够复杂;以及VLM基础模型本身因视觉-文本对齐不佳而无法拥有LLM的优良特性[3]
刚刚,OpenAI开源2个推理模型:笔记本/手机就能跑,性能接近o4-mini
量子位· 2025-08-05 21:09
开源模型发布 - 公司时隔6年再次开源大模型,推出gpt-oss-120b(1170亿参数)和gpt-oss-20b(210亿参数)两个推理模型,采用Apache 2.0许可证允许商用[1][3][4] - 模型名称直接标注为开源系列(Open Source Series),性能达到开源模型第一梯队,但在代码生成和复杂推理任务中仍略逊于闭源模型[4][5] - 大模型采用MoE架构,gpt-oss-120b激活参数51亿/总参数1170亿,gpt-oss-20b激活参数36亿/总参数210亿,分别支持单张80GB GPU和16GB内存消费级设备运行[6][30] 技术参数对比 - 在MMLU(通用学科测试)中,gpt-oss-120b得分90分,接近o4-mini的93分;gpt-oss-20b得分85.3分[7][50] - 竞赛数学AIME测试中,gpt-oss-120b在2024/2025年分别取得96.6/97.9分,超越o3-mini但略逊于o4-mini的98.7/99.5分[7] - 健康问答HealthBench和工具调用TauBench测试中,gpt-oss-120b表现超越o4-mini,gpt-oss-20b达到或超过o3-mini水平[41][42][47] 架构与训练 - 采用Transformer+MoE架构,使用分组多查询注意力(组大小8)和旋转位置嵌入(RoPE),支持128k上下文长度[29][31] - 训练数据聚焦STEM、编程和通用知识领域,使用o200k_harmony分词器(同步开源)[33] - 后训练流程包含监督微调和强化学习阶段,支持低/中/高三种推理强度调节,通过系统提示语即可设置[35][38][39] 应用演示 - 实测显示gpt-oss-120b在Macbook Pro(配2块H100)上可实现40-50 tokens/s生成速度,成功完成断网环境下的工具调用和游戏修改[13][17][18][20][22][24] - 模型展现优秀的思维链能力,能通过多次调用Python工具完成天气查询等任务,虽存在中间错误但最终输出正确[14][15][18] 开源战略意义 - 公司称此次开源是"开源权重模型的重要进步",旨在降低AI门槛、推动研究创新,特别帮助资源受限组织获取先进AI工具[59][60][61] - 开源模型作为托管模型的补充,可促进AI开发民主化,实现更安全透明的AI生态[60][62] - 这是自GPT-2后首个开放权重的语言模型,包含数十亿美元研究成果[7][28]
会“思考”的目标检测模型来了!IDEA提出Rex-Thinker:基于思维链的指代物体检测模型,准确率+可解释性双突破
机器之心· 2025-06-30 10:23
技术突破 - 提出Rex-Thinker解决方案 首次将人类逻辑推理链引入视觉指代任务 通过规划-验证-决策三步走框架实现可解释的AI决策[1][2][5] - 采用基于检索的检测多模态模型设计 结合CoT推理机制 显著提升目标定位准确率和抗幻觉能力[7][9][17] - 在权威测评中准确率显著提升 平均DF1指标达到83.5 拒识子集表现提升13.8个百分点[19][21][25] 模型架构 - 候选框生成阶段使用开放词汇检测器(如Grounding DINO)提取所有可能目标区域作为Box Hint输入[9] - 链式推理阶段对每个候选框生成结构化思考过程 输出标准化JSON格式目标坐标[9][10] - 训练流程采用两阶段策略:SFT冷启动训练掌握基本推理框架 GRPO强化学习优化推理质量与可靠性[11][16][17] 性能表现 - 在HumanRef Benchmark评测中 Rex-Thinker-GRPO版本达到86.6平均DF1值 在属性、位置、交互等子任务中均领先[21] - 跨类别评估显示良好泛化能力 在RefCOCOg数据集上未经微调即达到83.2准确率 经少量微调后提升至88.8[22] - 相比传统模型如Ferret-7B(34.3 DF1)和Qwen2.5-VL-7B(56.2 DF1)有显著提升[21] 应用价值 - 可视化结果显示模型具备清晰的推理路径和可解释性 能有效处理多干扰项和不存在目标的复杂场景[24] - 在线Demo已开放 提供实际应用体验 代码已在GitHub开源[3][7] - 该技术为计算机视觉领域提供新的研究方向 特别是在需要高精度目标定位和可靠拒识能力的工业场景中具有应用潜力[1][2][24]