Workflow
Chain of Thought (CoT)
icon
搜索文档
刚刚,OpenAI开源2个推理模型:笔记本/手机就能跑,性能接近o4-mini
量子位· 2025-08-05 21:09
开源模型发布 - 公司时隔6年再次开源大模型,推出gpt-oss-120b(1170亿参数)和gpt-oss-20b(210亿参数)两个推理模型,采用Apache 2.0许可证允许商用[1][3][4] - 模型名称直接标注为开源系列(Open Source Series),性能达到开源模型第一梯队,但在代码生成和复杂推理任务中仍略逊于闭源模型[4][5] - 大模型采用MoE架构,gpt-oss-120b激活参数51亿/总参数1170亿,gpt-oss-20b激活参数36亿/总参数210亿,分别支持单张80GB GPU和16GB内存消费级设备运行[6][30] 技术参数对比 - 在MMLU(通用学科测试)中,gpt-oss-120b得分90分,接近o4-mini的93分;gpt-oss-20b得分85.3分[7][50] - 竞赛数学AIME测试中,gpt-oss-120b在2024/2025年分别取得96.6/97.9分,超越o3-mini但略逊于o4-mini的98.7/99.5分[7] - 健康问答HealthBench和工具调用TauBench测试中,gpt-oss-120b表现超越o4-mini,gpt-oss-20b达到或超过o3-mini水平[41][42][47] 架构与训练 - 采用Transformer+MoE架构,使用分组多查询注意力(组大小8)和旋转位置嵌入(RoPE),支持128k上下文长度[29][31] - 训练数据聚焦STEM、编程和通用知识领域,使用o200k_harmony分词器(同步开源)[33] - 后训练流程包含监督微调和强化学习阶段,支持低/中/高三种推理强度调节,通过系统提示语即可设置[35][38][39] 应用演示 - 实测显示gpt-oss-120b在Macbook Pro(配2块H100)上可实现40-50 tokens/s生成速度,成功完成断网环境下的工具调用和游戏修改[13][17][18][20][22][24] - 模型展现优秀的思维链能力,能通过多次调用Python工具完成天气查询等任务,虽存在中间错误但最终输出正确[14][15][18] 开源战略意义 - 公司称此次开源是"开源权重模型的重要进步",旨在降低AI门槛、推动研究创新,特别帮助资源受限组织获取先进AI工具[59][60][61] - 开源模型作为托管模型的补充,可促进AI开发民主化,实现更安全透明的AI生态[60][62] - 这是自GPT-2后首个开放权重的语言模型,包含数十亿美元研究成果[7][28]
会“思考”的目标检测模型来了!IDEA提出Rex-Thinker:基于思维链的指代物体检测模型,准确率+可解释性双突破
机器之心· 2025-06-30 10:23
技术突破 - 提出Rex-Thinker解决方案 首次将人类逻辑推理链引入视觉指代任务 通过规划-验证-决策三步走框架实现可解释的AI决策[1][2][5] - 采用基于检索的检测多模态模型设计 结合CoT推理机制 显著提升目标定位准确率和抗幻觉能力[7][9][17] - 在权威测评中准确率显著提升 平均DF1指标达到83.5 拒识子集表现提升13.8个百分点[19][21][25] 模型架构 - 候选框生成阶段使用开放词汇检测器(如Grounding DINO)提取所有可能目标区域作为Box Hint输入[9] - 链式推理阶段对每个候选框生成结构化思考过程 输出标准化JSON格式目标坐标[9][10] - 训练流程采用两阶段策略:SFT冷启动训练掌握基本推理框架 GRPO强化学习优化推理质量与可靠性[11][16][17] 性能表现 - 在HumanRef Benchmark评测中 Rex-Thinker-GRPO版本达到86.6平均DF1值 在属性、位置、交互等子任务中均领先[21] - 跨类别评估显示良好泛化能力 在RefCOCOg数据集上未经微调即达到83.2准确率 经少量微调后提升至88.8[22] - 相比传统模型如Ferret-7B(34.3 DF1)和Qwen2.5-VL-7B(56.2 DF1)有显著提升[21] 应用价值 - 可视化结果显示模型具备清晰的推理路径和可解释性 能有效处理多干扰项和不存在目标的复杂场景[24] - 在线Demo已开放 提供实际应用体验 代码已在GitHub开源[3][7] - 该技术为计算机视觉领域提供新的研究方向 特别是在需要高精度目标定位和可靠拒识能力的工业场景中具有应用潜力[1][2][24]