强化学习

搜索文档
沉寂一个月,openPangu性能飙升8%!华为1B开源模型来了
机器之心· 2025-09-05 04:31
端侧AI模型技术突破 - 华为发布专为昇腾端侧硬件打造的高性能语言模型openPangu Embedded-1B 通过软硬件协同设计显著降低推理延迟并提升资源利用率 采用多阶段训练策略增强任务表现[1] - 模型仅10亿参数但实现性能与效率高度协同 树立"小模型大能力"新标杆 成功将强大AI能力带入端侧设备[2] 性能表现与基准测试 - 模型在多个权威基准上创下10亿参数级别全新SOTA纪录 整体平均分达63.90 持平更大规模Qwen3-1.7B模型(63.69分)[3] - 数学推理能力突出 GSM8K数学基准达82.76% MATH数学题集达81.83% 大幅领先同类模型[3] - 相比上月开源版本V1 V1.1版本平均分实现8%以上大幅跃升 显示开源盘古系列加速迭代升级[5] 软硬件协同优化 - 针对昇腾Atlas硬件特性定制网络超参数 隐藏层规模与前馈网络维度匹配高效吞吐配置 确保计算单元充分利用[9] - 在Atlas 200I A2硬件上首字输出延迟仅约1.8秒 后续每词生成约0.156秒 速度优势显著[12] 创新训练方法 - 采用两阶段课程学习式微调 第一阶段专注理性推理能力 第二阶段训练快速作答 激活深层推理能力[15][23] - 引入离线On-Policy知识蒸馏方法 学生模型自主作答后教师模型针对性指导 提升准确率和泛化能力[18][24] - 采用多源奖励强化学习机制 数学代码任务使用规则奖励 复杂任务采用轻量级LLM评估 结合格式规范奖励策略[22][25] - 开发昇腾NPU集群高效并行方案 减少约30%设备空闲 通过主机-设备权重共享优化大规模强化学习运行效率[21] 技术发展前景 - 提出自适应快慢融合方案 模型可根据问题难度自动选择快速作答或深入推理 在保持精度的同时提高易答问题效率[29] - openPangu-Embedded-7B模型已应用该策略并在7B量级取得领先 升级版本即将开源[30]
从近1000篇工作中,看具身智能的技术发展路线!
具身智能之心· 2025-09-05 00:45
机器人操作技术演进 - 机器人操作从机械编程向具身智能演进 从简单夹爪发展到多指灵巧手[5] - 灵巧操作依赖数据采集与技能学习框架 包括模拟 人类演示和遥操作三种数据采集方式以及模仿学习与强化学习两种学习框架[5] - 面临三大关键挑战 涉及复杂被操作对象和多样操作类型[5][8] - 核心技术方向包括灵巧操作 多指手 人工智能赋能机器人 数据采集 模仿学习和强化学习[6] 具身导航与物理模拟器 - 导航与操作是具身智能核心能力 现实训练存在高成本问题 Sim-to-Real迁移受域差距制约[9] - 物理模拟器分为室内型 室外型和通用型 包括Habitat AI2-THOR CARLA AirSim ThreeDWorld和Isaac Sim等[14][15] - 导航从显式记忆转向隐式记忆 操作从强化学习拓展至模仿学习 扩散策略及VLA模型[15] - 操作任务按复杂程度和自由度递增 硬件演进涵盖多种类型[13] 具身多模态大模型发展 - 具身多模态大模型可弥合感知 认知与动作鸿沟 基础构成包括具身智能体 大语言模型 大视觉模型和视觉语言模型等[16][19] - 核心任务涵盖具身感知 导航 交互和仿真 感知分GPT与非GPT模型 导航分通用与专用模型 交互分短长视域动作策略[19] - 数据集包括Open X-Embodiment和HM3D等 面临跨模态对齐难 计算资源消耗大 领域泛化性弱等技术挑战[19] 具身仿真与研究任务 - 具身AI模拟器存在真实感 可扩展性和交互性问题 研究任务面临长轨迹记忆设计等多重挑战[20][24] - 视觉探索通过运动或感知构建环境内部模型 方法分好奇心驱动 覆盖最大化和重建驱动 核心数据集为Matterport3D和Gibson V1[24] - 视觉导航含点导航 物体导航 带先验导航和视觉语言导航 评估指标以成功率和路径长度加权成功率为主[24] 强化学习在视觉领域应用 - 强化学习在大语言模型中成效显著 近年拓展至视觉多模态领域 面临高维视觉输入等挑战[25] - 基础理论涵盖RLHF DPO和RLVR三大对齐范式 以及PPO和GRPO两种策略优化算法[26] - 核心研究方向包括多模态大语言模型 视觉生成 统一模型和视觉语言动作模型[28] 遥操作与人形机器人 - 人形机器人遥操作可结合人类认知与机器人物理能力 适配人类环境与危险场景如核救援和空间探索[29] - 系统架构含人类状态测量 运动重定向 机器人控制和多模态反馈 支持单向或双向遥操作[32] - 应用包括远程存在和危险作业等 挑战集中在非专家操作门槛 动态环境适应和长延迟稳定性[35] 视觉语言动作模型进展 - VLA模型从跨模态学习架构演化至融合视觉语言模型和动作规划器的通用智能体 涵盖80多个近三年发布的模型[33] - 按架构范式分类 提出基于任务复杂度 模态多样性和数据集规模的新型评估标准 涉及102个VLA模型和26个基础数据集[36] - 发展历程分萌芽 探索和快速发展三阶段 从模型架构 训练数据 预训练方法 后训练方法和模型评估五个维度剖析现状[38] - 横向整合VLA建模实践 提出单体模型与分层模型的分类体系 探索强化学习融合等前沿方向[41]
GPT-5被批过度炒作、性能落后,OpenAI联创揭秘其中原因:我们把它关在 “象牙塔”,和现实世界接触不够
AI前线· 2025-09-04 06:30
GPT-5企业市场表现 - GPT-5目标用户为企业市场而非普通消费者[2] - 多家初创公司如Cursor、Vercel和Factory已将GPT-5设为默认模型 因其设置速度更快 复杂任务表现更出色且价格更低廉[2] - 在代码和界面设计领域 GPT-5已能与Anthropic的Claude相匹敌甚至实现超越[2] 企业客户反馈与测试 - Box针对长篇逻辑性文档测试GPT-5 其CEO称该模型推理能力是以往系统无法比拟的突破[3] - JetBrains将GPT-5设为AI Assistant和Kineto的默认语言 因其能快速生成单一用途工具[3] - Factory与OpenAI合作将GPT-5设为默认工具语言 其CEO指出GPT-5在制定复杂编码解决方案计划方面表现更好 长期计划连贯性更优[3] - Lovable公司对GPT-5 Beta测试非常满意 发现其在复杂用例中更强大智能 且更易采取行动并反思[4] 技术发展与模型能力 - GPT-5代表几乎难以形容的智能 能在IMO数学竞赛中写出顶尖人类水平证明 这是前所未有的突破[22] - 模型从纯文本GPT-3 多模态GPT-4发展到GPT-5时代核心特征为与AI合作的科研模式 加速人类研究进展[22][23] - 在强化学习范式下 模型通过尝试和反馈学习 人类设计任务价值极高但需要成比例投入更多算力[12] - 从GPT-4发布至今 同等智能水平成本已降低1000倍 仅用两年半时间[35] 算力与扩展 - 模型发展瓶颈永远是算力 只要有足够算力就能找到方法迭代并充分利用[12] - 算力可分配到不同维度 如让模型更大 投入更多预训练算力或更多推向强化学习[13] - 算力是从能量变成算力再变成智能的结晶化过程 训练时投入大量算力但可无数次复用摊薄成本[14] 模型应用与泛化 - GPT-5在需要深度智能的复杂问题上表现比任何其他测试模型都好[24] - 模型已能泛化到不同领域 如IMO模型也能在IOI中获得金牌 无需专门训练[14] - 在生物学领域 训练400亿参数模型处理DNA序列 效果相当于GPT-1到GPT-2之间 但需解决长上下文挑战[19] 开发与工程实践 - 开发者需积累提示词库 测试模型优势和短板 并思考如何拆分任务让模型处理自包含子任务[25] - 代码库应围绕模型优劣构建 更独立单元 快速运行单元测试和清晰文档[41] - 模型在软件工程中优势高度匹配大多数工程师工作 如用不熟悉语言写代码 但架构类问题也开始擅长[39] 安全与可靠性 - 从深度防御角度思考代理稳健性 采用指令层级技术防止恶意攻击[28] - 模型规范让外界清晰了解对模型预期 规范与实际行为差距不断缩小[29] - 随着代理被赋予更多责任 安全性和可靠性必须同步提升[29] 定价与成本 - GPT-5定价有竞争力 甚至比Gemini更低[34] - 定价历史持续降价 每年降10倍甚至更激进 如GPT-3降价80%后使用量增长使收入持平或上升[34] - 当前瓶颈主要是计算资源 依赖算力 但还有很大效率提升空间[35] 未来方向与研究 - 研究领域多样性出乎意料 不同实验室有不同视角和聚焦点[43] - OpenAI关注如何通过研究实现阶跃式突破和范式转变 如推理范式突破[44] - 多模态 生成方式等方面多样性让研究比以往更丰富[44]
以年轻科创精神为桥梁,“西南偏南”科技艺术节向2025外滩大会发来邀请
经济观察网· 2025-09-04 04:50
大会概况 - 2025年外滩大会于9月10日至13日在上海黄浦世博园区召开 主题为"重塑创新增长" [1][4] - 大会包含1场开幕主论坛 40多场开放见解论坛 全球主题日 18场创新者舞台 近万平米科技展览 5000平科技集市及1场科技智能创新大赛 [4] - 吸引10多个国家近两万名青年科技人才报名参与 包括中国 美国 英国 澳大利亚 加拿大 韩国 新加坡 巴西 爱尔兰 越南 [2] 行业影响力 - 美国科技艺术节"西南偏南"战略合作副总裁Neil Minocha特别视频致信 肯定大会展现的人与科技创意链接及中国年轻一代的创造力 [1] - "西南偏南"被誉为全球青年科技朝圣之地 是Twitter Airbnb Snapchat等知名产品的发迹摇篮 [1] - 外滩大会聚集近百位AI科学家 科技企业创始人 CEO及年轻AI科技人才 包括图灵奖得主理查德·萨顿 宇树科技CEO王兴兴 AI青年领军人物许华哲 吴翼等 [2] 科技展示内容 - 科技展区提供蚂蚁健康管家AQ的一键拍药盒 读体检报告 病症咨询 睡眠管理 皮肤管理 肺功能检测等360度健康管家服务 [3] - 机器人小镇展示机器人拳击赛 武术 足球赛互动 低空飞行器 自动驾驶等未来生活方式体验 [3] - 创新者舞台呈现可控核聚变等尖端科学 AI复刻味觉触觉 城市噪音转预防阿尔兹海默症的创意DJ等跨界实践 [3] 国际交流合作 - "西南偏南"2026年将迎来40周年庆典 向中国年轻创新者及外滩大会参与者发出赴奥斯汀参与盛会的正式邀请 [4] - 大会被评价为科技从宏大走向具体的实践平台 强调科技不仅关乎芯片火箭 更关乎AI生活伙伴 用药提醒助手等日常应用 [3][4]
苹果四位 AI 大将出走,其中三位是华人
36氪· 2025-09-04 02:13
前段时间轰轰烈烈的Meta抢人行动,容易让我们忘掉一点:AI人才的流动一直都很大,而"被高薪挖走"从来就不是唯 一的原因。 彭博社名记马克·古尔曼(Mark Gurman)爆料称,苹果又损失了四位AI大将,分别是: 苹果的机器人首席AI研究员Jian Zhang,以及苹果基础模型团队三名研员Nan Du、Zhao Meng和John Peebles。 从这里面我们至少能得到两个信息。 第一,离开的研究员很集中,有三个都是基础模型团队的。 第二,华人占比依然很高,四个当中除了John Peebles都是华人。 这很像是Meta抢人的习惯,但这次真的它关系不大——四个人中,只有Jian Zhang去了Meta。Nan Du和John Peelbles去 了OpenAI,而Zhao Meng则加入了Anthropic。 Meta挖走了苹果的机器人AI大将 从2005年加入,到如今离开,Jian Zhang在苹果整整效力十年。领英资料显示,他离开时已经是苹果人工智能与机器学 习(AIML)部门的机器人研究负责人。 不同于特斯拉的人形机器人项目,机器人技术是苹果未来产品线的关键组成部分。据彭博社报道,苹果有一系列设备 ...
松延动力:从清华园跑出的机器人“小孩哥”
新京报· 2025-09-03 02:02
公司背景与创始人 - 松延动力是北京机器人企业 创办不足两年 旗下人形机器人产品N2被观众称为"小孩哥" [1] - 创始人姜哲源1998年出生 清华大学电子工程系毕业 博士期间专攻强化学习 2023年从清华博士辍学创业 [2] - 公司办公地点从海淀迁至昌平 单位面积扩大一倍 团队完成扩招 [1] 产品与技术路线 - 核心产品包括可跑步的N2机器人(身高1.2米)、7自由度手臂的E1机器人 以及全球首个脸部突破30自由度的仿生人机器人"小诺" [1][5] - 采用"自研硬件本体+运动控制算法"技术路线 目标实现人形机器人的高度集成与智能化 [5] - N2机器人售价数万元 定位小尺寸适合科研教育 安全且易二次开发 [3] 市场表现与订单 - N2机器人总订单量突破2500台 总合同额超过1亿元 成为继宇树科技后又一家销量破千的人形机器人公司 [3] - 人形机器人马拉松赛后每日咨询量从300次增长至500-1000次 [3] - 产品聚焦教育、科研、文旅、商演四大场景 计划2025年第四季度发力海外市场 [5] 赛事成就与产品验证 - 获得人形机器人马拉松比赛亚军 世界人形机器人运动会体操项目与跳远项目金牌 个人舞蹈项目银牌 [1][4] - 在体操项目中配合《本草纲目》完成动作 在舞蹈项目中表演英歌舞 [4] - 赛事成绩印证了产品在多领域的应用潜力 [4] 融资与资金状况 - 2023年底依靠首个机器人原型获得种子轮融资 [2] - 2023年10月公司账上现金约3000万元 但2024年初因研发停滞和团队臃肿导致资金濒临枯竭 [2] - 仿生人脸机器人产品获得北京机器人产业投资基金投资 老股东追投使公司度过危机 [2] 行业环境与政策支持 - 北京市2019年起连续出台两轮三年行动计划 培养专精特新"小巨人"企业57家 获批手术机器人注册证33个 集聚人形机器人整机单位30家 均居全国首位 [5] - 2024年北京市机器人产业营收同比增长50% 2025年上半年增长40% 产业稳居国内第一梯队 [5] - 公司发展受益于北京市及昌平区的前瞻布局与支持 [5]
机器人操控新范式:一篇VLA模型系统性综述 | Jinqiu Select
锦秋集· 2025-09-02 13:41
文章核心观点 - 基于大型视觉语言模型(VLM)的视觉-语言-动作(VLA)模型是机器人操控领域的变革性范式,通过语义理解和推理能力显著提升机器人在非结构化环境中的泛化执行能力 [1][4][5] - 哈尔滨工业大学(深圳)团队首次提出系统性分类法,将VLA模型划分为单体模型(Monolithic Models)和层级模型(Hierarchical Models),以解决架构多样性和研究碎片化问题 [1][6][8] - VLA模型与强化学习、免训练优化、人类视频学习和世界模型等前沿技术结合,未来方向包括记忆机制、4D感知和多智能体协作等 [1][58][91] 背景与演进 - 传统机器人操控方法依赖预定义任务规范,在非结构化环境中泛化能力有限,而VLM通过海量图文预训练跨越视觉与语言的语义鸿沟 [4][9][11] - 现代VLM(如LLaVA1.5、Qwen-VL)采用三组件架构:视觉编码器、投影器和大型语言模型,统一处理多模态任务并支持高级推理能力 [9][10] - VLA模型将机器人动作处理为文本token,与语言输出联合训练,实现语义理解能力飞跃(如RT-2相比RT-1在未见过指令任务上成功率显著提升) [12][13] 单体模型(Monolithic Models) - 单系统架构(如RT系列、OpenVLA)统一处理视觉、语言和动作生成,通过自回归解码生成动作token,参数量达70亿级别 [14][17][18] - 双系统架构(如π0、CogACT)分离快速反应的动作专家与慢速推理的VLM骨干,通过级联或并行方式协作,推理速度提升3倍以上 [15][35][30] - 性能增强方向包括3D/4D感知(如SpatialVLA、TraceVLA)、多模态融合(触觉、音频)和推理优化(动态token剪枝、1-bit量化) [21][23][31] 层级模型(Hierarchical Models) - 规划器+策略架构明确解耦高层规划与底层执行,生成可解释中间输出(如关键点、程序代码),支持长时程任务 [43][44][53] - 仅规划器方法(如Chain-of-Modality)生成可执行程序或文本指令,而规划器+策略模型(如HiRobot)通过扩散策略执行原子命令 [44][49][53] - 基于关键点的方法(如HAMSTER、RoboPoint)预测交互区域或轨迹路点,结合优化器生成动作,在7个泛化轴向上成功率提升20% [45][51][80] 前沿领域结合 - 强化学习通过密集奖励信号(如VLA-RL的RPRM模型)和离线-在线混合训练(如ReWiND)解决长时任务稀疏奖励问题 [59][60][61] - 免训练方法(如FlashVLA、EfficientVLA)通过触发机制和token复用跳过冗余计算,实现最高5倍训练加速 [62][63][64] - 人类视频学习(如UniVLA、LAPA)对齐人类-机器人交互特征,世界模型集成(如WorldVLA)通过预测未来状态优化动作规划 [65][66][68] 模型特性 - 多模态融合通过共享嵌入空间实现视觉、语言和动作的token级对齐,支持深度、触觉等模态扩展(如PointVLA集成点云数据) [69][71][73] - 指令遵循能力支持语义锚定(如ChatVLA-2理解白板数学问题)和思维链推理(如CoT-VLA预测视觉子目标) [74][76][75] - 跨领域泛化能力显著,如DexVLA实现跨机器人形态技能迁移,π0.5在分布外数据上成功率超90% [78][79][80] 数据集与基准 - 真实世界数据集(如OXE)整合22个机器人平台超100万演示,覆盖500多种技能,但长尾分布数据仍不足 [82][83][84] - 仿真基准(如BEHAVIOR、ALFRED)支持多阶段语言指令任务,CALVIN提供无约束指令下的长时程行为学习 [85][86] - 人类行为数据集(如Ego4D、EPIC-Kitchens)提供829小时密集手部追踪视频,支持精细化操作学习 [87][88] 未来方向 - 需开发融合真实世界复杂性和长期任务评估的基准,包含子任务成功率和抗干扰性等指标 [91] - 技术突破重点包括4D感知(整合深度与时间演化)、移动操作(导航与抓取协同)和多智能体协作(共享世界模型) [93][94][96] - 模型效率优化需平衡计算资源与实时需求,通过动态token剪枝和硬件友好量化降低延迟 [98]
性能逼近闭源最强,通义实验室开源Mobile-Agent-v3刷新10项GUI基准SOTA
机器之心· 2025-09-02 03:44
文章核心观点 - 通义实验室发布全新Mobile-Agent-v3开源解决方案,包含GUI-Owl模型和配套框架,在桌面、移动和Web端实现全链路GUI自动化能力 [1] - GUI-Owl-7B模型在多项基准测试中超越同类开源模型,32B版本性能接近甚至超越GPT-4o和Claude 3.7等顶级闭源模型 [1][21][29] - 通过自我进化数据生产系统和可扩展强化学习体系,实现模型在真实环境中的持续优化和稳定运行 [11][13][23][26] 技术架构创新 - 基于云环境的全链路开源解决方案,支持Android、Ubuntu、macOS、Windows多操作系统云环境基础设施 [11] - 创新性采用自我进化GUI轨迹生产链路系统,自动化生成和筛选训练数据,将人工参与降至最低 [11][13] - 通过轨迹正确性评估模块(Step-Level Critic和Trajectory-Level Critic)实现双重校验机制 [13] - 针对困难任务生成指南生成模块,通过VLM提炼关键动作描述,LLM总结成通关攻略 [14] 性能表现数据 - GUI-Owl-7B在AndroidWorld基准测试中成功率达到59.5%,超越UI-TARS-72B的14.8%和Qwen2.5-VL-72B的52.6% [21] - GUI-Owl-32B在OSWorld-Verified子集测试中达到48.4%成功率,显著超过Seed-1.5-VL的39.7%和Qwen2.5-VL-72B的38.6% [21] - 32B版本在多项评测中展现超越闭源顶级模型的实力 [29] 核心能力构建 - 极致UI元素定位能力:构建复合型Grounding数据集,融合功能、外观、布局等多维信息 [16] - 深度长任务规划与动作语义理解:从历史成功轨迹中蒸馏经验,并从Qwen3-235B等大模型中学习通用规划知识 [19] - 强大稳健推理与泛化适配能力:从Mobile-Agent-v3多智能体框架中蒸馏推理数据,学会多角色视角思考 [20] - 采用SAM对PC界面进行子区域分割,MLLM进行精细定位,解决元素密集界面定位难题 [16] 强化学习体系 - 设计可扩展的环境级强化学习体系,采用统一任务插件接口支持长短任务 [23] - 引入Trajectory-aware Relative Policy Optimization算法,解决奖励信号稀疏和延迟问题 [26] - 采用Replay Buffer机制缓存成功案例,确保模型始终获得正向反馈 [26] - 经验生成与策略更新完全解耦,优化训练效率与成本平衡 [23] 应用价值 - 单一模型即可胜任复杂单体任务与多智能体协作中的不同角色,显著降低部署和资源开销 [29] - 天然具备跨环境、跨角色泛化能力,即插即用到第三方Agent框架仍保持优异性能 [20] - 通过云端沙箱灵活性,能够快速适应并解决各类新场景下的自动化难题 [29]
XDog:具身低成本科研平台,四足机械狗+单臂(含VLA/强化学习/仿真/sim2real教程)
具身智能之心· 2025-09-02 02:00
产品定位与核心功能 - Xdog是一款低成本多功能四足机械狗+机械臂开发平台 专为具身智能开发者设计 涵盖机器狗二次开发、仿真强化学习和sim2real迁移部署等技术栈 [1] - 平台已实现语音控制、目标识别与跟踪、机械臂自主抓取、强化学习步态控制等核心功能 支持ROS1开发环境 [2] - 机械狗与机械臂通过ROS通信 机械臂和总系统由PC控制 正上方抓取高度达0.85米 基座周围抓取范围0.4米 [6][7] 硬件配置参数 - 机械狗采用蔚蓝品牌 尺寸25cm×20cm×30cm 总重7kg 配备Allwinner H616四核1.6GHz主控芯片 4G内存和32G存储 [3][4][11] - 单腿自由度3个 电池能量93.24Wh 综合续航120分钟 最大前进速度7.2公里/小时 最大旋转速度450度/秒 [5][11] - 配备SO101机械臂 采用20KG总线舵机 搭配9-12.6V输入驱动板和12V/7A电源适配器 [12] - 深度相机采用主动双目红外+结构光技术 深度分辨率1280×800@30fps 工作距离0.2-10米 RGB分辨率1080p@30fps [14] 软件与控制系统 - 支持语音控制(TCP协议)、键盘控制、视觉控制和强化自主运动等多种控制方式 [15] - 开发语言以Python为主 系统基于ROS1 推荐使用2080ti及以上显卡进行推理 [16] - 集成主流大模型实现低延迟高准确性语音交互 支持二次开发 [17] - 实现机械臂MuJoCo仿真映射、目标跟随算法协同控制和自主抓取(ACT)功能 [18][19][20] 课程体系与技术支持 - 课程涵盖ROS基础、Mujoco仿真、IsaacGym环境配置、强化学习算法(PPO/DreamWaQ)和YOLO目标识别等核心内容 [22][23] - 配备5人专业讲师团队 涵盖硬件设计、视觉算法和强化学习等领域 含港大博士生技术支持 [22] - 提供增值课程包括乐鑫开发板应用和机器人大模型语音控制系统开发 [23] 配套服务与交付 - 配套赠送专用遥控器和充电器套装 开发接口包含千兆以太网、WiFi/BT和USB2.0等 [5] - 建议配置为2080ti及以上GPU和i7及以上CPU进行二次开发 [24] - 付款后3周内完成调试交付 提供1年售后服务期 视频和源码在硬件收货后立即提供 [25][26]
大模型开始打王者荣耀了
量子位· 2025-09-02 01:40
腾讯TiG框架技术突破 - 提出Think-In-Games框架 将大语言模型直接应用于《王者荣耀》训练 实现实时游戏盘面理解与人类级别操作[1] - 仅14B参数的Qwen-3-14B模型通过TiG框架达到90.91%动作精准度 超越671B参数的Deepseek-R1模型[2] - 将强化学习决策重新定义为语言建模任务 通过语言指导策略生成与环境反馈迭代优化[3] 技术实现原理 - 大语言模型在游戏中直接行动并解释原因 弥合传统LLM只知原理与RL只知行动的鸿沟[4][5] - 主要学习人类玩家宏观层面推理能力 包括长期目标制定 团队协同策略 地图施压控制等[6] - 将决策转化为文本 通过JSON读取游戏状态 从固定菜单选择宏操作并解释原因[7] 训练方法与数据构建 - 采用多阶段训练结合监督微调与强化学习 使用GRPO算法最大化生成内容优势[12][9] - 从真实对局采样构建数据集 通过重新标注算法确保每个状态带有宏观动作标签[9] - 基于二元规则奖励机制 预测操作与人类玩法匹配时奖励为1 否则为0[11] 模型性能表现 - Qwen-2.5-32B应用GRPO后准确率从66.67%提升至86.84%[14][15] - Qwen2.5-14B经SFT+GRPO训练后准确率从53.25%提升至83.12%[14][15] - 最佳表现组合为Qwen-3-14B+SFT+GRPO(2000步) 达到90.91%准确率[2][15] 应用场景特征 - 模型扮演战略决策角色而非操作执行 类似金牌教练而非职业选手[6][7] - 具体案例显示模型能全面评估游戏状态 分析优先目标 制定策略并输出指令[8][9] - 在数据量和计算需求显著降低情况下取得与传统RL方法竞争性性能[17]