强化学习

搜索文档
VR-Robo:real2sim2real,机器人视觉强化学习导航和运动控制新范式!
具身智能之心· 2025-06-20 00:44
问题出发点 - 足式机器人在自主运动控制方面取得显著进展,但现实部署时因"仿真到现实"差异表现不佳[3] - 现有方法难以复现实景中的复杂几何和视觉细节,限制高层次视觉导航任务开展[3] - VR-Robo提出"真实-仿真-真实"统一框架,由清华大学等多家机构联合开发[3] 解决方案 - 结合基础模型几何先验,从图像重建几何一致性场景[4] - 采用GS-网格混合表示与遮挡感知策略构建可交互仿真环境[4] - 利用深度图/点云进行几何对齐,NeRF生成高保真场景图像[4] - 强化学习策略零样本迁移至真实机器人,实现第一视角导航[5] 技术实现细节 - 使用Isaac Sim环境进行物理交互,输入包括ViT编码的RGB特征、本体感知和颜色指令[7] - 采用非对称Actor-Critic结构和LSTM网络输出底层控制策略[7] - 训练时随机采样机器人/物体网格位置,同步融合高斯表示进行联合渲染[9] 实验性能 - 成功率(SR)和平均到达时间(ART)为核心指标[14] - VR-Robo在Easy/Medium/Hard场景SR达100%/93.33%/100%,ART为4.96s/6.28s/9.09s[15] - 对比方法中模仿学习SR为0%,SARO在Hard场景SR为0%,CNN编码器SR为6.67%-73.33%[15] - 消融实验显示纹理网格SR仅20%,去除域随机化后SR降至53.33%[15] 应用局限 - 当前仅支持静态室内环境,未覆盖动态/户外场景[16] - RGB重建的Mesh存在结构缺陷,需引入生成资产方法改进[16] - 单任务训练耗时约3天,需优化训练效率[16]
小鹏想要的,不止“留在牌桌上”
虎嗅APP· 2025-06-19 23:55
核心观点 - 小鹏汽车通过MONA M03车型实现销量和营收高速增长 同时净亏损大幅收窄 并通过精准产品定位和高效营销策略成功吸引女性及年轻用户群体 [3][4][6][13][16] - 公司持续加码自研AI芯片和智驾技术 通过大规模基座模型验证Scaling Law在自动驾驶领域的有效性 并计划在G7车型上实现超高算力配置以支持未来智驾功能升级 [20][21][23][28][34] 销量与财务表现 - 2024年1-5月销量同比增长293% 一季度营收同比增长142% 净亏损收窄52% [4] - 零跑汽车同期销量增长161% 营收增长187% 净亏损收窄87% [4] 产品策略:MONA M03 - 定价10万元级别 续航达620公里CLTC(实际450-500公里) 配备电动弹开门把手、电动尾门和智能泊车功能 [7] - 采用后桥扭力梁悬架 无仪表盘 方向盘仅两个滚轮 仿皮座椅 215/50 R18窄轮胎 无热泵空调 [8] - 从滴滴收购项目后仅用6-8个月完成产品调整 工程验证阶段至量产阶段内核全面优化 [9] 用户群体与营销创新 - 女性用户占比达38.6% 平均年龄28.5岁 未婚未育比例76.5% 远高于行业21.3%的女性用户平均水平 [13] - 快速推出白色内饰选项响应女性需求 女性下单比例进一步升至50% [14][16] - 采用青春化营销策略 邀请王勉、何广智、欧阳娜娜等明星参与发布会 打造"MONA小镇"沉浸式体验场景 [16] 技术研发与智驾布局 - 自研"图灵AI芯片"配备40核处理器、DSA、双ISP和双NPU 单颗支持300亿参数大模型 三颗组合算力超2200TOPS [20][21] - 基座模型累计训练2000万条30秒视频片段 参数规模达10亿至720亿 验证Scaling Law在智驾领域有效性 [28][29] - 引入强化学习机制 实现复杂场景下无保护左转、多车道变道、障碍物避让等高阶智驾功能 [30][33][34] 公司战略定位 - 明确"卷科技"路线 避免与传统车企拼价格 聚焦AI和智驾技术差异化竞争 [18][19] - 通过引入传统汽车行业人才优化采购、成本控制和销售体系 为技术创新提供支撑 [37][38]
小鹏想要的,不止“留在牌桌上”
虎嗅· 2025-06-19 23:13
销量与财务表现 - 零跑和小鹏1-5月销量同比分别增长161%和293%,一季度营收同比分别增长187%和142%,净亏损分别收窄87%和52% [2] - 两家车企营销策略差异显著:零跑保持低调仅举办两场车型发布会,小鹏则采用高强度营销流程包括多阶段产品发布和车主文化活动 [2][3] 产品策略与市场定位 - 小鹏MONA M03以10万元定价实现销量占比超50%,核心优势为620公里CLTC续航(实际450-500公里)、智能泊车等刚需配置,同时削减非核心功能如后桥扭力梁悬架、热泵空调等控制成本 [7][8][9][10][11] - 产品调整高效:小鹏在6-8个月内完成滴滴C1车型改造,通过用户需求调研优化配置,形成差异化竞争力 [12] 用户画像与营销创新 - MONA M03女性用户占比达38.6%(行业平均21.3%),年轻化(平均28.5岁)和未婚用户(76.5%)特征显著,通过白色内饰等快速响应提升女性占比至50% [18][19][20][21] - 营销活动精准定位:邀请欧阳娜娜等明星强化新手司机视角,打造"MONA小镇"场景化展示,发布会风格年轻化 [23][24][25] 技术研发与自动驾驶 - 小鹏自研"图灵AI芯片"单颗算力超700TOPS,G7搭载3颗实现2200TOPS算力,远超行业主流300TOPS配置,目标验证自动驾驶领域Scaling Law效应 [27][30][31] - 基座大模型采用思维链推理(CoT)技术,已训练720亿参数模型,累计处理2000万条30秒视频数据,结合强化学习实现自动驾驶能力持续进化 [36][40][42] - 实际路测显示复杂场景处理流畅,如无保护左转、多车道变道等,计划通过OTA升级将点对点智驾成功率提升至70% [44][45][47][48] 公司战略与行业竞争 - 小鹏明确"卷科技"路线,避免与传统车企价格战,聚焦智驾和AI技术差异化 [26][27] - 通过引入传统汽车人才优化供应链和成本控制,为技术创新提供支撑,目标建立体系化能力而非依赖单一爆款 [50][51]
羽毛球机器人如何“看得清”“动得准”?(创新汇)
人民日报· 2025-06-19 21:51
机器人技术突破 - 瑞士苏黎世联邦理工学院研发的新型足式机器人系统能够仅凭机载感知设备预测羽毛球飞行轨迹、调整自身位置并精确完成击球动作[2] - 该机器人展示了足式机器人执行复杂、动态、由感知驱动任务的能力,为整合机器人高速感知和全身协调能力提供新思路[2] - 研究团队选择羽毛球作为实验对象,通过设置不同难度击打目标渐进式检验和提升机器人性能[2] 感知与运动协调技术 - 研究团队开发感知噪声模型量化机器人运动状态对目标追踪影响,使机器人能适应动态模糊、目标遮挡等干扰[3] - 机器人可基于历史运动轨迹持续预测目标位置,并主动调整身体俯仰角度优化追踪效果[3] - 通过基于强化学习的统一控制框架,同步协调机器人周身18个关节运动,自主调整步态和击球方式[3] 性能表现与改进方向 - 机器人在测试条件下可与人类对手进行10次连续对打,对球场中心区域的球达到近100%拦截成功率[3] - 目前机器人从发现击球到挥拍动作平均需约0.35秒,感知和反应能力仍有提升空间[4] - 计划通过集成更多传感器、融合多种传感模式并优化视觉算法进一步升级性能[4] 应用前景与行业影响 - 该技术未来可应用于灾难响应、人机协作等需要快速响应和全身协调的复杂场景[4] - 足式机器人具有更强通用性,能适应更广泛应用场景,与人工智能技术融合将具备强大感知和操作功能[5] - 随着技术进步和成本下降,足式机器人将在工业、休闲娱乐、居家生活、养老照护等领域获得广泛应用[5]
推荐大模型来了?OneRec论文解读:端到端训练如何同时吃掉效果与成本
机器之心· 2025-06-19 09:30
核心观点 - 推荐系统正经历由大型语言模型(LLM)驱动的生成式革命,端到端架构成为解决传统级联架构瓶颈的关键[2] - 快手提出的OneRec系统首次实现端到端生成式推荐全链路重构,在效果与成本上实现双赢[2][8] - OneRec已在快手双端应用,承接25% QPS,提升停留时长0.54%/1.24%,LT7显著增长[2][33] 技术架构创新 - **架构设计**:采用Encoder-Decoder框架,将推荐转化为序列生成任务,Encoder压缩用户行为序列,MoE架构Decoder实现参数扩展[6][11] - **多模态分词**:首创协同感知方案,融合视频标题、标签、语音转文字等多维信息,分层语义编码(RQ-Kmeans三层ID)[13][14] - **强化学习整合**:通过P-Score奖励模型(个性化融合目标预测值)和ECPO优化算法,提升用户停留时长而不损失曝光量[19][22][25] 性能与效率突破 - **算力利用率**:训练/推理MFU提升至23.7%/28.8%,较传统精排模型(4.6%/11.2%)提升3-5倍[27][31] - **成本优化**:OPEX降至传统方案的10.6%,关键算子数量压缩92%至1,200个[27][31] - **训练加速**:自研SKAI系统优化Embedding训练,UGMMU减少kernel数量,时间加权LFU算法提升缓存效率[36] 实验效果 - **短视频场景**:AB测试显示停留时长提升0.54%/1.24%,LT7增长0.05%/0.08%,交互指标全面正向[33] - **本地生活场景**:GMV增长21.01%,订单量提升17.89%,新客获取效率提高23.02%,已100%全量上线[34] - **Scaling Law验证**:参数规模从0.015B增至2.633B时,训练损失显著下降,符合大模型扩展规律[15] 未来方向 - **多模态桥接**:需构建用户行为与LLM/VLM的原生融合架构[38] - **奖励系统完善**:当前设计较初级,需强化对用户偏好和业务需求的引导[38] - **推理能力提升**:Infer阶段Scaling能力不足,需进一步优化[38]
从 OpenAI 回清华,吴翼揭秘强化学习之路:随机选的、笑谈“当年不懂股权的我” | AGI 技术 50 人
AI科技大本营· 2025-06-19 01:41
吴翼的职业发展路径 - 高中时期获得全国青少年信息学奥林匹克竞赛金牌并代表中国参加国际竞赛[2] - 保送清华大学交叉信息研究院姚班,师从图灵奖得主姚期智[2] - 本科期间在微软亚洲研究院和Facebook实习[2] - 2014年赴加州大学伯克利分校攻读人工智能博士学位,师从Stuart Russell[4] - 博士毕业后加入OpenAI担任研究员,参与多智能体捉迷藏项目[4][5] - 2020年回国任清华大学交叉信息研究院助理教授[5] - 2023年创办边塞科技,探索大语言模型与强化学习结合[6] - 2024年与蚂蚁技术研究院合作推出开源强化学习系统AReaL[6] 强化学习技术发展 - OpenAI多智能体捉迷藏项目展示复杂行为通过简单规则自发涌现,成为观看量最高的研究视频之一[5] - AReaL系统专为大规模推理模型设计,优化强化学习训练效率与灵活性[6][18] - 推理模型通过"thinking token"机制提升准确性,强化学习成为关键训练工具[18] - 与RLHF相比,AReaL更关注提升模型推理能力而非行为调优[21] - 大模型时代强化学习面临新挑战:模型规模增长1000倍,计算需求剧增[23] - 训练系统效率成为关键瓶颈,开源系统价值可能超过开源模型[32] AI行业趋势与挑战 - 创业公司面临极短时间窗口,错过关键节点可能导致失败[12] - 模型分化趋势:大而强的高成本模型与轻量化高效小模型并存[31] - 强化学习三要素中系统门槛最高,数据质量次之,算法相对次要[30] - 多智能体系统发展缓慢,部分任务仍需多模型协作[42] - 个性化交互成为AI产品核心竞争力,需适配不同用户类型[37] - 模型"幻觉"问题亟待解决,需建立不确定性认知机制[38][39] 技术突破方向 - 记忆表达与个性化交互是未来重要发展方向[40] - 强化学习Scaling Law仍将持续,后训练阶段提升空间显著[26] - 垂类模型在细分领域深度优化,如代码生成等场景表现突出[26] - 产品+强化学习组合仍是重要方向,生态可能呈现多层次结构[28] - 人机协作场景需AI更好理解人类意图,减少主动打扰[37]
【广发金工】强化学习与价格择时
广发金融工程研究· 2025-06-18 01:33
强化学习在量化投资中的应用 - 强化学习通过试错机制最大化累计奖励,适合构建择时策略,而常规深度学习主要用于固定窗口期的股价预测或因子挖掘[1][6][7] - Double Deep Q-Network(DDQN)模型结合深度学习和强化学习,用于A股指数和个股的择时应用[2][8] - 择时策略采用10分钟频量价数据,模型每10分钟输出买入/卖出信号,遵循t+1交易规则[2][75] 强化学习基本概念 - 强化学习包含状态、动作、状态转移、策略、奖励、轨迹和回报等基本要素[9][12][13][22][27][28] - 状态价值衡量策略在特定状态下的预期长期回报,动作价值衡量特定状态下采取动作的回报期望值[41][43] - 贝尔曼方程和贝尔曼最优方程从理论上定义了最优状态价值和最优策略的关系[46][48] 时序差分法与Q-Learning - 时序差分法结合动态规划和蒙特卡罗方法,实现单步更新和在线学习[49][50] - SARSA是on-policy方法,基于当前策略实际动作更新Q值,而Q-Learning是off-policy方法,基于最大Q值更新[52][54] - DQN利用神经网络近似动作价值函数,解决大规模问题,DDQN通过分离动作选择和评估缓解高估问题[59][62] 基于强化学习的价格择时策略 - 策略定义包括限价订单、订单簿、OHLCV、技术指标、持仓和净值等概念[63][64] - 状态由单步特征、上下文特征和持仓状态组成,动作包括买入、卖出等决策,奖励为净值差[65][66] - 实证分析显示,在2023-2025年样本外测试中,策略在沪深300ETF、中证500ETF、中证1000ETF和个股上分别跑赢基准10.9%、35.5%、64.9%和37.8%[3][75][77][80][83] 总结与展望 - 强化学习在量化投资领域展现出构建择时策略的潜力,但仍面临稳定性不足等挑战[85][86] - 未来研究将探索更多强化学习算法以构建性能更优越的策略[86]
MiniMax开源首个推理模型,456B参数,性能超DeepSeek-R1,技术报告公开
36氪· 2025-06-17 08:15
智东西6月17日报道,今日凌晨,"大模型六小虎"之一MiniMax发布全球首个开源大规模混合架构的推理模型MiniMax-M1,并官宣了为期五天的连更计 划。 M1参数规模为4560亿,每个token激活459亿参数,原生支持100万上下文输入以及业内最长的8万token推理输出,输入长度与闭源模型谷歌Gemini 2.5 Pro 一致,是DeepSeek-R1的8倍。此外,研究人员训练了两个版本的MiniMax-M1模型,其思考预算分别为40k和80k。 MiniMax在标准基准测试集上的对比显示,在复杂的软件工程、工具使用和长上下文任务方面,MiniMax-M1优于DeepSeek-R1和Qwen3-235B等开源模 型。 其博客提到,在M1的整个强化学习阶段,研究人员使用512块H800训练了三周,租赁成本为53.74万美金(折合人民币约385.9万元),相比其一开始的成 本预期少了一个数量级。 M1在MiniMax APP和Web上支持不限量免费使用。API价格方面,第一档0-32k的输入长度时,输入0.8元/百万token, 输出8元/百万token;第二档32k- 128k的输入长度时,输入1.2 ...
同一天开源新模型,一推理一编程,MiniMax和月之暗面开卷了
机器之心· 2025-06-17 03:22
大模型技术进展 - MiniMax发布全球首款开源权重的大规模混合注意力推理模型MiniMax-M1,支持100万token输入和8万token输出,是DeepSeek R1上下文规模的8倍 [18][19] - MiniMax-M1采用混合专家(MoE)架构与闪电注意力机制,总参数量456B,每个token激活45.9B参数,在生成长度10万token时FLOPs仅为DeepSeek R1的25% [18][20] - 月之暗面发布开源编程大模型Kimi-Dev-72B,在SWE-bench Verified基准上取得60.4%成绩,创开源模型新SOTA [10][37] 模型性能对比 - MiniMax-M1在17个主流评测集中表现突出,在软件工程、长上下文处理和工具使用等生产力场景具有显著优势 [25] - MiniMax-M1-80k在大多数基准测试中优于MiniMax-M1-40k,验证扩展计算资源的有效性 [27] - 实测显示MiniMax-M1-80K生成代码一次通过,而Kimi-Dev-72B需要Claude-4-Sonnet修复3个bug才能运行 [13] 技术创新 - MiniMax开发CISPO新颖算法,强化学习收敛速度比DAPO等算法快一倍 [20] - MiniMax混合注意力设计提升强化学习效率,仅用512块H800三周时间,租赁成本53.47万美元 [23] - Kimi-Dev-72B采用BugFixer与TestWriter协作机制,通过中期训练和强化学习优化代码修复能力 [40][43] 应用场景 - MiniMax-M1支持UI组件聚焦、交互式应用程序和游戏开发,可快速生成HTML页面和Web应用 [5][6][8] - Kimi-Dev-72B能够自主在Docker中修补真实代码仓库,符合现实开发标准 [37] - MiniMax-M1已集成到MiniMax Chat中,提供不限量免费使用和业内最低价API [4][28] 行业影响 - MiniMax采取开放策略,新模型保持免费使用并以低价提供API,性价比高于DeepSeek-R1 [28][31] - 月之暗面计划扩展Kimi-Dev-72B功能,探索与IDE、版本控制系统和CI/CD流水线的深度集成 [48] - 大模型厂商同日发布新模型,显示行业竞争加剧,技术迭代速度加快 [1]
性能比肩DeepSeek-R1,MiniMax仅花380万训出推理大模型性价比新王|开源
量子位· 2025-06-17 01:03
模型发布与性能表现 - 国产推理大模型MiniMax-M1开源 引发行业热议[1][2] - 模型在512块H800 GPU上仅用3周完成强化学习训练 算力成本仅53.47万美元(约383.9万元)[3] - 在工具使用和软件工程等复杂任务上超越OpenAI o3和Claude 4 Opus 在多项基准测试中可比或超越DeepSeek-R1、Qwen3等开源模型[4] - 原生支持100万token输入长度(达DeepSeek R1的8倍) 支持8万输出token(超过Gemini 2.5 Pro的6.4万)成为世界最长输出 生成10万token时推理算力仅需DeepSeek R1的25%[8] - 已集成至MiniMax Chat网页版提供在线试玩 支持迷宫生成器等动态可视化演示[6][9] 技术创新与架构设计 - 采用混合注意力架构 每7个Lightning Attention块后接1个传统Softmax Attention块[11][17] - Lightning Attention通过分块计算策略(块内传统注意力+块间线性注意力)将计算复杂度从平方级降低 支持数十万token扩展[12][15][18] - 提出CISPO算法替代传统PPO/GRPO 通过裁剪重要性采样权重保留低概率关键token(如反思token)的梯度贡献 在Qwen2.5-32B实验中实现2倍训练加速[19][20][21][23] - 针对训练推理精度不匹配问题 将输出头精度提升至FP32使概率相关性从0.9x升至0.99x 并开发基于token概率的早停机制(连续3000个token概率超0.99时终止)[25][27] 训练流程与数据构建 - 基于MiniMax-Text-01继续预训练7.5万亿token STEM、代码和推理内容占比提升至70% 后通过监督微调注入链式思考模式[28] - 强化学习阶段构建多维度训练环境:数学推理与竞赛编程 SynLogic框架合成41类逻辑推理任务(5.3万样本) SWE-bench真实软件工程沙箱环境[29] - 采用生成式奖励模型解决通用任务反馈 通过动态调整规避长度偏见问题 上下文窗口通过阶段性扩展策略从4万逐步提升至8万[29] 基准测试结果 - 数学推理:AIME 2024达86.0分(对比DeepSeek-R1 85.7分) MATH-500达96.8分[31] - 长上下文:OpenAI-MRCR(128k)达73.4分(对比OpenAI o3 48.9分) LongBench-v2达61.5分[31] - 软件工程:SWE-bench Verified达56.0分(对比Claude 4 Opus 72.5分)[31] - 工具使用:TAU-bench(airline)达62.0分(对比OpenAI o3 59.6分)[31] 生态布局与行业影响 - 模型权重与技术报告已在HuggingFace和GitHub开放[7][37] - 此次发布为"MiniMaxWeek"5日活动的首日 预示后续将有海螺AI视频模型(Hailuo 02)等新产品发布[33][35]