强化学习

搜索文档
别克至境L7车型正式上市:限时权益价16.99万元起 首发高通8775芯片
凤凰网· 2025-09-28 23:35
动力与续航方面,别克至境L7搭载"真龙"增程系统,该系统由1.5T混动专用发动机和后置永磁同步电机 组成,驱动电机最大功率为252千瓦。其CLTC工况纯电续航里程为302公里,综合续航里程超过1400公 里。 凤凰网科技讯 9月28日,上汽通用别克品牌宣布,其高端新能源子品牌"至境"的首款轿车——别克至境 L7正式上市。新车共推出5款配置车型,官方指导价区间为17.39万元至21.99万元,并公布限时权益 价,起步价为16.99万元。 在智能化领域,至境L7首发搭载高通SA8775P芯片,并配备50英寸全景AR-HUD抬头显示系统。同时, 该车搭载名为"逍遥智行"的辅助驾驶系统,全球首发了基于端到端"强化学习"的Momenta R6飞轮大模 型,支持"无断点"城市NOA和"不停车一键泊入"等功能。 新车定位为中大型增程豪华轿车,车身长宽高分别为5032/1952/1500mm,轴距达到3000mm。 ...
腾讯研究院AI速递 20250929
腾讯研究院· 2025-09-28 16:01
生成式AI行业动态 - OpenAI被曝在用户不知情情况下将GPT-4和GPT-5等模型路由至低算力敏感模型"gpt-5-chat-safety"和"gpt-5-a-t-mini" 当系统判定内容涉及敏感话题或情绪表达时自动触发切换 [1] - OpenAI回应称切换为临时性安全路由系统测试 但未经同意的模型更改行为引发用户权益质疑 [1] - 腾讯发布工业级原生多模态生图模型混元图像3.0 参数规模80B 是目前测评效果最好且参数量最大的开源生图模型 [2] - 混元图像3.0基于50亿级图文对和6T语料训练 具备千字级复杂语义解析能力 支持长文本生成和小文字处理 [2] - 快手推出KAT-Dev-32B开源和KAT-Coder闭源两款Agentic Coding大模型 在SWE-Bench Verified上分别达到62.4%和73.4%解决率 [3] - 快手开发基于熵的树剪枝技术和强化学习训练框架SeamlessFlow 模型经训练后涌现出对话轮次减少和多工具并行调用新能力 [3] AI教育应用进展 - 好未来提出AI教师L1-L5分级理论 学而思"小思AI一对一"对标L3级别 能实现实时观察学生解题步骤并提供针对性引导 [4][5] - L3级AI教师需配备多模态传感器和专用硬件 形成"批改-讲题-推荐"数据飞轮 数学解题正确率达98.1% [5] - 好未来自研"九章"大模型结合20多年教研内容 在线下培训、在家学习和进校学习三大场景实现统一学情画像 [5] 前沿科技战略布局 - Meta计划投入数十亿美元研发人形机器人"Metabot" 战略地位与AR项目同级 聚焦软件开发而非硬件制造 [6] - Meta拟采用软件平台授权模式 与机器人制造商合作建立行业通用标准 新成立超级智能人工智能实验室构建物理"世界模型" [6] - 谷歌DeepMind视频模型Veo 3涌现四层能力:感知经典视觉任务、建模物理定律、操纵图像编辑、推理视觉问题 [10] - Veo 3通过帧链(CoF)技术实现跨时空推理 在七个代表性任务上显著超越Veo 2 可能成为视觉领域的GPT-3时刻 [10] 技术理论与方法创新 - 图灵奖得主Richard Sutton认为大语言模型是错误起点 强调真正智能需通过经验学习实现 而非对人类行为的模仿 [7] - 陈丹琦团队提出RLMT方法 将显式思维链推理融入通用聊天模型 在WildBench等基准测试中表现优异 [8][9] - RLMT要求模型生成推理轨迹后再输出最终答案 通过奖励模型评分 使推理风格从线性规划转变为迭代式思考 [8][9] 行业战略与市场展望 - 英伟达从芯片公司转型为AI基础设施合作伙伴 通过极端协同设计构建AI工厂生态系统 竞争护城河基于总拥有成本优势 [11] - AI推理将迎来十亿倍增长 预训练、后训练和推理三大扩展定律驱动万亿级市场 年度AI基础设施资本支出预计达5万亿美元 [11] - 主权AI时代各国需建立独立AI基础设施 主张通过技术出口最大化影响力而非脱钩 保持美国梦品牌吸引全球人才 [11]
人形机器人需要“第三只手”?清华大学教授赵明国:智能化是一个渐进突破的过程
中国经营报· 2025-09-28 14:41
人形机器人技术现状 - 人形机器人已具备走、跑、跳、翻跟头及障碍路面行走等复杂运动能力 但环境理解与跨场景泛化能力存在明显短板[1] - 当前任务执行约80%依赖人工遥控 仅20%由机器人自主完成 目标是将自主性提升至40% 但实现50%自主性仍较困难[2] - 完全自主决策是终极目标 但需漫长发展过程 现阶段仍高度依赖预设场景和人工干预[1][2] 技术路径与挑战 - 主流技术路径试图通过构建通用人工智能基座 再针对垂直领域注入专用数据训练 但该逻辑存在漏洞 因单一任务尚未完善[2] - 大语言模型(LLM)的成功模式难以直接迁移至物理空间 需开发另一套智能系统支撑物理世界智能[3] - 物理智能依赖强化学习 但高质量物理数据与仿真数据获取仍是行业共同挑战 需虚拟与物理智能深度融合[3] 硬件与软件协同需求 - 智能化提升需同步突破硬件(传感器数量、数据资源)与软件(算法复杂度)能力 二者缺一不可[5] - 目前尚无机器人运动能力达到人类水平 反对者认为跑步、踢足球等活动无实际意义 但运动场是验证技术的关键场景[5] 行业应用与标准化 - 智能机器人目前属于"玩具""教具""展具""科研工具" 距产业成熟规模化应用仍需解决数据、标准、安全及场景融合问题[4] - 需建立类似自动驾驶L1-L5的分级标准 以统一技术路线、测试与法规 当前缺乏行业共识导致目标分散[6] - 机器人足球等场景是验证具身智能的"标准平台" 涵盖感知、决策、运动控制全链路技术 与智能汽车智驾系统底层逻辑相通[6] 商业化前景 - 技术验证将逐步解决手部与腿部具身智能问题 最终面向老龄化、服务业短缺等需求推动商业化落地[6] - 人形机器人进入日常生活仍需较长时间 需经历从工厂到家庭的渐进过程[3][5]
速递|前OpenAI员工创立Applied Compute以5亿美元估值融资,Lux Capital领投
Z Potentials· 2025-09-28 14:29
随着人工智能开发者日益依赖强化学习来优化模型,投资者正纷纷注资那些专注于帮助企业运用该技术实现更多任务自动化的初创公司。 最新案例显示,由三位前 OpenAI 员工于五月创立的 Applied Compute 公司,在完成上一轮估值 1 亿美元的融资仅三个月后,正以 5 亿美元估值洽谈新一 轮融资。 据知情人士透露,投资过编码初创公司 Cognition 、开源模型中心 Hugging Face 和视频 AI 公司 Runway 等人工智能企业的 Lux Capital 正洽谈领投此轮融 资。 这家总部位于旧金山的公司此前已从 Benchmark 、 Conviction 和红杉资本等投资者处筹集了 2000 万美元资金。待定交易的条款可能还会有变动。 前 OpenAI 研究员 Rhythm Garg 、 Yash Patil 和 Linden Li 创立了 Applied Compute ,旨在帮助软件开发者和企业运用强化学习( RL )技术为法律、金融 等特定领域定制 AI 系统——本轮融资的知情人士透露。 这三位创始人在 2023 和 2024 年加入 OpenAI 前均就读于斯坦福大学,曾参与开发 C ...
限时权益价16.99万元,别克至境L7上市
北京商报· 2025-09-28 13:32
产品发布 - 上汽通用别克品牌推出至境L7车型 共5款配置 限时权益价16.99万至21.59万元[1] - 至境L7作为别克高端新能源子品牌"至境"的首款旗舰轿车 基于"逍遥"超级融合架构打造[3] 动力系统 - 搭载"真龙"增程系统 采用252kW增程单电驱 匹配1.5T混动专用发动机和峰值功率100kW发电机[3] - 百公里综合能耗低至0.5升 纯电续航达302公里 综合续航里程达1420公里[3] - 支持130kW快充 18分钟可完成30%至80%电量补充[3] 智能技术 - 采用"逍遥智行"辅助驾驶系统 全球首发搭载基于端到端"强化学习"的Momenta R6飞轮大模型[3] - 全球首发搭载高通SA8775P芯片 提供72 TOPS AI算力 支持智能座舱服务[3] - 通过软硬件系统整合 提供适配不同出行场景的沉浸式自然交互体验[3]
RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能
机器之心· 2025-09-28 04:50
一个月前,我们曾报道过清华姚班校友、普林斯顿教授 陈丹琦似乎加入 Thinking Machines Lab 的消息。有些爆料认为她在休假一年后,会离开普林斯顿,全职加 入 Thinking Machines Lab。 最近,陈丹琦在普林斯顿大学的团队发布了最新学术成果,表明了 RLVR 范式在可验证领域之外依然有效,提出了 基于模型奖励思维的强化学习(RLMT) 方 法,它将显式的思维链推理融入通用聊天模型之中。 论文标题:Language Models that Think, Chat Better 论文链接:https://www.arxiv.org/overview/2509.20357v1 众所周知,大型语言模型传统上遵循一种多阶段训练范式:首先在大规模文本语料上进行 预训练,然后通过 监督微调 来学习指令跟随,最后借助 强化学习 来对 齐人类偏好。 机器之心报道 编辑:冷猫 思考自身行为的后果,并在必要时进行修正 —— 这是人类智慧的核心特征之一。 这种方法确实催生了功能强大的对话式 AI 系统,但仍存在一个关键局限: 在数学、编程等领域通过 可验证奖 励的强化学习(RLVR) 所获得的推理能力, ...
为什么自动驾驶中的强化学习,没有很好的落地?
自动驾驶之心· 2025-09-28 03:50
如果您也想和自动驾驶学术界或工业界的大佬交流,欢迎加入自动驾驶之心知识星球。 我们是一个认真做内容的社区,一个培养未来 领袖的地方。 『自动驾驶之心知识星球』目前集视频 + 图文 + 学习路线 + 问答 + 求职交流为一体,是一个综合类的自驾社区,已经超过4000人了。 我们期望未来2年内做到近万人的规模。给大家打造一个交流+技术分享的聚集地,是许多初学者和进阶的同学经常逛的地方。 为什么自动驾驶领域内的强化学习,没有很好的落地? 柱哥昨晚和星球嘉宾讨论自动驾驶强化学习的内容,分享给大家。 强化学习一直面临一个很严重的问题 - reward hack,当安全要求提高后,效率会降低。效率提升又可能导致安全性降低。所以这就引申 出一个问题,如何设计一个balance的reward,能够去平衡每一项表现。想得到一个全面性能提升的强化学习模型,其实非常难。多个 reward之间如何达到平衡也非常困难的。当然也有类似使用逆强化学习的方法去训练每一个reward的权重。 具身智能在我的理解中是一个local motion 的工作,它的目标很清晰。但自动驾驶不仅要完成最终行驶的目标,在中间的过程还要强依 赖某些驾驶规则。比 ...
NeurIPS 2025 | SURDS 数据集与 GRPO 全面强化自驾空间推理
自动驾驶之心· 2025-09-27 23:33
以下文章来源于深蓝AI ,作者深蓝学院 深蓝AI . 专注于人工智能、机器人与自动驾驶的学习平台。 作者 | 深蓝学院 来源 | 深蓝AI 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 摘 要 在大模型飞速发展的当下,让多模态大语言模型(VLM)在自动驾驶场景图像中做出准确的空间推理,依然是人工智能领域的一大挑战。学术界一直缺 乏针对自动驾驶场推理的大规模基准,现有方法往往依赖外部专家模型,难以全面衡量模型能力。 与此形成鲜明对比的是,人类可以凭借已有知识轻松判断图像中物体的朝向,或推理多个物体的相对位置。而VLM同样具备丰富的知识,却仍在此类任务上 表现不足。 为此,武汉大学联合中科院自动化所,北京智源人工智能研究院 (BAAI)等多家单位推出 首个面向驾驶场景的VLM空间推理大规模基准 SURDS ,系统评测了 包括 GPT 系列在内的通用模型及 SpatialRGPT 等空间推理模型,全面揭示了当前VLM在空间理解方面的短板。研究团队通过设计"感知准确性"和" ...
缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈
具身智能之心· 2025-09-27 01:33
编辑丨 量子位 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 视觉-语言-动作模型是实现机器人在复杂环境中灵活操作的关键因素。 然而,现有训练范式存在一些核心瓶颈,比如数据采集成本高、泛化能力不足等。 为此,研究团队提出了 SimpleVLA-RL 。基于veRL框架,他们实现了针对VLA模型的交互式轨迹采样与并行仿真渲染机制。 降低对大规模演示数据的依赖,提升数据效率; 增强模型在分布偏移场景下的泛化能力; 实现高效的Sim-to-Real迁移,提升真实世界任务性能。 此外,模型在训练过程中还展现出自主探索能力,并涌现出新的操作策略,例如通过"推动"替代"抓取"的 Pushcut现象 。这些结果表明, SimpleVLA-RL为VLA模型的高效训练与泛化能力提升开辟了新的研究路径。 SimpleVLA-RL:端到端在线训练方案 VLA模型作为机器人操控领域的重要研究范式,旨在融合视觉感知、语言理解与动作生成,从而在复杂物理环境中实现灵活的任务执行。 ...
OpenAI两位首席最新采访信息量好大,终极目标是“自动化研究员”,招人并非寻找“最出圈”的人
36氪· 2025-09-26 12:15
OpenAI首席科学家Jakub Pachocki和首席研究官Mark Chen开启同台爆料模式: …… 在a16z的这场最新采访中,二人不仅深入探讨了GPT-5如何引入长远推理、如何在基准饱和后衡量进度,以及为什么强化学习不断让怀疑论者感到惊讶, 还系统性阐述了OpenAI的用人标准、未来路线图以及算力分配这些重要问题。 一句话,凡是你对OpenAI感到好奇的问题,他俩几乎都谈到了~ 采访时间不到1小时,信息密度却堪称爆炸! (网友1):深入又有趣! (网友2):听起来像一支有着清晰愿景的强大团队。 氛围编码的下一步或许是氛围研究(Vibe Researching); OpenAI的最终目标是实现自动化研究员; 现有评估指标正趋近饱和,下一个里程碑将涉及实际的发现和在经济相关事物上取得实际进展; 成功的秘诀在于保护基础研究,避免被短期产品竞争所牵制; 话不多说,访谈重点这就奉上—— GPT-5:将推理与Agentic行为引入主流 采访第一趴主要关于GPT-5。 Mark Chen表示,GPT-5是OpenAI试图将推理能力带入主流的一种尝试。 在此之前,公司有GPT系列(主打即时响应)和o系列(主打推理)两 ...