Workflow
强化学习
icon
搜索文档
所有知识型岗都要被AI “吞了!清华大学教授刘嘉:未来大学分化猛烈,软件公司靠 “几人 + Agent” 就够
AI前线· 2025-09-29 04:28
AI发展现状与趋势 - 2025年AI已进入几乎包围人类的时代,2024年诺贝尔物理学奖和图灵奖均授予AI领域,2025年初DeepSeek大模型和Manus完全自主AI引发广泛关注[5] - 大模型正从“你问我答”的对话模式向服务人类、与人类进行实体及工作层面交互转变,2025年是大模型走向实际应用的开端[10] - 人形机器人领域和智能体(Agent)领域是当前两大重要进展方向,代表AI向物理世界和虚拟世界的延伸[8] AI技术能力评估 - 2024年9月OpenAI推出o1推理大模型后,大模型已从单纯对话转向具备推理能力,能够模仿人类“慢思维”进行逻辑链思考[13] - 推理大模型的出现催生了智能体技术爆发,智能体核心是规划能力,能够调用各种工具完成实际任务[14] - 大模型在智商层面已经达到甚至超过人类顶尖水平,在国际奥林匹克数学竞赛中表现优异[14] - 但在感知和运动能力方面,当前基于Transformer架构的大模型存在串行加工缺陷,无法实现人类式的并行信息处理[33] AGI实现路径与挑战 - 真正的AGI需要具备两个关键能力:从0到1的颠覆式创新能力(OOD问题)以及完整的感知和运动能力[32][33] - 实现AGI的三条可能路径包括强化学习、脑模拟和自然语言处理,但目前都缺乏类似Transformer在NLP领域的突破性时刻[36] - AGI的实现可能需要向脑科学学习,开发受生物大脑启发的新架构,突破现有神经元模型的简单性限制[17][18][35] AI对行业的影响 - 垂直类Agent已在编程领域产生显著影响,如Cursor、Copilot等工具导致初级和中级程序员面临失业风险[24] - 通用类Agent如字节的“扣子”(Coze)具有广阔发展前景,未来将改变社会的工作方式和组织架构[24] - 所有知识密集型职业包括律师、程序员、会计、医生、教师等都会受到AI巨大冲击,传统教育模式面临根本性质疑[48] - 顶尖创意人才的价值反而会提升,如在AI生成音乐泛滥背景下,原创音乐人的客单价不降反升[49] 企业竞争格局 - AI发展具有不可阻挡的竞争特性,国与国、公司与公司之间的竞争使得暂停研发不切实际[40][41] - 类似核武器竞赛的格局正在形成,主要经济体都在加速AI研发以避免落后[41] 未来应用场景 - 物理世界机器人如马斯克的Optimus、OpenAI投资的Figure01重点关注“眼手合一”,用大模型驱动肢体适应环境[22] - 虚拟世界智能体将大模型与各类工具结合,能够完成购票、订房、行程规划等实际操作[23] - 未来手机可能不再需要多个APP,各种需求可通过大模型驱动的统一接口完成[23] 教育改革方向 - 大学教育必须从知识传授转向创造力培养和跨学科融合,推动通识教育发展[43][44] - “AI+学科”是所有学科的必然选择,但需要避免简单的“袋装土豆”式叠加,实现真正融合[45][46] - 未来大学分化将加剧,能够成功推行通识教育和跨学科融合的院校将占据优势[44] 个人应对策略 - 当前竞争是“会用AI的人”与“不会用AI的人”之间的差距,而非人与AI的直接竞争[53] - AI可作为助手、老师、批评者和情感支持伙伴,全方位提升个人能力[54] - 人类需要发挥零到一颠覆性创新的独特优势,这在相当长时间内仍是AI难以企及的[51]
价格极具诚意、配置毫无保留,至境L7欲开创B级车智电新时代
中国经济网· 2025-09-29 02:49
产品发布与定位 - 别克高端新能源子品牌“至境”首款旗舰轿车至境L7于9月28日上市,共推出五款车型,售价区间为16.99万至21.59万元 [1] - 公司旨在以B级车的价格提供断代领先的智电豪华体验,重塑增程豪华轿车标杆,并颠覆市场格局 [3] 增程系统技术亮点 - 至境L7搭载公司全栈自研的“真龙”增程系统,综合续航里程高达1400公里以上,零百加速时间为5.9秒 [6] - 系统解决了高速性能衰减痛点,满电与亏电状态下零百公里加速和高速超车性能差异小于0.1秒 [6] - 车辆纯电续航里程达302公里,发动机介入噪声小于0.5分贝,方向盘抖动加速度小于0.04g,实现无感介入 [8] - 增程电池按照严苛标准开发验证,支持快充且经得起80万公里使用考验,实现“车电同寿” [8] 智能化配置 - 智能座舱采用高通新一代SA8775P芯片,算力高达72TOPS,为市场主流8295芯片的两倍 [9] - 配备50吋全景AR-HUD抬头显示系统、10.25吋全液晶仪表盘和15.6吋智能中控屏 [9] - 车规级芯片保障车辆在-40°C至125°C极限工况下的稳定性,AI支持智舱功能迭代 [11] - 智能驾驶系统“逍遥智行”基于Momenta R6飞轮大模型,提供无断点城市NOA和不停车一键泊入等全场景辅助驾驶功能 [13] 品牌传承与品质保障 - 公司拥有122年造车历史,深耕中国市场28年,积累超过1400万用户数据 [16] - 车辆安全标准远超国标,满足中美法规,奥特能电池实现15亿公里零自燃,智驾系统保障近10亿公里安全行驶零事故 [16] - 产品可靠性经过市场验证,增程电池纯电寿命开发标准为64万公里,电驱总成耐久开发标准为70万公里,底盘寿命开发标准为15年或24万公里 [17]
别克至境L7车型正式上市:限时权益价16.99万元起 首发高通8775芯片
凤凰网· 2025-09-28 23:35
产品发布与定价 - 上汽通用别克品牌高端新能源子品牌“至境”首款轿车别克至境L7正式上市 共推出5款配置车型 官方指导价区间为17.39万元至21.99万元 并公布限时权益价 起步价为16.99万元 [1] 产品定位与尺寸 - 新车定位为中大型增程豪华轿车 车身长宽高分别为5032/1952/1500mm 轴距达到3000mm [1] 动力系统与续航 - 别克至境L7搭载“真龙”增程系统 由1.5T混动专用发动机和后置永磁同步电机组成 驱动电机最大功率为252千瓦 [1] - CLTC工况纯电续航里程为302公里 综合续航里程超过1400公里 [1] 智能化配置 - 至境L7首发搭载高通SA8775P芯片 并配备50英寸全景AR-HUD抬头显示系统 [1] - 搭载名为“逍遥智行”的辅助驾驶系统 全球首发了基于端到端“强化学习”的Momenta R6飞轮大模型 支持“无断点”城市NOA和“不停车一键泊入”等功能 [1]
腾讯研究院AI速递 20250929
腾讯研究院· 2025-09-28 16:01
生成式AI行业动态 - OpenAI被曝在用户不知情情况下将GPT-4和GPT-5等模型路由至低算力敏感模型"gpt-5-chat-safety"和"gpt-5-a-t-mini" 当系统判定内容涉及敏感话题或情绪表达时自动触发切换 [1] - OpenAI回应称切换为临时性安全路由系统测试 但未经同意的模型更改行为引发用户权益质疑 [1] - 腾讯发布工业级原生多模态生图模型混元图像3.0 参数规模80B 是目前测评效果最好且参数量最大的开源生图模型 [2] - 混元图像3.0基于50亿级图文对和6T语料训练 具备千字级复杂语义解析能力 支持长文本生成和小文字处理 [2] - 快手推出KAT-Dev-32B开源和KAT-Coder闭源两款Agentic Coding大模型 在SWE-Bench Verified上分别达到62.4%和73.4%解决率 [3] - 快手开发基于熵的树剪枝技术和强化学习训练框架SeamlessFlow 模型经训练后涌现出对话轮次减少和多工具并行调用新能力 [3] AI教育应用进展 - 好未来提出AI教师L1-L5分级理论 学而思"小思AI一对一"对标L3级别 能实现实时观察学生解题步骤并提供针对性引导 [4][5] - L3级AI教师需配备多模态传感器和专用硬件 形成"批改-讲题-推荐"数据飞轮 数学解题正确率达98.1% [5] - 好未来自研"九章"大模型结合20多年教研内容 在线下培训、在家学习和进校学习三大场景实现统一学情画像 [5] 前沿科技战略布局 - Meta计划投入数十亿美元研发人形机器人"Metabot" 战略地位与AR项目同级 聚焦软件开发而非硬件制造 [6] - Meta拟采用软件平台授权模式 与机器人制造商合作建立行业通用标准 新成立超级智能人工智能实验室构建物理"世界模型" [6] - 谷歌DeepMind视频模型Veo 3涌现四层能力:感知经典视觉任务、建模物理定律、操纵图像编辑、推理视觉问题 [10] - Veo 3通过帧链(CoF)技术实现跨时空推理 在七个代表性任务上显著超越Veo 2 可能成为视觉领域的GPT-3时刻 [10] 技术理论与方法创新 - 图灵奖得主Richard Sutton认为大语言模型是错误起点 强调真正智能需通过经验学习实现 而非对人类行为的模仿 [7] - 陈丹琦团队提出RLMT方法 将显式思维链推理融入通用聊天模型 在WildBench等基准测试中表现优异 [8][9] - RLMT要求模型生成推理轨迹后再输出最终答案 通过奖励模型评分 使推理风格从线性规划转变为迭代式思考 [8][9] 行业战略与市场展望 - 英伟达从芯片公司转型为AI基础设施合作伙伴 通过极端协同设计构建AI工厂生态系统 竞争护城河基于总拥有成本优势 [11] - AI推理将迎来十亿倍增长 预训练、后训练和推理三大扩展定律驱动万亿级市场 年度AI基础设施资本支出预计达5万亿美元 [11] - 主权AI时代各国需建立独立AI基础设施 主张通过技术出口最大化影响力而非脱钩 保持美国梦品牌吸引全球人才 [11]
人形机器人需要“第三只手”?清华大学教授赵明国:智能化是一个渐进突破的过程
中国经营报· 2025-09-28 14:41
人形机器人技术现状 - 人形机器人已具备走、跑、跳、翻跟头及障碍路面行走等复杂运动能力 但环境理解与跨场景泛化能力存在明显短板[1] - 当前任务执行约80%依赖人工遥控 仅20%由机器人自主完成 目标是将自主性提升至40% 但实现50%自主性仍较困难[2] - 完全自主决策是终极目标 但需漫长发展过程 现阶段仍高度依赖预设场景和人工干预[1][2] 技术路径与挑战 - 主流技术路径试图通过构建通用人工智能基座 再针对垂直领域注入专用数据训练 但该逻辑存在漏洞 因单一任务尚未完善[2] - 大语言模型(LLM)的成功模式难以直接迁移至物理空间 需开发另一套智能系统支撑物理世界智能[3] - 物理智能依赖强化学习 但高质量物理数据与仿真数据获取仍是行业共同挑战 需虚拟与物理智能深度融合[3] 硬件与软件协同需求 - 智能化提升需同步突破硬件(传感器数量、数据资源)与软件(算法复杂度)能力 二者缺一不可[5] - 目前尚无机器人运动能力达到人类水平 反对者认为跑步、踢足球等活动无实际意义 但运动场是验证技术的关键场景[5] 行业应用与标准化 - 智能机器人目前属于"玩具""教具""展具""科研工具" 距产业成熟规模化应用仍需解决数据、标准、安全及场景融合问题[4] - 需建立类似自动驾驶L1-L5的分级标准 以统一技术路线、测试与法规 当前缺乏行业共识导致目标分散[6] - 机器人足球等场景是验证具身智能的"标准平台" 涵盖感知、决策、运动控制全链路技术 与智能汽车智驾系统底层逻辑相通[6] 商业化前景 - 技术验证将逐步解决手部与腿部具身智能问题 最终面向老龄化、服务业短缺等需求推动商业化落地[6] - 人形机器人进入日常生活仍需较长时间 需经历从工厂到家庭的渐进过程[3][5]
速递|​​前OpenAI员工创立Applied Compute以5亿美元估值融资,Lux Capital领投
Z Potentials· 2025-09-28 14:29
公司融资与估值 - Applied Compute公司正以5亿美元估值洽谈新一轮融资 而三个月前其上一轮融资估值为1亿美元 [1] - 本轮融资可能由投资过Cognition、Hugging Face和Runway等AI企业的Lux Capital领投 [1] - 公司此前已从Benchmark、Conviction和红杉资本等投资者处筹集了2000万美元资金 [2] - 由OpenAI前首席技术官联合创立的Thinking Machines Lab公司近期以100亿美元估值融资20亿美元 [4] 公司背景与技术 - Applied Compute由三位前OpenAI员工Rhythm Garg、Yash Patil和Linden Li于五月创立 三位创始人均曾就读于斯坦福大学并在2023和2024年加入OpenAI [2][3] - 公司旨在帮助软件开发者和企业运用强化学习技术为法律、金融等特定领域定制AI系统 [2] - 创始人在OpenAI期间曾参与开发ChatGPT的推理模型、编程AI及深度研究工具 [3] 行业技术与应用 - 强化学习技术通过奖励AI实现特定目标并惩罚其他行为 帮助OpenAI、Anthropic、xAI等开发者改进模型 [4] - 随着研究人员发现利用网络抓取数据改进模型的难度加大 强化学习方法已成为AI实验室的关键技术 [4] - 强化学习能显著降低企业开发行业专用AI应用的成本 例如修订法律合同或分析金融文件等场景 [3] - 该技术可能更容易构建能够自动化取代某些领域工作的模型 OpenAI高管预期整个经济将成为某种强化学习机器 [4]
限时权益价16.99万元,别克至境L7上市
北京商报· 2025-09-28 13:32
产品发布 - 上汽通用别克品牌推出至境L7车型 共5款配置 限时权益价16.99万至21.59万元[1] - 至境L7作为别克高端新能源子品牌"至境"的首款旗舰轿车 基于"逍遥"超级融合架构打造[3] 动力系统 - 搭载"真龙"增程系统 采用252kW增程单电驱 匹配1.5T混动专用发动机和峰值功率100kW发电机[3] - 百公里综合能耗低至0.5升 纯电续航达302公里 综合续航里程达1420公里[3] - 支持130kW快充 18分钟可完成30%至80%电量补充[3] 智能技术 - 采用"逍遥智行"辅助驾驶系统 全球首发搭载基于端到端"强化学习"的Momenta R6飞轮大模型[3] - 全球首发搭载高通SA8775P芯片 提供72 TOPS AI算力 支持智能座舱服务[3] - 通过软硬件系统整合 提供适配不同出行场景的沉浸式自然交互体验[3]
RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能
机器之心· 2025-09-28 04:50
文章核心观点 - 提出一种名为“基于模型奖励思维的强化学习”(RLMT)的新方法,旨在弥合大型语言模型在专门推理能力与通用对话能力之间的差距 [5] - RLMT方法将显式的思维链推理融入通用聊天模型,使模型在开放式任务中能进行“思考”,从而提升整体对话表现 [5][7] - 该方法结合了RLHF和RLVR的优势,通过优化目标函数,要求模型在生成最终答案前先生成推理轨迹,并使用奖励模型进行评分 [10][11] - 实验结果表明,启用思维的RLMT模型在多项基准测试中表现优于非思维基线模型,甚至在部分任务上媲美或超越更大的模型 [16][19] RLMT方法原理与动机 - 当前大模型训练面临两难:RLVR方法在数学、编程等可验证领域表现突出但难以泛化到日常对话,RLHF方法擅长对齐人类偏好但未鼓励内部推理过程 [6] - RLMT的动机源于人类处理开放式任务时会进行审慎思考(如规划、权衡、修正),该方法让语言模型模仿此过程以提升能力 [7] - 优化目标函数要求语言模型在生成最终回答y之前,先生成推理轨迹z,并使用奖励模型r对回答进行评分,而非依赖基于规则的验证 [11] 训练方法与实验设置 - 研究尝试了两种训练方法:通过有监督微调(SFT)进行热启动,以及直接在基础模型上应用RLMT的“Zero”方法 [12] - 热启动方法从数据集中采样6k个提示,使用Gemini 2.5 Flash作为教师模型生成模拟思维轨迹进行SFT [13] - “Zero”方法直接在未经后训练的Llama-3.1-8B和Qwen-2.5-7B基础模型上应用RLMT,仅通过添加指令前缀引导输出结构 [14] - 实验比较了不同模型(基础版和指令微调版)在热启动与“Zero”训练设置下,启用思维(RLMT)与不启用思维(RLHF)的表现 [15][17] 实验结果与性能表现 - 启用思维的RLMT模型在聊天基准测试(如WildBench、AlpacaEval2、ArenaHardV2)和创意写作任务上普遍优于非思维基线 [18] - 具体而言,最佳模型Llama-3.1-8B-Instruct-RLMT在WB、AE2、AH2上的得分分别为50.4、58.7、22.9,综合表现优于Llama-3.1-70B-Instruct(32.1)和Qwen2.5-72B-Instruct(45.2),并接近GPT-4o(53.2)和Claude3.7-Sonnet(58.9)的水平 [19] - 在训练算法上,GRPO下的RLMT整体效果优于DPO和PPO,尤其在“Zero”训练设置下优势更明显 [21] 模型行为分析 - 分析表明,RLMT训练能诱发模型产生更优秀的写作习惯,其思维过程与SFT模型不同 [23] - SFT模型的思维过程倾向于从分层规划开始,风格是线性的;而RLMT模型则先列出约束和子主题,再进行分组和规划,风格是迭代式的,会回头修订之前的内容 [25][29] - 这种行为差异使得RLMT模型在规划时更注重全局检查和修正,从而提升了输出质量 [25] 总结与行业意义 - RLMT成功将显式推理优势从专业化领域扩展到通用对话AI,在保持计算效率的同时实现了显著性能提升 [26] - 该方法在不同模型架构、训练算法和评测基准上均有效,表明其具有广泛适用性,有潜力重塑语言模型的训练方式 [26] - “先思考再表达”的RLMT范式代表着迈向更智能、更强大的对话式人工智能系统的重要一步 [26]
为什么自动驾驶中的强化学习,没有很好的落地?
自动驾驶之心· 2025-09-28 03:50
强化学习在自动驾驶领域面临的挑战 - 强化学习面临严重奖励黑客问题,安全要求提高会导致效率降低,而效率提升又可能牺牲安全性,设计平衡各项表现的奖励函数非常困难[2] - 自动驾驶需在达成最终行驶目标的同时,严格遵守中间过程的驾驶规则,而机器人具身智能的目标更清晰、灵活性更高,限制更少,导致强化学习在后者中应用更广且更成功[2] - 强化学习理论在较长时间内缺乏重大突破,GRPO等方法的提出进一步降低了其应用门槛[2] 自动驾驶强化学习落地的关键因素 - 强化学习在自动驾驶中的进一步落地,关键在于需要能与强化学习互相配合的良好架构,现有模型直接用于强化学习大概率行不通[3] 自动驾驶之心知识星球社区概况 - 自动驾驶之心知识星球是一个集视频、图文、学习路线、问答、求职交流为一体的综合类自驾社区,目前成员已超过4000人,目标在未来2年内发展到近万人规模[6] - 社区汇总了超过40个开源项目、近60个自动驾驶相关数据集、行业主流仿真平台及各类技术学习路线,内容涵盖感知、仿真、规划控制、端到端、VLA、多模态大模型等多个方向[10][11] - 社区成员来自上海交大、北京大学、CMU、清华大学等国内外知名高校实验室,以及蔚小理、地平线、华为、大疆、百度等自动驾驶头部公司[10]
NeurIPS 2025 | SURDS 数据集与 GRPO 全面强化自驾空间推理
自动驾驶之心· 2025-09-27 23:33
文章核心观点 - 武汉大学联合多家机构推出了首个面向自动驾驶场景的视觉语言模型空间推理大规模基准SURDS,旨在解决该领域缺乏系统性评估工具的挑战[2] - 研究通过结合有监督微调和强化学习训练,并设计定位与逻辑一致性奖励,显著提升了模型在多项空间推理任务上的性能,其中深度估计准确率相比第二名提升近60%[2][14] - 评测结果揭示了当前主流VLM在精细空间理解上存在明显不足,模型参数量并非决定空间理解能力的关键因素[14][16] SURDS基准概述 - SURDS基于nuScenes数据集构建,包含41,080条训练问答对和9,250条验证样本,涵盖方向识别、像素级定位等六类空间推理任务[4][7] - 数据集经过多阶段严格筛选,最终保留27,152张训练图像和5,919张验证图像,确保样本清晰无歧义[6][7] - 基准数据采集自波士顿和新加坡城市环境,包含多模态信息,覆盖多种交通、天气和昼夜场景[6] 模型训练方法 - 研究提出自动化流程生成高质量推理思维链,先由QVQ模型进行推理,再由Qwen2.5-VL-72B总结泛化规则[8][10] - 采用SFT与GRPO结合的强化学习框架,设置定位奖励、格式奖励、准确率奖励和逻辑奖励等多重奖励机制[10][11] - 创新性地让模型自我验证推理链一致性,降低计算开销并实现动态适应,显著增强逻辑可靠性[11] 实验结果分析 - 在单目标任务中,大部分模型准确率接近随机水平,像素级定位准确率很少超过10%[14][16] - 研究提出的Qwen2.5-VL-3B-SFT-GRPO-LocLogic模型在深度估计任务达到69.84%准确率,整体平均分超过第二名14.25%[14] - 消融实验表明定位能力是空间推理的基础,定位奖励与逻辑奖励结合时模型性能提升最显著[16][17] 行业意义与局限性 - 该研究为自动驾驶VLM空间理解能力提供了系统评估标准,填补了学术界大规模基准的空白[2][4] - 当前方法尚未在更大规模模型上验证,线性奖励缩放和多阶段GRPO训练等方向有待进一步探索[20]