强化学习
搜索文档
缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈
具身智能之心· 2025-09-27 01:33
文章核心观点 - 视觉-语言-动作模型是实现机器人复杂环境灵活操作的关键,但现有训练范式存在数据采集成本高和泛化能力不足等核心瓶颈 [2][3] - SimpleVLA-RL作为一种新型端到端在线训练方案,通过交互式轨迹采样、结果奖励建模和探索增强等设计,有效解决了VLA模型训练的三大瓶颈 [4][6][14] - 该框架在多项基准测试中刷新了性能纪录,显著提升了数据效率和模型泛化能力,并展现出自主探索新策略的现象,为VLA模型的高效训练开辟了新路径 [6][9][21] VLA模型训练面临的挑战 - 主流训练流程依赖大规模预训练和有监督微调,但高质量机器人操作轨迹的数据采集成本高昂,从根本上制约了模型的可扩展性 [11] - 有监督微调的学习过程高度依赖特定数据分布,导致模型在面对分布外任务、新环境或未见对象时性能显著下降,尤其在长时序依赖任务中更为明显 [12] - 将强化学习直接应用于VLA训练面临独特挑战,包括传统RL依赖难以扩展的人工设计过程奖励,以及VLA训练需要与物理环境进行多轮交互导致效率低下和成本高昂 [12] SimpleVLA-RL框架的核心设计 - 采用交互式轨迹采样机制,模型直接输出动作token的概率分布并通过随机采样生成多样轨迹,在闭环中不断更新视觉观测和机器人状态直至任务完成 [15] - 使用极简的二元结果奖励建模,将任务成功记为1、失败记为0的奖励均匀分摊到整个轨迹的动作token上,避免了过程奖励的不可迁移性和调参麻烦 [16] - 实施探索增强策略,通过动态采样保留部分成功和部分失败的轨迹组、扩大GRPO裁剪区间以及提高rollout采样温度,鼓励模型进行更多样化的探索 [17][18][19] - 对GRPO目标进行简化,移除了KL散度正则项并不再依赖参考模型,从而减少内存消耗并让新行为的探索不受束缚 [18] 基准测试性能表现 - 在LIBERO单臂操控基准测试中,SimpleVLA-RL将OpenVLA-OFT的平均成功率从91.0%提升至99.1%,其中长时序任务LIBERO-Long提升12.0个百分点至98.5% [23][24] - 在RoboTwin1.0双臂操控基准上,四个任务平均成功率从39.8%提升至70.4%,其中"Blocks Stack"任务提升33.1个百分点至40.2% [25][26] - 在覆盖短/中/长/超长时序12个任务的RoboTwin2.0高多样性双臂基准中,平均成功率从38.3%提升至68.8%,超越π₀和RDT等对比模型 [27][28] - 在"单轨迹SFT"场景下,应用SimpleVLA-RL后,OpenVLA-OFT的LIBERO平均成功率从48.9%提升至96.9%,长时序任务LIBERO-Long从17.3%提升至91.7% [6] 泛化能力与真实世界部署 - 在LIBERO的"9个已见任务训练+1个未见任务测试"实验中,SimpleVLA-RL所有未见任务成功率均提升,其中LIBERO-Object的"Unseen Task 2"提升36.5个百分点,证明RL能学习通用技能而非过拟合特定数据 [29] - 仅使用仿真数据训练,在真实机械臂测试中,SimpleVLA-RL将平均成功率从17.5%提升至38.5%,"Stack Bowls"任务提升32个百分点至70.0%,证明RL能增强仿真模型的真实环境适配性 [30][31] 自主探索与新策略涌现 - 在RoboTwin 2.0任务中,经过SimpleVLA-RL训练的模型能够自主探索并发现更高效的替代策略,例如直接通过"推"的方式将罐子移至目标位置,研究团队将这种现象定义为"Pushcut" [32] - "Pushcut"现象的特征是模型能够突破人类演示模式限制,利用奖励信号探索并采纳演示外的路径,其本质在于结果奖励不约束具体动作模式,而是允许模型自主选择最优行为路径 [33][34]
OpenAI两位首席最新采访信息量好大,终极目标是“自动化研究员”,招人并非寻找“最出圈”的人
36氪· 2025-09-26 12:15
文章核心观点 - OpenAI高管阐述了公司未来战略,核心是将GPT-5作为推动推理能力和Agentic行为成为主流的关键一步,并致力于实现“自动化研究员”的长期目标 [6][13][25] - 公司认为现有模型评估指标正趋近饱和,未来将重点关注模型在科学发现和经济相关领域取得实际进展的能力 [8][13][15] - 强化学习被强调为远未达到瓶颈的关键技术,其与语言模型的结合是重要突破点,公司预计相关工具和方法论将持续快速迭代 [16][17] 技术发展路线图 - GPT-5是公司策略重心转向默认提供推理和更多Agentic行为的重要标志,旨在整合此前GPT系列(即时响应)和o系列(推理)的不同模式 [6][7] - 未来技术发展的一个关键衡量指标是模型进行有效推理和取得进展的时间跨度,当前水平为1~5小时,公司下一步将专注于延长此时间跨度,提升模型的长期规划能力和记忆保持 [13][15] - 编程模型已取得显著进步,从解决八年级数学问题到在编码竞赛中达到人类水平仅用约一年时间,改变了默认的编码方式,下一代方向可能是“氛围研究” [19][21] 研究与评估方法演进 - 公司承认过去依赖的评估体系已接近饱和,早期通过大规模预训练评估泛化能力,现在则通过针对严肃推理的强化学习培养领域专家,但缺乏更合适的评估体系 [8] - 未来评估将不再局限于传统基准测试,而是转向模型能否发现新事物以及在具有经济相关性的领域取得实际进展 [8][13] - 编程竞赛被视为一个良好的封装测试环境,可用于衡量模型在受限环境和时间范围内提出新想法的能力 [18] 公司文化与人才策略 - 公司招人并非寻找“最出圈”或社交媒体上最引人注目的人,而是青睐那些具备坚持不懈特质、曾解决过难题、有扎实技术功底并愿意迎难而上的人才 [23][24] - 研究文化强调对假设保持清晰、对进展保持极度诚实,并保护基础研究不被短期产品竞争的节奏带偏,为研究员提供思考未来一两年重大问题的空间 [23][25] - 成功的秘诀在于专注于基础研究而非简单模仿竞争对手,公司通过清晰的研究目标和创新氛围来吸引和留住人才 [23] 资源分配与核心约束 - 若有10%的额外资源,公司明确会投向计算资源,认为计算仍是当前的决定性约束因素,而非数据或人员 [26][27] - 公司处于强烈的计算限制下,其研究路线主要基于长期信念而非短期市场反馈,并需考虑能源等物理约束 [27][28] - 公司预测机器人技术会在不久的将来成为主要焦点 [28]
OpenAI两位首席最新采访信息量好大!终极目标是“自动化研究员”,招人并非寻找“最出圈”的人
量子位· 2025-09-26 04:56
GPT-5的战略定位与能力演进 - 公司试图将推理能力带入主流,GPT-5是朝着默认提供推理和更多Agentic行为迈出的一步[7][8][9] - 公司策略重心是让用户无需在即时响应模型和推理模型之间选择,未来将聚焦于增加推理和Agents能力[8] - 相比o3等先前模型,GPT-5在多方面有改进,但其主要意义在于将推理模式带给更多用户[10] 模型评估体系的演变与未来方向 - 过去依赖大规模预训练的评估方法已非常接近饱和,早期通过评估测试模型泛化能力,如今针对严肃推理的强化学习使模型能在特定领域成为专家,但泛化性可能不足[12] - 未来将重点关注模型是否能够发现新事物,并在具有经济相关性的领域取得实际进展[13] - 对衡量模型自主运行时间长度的评估很感兴趣,当前推理水平达1~5小时,未来将专注于延长该时间跨度,提升长期规划与记忆能力[23][24][25] 强化学习(RL)的发展现状与前景 - 强化学习是一种通用且强大的方法,建立在深度学习的通用学习方法之上,其发展远未达到瓶颈[27][28] - 奖励模型的发展速度预计会非常快,未来会变得更简单,公司正逐步向更接近人类学习的方向迈进[29][30] - 理解强化学习的关键思维模式是不要将当下状态视为终局,需保持灵活,因工具和方法论将持续快速迭代[31] AI编程的进展与影响 - 新一代编程模型投入大量精力调整预设,以匹配程序员对解决方案等待时长的预期,解决了上一代模型在困难问题上耗时过少、简单问题上耗时过多的问题[33][34] - 编程竞赛提供了封装的测试环境,可衡量模型在受限环境和时间内提出新想法的能力[36] - 模型进步已改变编码默认方式,新一代认为“凭感觉编码”是常态,公司首要任务是使编码工具摆脱“恐怖谷”体验,达到如同事般好用的水平[37][41][42] 自动化研究员的长远目标与衡量标准 - 公司的一个宏大目标是培养自动化研究员,使其能自动发现新想法,计划先自动化内部研究工作,再扩展至其他科学领域[20][21] - 衡量该进展的“好方法”是观察模型可进行推理和取得进展的时间跨度[22] - 模型已能推动非常困难的前沿科学研究,自动化解决可能需要学生花费数月时间的工作,这被视为灵光一闪的时刻[15][16][17] 公司人才战略与研究文化 - 招聘并非寻找“最出圈”或社交媒体上最引人注目的人,而是青睐曾解决过难题、具备扎实技术功底并愿意迎难而上者,即使其原领域非深度学习[46][47] - 关键研究特质包括坚持不懈、对进展保持极度诚实、有清晰假设并知道何时调整方向,研究无捷径,需经验学会选择合适问题[44][45] - 团队文化强调保护基础研究,避免被短期产品竞争带偏,研究员需空间思考未来一两年的重大问题,公司优势在于专注基础研究而非模仿竞争对手[46][48] 资源分配与未来技术焦点 - 若有10%额外资源,将优先投入计算资源,因研究人员始终感觉算力不足,计算仍是决定性因素[49][50][51] - 研究路线基于长期信念而非短期市场反馈,需明确优先级以避免在所有方向都做第二名[51] - 除计算外,未来需考虑能源等物理约束,预测机器人技术将在不久的将来成为主要焦点[52]
缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈
量子位· 2025-09-26 02:08
文章核心观点 - 视觉-语言-动作模型是实现机器人在复杂环境中灵活操作的关键因素 [1] - 研究团队提出的SimpleVLA-RL框架解决了VLA模型训练的核心瓶颈,显著提升了性能、数据效率和泛化能力 [3][5] - 该框架在多个标准基准测试中实现了最先进的性能,并在真实世界任务中展现出强大的仿真到现实迁移能力 [5][19][28] 现有训练范式的瓶颈 - 现有主流训练流程依赖大规模预训练加有监督微调,面临数据稀缺性和泛化能力不足两大核心瓶颈 [8] - 高质量机器人操作轨迹数据采集成本高昂、规模受限,从根本上制约了模型的可扩展性 [8] - 有监督微调的学习过程高度依赖特定数据分布,在面对分布外任务、新环境或未见对象时性能显著下降 [9] - 将强化学习直接应用于VLA训练面临过程奖励设计复杂和与物理环境交互成本高的独特挑战 [9] SimpleVLA-RL框架设计 - 框架基于veRL扩展,是专门针对VLA模型特点优化的端到端在线训练方案 [12] - 采用交互式轨迹采样机制,模型直接输出动作token概率分布,在闭环中不断更新视觉观测和机器人状态 [13] - 使用极简的二元结果奖励建模,任务成功记为1失败记为0,奖励均匀分摊到整个轨迹的动作token上 [14] - 引入探索增强策略,包括动态采样、扩大GRPO裁剪区间和提高rollout采样温度,以避免轨迹同质化 [15][17] - 简化训练目标,移除KL散度正则项,不再依赖参考模型,减少内存消耗并鼓励新行为探索 [16] 性能提升与基准测试结果 - 在LIBERO基准测试中,将OpenVLA-OFT的平均成功率从91.0%提升至99.1%,长时序任务LIBERO-Long提升12.0个百分点 [21][22] - 在RoboTwin1.0基准上,四个任务平均成功率从39.8%提升至70.4%,其中"Blocks Stack"任务提升33.1个百分点 [23][24] - 在RoboTwin2.0基准上,覆盖短/中/长/超长时序12个任务,平均成功率从38.3%提升至68.8% [25][26] - 在"单轨迹有监督微调"场景下,OpenVLA-OFT的LIBERO平均成功率从48.9%提升至96.9%,长时序任务从17.3%提升至91.7% [5] 数据效率与泛化能力 - 仅需单个演示轨迹即可显著提升模型性能,大幅降低对大规模演示数据的依赖 [5][19] - 在未见任务测试中,SimpleVLA-RL所有未见任务成功率均提升,其中LIBERO-Object的"Unseen Task 2"提升36.5个百分点 [26] - 与有监督微调在未见任务上出现"灾难性遗忘"相比,强化学习能学习通用技能而非过拟合特定数据 [26] 仿真到现实迁移能力 - 仅使用仿真数据训练,在真实机器人测试中平均成功率从17.5%提升至38.5%,"Stack Bowls"任务提升32个百分点 [28][29] - "Pick Bottle"任务从完全失败实现14%成功率,证明强化学习能增强仿真模型的真实环境适配性 [28][29] 自主探索与新策略涌现 - 训练过程中模型展现出自主探索能力,涌现出新的操作策略,如通过"推动"替代"抓取"的Pushcut现象 [10][29] - 结果奖励不约束具体动作模式,允许模型在满足任务目标前提下自主选择更优行为路径 [30] - 这一现象证明强化学习能让VLA模型超越人类演示局限,为未来自主自适应模型研发提供新范式 [31]
从现有主流 RL 库来聊聊RL Infra架构演进
自动驾驶之心· 2025-09-25 23:33
强化学习在大模型发展中的核心作用 - 强化学习已从辅助技术跃升为驱动大模型能力跃迁的核心动力 正经历从单轮静态任务向多轮交互式智能体训练的关键范式转移 目标是构建能在复杂动态环境中通过多步观察思考行动与反馈完成任务的智能体 这是通往AGI的关键一步[2] - 强化学习正在重塑大模型能力边界 不仅是弥补数据瓶颈的利器 更是构建下一代通用智能体的核心方法论 背后依赖日益成熟的RL基础设施生态[2] 现代RL基础设施架构范式 - 核心架构围绕Generator和Trainer两大组件 Generator负责让LLM与环境交互生成轨迹并计算奖励 计算开销大 设计灵活性和环境抽象能力至关重要 Trainer负责根据轨迹数据使用PPO和GRPO等算法更新模型参数 性能取决于分布式训练后端如FSDP DeepSpeed Megatron[6] - 生成器-训练器架构配合Ray等分布式协调层构成大模型强化学习系统的黄金标准 RL训练计算成本极高 涉及大规模并行推理和参数更新 优秀RL库需高效稳定可扩展地协调这两个阶段[6] Primary Development框架 - TRL是Hugging Face官方推出的最开箱即用的RL框架 更像训练器集合而非复杂分布式系统 算法支持包括SFT PPO DPO GRPO IPO KTO Online DPO REINFORCE++等 集成transformers库 支持vLLM加速Rollout 训练后端依赖accelerate库 支持DDP DeepSpeed ZeRO FSDP API简洁文档丰富 适合快速原型和中小规模实验 但不支持环境交互 生成与训练耦合紧[9][10][14] - OpenRLHF由OpenLLMAI 字节 网易等联合开发 旨在提供高效可扩展的RLHF和Agentic RL框架 训练后端基于DeepSpeed ZeRO-3和Auto Tensor Parallelism 代码结构清晰 是许多二次开发框架的基础[11][15] - veRL由字节Seed团队开发 是功能最全面算法支持最广泛的框架之一 算法支持包括PPO GRPO GSPO ReMax REINFORCE++ RLOO PRIME DAPO DrGRPO等 架构采用HybridFlow控制器 支持多轮训练和工具调用 目前生成与训练耦合 后续规划异步解耦 集成vLLM和SGLang等推理后端 训练后端支持FSDP/FSDP2和Megatron-LM 奖励支持模型奖励和函数规则奖励如数学代码 追求全能 涵盖所有主流RL算法和应用场景 是前沿算法研究和复杂任务如多模态多智能体实验的理想选择 配置较复杂[16][22] - AReaL由蚂蚁开源 专为大规模高吞吐推理模型RL设计 核心是完全异步架构 算法支持包括PPO GRPO REINFORCE++ RLOO DPO IPO KTO等 架构支持异步Pipeline RLHF和异步Agentic RL模式 后者通过Agent类API支持多轮对话 深度集成vLLM用于高吞吐Rollout 核心创新是完全异步设计 通过可中断Rollout Worker经验回放缓冲区和并行奖励服务将生成与训练彻底解耦 使用SGLang进行Rollout Ray进行集群管理 训练后端主要使用PyTorch FSDP 也支持Megatron 为追求极致训练效率和可扩展性而生 其轻量版AReaL-lite提供更易用API[20][21][28] - NeMo-RL是NVIDIA官方推出的面向生产的RL框架 集成在NeMo生态系统中 与NVIDIA硬件GPU和软件栈CUDA TensorRT深度集成 提供从RM训练到PPO的端到端Pipeline 设计优雅接口定义清晰 性能和扩展性兼顾[24][29] - ROLL是阿里开源专注于大规模LLM RL的框架 强调异步和Agentic能力 算法支持集成了GRPO PPO REINFORCE++ TOPR RAFT++ GSPO等多种先进RL算法 架构采用基于Ray的多角色分布式设计 将策略生成价值评估奖励计算等任务解耦到独立Worker角色中 实现灵活资源调度异步训练和复杂任务编排 深度集成SGLang和vLLM作为高性能推理后端加速策略生成Rollout 训练后端主要基于DeepSpeed ZeRO和Megatron-LM 5D并行 未来支持FSDP2 奖励通过模块化奖励工作者RewardWorker处理奖励计算 支持验证器沙盒LLM-as-judge等多种奖励源 构建灵活奖励路由机制 面向多样化用户 高度可配置接口丰富[30][36] - slime由清华智谱开源 是轻量级专注于将SGLang与Megatron无缝连接的框架 架构强调可扩展性和生产级编排 支持异步Rollout非Colocate放置等 训练后端支持Megatron-Core和DTensor FSDP2 集成支持使用TensorRT-LLM和vLLM进行rollout 通过自定义数据生成接口和服务端引擎实现任意训练数据生成流程 支持异步训练和Agentic工作流 追求极简主义与高性能[34][35][40] Secondary Development框架 - Agentic RL智能体强化学习框架包括verl-agent基于veRL构建 专门为Agentic RL优化 支持异步Rollout和训练 以及agent-lightning实现训练与推理解耦 更容易支持多智能体训练 关键技术包括异步生成经验回放环境接口标准化[46][47][49][50][52] - Multimodal RL多模态强化学习框架包括VLM-R1和EasyR1基于veRL开发 用于训练视觉语言推理模型 以及DanceGRPO专门用于扩散模型如文生图的RL训练 关键技术包括多模态数据加载器跨模态奖励设计如CLIP分数针对扩散模型的特殊采样策略ODE/SDE转换[54][55][57][58] - Multi-Agent RL多智能体强化学习框架包括MARTI由清华C3I提出的首个高性能开源LLM多智能体强化训练与推理框架 通过统一框架整合多智能体推理与强化学习 结合高性能引擎与灵活架构 为复杂协作任务提供高效可扩展解决方案 兼容单智能体RL框架如OpenRLHF veRL 支持vLLM 以及Agent-Lightning其解耦设计便于扩展到多智能体场景 关键技术包括集中训练分散执行CTDE基于自然语言的信用分配如LLaMAC多智能体策略优化如MAGRPO[60][62][63] RL基础设施发展趋势 - 标准化与模块化 RL基础设施正从手工作坊走向标准化流水线 框架设计越来越模块化 将Rollout Reward Train等环节解耦 便于复用和扩展 库不再绑定单一推理后端 支持vLLM SGLang等[65] - 异步化成为大规模RL必备特性 为应对Rollout和Train之间巨大计算不对称性 异步架构如AReaL OpenRLHF slime等已成为关键[65] - 推理引擎至关重要 vLLM和SGLang等高性能推理引擎的出现极大加速了Rollout过程 成为现代RL框架标配[66] - 从RLHF向Agentic RL演进 早期库如TRL主要为单步任务设计 新一代库内置强大环境抽象以支持复杂多步交互[66] - 分布式训练框架选择 Megatron-LM在超大规模模型训练中性能最佳 FSDP/FSDP2因与PyTorch集成好广受欢迎 DeepSpeed在内存优化上表现出色 成熟库通常支持多种方案[66] - 场景驱动的二次开发 通用框架如veRL OpenRLHF为生态奠定基础 针对特定场景如多模态多智能体GUI的二次开发框架解决垂直领域独特挑战[66] - Orchestrator重要性由于RL涉及多个分布式组件如训练框架推理框架环境 使用Ray等进行任务编排资源管理和容错已成为行业共识[66]
AI正在偷走白领工作,OpenAI狂砸10亿教AI上班,你的完美继任者即将上岗
36氪· 2025-09-25 09:32
AI行业投资与研发投入 - Anthropic和OpenAI等公司计划每年投入10亿美元专项资金用于AI训练[1][3][4] - OpenAI预计2030年数据相关投入将增至80亿美元[4] - 行业在后训练阶段预算中RL环境占比目前低于10%但预计明年将显著提升[10] AI训练方法创新 - 使用强化学习环境模拟真实办公软件如Salesforce、Zendesk、Microsoft Excel等[3][12][13] - 通过拆解任务步骤并建立评估标准验证AI执行效果[8][9] - 采用人类专家示范任务执行过程生成训练样本[18][19] 人力资源成本趋势 - Labelbox公司20%专家时薪超90美元10%超120美元[11] - 预计未来18个月内专家报酬将升至每小时150-250美元[11] - 雇佣对象从学生转向NASA数据科学家、私募副总裁等资深专业人士[15][16][22] 技术应用场景拓展 - AI学习领域涵盖医学、法律、金融等专业领域[17][20][22] - 训练内容包含折现现金流分析、医疗记录处理等复杂任务[17][23] - 目标开发能操作实际办公软件的AI智能体[4] 行业发展预期 - OpenAI高管预测整个经济体系将演变为RL机器[1][21] - AnthropicCEO称AI可能在未来1-5年内取代50%入门级白领职位[1] - 行业认为3年内可能出现白领岗位大规模替代[1]
微信WeChat-YATT横空出世,腾讯强化学习布局剑指何方
搜狐财经· 2025-09-24 09:56
WeChat-YATT技术特点 - 基于Megatron-Core和SGLang/vLLM研发 专注强化学习和多模态模型训练[2] - 显著优化强化学习场景参数更新效率 提供灵活多模态数据融合接口 通过模块化设计降低分布式训练门槛[2] - 命名"Yet Another Transformer Trainer"体现腾讯在AI基础设施层的长期投入决心[6] 技术对比优势 - 相比Meta PyTorch在强化学习支持更胜一筹 对比Google JAX在中文场景和多模态处理具明显优势[4] - 与同类强化学习框架Ray RLlib相比 深度整合微信生态独具特色[4] - 特别强调易扩展性 满足大模型快速迭代需求 参数规模突破万亿门槛后训练框架灵活度决定竞赛先机[4] 腾讯AI战略布局 - 开源WeChat-YATT是构建技术生态圈的重要步骤 类似Google开源TensorFlow的路径[2] - 结合申请微信AI服务平台商标 混元大模型全面落地等动作 形成底层技术突破与上层应用落地的双轮驱动[7] - 微信作为十亿级流量入口需强大AI能力支撑 混元大模型持续进化需高效训练工具 WeChat-YATT填补关键环节形成从基础设施到终端应用的完整链条[7] 强化学习战略价值 - 重点投入强化学习训练库 预示在游戏 推荐系统 自动驾驶等核心领域的下一代AI应用场景布局[7] - 大模型时代竞争本质是基础设施竞争 自主可控训练框架将成为头部企业标配[7]
寻找你的AI同频搭子|「锦秋小饭桌」活动上新
锦秋集· 2025-09-23 09:44
活动信息 - 锦秋小饭桌是为创业者打造的常态化闭门社交活动,每周五晚在北京、深圳、上海、杭州等地举办 [22] - 活动形式为非正式会谈和产品技术人社交饭局,围绕技术、投资、硅谷和国内进展等话题进行真诚交流 [23] - 2025年9月至10月将举办三场活动:9月26日深圳AI Agent专场、10月10日北京具身智能专场、10月17日深圳机器人派对 [3][5][50] 大模型在决策任务中的应用局限 - 现阶段大模型不适合直接用于严肃的长序列决策任务(如游戏AI),其表现不如传统的小型强化学习模型 [25] - 决策任务具有一步错满盘皆输的特性,而大模型擅长的感知/生成任务容错率较高 [25] - 大模型训练数据中缺乏高质量的决策过程知识和数据,例如在斗地主游戏中性能仅能勉强战胜随机出牌的智能体 [26] 信息检索范式演进 - 传统RAG通过外部的Embedding、Ranking、Retrieval等工程化手段进行信息召回 [32] - 新一代模型(如Claude)具备原生上下文感知能力,能自主决定使用何种工具进行语义和场景强相关的信息检索 [33] - 模型原生能力效果好但成本高,适合模型开发者,应用层公司为控制成本仍需采用外部工程方案或混合使用 [35] Agent架构与发展趋势 - 目前主流应用基于React的单智能体模式,通过思考-行动循环完成任务 [36] - 多智能体系统正在兴起,通过规划、解题、验证等多个角色智能体协同工作,可取得超越单智能体的效果 [36] - 让AI Agent交付预期结果的关键在于前期生成清晰明确的需求文档、软件架构图和任务列表 [38] AI Agent基础设施技术流派 - Sandbox模式以Manus为代表,为每个Agent启动一个独立的完整Linux系统沙箱,功能强大但资源消耗大 [39] - 模块化组件模式以AWS Agent Core为代表 [40] AI硬件与交互方式演进 - 通用Agent的机会在于交互方式变革,如从打字到语音输入,未来可能出现新硬件设备利用AI服务时间 [42] - 主动式AI硬件是下一代产品,但面临技术挑战,预计还需2-3年才能被工程化验证 [43] - Meta发布的Rayban Display是中间产品,备货量仅1-2万台,性能表现不佳且演示出现故障 [44] 大模型记忆管理与数据源 - Memory管理是大模型能力提升的下一个赛点,需找到模型自发压缩状态的方案以突破transformer架构的上下文限制 [45] - 拥有多样化数据源的Agent在理解用户语境方面表现更好,例如谷歌通过浏览器、云盘、邮箱等服务覆盖用户生活场景 [46] - 开发专有浏览器是为AI功能提供最高权限的技术路径,可避免频繁权限提示,提供更流畅体验 [46] 创业支持 - 锦秋基金设立Soil种子专项计划,专为早期AI创业者提供资金支持,帮助将创新想法转化为实际应用 [57]
进击新能源第一阵营,“增程豪华轿车新标杆”别克至境L7全国首秀
中国汽车报网· 2025-09-23 05:51
产品发布与市场定位 - 至境L7作为别克高端新能源子品牌“至境”的首款旗舰轿车于9月15日首次公开亮相 [1] - 该车型定位为“行业最强的增程豪华轿车”,旨在进击新能源第一阵营 [1][21] - 车辆已到达全国别克经销商展厅并开启早鸟计划,9月28日前下订可享终身免费保养 [1][3] 核心技术:增程系统与性能 - 至境L7诞生于“逍遥”超级融合架构,搭载行业顶级“真龙”增程系统 [1][3][5] - “真龙”增程系统采用252kW行业最大功率增程单电驱,动力相当于3.0T V6发动机 [5] - 满电0-100km/h加速5.9秒,80-120km/h超车加速3.8秒,亏电状态下性能差异小于0.1秒 [5] - 百公里综合能耗低至0.5L,发动机介入噪声小于0.5dB,实现安静无感介入 [5] - 纯电续航里程达302km(同级最长),综合续航里程达1420km [5] - 支持130kW快充,30%-80%补能仅需18分钟 [5] - 采用奥特能2.0增混专用电池,宣称15亿公里0自燃,纯电续航64万公里低衰减 [8] 智能驾驶与座舱体验 - 率先搭载“逍遥智行”辅助驾驶系统,全球首发基于端到端强化学习的Momenta R6飞轮大模型 [1][9] - 提供“无断点”城市NOA和“不停车一键泊入”等全场景辅助驾驶功能 [9] - 别克辅助驾驶累计安全行驶里程已超10亿公里 [9] - 智能座舱首发搭载高通最新一代SA8775P芯片,神经网络算力达72 TOPS [1][11] - 配备50吋全景AR-HUD抬头显示系统,可融合15组以上驾驶信息 [11][16] - 拥有15.6吋支持分屏显示的智能中控屏、低能耗哨兵模式、手机场景式备车功能及AI智能语音助手 [11] 豪华配置与车身设计 - 车身尺寸为5032mm x 1952mm x 1500mm,轴距达3000mm,属C级中大型豪华轿车 [14] - 采用星空展翼外观、豪华溜背造型、无框车门及20吋星光涡扇轮毂 [14] - 内饰采用纯净浮岛设计美学,提供270°皮质环绕包覆 [15][18] - 配备同级唯一四座全功能悬浮层座椅,副驾搭载双120°零重力座椅及4向电动腿托 [19][21] - 搭载27扬声器Buick Sound剧院级豪华音响及全四座多模式头枕音响,营造22分贝图书馆级宁静空间 [19] - 底盘采用前双叉臂、后五连杆(6球头设计)悬架结构,并配备RTD连续阻尼可变悬架 [21]
Nvidia砸千亿美元助力OpenAI,马斯克狂飙造全球最大AI集群 | Jinqiu Select
锦秋集· 2025-09-23 04:44
行业核心观点 - AI行业竞争从算法和产品层面进入基础设施和算力的硬核较量阶段 [2] - 模型层顶级玩家通过资本、算力和速度构建了难以撼动的护城河 [3] - 模型智能水平将持续提升,为非模型层创业者创造基于趋势设计业务的机会 [4] Nvidia与OpenAI合作 - Nvidia宣布向OpenAI投入高达1000亿美元的战略投资 [1] - 双方将携手打造至少10吉瓦的数据中心基础设施,用于支撑下一代模型的训练与部署 [1] xAI的算力基础设施布局 - xAI从2025年3月起迅速启动Colossus 2项目,半年内完成约200MW冷却能力和机架安装,速度远超业界平均水平 [5][11] - 为解决孟菲斯本地电力限制,xAI在密西西比州Southaven收购旧电厂并获临时许可运行燃气涡轮机,形成跨州供电方案 [5][14] - 与Solaris Energy Infrastructure合作,通过租赁和合资模式快速部署超过460MW涡轮发电机组,规划总装机规模扩大到1GW以上 [5][19][24] - 通过多层布局和高密度设计,将现有站点容量提升到超过1GW,增强单一相干集群优势 [5][27] xAI的财务状况与融资 - Colossus 2所需资本支出高达数百亿美元,xAI尚未产生有意义的外部收入 [29] - 传闻中的9位数年化经常性收入绝大部分是X.com到xAI的公司间转移 [29] - 正准备新一轮数百亿美元融资,公司估值接近2000亿美元,沙特公共投资基金将扮演重要角色 [31] - 未来两三年仍需持续投入数百亿美元资金,高度依赖外部融资及Elon Musk其他企业内部资金转移 [5] xAI的技术与产品 - Grok 4在技术指标上已达到一线AI实验室水平,但商业收入和企业客户接受程度表现不足 [5] - API产品存在性价比劣势,Grok 4定价与Claude Sonnet 4持平但编码能力稍逊 [5][45] - 发布蒸馏模型Grok Code Fast 1,以更小体积保留Grok 4部分性能,在OpenRouter上需求激增 [45][47] - 采用独特的强化学习路径Ani,通过人类情感与互动环境训练模型,而非仅局限于数字生产力领域 [5][53] xAI的人才与文化 - 从DeepMind、Meta、英伟达等公司成功引进大量顶尖人才,员工超过一千名并持续扩张 [41] - 公司文化以高压和极快工作节奏著称,人员流动性极高,长期组织稳定性面临风险 [5][42] - 前首席财务官加入后不到4个月离职,部分高级研究员也已离开 [42] xAI的市场策略与挑战 - 产品选择与Elon Musk旗下X深度融合的路线,消费者侧取得进展但企业端表现乏力 [5][50] - 在企业方面采用率非常低,部分由于模型幻觉问题及对特定话题的敏感行为 [49] - 与OpenAI、Anthropic等公司专注于代码和自动化应用的策略不同,xAI追求更通用的AGI路径 [52]