强化学习 - 财报，业绩电话会，研报，新闻 - Reportify

强化学习

搜索文档

复旦、同济和港中文等重磅发布：强化学习在大语言模型全周期的全面综述

机器之心· 2025-09-30 23:49

文章核心观点 - 一篇由多所顶尖大学研究者完成的综述系统性回顾了强化学习在大语言模型全生命周期中的最新进展、挑战及未来方向 [2][3] - 强化学习技术显著提升了大语言模型的推理能力与对齐性能尤其在理解人类意图、遵循指令和增强推理方面效果突出 [2] - 该综述提出了首个强化学习在LLMs全生命周期的分类总览图涵盖了预训练、对齐、RLVR、数据集与基准测试、开源框架五大分支 [5][6] 强化学习在LLM生命周期中的应用 - 强化学习参与大语言模型的预训练、对齐及推理增强训练全过程并通过测试基准进行验证 [5] - 预训练阶段应用包括Reinforcement Pre-Training、OctoThinker、Visual Pre-Training等方法 [6] - 对齐阶段涵盖RLHF和奖励建模、经典算法、新奖励模型设计等多种技术路线 [6] - 基于可验证奖励的强化学习是综述关注重点系统梳理了自OpenAI-o1与DeepSeek-R1发布以来的应用研究 [7] RLVR技术架构与进展 - RLVR通过引入可自动验证的奖励机制优化推理过程并增强模型对复杂任务的适应能力 [7] - 技术架构包含奖励模型、离线策略辅助、奖励过滤、采样与推理策略、智能体强化学习以及奖励更新层级 [8] - 算法进展包括混合学习策略、对抗/多智能体、树结构、视觉语言推理等多种先进方法 [6] - 多模态推理涵盖视频空间推理、具身推理、生成与纯视觉、专业领域任务等应用方向 [6] 数据集与评估基准 - 整理了大量现有用于强化学习微调的数据集与评估基准为研究提供实践参考 [3][6] - 数学推理基准包括GSM8K、MATH、OlympiadBench等 [6] - 代码能力评估涵盖APPS、LiveCodeBench、SWE-bench等基准 [6] - 通用知识与STEM评估包含MMLU系列、GPQA、TheoremQA等多个权威测试集 [6] 开源工具与训练框架 - 总结了当前主流开源工具与训练框架为研究人员提供清晰实践参考 [3][6] - 通用端到端框架包括VeRL、ColossalChat、DeepSpeed-Chat、TRL等 [6] - 专门训练库包含Nemo RL、FlashRL、ROLL等多个工具包 [6] - 这些资源整合对LLMs场景下探索RL的研究人员具有重要参考价值 [11] 技术挑战与未来发展 - 大规模RL训练对LLM来说仍是计算密集型且往往不稳定系统可扩展性和训练稳定性存在挑战 [12] - 奖励设计和信用分配是应用难点长时间推理过程中的奖励延迟问题给模型学习带来困难 [12] - 缺乏清晰理论框架分析RL在LLM训练中的泛化能力和稳定性对有效性和风险理解不充分 [12] - 数据集和评估基准建设不足缺乏统一标准化基准为强化学习微调方法比较验证带来困难 [12]

大语言模型

RLVR（基于可验证奖励的强化学习）

强化学习增强型大语言模型

大语言模型

RLVR（基于可验证奖励的强化学习）

强化学习增强型大语言模型

ChatGPT架构师，刚发布了最新研究成果

量子位· 2025-09-30 12:22

研究核心观点 - Thinking Machines发布第三篇研究博客，核心作者为OpenAI联创John Schulman，OpenAI前CTO Mira Murati为其转发站台[1] - 研究证实LoRA参数高效微调方法在抓准关键细节后，不仅能与全量微调拥有相同的样本效率，还能达到一样的最终性能[7] - 研究给出了大幅降低LoRA调参难度的简化方案[3][22] 研究背景与问题 - 当前主流大模型参数达万亿级别，预训练数据达数十万亿token，但下游任务通常只需小数据集且聚焦特定领域[6] - 全量微调更新所有参数会导致资源浪费严重，而LoRA作为参数高效微调方法，通过低秩矩阵捕捉微调信息，但始终面临能否追上全量微调性能的争议[7] 核心研究发现 - 在中小数据集微调场景下，高秩LoRA（如秩512）的学习曲线与全量微调几乎完全重合，损失值均随训练步数呈对数线性下降[9][11] - 仅在数据集规模远超LoRA自身容量的极端情况下，其训练效率才会出现下滑，但这种情况在多数后训练场景中极少出现[11] - 在数学推理类强化学习任务中，即便将LoRA的秩降低至1，其性能依旧能与全量微调持平，因为强化学习每轮训练仅需依靠scalar优势函数吸收O(1)比特信息，秩1 LoRA的参数容量已满足需求[13][14] LoRA应用优化策略 - LoRA应用需实现全层覆盖而非仅聚焦注意力层，因为模型梯度的主导权掌握在参数数量更多的层手中[15][21] - 仅作用于注意力层的LoRA表现明显落后，即便提升秩来匹配参数量，性能差距依然显著[16][17] - 当LoRA应用于模型所有层（尤其是参数占比最高的MLP层与MoE层）时，性能得到极大提升，仅在MLP层单独应用LoRA效果就与组合应用相差无几[19] 调参简化方案 - LoRA的最优学习率存在明确规律，始终约为全量微调的10倍，这一比例在14个不同模型的测试中几乎保持恒定[12][22] - 得益于1/r缩放因子的作用，不同秩LoRA的最优学习率差异极小，在秩4至秩512范围内变化幅度不足2倍，短期训练任务中甚至可忽略秩对最优学习率的影响[22] - LoRA的4个潜在超参数中有2个属于冗余参数，实际调试只需重点关注"初始更新规模"与"A矩阵偏离初始状态的步数"两个维度，这将调参难度降低了一半[25][26] 作者背景 - 研究核心作者John Schulman为OpenAI联创，在OpenAI工作9年期间领导了从GPT-3.5到GPT-4o的一系列对齐/后训练工作，被誉为ChatGPT架构师[27][28] - John Schulman学术引用近14万，其代表作PPO算法是ChatGPT核心技术RLHF中选用的强化学习算法[29] - John Schulman现以首席科学家身份加入Thinking Machines，旨在回归核心技术领域[30]

参数高效微调（PEFT）

Artificial Intelligence

参数高效微调（PEFT）

Artificial Intelligence

印奇的智驾千里路：浪漫可以，但别浪

观察者网· 2025-09-30 09:49

公司战略与愿景 - 公司提出“千里计划”，核心愿景为“One Brain, One OS, One Agent”，旨在构建由大模型驱动的AI大脑、统一操作系统及超级智能助手，实现跨终端、跨场景服务 [7] - 公司宏大愿景是成为“AI+车+机器人”的平台级AI企业，全面布局家庭和工业AI场景 [3][7] - 公司短期聚焦汽车场景，沿商业确定性最强方向渐进发展，优先服务好基石客户以快速构建交付能力 [12] 业务布局与产品规划 - 智能驾驶业务规划覆盖L2到L4：L2+ 1.0版已上车，L3 2.0版预计2025年底发布，L4 3.0版计划2026年下半年推出 [9] - 智能座舱业务打造新一代Agent OS，实现超自然交互、融合记忆、全融合地图和第三生活空间等功能 [9] - 智能出行业务目标在未来18个月完成Robotaxi全链路产业布局，与吉利合作研发专用车型，目标在全球10座城市实现规模化运营，单一城市部署超1000辆Robotaxi [9] 技术路径与创新 - 公司技术路径强调高“含模量”，目标在未来6个月内将智能驾驶方案的含模量从行业普遍不足50%提升至80%-90% [14] - 公司采用“三层汉堡包”式技术架构，以模型为基，但不排斥人工规则安全兜底，并优化长短时序时空模式以实现更类人决策 [18] - 传感器策略上，坚持以大模型驱动、纯视觉为核心，同时融合激光雷达、4D毫米波雷达等复合传感器，构建6D多维透视感知系统 [20] - 公司强调以强化学习为核心，降低传统模仿式学习对数据分布的强依赖，并认为大模型给智驾带来的红利才刚刚开始 [16][17] 市场机遇与竞争定位 - 公司重要战略方向是出海，近期获得梅赛德斯-奔驰13亿人民币入股，标志着中国智能辅助驾驶海外抢滩战正式打响 [6][23] - 海外传统车企在软件自研上的困境为国内供应商创造机会，国内L2+级别智驾渗透率已超50%，但近半市场及合资车企部分仍有待开拓 [24][27] - 公司认为成功需要兼具强AI模型原生基因与强大工程化体系团队，对在短时间内形成战斗力充满信心 [27]

千里智驾方案

新一代智能座舱Agent OS

千里智驾方案

新一代智能座舱Agent OS

著名机器人专家：人型机器人的未来是不像人

36氪· 2025-09-30 08:43

人形机器人发展现状与核心理念 - 人形机器人的设计理念是采用与人类相同的身体结构，在人类环境中像人类一样工作，旨在打造一种通用机器人以替代数百万种执行特定任务的不同类型机器人 [5] - 行业参与者对人形机器人的经济潜力抱有极高预期，例如特斯拉首席执行官预测其Optimus机器人可能创造30万亿美元的收入，并将其称为"或许是全球最大的产品" [6] - 尽管存在狂热宣传，但人形机器人目前仍处于发展初期，远未达到宣传热度的峰值，其核心价值主张的实现依赖于达到人类水平的灵巧操控能力 [3][6][7] 灵巧性挑战与技术瓶颈 - 机器人灵巧操控的研究已持续65年以上，但至今尚无任何一款多关节手指机器人手部能达到足够的耐用性、力度和使用寿命以满足实际工业应用需求 [2][13][16] - 工业环境中主流的机器人末端执行器仍是平行夹爪抓取器和吸盘式抓取器，而非模仿人类手部的复杂设计 [13][16] - 当前主流的研究方法是通过让机器人"观看"人类完成任务的第一视角视频来进行端到端学习，但这种方法完全忽略了触觉和力反馈等对人类灵巧性至关重要的数据 [22][25][26] 端到端学习的成功案例与局限性 - 端到端学习在语音转文字、图像标注和大型语言模型三个领域取得革命性突破的关键，不仅依赖于大规模数据集，更依赖于针对特定领域精心设计的前端数据预处理工程 [27][31][34][39] - 这些成功案例的前端预处理技术最初都是为了实现人类感官信息的远程或异步传输而研发的，例如语音压缩技术是为了电话通信，图像序列化是为了图像传输 [32][34][38] - 在触觉领域，目前尚无类似的技术积累来捕捉、存储和回放触觉信号，这使得单纯依靠视觉数据来训练灵巧性面临根本性挑战 [43] 实现灵巧性的关键要素 - 人类的灵巧性极度依赖于丰富复杂的触觉感知系统，例如人类手部无毛皮肤中约有1.7万个低阈值机械感受器，仅每个指尖就有约1000个，目前已发现15种不同类型的神经元参与人类手部的触觉感知 [45][48][49] - 学术界的探索性研究显示，更先进的数据收集方法需将人类的手指动作与人类在控制机器人手时所感知的触觉信号关联起来，这超越了仅收集视觉数据的局限 [52][55] - 实现真正的灵巧性不仅需要学习动作策略，更需要学习如何根据触觉层面的感知来调整任务目标规划，这仍需要大量研究 [56] 人形机器人行走的安全性问题 - 当前与人类等大的双足行走人形机器人对人类而言并不安全，其行走主要依靠基于零力矩点算法和大功率电机来维持平衡，一旦摔倒，其刚性结构和高能量腿部会对附近人类造成严重伤害 [57][59][61] - 物理系统的缩放定律使得安全性问题随尺寸放大而急剧恶化，将机器人放大到人类尺寸（比例系数2）时，其能量需求会变为8倍，潜在伤害级别完全不同 [62][63] - 要实现与人类安全共享空间的大规模部署，必须研发出更安全、可近距离接触的双足行走机器人，但目前尚未解决此问题 [57][63] 人形机器人未来形态演变 - "人形机器人"的定义将随时间演变，未来其"脚"可能被轮子取代，出现"单臂、双臂、三臂"等不同版本，并配备非被动摄像头传感器，但仍会被称为"人形机器人" [64][65] - 未来将出现大量为特定人类任务设计的专用机器人，形态各异，但都会被称为"人形机器人"，而当前为榨取现有设计性能投入的巨额资金可能付诸东流 [66] - 行业预测在未来15年，虽然会拥有大量人形机器人，但它们的外观既不会像如今的人形机器人，也不会像人类 [2][66]

端到端学习

人形机器人

端到端学习

人形机器人

著名机器人专家：人型机器人的未来是不像人

阿尔法工场研究院· 2025-09-30 07:18

人形机器人行业现状与宣传热度 - 人形机器人行业正处于技术成熟度曲线的起点，远未达到宣传热度的峰值，而生成式人工智能已过峰值[4] - 行业核心理念是研发能完成人类所有工作的通用人形机器人，无需制造不同类型的专用机器人[7] - 部分公司预测人形机器人将在两年内产生显著经济影响，更保守的预测则认为需要五年时间[9] - 特斯拉首席执行官预测其Optimus人形机器人可能创造30万亿美元收入，并称之为"或许是全球最大的产品"[9] 人形机器人发展历史 - 人形机器人研发历史可追溯至20世纪60年代中期日本早稻田大学的研究，该校于70年代初研制出首台人形机器人WABOT-1[11] - 本田公司在80年代末开始研发双足行走机器人，最终于2000年推出ASIMO人形机器人[11] - 波士顿动力公司在2013年推出了人形机器人ATLAS，该公司35年前从麻省理工学院拆分出来[11] - 麻省理工学院研究团队于1992年开始研发人形机器人Cog，先后开发了七个不同版本的平台[12] 灵巧性挑战与技术瓶颈 - 实现类人操控能力是人形机器人存在的根本原因，但目前尚无多关节手指机器人手部能满足实际工业应用需求[16] - 工业机器人主要使用平行夹爪抓取器和吸盘式末端执行器，德国公司雄克生产销售1000多种平行夹爪抓取器[18] - 人类手部无毛皮肤中约有1.7万个低阈值机械感受器，仅每个指尖就有约1000个，目前已发现15种不同类型神经元参与触觉感知[56][58] - 人类灵巧性依赖于丰富的触觉感知系统，包括默克尔小体、迈斯纳小体、帕西尼小体和鲁菲尼小体等特殊结构[58] 当前训练方法的局限性 - Figure和特斯拉等公司采用"从演示中学习"方法，通过人类完成任务的第一视角视频训练机器人[28][29] - 当前数据收集方法存在局限性，包括无手腕力反馈、手指控制精度有限、无触觉感知以及精度仅为1-3厘米[27] - 麻省理工学院研究团队开发的新型数据收集方法能将人类手指动作与触觉信号关联起来，超越了仅收集视觉数据的局限[62] - 人类在进行灵巧动作时往往会先制定任务目标规划，而非直接将传感器信息映射为动作[64] 行走安全性问题 - 当前人形机器人主要依靠大功率电机维持平衡，使用基于零力矩点算法的改进版，该算法已有约56年历史[70] - 双足行走人形机器人对人类而言存在安全隐患，其腿部会携带大量自由动能，在空间中快速加速，可能造成严重伤害[71] - 根据物理缩放定律，将机器人尺寸放大到人类尺寸（比例系数2）时，能量需求会变为8倍，潜在伤害级别完全不同[72] - 研发行走机器人的公司在其发布的视频中不会出现人类靠近行走中人形机器人的场景，除非有隔离物[73] 行业未来发展趋势 - 未来人形机器人的定义将发生变化，"脚"可能被轮子取代，腿部形态不再与人类相似[75] - 将出现单臂、双臂、三臂等不同版本，部分配备五指手，但更多会采用两指平行夹爪抓取器或吸盘[75] - 未来会出现大量为特定人类任务设计的专用机器人，形态各异，但都会被称为"人形机器人"[76] - 目前为提升当前人形机器人性能投入的巨额资金可能付诸东流，这些机器人将被淘汰[76]

特斯拉(US:TSLA)

人形机器人

端到端学习

Optimus（擎天柱）

人形机器人

端到端学习

Optimus（擎天柱）

DeepSeek新模型降价：优化推理效率，API价格降超50%

YOUNG财经漾财经· 2025-09-30 06:25

新模型发布与技术升级 - DeepSeek正式发布实验性版本DeepSeek-V3.2-Exp模型 [3] - 新模型在V3.1-Terminus基础上引入DeepSeek Sparse Attention稀疏注意力机制 [3] - 新模型针对长文本训练和推理效率进行探索性优化和验证 [3] - DeepSeek Sparse Attention首次实现细粒度稀疏注意力机制 [4] - 新机制在几乎不影响模型输出效果前提下实现长文本训练和推理效率大幅提升 [4] - 新模型研究过程中使用高级语言TileLang进行快速原型开发 [4] - 开源算子包含TileLang与CUDA两种版本 [4] API价格调整与成本优化 - DeepSeek API价格降低50%以上 [2][4] - 输入缓存命中价格从0.5元降至0.2元/百万tokens [4] - 输入缓存未命中价格从4元降至2元/百万tokens [4] - 输出价格由12元降至3元/百万tokens [4] - 价格下调得益于新模型服务成本大幅降低 [4] - 官方App、网页端、小程序均已同步更新为新模型 [3] 模型性能与评估 - DeepSeek-V3.2-Exp训练设置与V3.1-Terminus严格对齐 [4] - 在各领域公开评测集上新模型表现与V3.1-Terminus基本持平 [4] - 新模型作为迈向新一代架构的中间步骤 [3] 行业竞争动态 - 国内大模型厂商智谱新一代旗舰模型GLM-4.6即将发布 [6] - 智谱Z.ai官网显示GLM-4.5标识为上一代旗舰模型 [6] 学术研究突破 - DeepSeek-R1研究成果登上《自然》期刊封面 [7] - 研究揭示如何在极少人工输入下训练模型进行推理 [7] - DeepSeek-R1模型采用强化学习进行训练 [7] - 模型正确解答数学问题获高分奖励答错受惩罚 [7] - 训练出能够规划解决问题步骤的大模型能更好解决问题 [7]

稀疏注意力机制

DeepSeek-V3.2-Exp模型

DeepSeek-R1模型

稀疏注意力机制

DeepSeek-V3.2-Exp模型

DeepSeek-R1模型

理想可能发i6战报，可能不发

理想TOP2· 2025-09-30 05:01

理想汽车I6战报发布可能性分析 - 综合消息面与推理面公司倾向于I6可能发布战报且发布概率较大 [1][3] - 公司判断理想汽车可能发I6战报也可能不发可能发的点是L6已发战报可能不发的点是理想总体不倾向发战报 [1] 理想汽车经营策略与核心理念 - 公司分析认为理想汽车实际经营的核心锚点是其创始人李想以挑战成长极限为最终驱动力其他经营策略可能变化 [4] - 理想汽车更长时间周期未必坚持移动的家或家用车理念此次I6宣发已无小孩带娃元素家用车定义从局限于12岁以下小孩变为更宽泛 [4] - 理想汽车经营策略被描述为以挑战成长极限为奖励函数的强化学习会依据环境反馈进行调整 [4] 理想汽车战报发布行为模式 - 理想汽车倾向于不发布锁单或大定战报原因包括全直营模式导致只能发布真实数据以及早期大定数据不亮眼发布效果不佳 [4] - 如果战报数据非常亮眼公司认为理想汽车有可能发布以带来相应好处 [4] I6与L6车型数据预期对比 - I6数据预期纸面上比L6好很多 L6为72小时1万台七天可退大定但不能等比例类比 [5] - I6有很强的晚锁单和晚提车可能错过置换补贴及国补的预期而L6没有此预期 [5]

纯血VLA综述来啦！从VLM到扩散，再到强化学习方案

具身智能之心· 2025-09-30 04:00

视觉-语言-动作模型综述的核心观点 - 该综述系统性地总结了纯视觉-语言-动作方法的研究现状，旨在填补现有综述在纯VLA方法上的空白，并提出清晰的分类体系以阐明该领域的演进轨迹 [4][8] - VLA模型通过提供统一框架将视觉感知、语言理解和可执行动作相结合，标志着通用具身智能发展的重要一步，其目标是克服传统机器人系统在动态和非结构化环境下泛化能力差的问题 [11][14] - 该领域正从单一生成范式向混合架构演进，结合自回归、扩散和强化学习等多种范式的优势，以应对复杂任务，并朝着更高效、安全且易于部署的通用机器人系统发展 [18][56][57] 背景与发展脉络 - VLA模型的发展建立在单模态建模突破的基础上，早期LLM/VLM基础模型如Transformer架构和对比学习方法为多模态整合奠定了方法学基础 [12][13] - 从LLM/VLM到VLA模型的演进体现在将图像、指令和机器人状态统一编码为token，并通过自回归生成动作序列，从而在单一序列建模框架下实现感知-语言-动作的闭环 [14] - VLA模型被视为实现通用具身智能的关键前沿，其通过结合视觉编码器、大语言模型和强化学习的决策能力，展现出弥合“感知-理解-行动”鸿沟的重要潜力 [17] VLA方法学范式自回归范式 - 自回归模型通过将动作序列视为时间相关过程，在Transformer架构中统一多模态感知和动作生成，支持跨任务泛化的通用代理，代表性工作包括Gato、RT-1/RT-2和PaLM-E [19][21] - 该范式通过引入LLM实现语义规划和分层推理，增强了长时任务和复杂指令的处理能力，但面临误差累积、多模态对齐脆弱以及高计算成本等限制 [24][26][32] - 结构优化方向聚焦于降低计算冗余和提升实时性，采用层级分解、自适应推理和轻量化压缩等策略，以改善部署效率 [30][31] 扩散范式 - 扩散模型将机器人控制重新表述为概率生成问题，通过条件去噪过程支持多样化的动作分布生成，在几何一致性（如SE(3)约束）和视频生成式规划方面展现出优势 [33][37] - 多模态架构融合趋势将Transformer与扩散模型结合，实现异质模态的统一表征，并引入显式推理模块和领域专用设计（如力觉感知）以提升性能 [38][39] - 应用优化方向通过轻量化设计（如TinyVLA）、认知启发式架构和运行时鲁棒性机制，推动模型从实验室原型向真实世界部署过渡 [40][42][44] 强化学习范式 - 强化学习微调策略通过视觉和语言信号生成可迁移的奖励代理，结合离线行为克隆和在线强化学习稳定策略优化，并扩展至四足机器人、人形机器人和自动驾驶等场景 [48][51][53] - 安全导向方法如SafeVLA引入约束学习对齐机制，在开放环境中防止高风险动作，但奖励工程的噪声信号和训练稳定性仍是挑战 [50][54] - 效率优化策略采用量化、剪枝和知识蒸馏等技术，在保持任务成功率的同时降低内存使用和提升推理速度 [53] 混合与专用方法 - 混合架构整合自回归、扩散和强化学习等多种范式，以兼顾推理精度与动作生成的物理一致性，代表性工作如HybridVLA在单一框架中结合扩散轨迹和自回归推理 [56][57] - 高级多模态融合强调3D空间理解和显式几何约束建模，从早期2D特征拼接转向模块化、具3D意识的架构，以提升在非结构化环境中的操作可靠性 [59][60] - 领域适配将VLA原则扩展至自动驾驶、人形机器人控制和GUI交互等特定场景，通过专用数据集（如CoVLA）和层级化设计解决领域独特挑战 [61][62] 数据集与仿真资源 - 高质量数据集是VLA模型发展的基石，真实世界数据集如Open X-Embodiment整合了来自21个机构的22个机器人数据集，覆盖527种技能和160,266个任务，显著提升了模型的泛化能力 [16][71][76] - 仿真数据集通过虚拟环境生成大规模标注数据，支持可扩展训练和安全测试，代表性平台包括THOR、Habitat和CARLA，它们提供了多样化的交互场景和传感器配置 [16][80][81] - 基准评测常用成功率、语言跟随率和轨迹误差等指标，并通过迁移到未见环境评估模型的鲁棒性，仿真基准如VIMA-BENCH和CALVIN设计了多级协议以系统化测试泛化能力 [76][79][82]

视觉-语言-动作（VLA）模型

大语言模型（LLMs）

视觉语言模型（VLMs）

自回归范式

视觉-语言-动作（VLA）模型

大语言模型（LLMs）

视觉语言模型（VLMs）

自回归范式

Z Event｜SF Tech Week10.8硅谷线下会：为什么是现在？RL 的转折点与未来

Z Potentials· 2025-09-30 03:59

强化学习行业趋势 - 强化学习正从被视为小众研究方向转变为推动推理、决策智能与复杂场景交互的关键技术 [3] - 随着大语言模型发展接近瓶颈，强化学习已成为行业重要突破口 [3] - 当前是强化学习跨界融合关键时刻，学术界、产业界和创业公司共同推动其从研究走向落地 [3] 行业活动信息 - 活动将于10月8号晚上6:30在旧金山举行，探讨强化学习未来 [4] - 活动时间为10月8号6:30-9:00pm，地点在报名通过后通知 [10] - 活动报名可通过链接https://partiful.com/e/etu0TQxKzPgxszpJwU5z或扫码参与 [10] 参会嘉宾背景 - 嘉宾阵容横跨学界、工业界和创业圈，包括UCSB助理教授、DeepMind研究主管、Pokee AI CEO等 [6] - 参与者来自OpenAI、Anthropic、DeepMind、Meta等实验室的研究员和YC创业者 [12] - 活动由Z Potentials联合HatTrick Capital与Future Builderz共同呈现 [8] 投资机构信息 - HatTrick Capital是专注支持早期新一代技术创业者的硅谷基金，持续在AI领域投资 [9] - Future Builderz是连接研究者、创始人、投资人的国际化社区，推动前沿科技产业化 [9]

Artificial Intelligence

RL（强化学习）

Artificial Intelligence

RL（强化学习）

限时16.99万~21.59万元，别克至境L7正式上市

中国汽车报网· 2025-09-30 02:38

产品上市与定价 - 上汽通用别克品牌于9月28日推出高端新能源子品牌“至境”的首款旗舰轿车至境L7，共5款车型，限时权益价区间为16.99万元至21.59万元 [1] - 具体车型限时权益价分别为：尊享版169,900元、奢享版182,900元、尊享逍遥智行版189,900元、磨享逍遥智行版202,900元、艾维亚版215,900元 [2] - 用户可通过多种渠道下定，在10月31日前完成线上下定并于12月31日前完成交付的用户可享受限时权益价及价值至高53,000元的上市权益 [1][2] 动力系统与续航 - 至境L7搭载“真龙”增程系统，采用252kW增程单电驱，动力相当于3.0T V6发动机，配备1.5T混动专用发动机和峰值功率100kW的发电机 [6] - 百公里综合能耗低至0.5L，满电百公里加速5.9秒，80-120km/h超车加速3.8秒，亏电状态下加速差异小于0.1秒，实现全工况动力无衰减 [6] - 纯电续航里程达302km，综合续航里程达1420km，支持130kW快充，30%至80%电量补能仅需18分钟 [10] 电池安全与技术 - 采用全新研发的奥特能2.0增混专用电池，测试项目较新国标多60%，耐久测试标准较新国标严苛29倍，实现“16亿公里0自燃” [8] - 电池具备纯电续航64万公里超长循环寿命，拥有超强动力专属电芯、360°多重防护、智能控温系统和超高防水防腐等级 [8] 智能驾驶辅助 - 全球首发搭载基于“强化学习”的Momenta R6飞轮大模型的“逍遥智行”辅助驾驶系统，融合高通SA8775P芯片 [9][17] - 具备行业领先的“无断点”城市NOA功能，可应对复杂路况，并实现高速收费站ETC自主通行 [12] - 提供全类型车位泊车辅助，行业首次发布“不停车一键泊入”功能，将泊车流程简化为一步 [14] - 系统配备多重安全冗余和多级接管提醒，包括行业首创三级接管预警及安吉星24小时人工介入功能 [16] 智能座舱与交互 - 座舱由高通SA8775P芯片驱动，AI算力高达72 TOPS，支持车机体验的持续学习和“智能成长” [17] - 前排配备50吋全景AR-HUD抬头显示系统、15.6吋智能中控屏和10.25吋全液晶仪表盘，构成多屏数字空间 [19] - 拥有八大亮点功能，包括手机场景式备车、节能型哨兵模式、“千人千面”记忆空间和AI智能语音助手等 [21] 豪华配置与舒适性 - 车身尺寸为5032mm x 1952mm x 1500mm，呈现C级中大型豪华轿车气势，配备无框车门、银河星空展翼大灯等 [22] - 内饰采用纯净浮岛美学设计，大量使用Nappa高级真皮包覆，后排配备云感悬浮层座椅，副驾搭载合资首款双120°零重力座椅 [22][24] - 搭载27扬声器Buick Sound剧院级豪华音响，提供四种声场模式，并配备大师定制香氛系统 [26] 底盘与安全验证 - 采用前双叉臂、后五连杆悬架结构，配备RTD连续阻尼可变悬架和直径90mm的液压衬套，以提升驾乘舒适性和稳定性 [28] - 历经超千项试验验证，碰撞测试项目达60项（为国标5倍），耐久测试里程近650万公里，公共道路测试超30万公里 [30]

新能源汽车

真龙增程系统

逍遥智行辅助驾驶系统

Momenta R6飞轮大模型

新能源汽车

真龙增程系统

逍遥智行辅助驾驶系统

Momenta R6飞轮大模型