Workflow
强化学习
icon
搜索文档
DeepSeek论文登上《自然》封面,R1成为首个严格学术审查大模型
新浪财经· 2025-09-18 02:23
公司里程碑与学术认可 - DeepSeek-R1推理模型研究论文登上国际权威期刊《自然》封面 成为首个通过同行评议的主要大语言模型[1] - 《自然》期刊在评论报道中用"里程碑式论文"和"创造历史"表达赞赏 标志着中国在大模型基础研究领域取得重要突破[2] - 在同行评审过程中 公司根据评审意见减少模型拟人化描述并增加技术细节说明 包括模型训练数据类型和安全性考虑[1] 技术创新与成本优势 - 模型核心创新在于采用"纯强化学习"方法 通过奖励模型达到正确答案的行为来学习推理策略[2] - R1训练成本仅为29.4万美元 即使加上约600万美元基础模型成本 也远低于行业巨头训练成本[2] - DeepSeek-V3.1实现混合推理架构 一个模型同时支持思考模式与非思考模式 具备更高思考效率和更强智能体能力[3] 市场影响与开源成果 - 今年1月模型发布时 其卓越推理能力和极低开发成本曾引发全球科技股大幅下跌[2] - 开源后R1在Hugging Face下载量突破1090万次 成为全球最受欢迎的开源推理模型[2] - 公司明确否认使用OpenAI模型输出进行训练的质疑 强调数据全部来自互联网且无专门蒸馏环节[1] 行业意义与数据安全 - 同行评审被《自然》杂志视为抑制AI行业过度炒作的有效方式 公司做法被视为值得欢迎的先例[3] - 为防止基准测试数据污染 公司对预训练和后训练数据都实施全面去污染措施[1] - 公司成立于2023年 由幻方量化孵化 创始团队由梁文锋领衔 成员来自顶尖高校与国际机构[3]
刚刚,DeepSeek-R1论文登上Nature封面,通讯作者梁文锋
机器之心· 2025-09-17 17:00
核心观点 - DeepSeek-R1的研究论文登上《自然》期刊封面,标志着其研究成果获得顶级学术认可[1] - 该模型是首个通过权威学术期刊同行评审的大语言模型,其“程序价值”可能比科学价值更为深远,为行业建立了可复现流程和扎实证据的新标准[8][11][12] - 模型采用强化学习训练,在极少人工输入下实现了自我验证和反思能力,在编程和研究生水平科学问题上表现优异[7] 技术方法与创新 - 开发了无需监督微调冷启动的DeepSeek-R1-Zero,通过大规模强化学习显著提升推理能力[15] - 采用群组相对策略优化降低训练成本,不需要使用与策略模型同样大小的评估模型[16] - 设计准确度和格式两种互补的奖励机制,引导模型先给出推理过程再提供最终答案[17][18] - 模型展现出自我进化能力,生成数百到数千个推理token,自然产生反思能力和探索不同解题方法的高级行为[19][20] - 通过蒸馏技术使小模型具备推理能力,使用80万个样本对Qwen和Llama等开源模型微调,显著增强小模型性能[29] 性能表现 - 在MMLU-Pro测试中获得84.0分,超过Claude-3.5-Sonnet的78.0分和GPT-4o的72.6分[30] - 在AIME 2024数学测试中达到79.8分,接近OpenAI o1-mini的79.2分,远超Claude-3.5-Sonnet的16.0分[30] - Codeforces评分达到2029,接近OpenAI o1-1217的2061分,远超GPT-4o的759分[30] - 蒸馏后的Qwen-32B模型在AIME 2024达到72.6分,Llama-70B达到70.0分,显示技术可有效迁移[31] 行业影响 - 同行评审作为公正“守门人”,要求AI公司从自我宣传转向用扎实证据和可复现流程支持声明[10] - 将大语言模型纳入独立同行评审体系是从“技术竞赛”迈向“科学纪律”的关键一步,有助于遏制行业乱象、建立公众信任[12] - 为行业提供了通过严格评审验证模型可靠性与实用价值的先例,推动其他公司效仿[8]
别克至境L7首次亮相:首发搭载高通SA8775P座舱芯片,采用“逍遥智行”辅助驾驶系统
新浪科技· 2025-09-17 14:37
产品发布与市场策略 - 别克高端新能源子品牌“至境”首款旗舰轿车至境L7首次公开亮相 [2] - 至境L7已到达全国别克经销商展厅并开启早鸟计划 9月28日前下订可享终身免费保养 [2] - 产品融汇公司百年积淀和百亿资源投入 基于全新“逍遥”超级融合整车架构打造 [2] 动力系统与续航性能 - 至境L7首发搭载“真龙”增程系统 采用252kW功率增程单电驱 [2] - 满电0~100km加速5.9秒 80-120km/h超车加速3.8秒 亏电状态下差异均少于0.1秒 [2] - 百公里综合能耗低至0.5L 发动机介入噪声小于0.5dB [2] - 纯电续航302km 综合续航里程1420km 支持130kW快充 18分钟实现30%~80%补能 [2] 智能驾驶与座舱科技 - 搭载“逍遥智行”辅助驾驶系统 首发基于端到端强化学习的Momenta R6飞轮大模型 [3] - 提供“无断点”城市NOA和业内首批“不停车一键泊入”等全场景辅助驾驶功能 [3] - 智能座舱首发搭载高通SA8775P芯片 算力达72 TOPS [3] - 配备50吋全景AR-HUD抬头显示系统和15.6吋支持分屏显示的智能中控屏 [3] - 具备低能耗哨兵模式 手机场景式备车功能 以及基于端云大模型架构的AI智能语音助手 [3] 外观设计与内饰配置 - 车身尺寸5032mmx1952mmx1500mm 轴距3000mm 采用星空展翼外观和溜背造型 [3] - 配备超静谧NVH全车无框车门 隐藏门把手 20吋星光涡扇轮毂 车顶激光雷达 [3] - 座舱采用全新纯净浮岛设计美学 内饰提供270°皮质环绕包覆 [3] - 四座全功能悬浮层座椅采用无修全粒面Nappa高级真皮包覆 [3] - 副驾位搭载双120°零重力座椅 辅以可伸长103mm的4向电动腿托和一键小憩模式 [3] - 首发搭载27扬声器Buick Sound剧院级豪华音响和全四座多模式头枕音响 [3] 底盘技术与操控性能 - 底盘融汇公司28年研发积淀和“逍遥”架构下的底盘域科技 [4] - 采用前双叉臂 后五连杆悬架结构 后悬采用6球头设计 [4] - RTD连续阻尼可变悬架可通过毫秒级阻尼调节 主动控制车身姿态 [4] - 提升乘坐舒适性 平顺性和操纵稳定性 [4]
稚晖君机器人炸场:全球首秀“真男人必会的韦伯斯特空翻”
量子位· 2025-09-17 11:06
机器人技术突破 - 灵犀X2成为全球首个完成韦伯斯特空翻的机器人 该空翻属于中高级水平动作 对腿部爆发力和协调性要求极高[1][2] - 机器人身高1.3米 全身25-31个自由度(完成空翻时去除头部 减少2个自由度)[13][14] - 采用强化学习训练Mimic策略 通过2D视频转换BVH动捕数据 再通过仿真环境训练RL policy 最终实现高精度执行 控制频率达1kHz[23][24] 运动性能表现 - 具备人类基本运动水平 可应对各种地形跑步 实现自主避障 并能快速调节全身稳定性抵抗外力冲击[16][17] - 完成空翻需要超过30个自由度协同控制 实现精确角动量分配和毫秒级姿态调整 验证了硬件高可靠性[23][25] - 基于统一Locomotion base-model训练 未来将推出zero-shot WBC(全身控制)模型[26] 产品系列布局 - 灵犀X2-W为轮式双臂作业机器人 可"盲走"上台阶并手持12斤物品 双腿六自由度 轮式模式能通过单边桥等复杂地形[28][30][31] - 灵犀X2-N支持轮式与足式双形态自由切换 适配不同地形场景需求[34] - 系列产品采用轮毂电机驱动 集成动态平衡系统和柔性材料 具备抗冲击设计[32][33] 商业化进展 - 灵犀X2预计2025年下半年规模化出货 2026年底出货量达数千台[36] - 公司定位机器人系统为1+3全栈能力:本体+运动智能/交互智能/作业智能[26] - 交互智能方面首创灵动交互概念 通过情感计算引擎和多模态Agent实现生成式动作表达 作业智能已具备实际部署水平[26]
“百分之百的中国车”,别克首款增程式轿车至境L7亮相
观察者网· 2025-09-17 10:38
产品发布与定位 - 上汽通用别克首款增程式轿车至境L7于9月15日首次公开亮相 基于"逍遥"超级融合架构打造 被公司管理层称为"目前行业最强的增程豪华轿车" [1] - 新车将于9月28日开启预售 预售前下订用户可享终身免费保养 目前已到达全国经销商展厅 [3] - 车型定位C级轿车 长宽高分别为5032/1952/1500mm 轴距3000mm 采用溜背造型设计 [11] 技术配置与性能 - 搭载"真龙"增程系统 采用252kW最大功率增程单电驱 满电0-100km加速5.9秒 80-120km/h超车加速3.8秒 [5] - 百公里综合能耗0.5L 发动机介入噪声小于0.5dB 纯电续航最长302km 综合续航里程1420km [5] - 支持130kW快充 30%至80%补能仅需18分钟 采用奥特能2.0增混专用高性能电池 纯电续航64万公里低衰减 [5][7] - 搭载高通最新一代SA8775P芯片 神经网络算力达72 TOPS 配备50吋全景AR-HUD和15.6吋智能中控屏 [9] 智能化与辅助驾驶 - 首发"逍遥智行"辅助驾驶系统 采用基于端到端"强化学习"的Momenta R6飞轮大模型 [7] - 提供"无断点"城市NOA和业内首批"不停车一键泊入"全场景辅助驾驶功能 发布会现场演示高难度自动泊车场景 [7] - 配备基于端云大模型架构的AI智能语音助手和手机场景式备车功能 [9] 底盘与舒适性配置 - 采用前双叉臂、后五连杆悬架结构 后悬采用6球头设计 集成RTD连续阻尼可变悬架支持毫秒级阻尼调节 [9] - 座舱采用270°皮质环绕包覆 四功能悬浮层座椅采用无修全粒面Nappa高级真皮 [11] - 首发搭载27扬声器Buick Sound剧院级音响和多模式头枕音响等豪华配置 [11] 研发与市场竞争 - 车型百分之百由中国定义和研发 设计理念更接近中国新势力产品 发布会前向特斯拉、小米、理想等新势力品牌致敬 [3] - 上市后将面对享界S9、阿维塔12等自主品牌新能源轿车的竞争 品牌力在新能源时代尚待验证 [13]
腾讯AI Lab首创RL框架Parallel-R1,教大模型学会「并行思维」
机器之心· 2025-09-17 09:37
并行思维技术突破 - 腾讯AI Lab等机构首创Parallel-R1框架 通过强化学习实现大模型并行思维能力 解决监督微调方法的泛化难题[2][9] - 框架采用渐进式课程设计 从简单数学题(GSM8K)生成并行数据成功率83.7% 复杂难题(DAPO)成功率0.0%[10][12] - 交替式奖励策略平衡准确性与多样性 使并行思维使用率达63.0% 同时在AIME测试中取得最佳性能[13][14] 性能提升表现 - 在AIME25测试中实现42.9%性能飞跃 AIME24准确率提升至42.2% AMC23达91.5%[17][26] - 平均准确率提升8.4% MATH基准测试达84.5% 显著超越单一思维模型[2][17] - 两阶段训练策略使模型在减少并行格式依赖后 准确率仍持续攀升至25.6%[26][28] 技术实现机制 - 渐进式课程分两阶段:先通过SFT学习并行格式语法 再通过RL泛化到复杂任务[19] - 奖励系统设计:80%时间采用准确率奖励 20%时间采用分层奖励(并行正确+1.2分 非并行正确+1.0分)[19] - 模型思维策略动态演化:从早期探索阶段的多路径并行 转变为后期验证阶段的答案复核[18][20][22] 应用价值拓展 - 并行思维作为临时训练脚手架 可帮助模型探索更优能力区间 即使后续停止使用仍保持性能增益[24][26] - 框架突破人工合成数据依赖 避免复杂数据管道构建需求 提升方法可扩展性[7][10] - 技术适用于大模型、强化学习、AI系统架构等方向 具备规模化潜力与长期价值[39][47]
AI革命下一站:Anthropic与OpenAI斥巨资打造“虚拟员工”
36氪· 2025-09-17 05:11
核心观点 - Anthropic和OpenAI正开发能替代人类执行复杂工作的AI同事 通过模拟企业软件训练模型 使其像人类员工一样理解和操作真实工作流程 [1] - 该训练方法采用模拟办公沉浸式教学 聘请各行业专家担任职业导师 手把手教授模型软件操作技巧 [2] - 训练成本高昂 Anthropic计划明年投入10亿美元建设AI训练健身房 OpenAI预计今年数据相关支出达10亿美元 2030年将增至80亿美元 [2] - 专家时薪持续上涨 目前20%专家时薪超90美元 10%突破120美元 预计18个月内顶级专家时薪将达150-250美元 [3] - 成功后将突破传统训练技术瓶颈 可能开辟销售AI智能体或开发更强大企业级应用等新商业模式 [3] 训练方法 - 采用强化学习环境模拟真实办公场景 将复杂任务拆分为多个简单步骤并验证完成正确性 [6][7][8] - 以销售任务为例 考核标准包括按最后联系时间筛选客户数据库 发送包含Calendly会议链接的邮件 将潜在客户状态更新为重新接洽等 [7][8] - 通过人类专家示范生成正确案例 筛选模型计算结果与人类一致的案例进行集中训练 快速低成本生成大量训练样本 [11] 基础设施投入 - Anthropic目前将不到10%的后训练预算用于强化学习环境 但由于初期效果显著 明年将大幅提高投入 [8] - 图灵公司已建成超1000个强化学习模拟环境 覆盖从Airbnb到Excel等各类应用场景 每个模拟环境配备100-500个定制任务示例 [9] - Scale、Surge、Mercor和Invisible Technologies等竞争对手纷纷推出类似服务 配备行业专家设计训练任务 [9] 行业影响 - OpenAI高管预测整个经济体未来可能变成巨大的强化学习机器 AI通过记录各领域专业人士日常工作来学习训练 [12] - AI开发商持续用精心筛选的高难度问答训练模型 如顶级编程竞赛题或博士水平生物学问题 用于强化学习特定领域新技能 [9] - 数据标注公司招聘标准升级 从硕博在读生转变为拥有多年经验的职场精英 包括NASA数据科学家、能源部化学家、放射科医师等 [11]
速递|OpenAI和Anthropic的新战场:训练AI操作企业软件,成本年飙80亿美元
Z Potentials· 2025-09-17 03:34
AI模型企业应用训练 - Anthropic和OpenAI等公司正在训练大型语言模型学习使用Salesforce、Zendesk、Cerner等企业级软件工具,以处理白领工作者的复杂任务[1][2] - 训练方法采用模拟应用程序环境(强化学习环境)和领域专家示范操作,与传统AI训练模式存在显著差异[2] 资金投入与成本结构 - Anthropic计划未来一年投资10亿美元创建企业应用克隆体(强化学习环境)[2] - OpenAI预计2030年数据相关成本(含人类专家费用和训练场建设)将达80亿美元,较2024年的10亿美元增长700%[3] - 人类专家时薪持续攀升:Labelbox公司约20%专家时薪超90美元,近10%超120美元,预计未来18个月将涨至150-250美元[6][7] 技术实施与验证方法 - 图灵公司将任务分解为多步骤并制定评估标准,例如验证AI是否按日期筛选数据库、发送带Calendly链接的邮件、更新客户状态等[4][6] - 通过让AI模型重复执行任务(如DCF分析数十次),筛选与人类专家结果一致的案例用于训练[9] 商业化应用前景 - 成功训练后可销售能自动操作企业应用的"虚拟协作者"智能体,或开发新版企业软件,开辟新盈利渠道[3][5] - 强化学习环境市场规模扩大:图灵公司已构建1000多个模拟环境(含Airbnb、Excel等),Scale、Surge等竞争对手纷纷进入该领域[8] 行业资源与人才需求 - AI公司聘请NASA数据科学家、能源部化学家、放射科医师等高端专业人士示范任务,取代早期硕士/博士学生[9] - OpenAI高管预测"整个经济"可能演变为强化学习训练场,通过记录各领域专业人士日常工作方式训练AI[10] 当前进展与规划 - Anthropic目前将不到10%的训练后优化预算用于强化学习环境,但若趋势持续,明年该比例将显著提升[6] - 除企业软件外,AI开发者持续训练模型处理高难度编程竞赛题、博士级生物学问题等精选难题[9]
星动纪元招聘!具身多模态、强化学习等多个方向
具身智能之心· 2025-09-17 00:02
公司技术研发方向 - 公司正积极招聘多模态强化学习算法人才,负责前沿算法的研究、设计与实现,以解决实际应用中的复杂问题 [6] - 公司致力于多模态大模型的训练、微调和优化工作,旨在提升模型在不同任务上的性能表现 [6] - 公司专注于多模态数据的收集、处理、清洗与分析,以构建高质量的训练数据集 [6] - 公司探索具身智能领域的前沿多模态大模型算法,并构建该领域的模型基座,优化实现包括数据整理、预训练、后训练、指令微调、人类反馈强化学习、思维链等一系列算法能力 [15] - 公司推进多模态大模型在具身领域的应用落地,目标是构建通用机器人大脑和具身智能体 [16] 公司核心技术能力要求 - 要求深入理解强化学习基本原理,并熟悉PPO、GRPO、DAPO等主流强化学习算法 [6] - 要求深入理解多模态学习原理,熟悉多模态融合、跨模态对齐等技术 [6] - 要求深入理解大语言模型/大视觉模型的架构和训练原理,熟悉Transformer结构,了解预训练、微调、提示工程等技术 [6] - 要求具备扎实的计算机视觉或自然语言处理基础,了解ViT、DINO、LLaMA等主流模型,并拥有相关项目经验 [6] - 要求熟悉多模态领域算法,熟悉LLaVA、Qwen-VL等基础视觉语言模型 [19] - 要求熟悉自然语言处理领域算法,熟悉BERT、GPT、LLaMA等架构 [19] - 要求熟悉计算机视觉算法,包括但不限于ViT、DINO、SAM、GAN、Diffusion等架构 [19] 公司人才招聘偏好 - 优先考虑在NeurIPS、ICML、ICLR、CVPR、ACL、ECCV等顶级学术会议或期刊发表过相关论文的候选人 [6] - 优先考虑有开源项目贡献经验或在GitHub上有活跃个人项目的候选人 [6] - 优先考虑在CVPR、ICCV、NeurIPS、CoRL等顶级会议上发表过论文的候选人 [12] - 优先考虑拥有相关数据集构建、基准搭建、真机系统优化部署和开源项目贡献经历的候选人 [12] - 优先考虑以一作身份在ICML、ICLR、NeurIPS、ACL、EMNLP、CVPR、ECCV、ICCV等顶会/顶刊发表论文的候选人 [19] - 优先考虑有实际机器人项目经验的候选人 [19] 公司具体岗位职责 - 具身智能大模型算法岗位需参与前沿算法研究,支撑数据生成、模型训练优化、评测迭代等工作 [7] - 具身智能大模型算法岗位需跟踪最新研究进展,维护算法框架,并开发、集成和优化具身智能系统 [7] - 具身智能大模型算法岗位需协同工程团队推动真机部署和开源开放项目,加速算法落地应用 [7] - 多模态数据岗位负责多模态数据的收集、清洗、标注和格式化,涉及空间理解、通用感知、视觉定位、具身推理等类型 [14] - 多模态数据岗位需为模型训练设计数据格式标准,构建高效的数据处理流程并进行规模化生产 [14] - 多模态数据岗位需构建多模态感知评测体系和流程,以支持全面、准确、高效的模型评测 [14] - 多模态数据岗位需研究前沿多模态模型、大语言模型及特定领域模型,以理解模型能力边界 [14] 公司对候选人的工程与技能要求 - 要求熟练掌握Python、PyTorch等编程语言和深度学习框架,并具备较强的工程实现能力 [12] - 要求具备较好的英文科技文献阅读及算法复现能力 [12] - 要求熟悉多模态数据的清洗、标注、加载流程,并了解数据优化技术 [14] - 要求有使用大语言模型/多模态模型的经验,理解其能力边界和适用场景 [14] - 要求能够设计和优化提示词,以提升生成数据的质量和效率 [14] - 要求熟悉Pandas、NumPy等数据处理工具,并能完成完整的数据处理流程 [14] - 要求熟悉Python编程,了解Linux环境和常见开发工具 [14] - 要求候选人拥有计算机、人工智能、机器人、计算机视觉或多模态大模型等相关领域的硕士及以上学历 [12][19]
直击增程消费痛点,别克新能源豪华轿车至境L7全国首秀
南方都市报· 2025-09-16 11:07
产品发布与定位 - 上汽通用旗下别克品牌于9月15日正式公开亮相新能源智能豪华轿车至境L7 [1] - 新车定位20万-30万价格区间 旨在为消费者在油车和电车之间提供一个兼顾的选择 [1] - 公司认为此发布补齐了别克过去在智能化、新能源等方面的短板 结合传统优势与中国领先技术以带来行业第一梯队的智电体验 [1] 增程系统技术亮点 - 至境L7首发搭载“真龙”增程系统 采用252kW行业最大功率增程单电驱 提供相当于3.0T V6发动机的动力 [4] - 车辆满电0~100km加速仅需5.9秒 80-120km/h超车加速3.8秒 亏电状态下性能差异均少于0.1秒 [4] - 百公里综合能耗低至0.5L 发动机介入噪声小于0.5dB 实现同级最长的302km纯电续航和1420km综合续航里程 [4] - 公司指出增程用户痛点在于亏电动力下降、增程器抖动噪音大以及纯电续航短 新系统旨在破解这些难题 [4] 智能化技术配置 - 至境L7全球首发上车基于端到端“强化学习”的Momenta R6飞轮大模型 采用别克“逍遥智行”辅助驾驶系统 [1][6] - 系统提供包含“无断点”城市NOA、业内首批“不停车一键泊入”在内的全场景辅助驾驶功能 [6] - 车辆首发搭载高通最新一代SA8775P芯片 以高达72 TOPS的神经网络算力专为智舱服务 [1][8] - 公司表示与Momenta合作紧密 因通用和上汽是Momenta最大投资方 且双方安全理念高度契合 [8] 市场策略与行业洞察 - 公司洞察到豪华品牌和合资品牌在新能源领域受到很大冲击 过去推电车因缺乏智能化而市场反响平淡 [3] - 公司认为当前SUV市场增程车已成主流 但轿车市场仍有增程车型空白 希望填补这个空白 [3] - 从技术角度看 增程市场走势取决于电池能量密度能否大幅提升 目前技术发展还达不到纯电完全替代增程的程度 [6] - 公司不追求某一项长板特别突出 而是希望各项短板都不弱 这是对产品性能平衡的取向 [6] 竞争环境分析 - 20-30万级轿车市场竞争激烈 销量排名前列的车型包括Xiaomi SU7、Model 3、BMW 3系等 [4] - 该价格区间内竞争对手技术路线多样 包括纯电、燃油及混合动力车型 [4]