强化学习
搜索文档
最近,自动驾驶的岗位招聘有一些新的变化......
自动驾驶之心· 2025-12-03 00:04
自动驾驶行业招聘趋势变化 - 感知岗位需求进一步收缩,而端到端、VLA、世界模型等方向需求较高 [1] - 头部玩家已验证端到端路径可行,其他车企正跟进模型优化、场景优化、数据优化及规划兜底等资源投入 [1] - 候选人技术栈狭窄,缺乏导航信息引入、强化学习调优、轨迹建模等量产经验,成为实际落地痛点 [1] 端到端量产课程核心内容 - 课程聚焦量产实战,涵盖一段式端到端、两段式端到端、导航信息应用、强化学习、扩散模型+强化学习等核心算法 [1][2] - 课程设计基于实际量产需求,包括轨迹优化、兜底方案及量产经验分享,仅限25名学员参与 [2][3] - 讲师为顶级Tier1算法专家,具备大模型、世界模型等前沿算法预研和量产落地经验 [3] 课程大纲与技术模块 - 第一章介绍感知任务合并与规控学习化趋势,分析主流一体化架构及开源数据集评测方式 [6] - 第二、三章对比两段式与一段式端到端框架,分别讲解PLUTO算法实战和VAD系列方法,强调一段式方案性能更优 [7][8] - 第四至七章深入导航信息编码、强化学习泛化训练、轨迹输出优化及时空联合规划兜底方案,覆盖模仿学习与强化学习结合应用 [9][10][11][12] - 第八章从数据、模型、场景等多视角分享量产经验,提升系统能力边界 [13] 课程安排与学员基础要求 - 课程周期为三个月,自11月30日起分章节解锁教学,包含离线视频与三次线上答疑 [14][16] - 学员需自备GPU(推荐算力4090及以上),熟悉BEV感知、Transformer、强化学习等算法,具备Python/PyTorch及数学基础 [15]
好家伙!DeepSeek 一口气连发 2 个新模型
程序员的那些事· 2025-12-02 13:49
模型发布概览 - DeepSeek在ChatGPT发布三周年之际推出两个新模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale [1] - DeepSeek-V3.2聚焦平衡实用,适用于日常问答、通用Agent任务和真实应用场景下的工具调用 [1] - DeepSeek-V3.2-Speciale主打极致推理,是DeepSeek-V3.2的长思考增强版 [3][12] 模型性能表现 - DeepSeek-V3.2推理能力达GPT-5水平,略低于Gemini-3.0-Pro [2] - DeepSeek-V3.2-Speciale推理基准性能媲美Gemini-3.0-Pro [3] - 在数学和编程竞赛中表现优异:IMO 2025、CMO 2025、ICPC World Finals 2025、IOI 2025金牌,其中ICPC达到人类选手第二、IOI人类选手第十名水平 [4][5] - 在Agent评测中达到当前开源模型最高水平 [8] 技术架构创新 - 引入DSA高效稀疏注意力机制,将计算复杂度从O(L²)降低到O(L·k) [20][21][22] - 支持FP8精度,适配MLA架构,训练友好 [24] - DSA包含闪电索引器和细粒度token选择机制两个组件 [26][27] - 采用ReLU激活函数提升吞吐量 [28] 训练策略优化 - 采用两阶段训练策略:第一阶段Dense Warm-up训练1000步处理21亿tokens,第二阶段稀疏机制训练15000步处理9437亿tokens [29][30][31][32] - 强化学习训练计算预算超过预训练成本的10% [36][37] - 在GRPO算法基础上改进无偏KL估计和离线序列掩码策略 [40][41][43] - 针对MoE模型设计Keep Routing操作确保参数优化一致性 [45] 成本效益提升 - 在128k长度序列上,推理成本比V3.1-Terminus降低数倍 [33] - H800集群测试显示,128K序列长度下预填充阶段成本从0.7美元/百万token降至0.2美元,解码阶段从2.4美元降至0.8美元 [34] Agent能力突破 - 实现推理与工具使用能力的结合 [49] - 设计新的思考上下文管理机制,优化token使用效率 [52][53] - 开发自动环境合成pipeline,生成1827个任务导向环境和85000个复杂提示 [57] - 在SWE-Verified上达到73.1%解决率,Terminal Bench 2.0准确率46.4%,大幅超越现有开源模型 [63] 基准测试对比 - 在T2-Bench ToolUse得分80.3,接近Claude-4.5-Sonnet的84.7和Gemini-3.0-Pro的85.4 [12] - MCP-Universe成功率45.9%,Tool-Decathlon通过率35.2% [12][64] - 数学竞赛表现:AIME 2025达93.1%,HMMT Feb 2025达92.5%,IMOAnswerBench达78.3% [17] 产品部署现状 - DeepSeek的App和Web端已更新为正式版DeepSeek-V3.2 [17] - Speciale版本目前仅供临时API使用,不支持工具调用 [15][17] - Speciale模型在高度复杂任务上大幅优于标准版本,但消耗Tokens更多,成本更高 [16]
llya 发言评述
小熊跑的快· 2025-12-02 07:12
AI行业发展阶段划分 - AI发展正从以算力规模化为核心的时代回归到以基础研究为驱动的时代[1] - 2012-2020年为研究时代:以AlexNet、ResNet、Transformer等新架构突破为特征[2] - 2020-2025年为规模时代:GPT-3和Scaling Laws的出现使行业聚焦算力、数据和模型规模的扩大[2] - 2025年后为回归研究时代:规模扩张的边际效益递减,需要新的基础研究突破[2] 当前技术瓶颈与研究方向 - 算力目前相对充裕,而高质量训练数据成为主要限制因素[2] - 单纯扩大模型规模的策略正在失效,需要重新思考研究方法论[2] - 强化学习和基于打分的训练方法可能产生缺乏泛化能力的"答题机器"[3] - 价值函数在决策指引中具有重要作用,人类情绪被视为有效的价值函数系统[3] 新兴AI发展理念 - 提出研发具备自我学习成长能力的"新智能"系统,类比十五岁少年的学习能力[3] - SSI公司专注于研究和对齐技术,唯一目标是研发安全的超级智能[4] - SSI致力于打造具备人类好奇心和长远规划能力的AI系统[4] - 公司采取"研究优先"路线,暂不考虑商业化和盈利[4] 行业需求与市场前景 - 文本领域大模型发展遇到瓶颈,与训练数据耗尽有关[4] - 训练算力需求占比不足50%,推理需求占据主要部分[4] - Google云纯推理API收入预计达30亿美元[4] - AI硬件租赁市场规模达90亿美元,API收入预计翻倍增长[4] - IaaS租赁市场预期保持40-46%的高速增长[4] - 推理需求将成为未来AI计算的主要增长动力[4]
速报!MEET2026嘉宾阵容再更新,观众报名从速
量子位· 2025-12-02 04:59
大会概况 - 会议名称为量子位MEET2026智能未来大会,将于2025年12月10日在北京金茂万丽酒店举行 [1][119] - 大会主题为“共生无界,智启未来”,关注以AI为代表的智能科技如何穿透产业、学科与场景的边界 [2] - 大会将聚焦强化学习、多模态、芯片算力、AI+行业、AI出海等前沿技术与产业落地进展 [3] - 大会内容涵盖学术前沿与商业落地的最新碰撞,以及来自基础设施、模型、产品产业的领先技术成果 [4] - 大会将权威发布人工智能年度榜单与年度AI趋势报告 [5][116] - 作为年度影响力科技商业峰会,每年大会吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光 [121][122] 人工智能年度榜单 - 量子位发起的“人工智能年度榜单”已成为AI行业最具影响力榜单之一 [117] - 2025年榜单将从公司、产品、人物三大维度评选五类奖项 [117] 年度AI趋势报告 - “年度AI趋势报告”将提名正在释放巨大潜力的十大AI趋势 [118] - 报告将结合技术成熟度、落地现状、潜在价值等因素对各趋势进行深入分析,并提名代表机构与最佳案例 [118] 参会嘉宾阵容 - 张亚勤:清华大学智能产业研究院院长,中国工程院院士,曾任百度公司总裁,数字视频和人工智能领域世界级科学家 [11][12] - 孙茂松:清华大学人工智能研究院常务副院长,欧洲人文和自然科学院外籍院士 [15] - 王仲远:北京智源人工智能研究院院长,曾任职于快手、美团、Facebook、微软亚洲研究院,发表论文100余篇 [19] - 王颖:百度集团副总裁,负责文库事业部、网盘事业部 [23][24] - 韩旭:文远知行WeRide创始人兼CEO,带领公司于2024年登陆纳斯达克,2025年登陆香港交易所 [27][28] - Daniel Povey:小米集团首席语音科学家,IEEE Fellow,著名开源语音识别工具Kaldi的提出者和主要维护者 [33] - 方汉:昆仑万维董事长兼CEO,拥有31年互联网从业经验,中文Linux奠基人之一 [36][37] - 尤洋:潞晨科技创始人兼董事长,新加坡国立大学校长青年教授,曾获福布斯30岁以下精英榜(亚洲)等荣誉 [42][43] - 杨帆:商汤科技联合创始人、执行董事、大装置事业群总裁,主导推动商汤多个核心业务规模化商业落地 [45] - 万卫星:高通公司AI产品技术中国区负责人,负责高通智能终端侧人工智能引擎软硬件的规划及生态系统建设 [48][49] - 陈晓建:亚马逊云科技大中华区产品部总经理,拥有超过20年企业级业务经验 [53][54] - Dennis Yue:Google Cloud大中华区企业与中国初创业务负责人,在云计算和IT服务领域拥有超过30年领导经验 [58] - 朱宁:上海交通大学上海高级金融学院金融学教授,全球知名的中国经济金融专家,曾任职于雷曼兄弟与野村证券 [62][63] - 赵俊博:浙江大学百人计划研究员、博士生导师,蚂蚁集团资深技术专家,首创数据库大模型TableGPT [67] - 喻友平:中关村科金总裁,曾任百度智能云副总裁,提出“平台+应用+服务”大模型落地三级引擎战略 [71][72] - 刘凡平:RockAI CEO,主导并实现国内首个非Transformer架构大模型,首倡以“群体智能”理念推动通用人工智能 [75][76] - 乔梁:太初元碁联合创始人兼首席运营官,获评2024年度“算力中国·青年先锋人物” [80][81] - 王潜:自变量机器人创始人兼CEO,致力于研发由端到端大模型驱动的通用机器人 [84][85] - 姚欣:PPIO联合创始人兼CEO,P2P-Streaming协议发明人,曾创办覆盖全球4.5亿用户的网络电视平台PPTV [88][89] - 毛健:云徙科技COO/副总裁,拥有20多年管理咨询和技术落地经验,主导企业运营超级智能体产品研发 [93][94] - 屠静:卓世科技创始人兼CEO,曾任百度地图、百度糯米、百度APP核心高管 [99][100] - 杜知恒:小宿科技联合创始人兼CEO,曾任家办CIO、红杉中国对冲基金创始成员,并曾在高瓴资本、百度任职 [104][105] - 赵天成:联汇科技CEO兼首席科学家,其研发的Om多模态大模型是国内首个通过工信部信通院评测认证的预训练大模型 [108][109] - 徐达峰:蚂蚁集团平台体验技术部负责人,资深前端技术专家,致力于通过AI驱动前端研发范式革新 [113][114]
开源最强!“拳打GPT 5”,“脚踢Gemini-3.0”,DeepSeek V3.2为何提升这么多?
华尔街见闻· 2025-12-02 04:21
模型性能突破 - DeepSeek-V3.2在推理测试中达到GPT-5水平,仅略低于Gemini-3.0-Pro [1] - DeepSeek-V3.2-Speciale在IMO 2025等四项国际顶级竞赛中斩获金牌 [1] - V3.2在AIME 2025测试中达到93.1%通过率,接近GPT-5的94.6%和Gemini-3.0-Pro的95.0% [20] - V3.2在HMMT 2025测试中得分92.5%,与顶级闭源模型差距进一步缩小 [20] 技术创新亮点 - 采用DeepSeek Sparse Attention稀疏注意力机制,将注意力复杂度从O(L²)降低至O(Lk) [6][7] - 实现"思考+调工具"融合机制,成为首个在"思考模式"下支持工具调用的模型 [2][9] - 通过大规模Agent训练数据合成方法,构造1800多个环境、85000多条复杂指令的强化学习任务 [2][11][12] - 后训练计算预算超过预训练成本的10%,为高级能力释放奠定基础 [15] 技术能力表现 - 在代码智能体任务SWE-Verified中获得73.1%解决率,在Terminal Bench 2.0中达到46.4%准确率 [20] - 在搜索智能体评估BrowseComp中通过上下文管理技术,从51.4%提升至67.6%通过率 [20] - 在工具使用基准测试τ2-Bench中获得80.3%通过率,在MCP-Universe中达到45.9%成功率 [20] - 在代码修复、搜索路径规划、多步骤任务中泛化能力大幅领先过往版本,接近闭源商业模型 [14] 行业影响意义 - 证明开源模型完全有能力成为世界级选手,打破闭源模型的绝对技术垄断 [3][21] - 大模型军备竞赛从"谁参数大"升级为"谁方法强" [22] - 为开发者提供成本更低、可定制性更强的高性能模型选择 [22] - 企业不必再完全依赖海外API,也能构建强大AI系统 [22]
速报!MEET2026嘉宾阵容再更新,观众报名从速
量子位· 2025-12-01 05:45
大会概况 - 大会将于2025年12月10日在北京金茂万丽酒店举行,主题为“共生无界,智启未来” [1][2] - 大会将聚焦以AI为代表的智能科技如何穿透产业、学科与场景的边界,成为驱动社会演进的核心动能 [2] - 议题涵盖强化学习、多模态、芯片算力、AI+行业、AI出海等年度热议话题,结合学术前沿与商业落地的最新碰撞 [3][4] - 大会将吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光 [122] 核心发布内容 - 大会将权威发布人工智能年度榜单,从公司、产品、人物三大维度评选五类奖项 [5][117] - 大会将发布年度AI十大趋势报告,提名正在释放巨大潜力的十大AI趋势并进行深入分析 [118] 参会嘉宾阵容 - 学术界代表包括清华大学智能产业研究院院长、中国工程院院士张亚勤,以及清华大学人工智能研究院常务副院长孙茂松 [11][15] - 产业界代表包括百度集团副总裁王颖、文远知行创始人兼CEO韩旭、商汤科技联合创始人杨帆等 [23][27][45] - 国际科技公司代表包括高通公司AI产品技术中国区负责人万卫星、亚马逊云科技大中华区产品部总经理陈晓建、Google Cloud大中华区企业与中国初创业务负责人Dennis Yue [48][53][58] - 投资与金融界代表包括上海交通大学上海高级金融学院金融学教授朱宁 [62] - 初创公司代表包括自变量机器人创始人兼CEO王潜、PPIO联合创始人兼CEO姚欣、卓世科技创始人兼CEO屠静等 [84][88][99]
Transformer作者爆料GPT-5.1内幕,OpenAI内部命名规则变乱了
36氪· 2025-12-01 01:25
AI发展现状与趋势 - AI发展并未放缓,而是一条非常平滑的指数曲线,类似于摩尔定律 [4][7] - 外界感觉“变慢”的原因是AI底层范式已从预训练转向推理模型,这是继Transformer后的关键转折 [4][7] - 预训练处于S曲线上升后期,而推理模型仍处于发展初期,进步速度会相当快 [7][10] 推理模型的技术演进 - 推理模型本质是在给出答案前进行思考(思维链),允许使用工具如浏览网页 [11] - 相比于传统梯度下降训练,推理模型更多使用强化学习,通过奖励机制推动模型获取更好答案 [11] - 模型通过强化学习学会纠正自身错误,未来将转向更复杂的强化学习,融入更多人类偏好 [11] GPT-5.1版本更新实质 - GPT-5.1并非小版本更新,而是一个巨大的稳定性迭代,改进集中在后训练阶段 [14][15] - 改进包括增加安全性、减少幻觉以及添加多种风格选择(如书签子、专业) [15] - 版本命名规则改变,以用户体验为导向,内部通过蒸馏技术整合多项目成果,缩短迭代时间 [17] 模型能力与挑战 - GPT-5能解决奥林匹克竞赛题,但在小学一年级数奇偶数题目上错误百出,忽略共享点导致误判 [19][20] - 短板在于缺乏足够多模态能力,未能将推理经验迁移到相似场景 [20] - 后续训练将强化多模态推理和上下文推理迁移能力 [20] 未来AI突破方向 - 多模态推理将成为下一个突破点,目前处于起步阶段,强化学习将助其提升 [4][13] - 家用机器人可能成为继ChatGPT后最直观的AI革命,取决于多模态能力和通用强化学习的进步 [34][36] - 硬件基础迅速成熟,将协同多模态和物理世界推理能力,实现家用机器人能力跃迁 [36] AI对工作的影响 - AI不会让人类完全失去工作,高风险、高关注度场景仍倾向于依赖人类专家经验 [32][34] - 基础工作的可替代性变高,工作内容将出现变化,但人类不会无事可做 [34] Transformer诞生与OpenAI文化 - Transformer八位共同作者从未在物理房间共同出现,但从不同角度共同构建了模型 [26] - 当时业界不认同用同一模型处理多任务的想法,但团队坚信并证实了其正确性 [26] - OpenAI组织架构灵活,根据项目自发组队,内部GPU资源有限,项目间存在资源竞争 [29]
大模型Post-training的范式已经发生改变......
自动驾驶之心· 2025-12-01 00:04
大模型后训练范式转变 - 行业认为大模型后训练范式可能已从SFT+RLHF两阶段转变为RL Scaling+RL Alignment两阶段[3][4] - 新范式中RL Scaling阶段专注于在数学、代码等可验证任务上提升模型自我反思和推理能力,无需考虑指令跟随和可读性[4] - RL Alignment阶段负责轻微调整模型,在最小化推理能力损失的基础上实现与人类对齐的目标,包括指令跟随和可读性[4] 新范式技术优势 - 新范式基于结果奖励在可验证任务上进行强化学习,较好解决了传统后训练中奖励上升但性能下降的奖励黑客问题[5] - 新范式下token搜索自由度更大,并能激发大模型的自我反思能力,从而获得超强推理能力[5] - 数学、代码任务上的性能表现能很好地泛化到其他各类任务,显示出强大的可迁移性[5] 新范式带来的机遇与挑战 - 新范式使得后训练阶段能通过增加算力来提升模型表现,而旧的SFT+RLHF范式主要依赖数据,堆算力效果有限[5] - 行业面临如何利用无明确答案数据做RL Scaling、RL Scaling数据难度选择、RL Alignment阶段能力与安全权衡等机遇[7] - 新范式引发对模型安全的担忧,RL Scaling获得的能力可能涌现有害且隐蔽的推理,而人类数据比重减少可能增加安全隐患[5][6] - 尽管推理能力增强,但模型在准确理解用户意图、指令跟随和可读性方面仍有不足,影响实际使用效率[7]
Transformer作者爆料GPT-5.1内幕!OpenAI内部命名规则变乱了
量子位· 2025-11-30 11:30
AI发展现状与趋势 - AI发展并未放缓,而是呈现平稳的指数级增长,类似于摩尔定律,其进步由新技术、算力提升和工程优化共同驱动 [13][15][16][17] - 行业底层范式正经历从预训练模型向推理模型的静悄悄但本质性的转换,其意义不亚于Transformer的诞生 [1][2][18][19] - 外界感觉进展变慢的原因包括:预训练处于S曲线上升后期,投入产出比下降;行业重心转向更小、更便宜但质量相当的模型 [19][21] 推理模型的技术特点 - 推理模型的核心在于思维链,即在给出答案前先进行思考,并可使用工具(如浏览网页)以提升答案准确性 [23][27][28] - 训练方式从传统的梯度下降转向强化学习,通过奖励机制和细致的数据准备来优化模型,未来将应用更复杂的强化学习 [29][30] - 多模态推理是下一个突破点,目前仍处于起步阶段,强化学习将助力其进一步提升 [9][32] OpenAI模型迭代策略 - GPT-5.1并非简单的小版本迭代,而是一次巨大的稳定性迭代,改进集中于后训练阶段,如增强安全性、减少幻觉、增加风格选择 [34][36] - 版本命名规则转变为以用户体验为导向,例如GPT-5为基础模型,GPT-5.1为能力更优版本,Mini为更小更快的版本 [38] - 内部采用多项目并行(强化学习、预训练等)再通过蒸馏技术整合的灵活开发模式,大大缩短了模型迭代时间 [38] 模型能力与挑战 - 模型能力实现质的飞跃,例如ChatGPT从直接记忆答案转变为主动推理,Codex已改变程序员的工作流程 [23][24] - GPT-5.1在复杂任务(如奥林匹克竞赛题)上表现优异,但在需要多模态推理和上下文迁移的简单任务(如奇偶数判断)上仍存在明显短板 [41][42] AI未来应用展望 - AI不会让人类完全失去工作,高风险、高关注度场景仍将依赖人类专家,但基础工作的可替代性将提高,工作内容将发生变化 [10][62][65][66] - 家用机器人被视为继ChatGPT之后最直观的AI革命,其进展取决于多模态能力、通用强化学习和物理世界推理的突破 [11][67][69] Transformer与OpenAI背景 - Transformer的八位共同作者从未在同一物理房间共同工作,当时业界对单一模型处理多任务的想法普遍不理解 [50][51] - OpenAI内部组织架构灵活,根据项目自发组队,但存在GPU资源竞争,预训练消耗资源最多,其次是强化学习和视频模型 [55][56][57]
速报!MEET2026嘉宾阵容再更新,观众报名从速
量子位· 2025-11-30 05:09
大会核心信息 - 大会主题为“共生无界,智启未来”,聚焦AI等智能科技穿透产业、学科与场景边界,成为社会演进核心动能[2] - 将于2025年12月10日在北京金茂万丽酒店举行,预计吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光[119][122] - 大会将探讨强化学习、多模态、芯片算力、AI+行业、AI出海等年度热议话题,涵盖学术前沿与商业落地的最新碰撞[3][4] 嘉宾阵容与研究方向 - 学术界代表包括清华大学智能产业研究院院长张亚勤院士(数字视频和AI领域世界级科学家)[11][12]、清华大学人工智能研究院常务副院长孙茂松(主持国家973项目等20余项科研项目)[15]、北京智源人工智能研究院院长王仲远(研究兴趣包括大模型、多模态等)[19] - 产业界代表包括百度集团副总裁王颖(负责文库、网盘等业务创新)[23][24]、文远知行WeRide创始人兼CEO韩旭(带领公司在全球11国超30城开展自动驾驶运营)[27][28]、商汤科技联合创始人杨帆(主导AI基础设施建设与服务体系)[45] - 海外科技公司代表包括高通公司AI产品技术中国区负责人万卫星(负责终端侧AI引擎规划)[48][49]、亚马逊云科技大中华区产品部总经理陈晓建(负责云服务产品管理)[53][54]、Google Cloud大中华区企业与中国初创业务负责人Dennis Yue(拥有超过30年云计算领导经验)[58] - 前沿技术研究者包括浙江大学赵俊博(聚焦大模型、世界模型和合成数据技术)[67]、RockAI CEO刘凡平(主导实现国内首个非Transformer架构大模型)[75][76]、自变量机器人创始人王潜(致力于研发端到端大模型驱动的通用机器人)[84][85] 大会发布内容 - 将权威发布人工智能年度榜单,从公司、产品、人物三大维度评选五类奖项[5][117] - 将发布年度AI十大趋势报告,结合技术成熟度与落地现状提名十大AI趋势并深入分析[5][118] 行业关注领域 - 基础设施与算力领域涉及AI专用计算中心建设、国产算力基础设施、高性能推理加速引擎等[45][81][90] - 模型技术方向涵盖大模型、多模态、具身智能、视觉-语言-动作统一大模型、开源视觉语言模型等[19][67][85][109] - 应用落地场景包括自动驾驶、金融、政务、工业、汽车、交通基建、船舶工业、有色金属等行业垂类大模型[28][72][109]