Workflow
强化学习
icon
搜索文档
深扒PI π*0.6迭代式强化学习思路:VLA+在线RL,实现自我进化
具身智能之心· 2025-12-07 03:03
见证具身浪潮,书写智能新纪元 以下文章来源于具身纪元 ,作者具身纪元 具身纪元 . 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 在Physical Intelligence 最新的成果π 0.6 论文里,他们介绍了 π 0 .6迭代式强化学习的思路来源: 其中有我们熟悉的Yuke Zhu的研究,也有他们自己(Chelsea Finn、Sergey Levine)的一些研究,我们之前对这些工作一直有跟踪和介绍。此外,还有来自国内具身智能团队的 工作,比如清华大学、星动纪元的研究。 随着π*0.6的发布,VLA+online RL成为了一个行业共识的非常有前景的研究方向 深扒了Π*0.6的论文,发现它不止于真实世界强化 学习 英伟达也来做VLA在真实世界自我改进的方法了 大语言模型从SFT到RL的发展方向也逐渐在具身研究中清晰明朗。 一、为什么VLA+RL很重要 编辑丨 具身纪元 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 图注:VLA模型依赖研读微调 在具身智能(Embodied AI)领域,科学家 ...
英伟达巧用8B模型秒掉GPT-5,开源了
量子位· 2025-12-06 05:40
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 英伟达端着一个8B小模型对GPT-5说: 不好意思,你还得练(bushi)。 何出此言?——英伟达携手香港大学开源的 Orchestrator-8B ,人类终极考试HLE分数更高、花钱更少、跑起来速度还更快。 哦对了,还在HuggingFace被狂赞,冲到了热门模型前五。 | Models 2,261,108 ( Filter by name | Full-text search ¥ Inf | | --- | --- | | Tongyi-MAI/Z-Image-Turbo | | | 136 Text-to-Image · Updated 3 days ago · ¿ 136k · † · ♡ 2.08k | | | deepseek-ai/DeepSeek-V3.2 | | | 17 Text Generation · .:: 685B · Updated 4 days ago · ¿ 8.69k · ↓ · ♡ 714 | | | � deepseek-ai/DeepSeek-V3.2-Speciale | | | 17 Text Generati ...
Yann LeCun离开Meta后首篇论文?使用了宇树机器人做研究
机器之心· 2025-12-06 04:08
研究核心观点 - 伯克利、纽约大学和约翰・开普勒林茨大学的研究人员提出名为GenMimic的新方法,使人形机器人能够零样本模仿AI生成视频中的人类动作,即使视频存在噪声或变形,机器人也能提取核心动作逻辑并在物理世界中复现 [1] - 该研究是首个使人形机器人能够执行由视频生成模型生成动作的通用框架,并在仿真和真实世界实验中验证了其可行性 [4] 研究方法与框架 - 研究提出一个基于4D重建的两阶段流程:第一阶段从生成视频中提取并重定向SMPL参数到机器人关节空间,第二阶段通过新的GenMimic跟踪策略输出物理上可执行的关节角度 [15][17][18] - 方法采用加权关键点跟踪奖励和对称损失增强策略鲁棒性,使策略能选择性关注任务关键点(如末端执行器)并利用人体对称性应对生成视频中的噪声 [22][23][25][26] - 训练使用对称正则化和选择性加权的3D关键点奖励,尽管仅在现有动作捕捉数据上训练,却能泛化到充满噪声的合成视频 [4] 数据集构建 - 研究团队创建了名为GenMimicBench的合成人类动作数据集,包含428个由Wan2.1和Cosmos-Predict2视频生成模型创建的视频,涵盖广泛的主体、环境和动作类型 [8][9][11] - 数据集包含217个使用Wan2.1生成的多视角室内结构化视频,以及211个使用Cosmos-Predict2生成的模拟YouTube风格的自然场景视频,旨在评估策略在视觉和动作分布偏移下的零样本泛化能力 [11][12][13] 实验表现与结果 - 在仿真实验中,GenMimic方法在GenMimicBench数据集上显著优于基线模型,其教师模型获得了86.77%的成功率,远高于BeyondMimic的23.81%和TWIST的2.69% [30][31] - 在真实世界实验中,研究团队将策略部署在23自由度的宇树G1人形机器人上,推演了43个动作,对于原地动作(如挥手、伸展)视觉成功率高达1.0,但涉及下半身运动(如步进、转身组合)的动作成功率较低,在0.20至0.60之间 [29][32][33][34] - 仿真训练在IsaacGym中进行,样本量超过15亿,使用了四个NVIDIA RTX 4090 GPU,部署使用单个NVIDIA 4060移动版GPU [29]
碾压π0.5,复旦团队首创「世界模型+具身训练+强化学习」闭环框架
机器之心· 2025-12-04 08:18
文章核心观点 - 研究团队提出ProphRL框架,通过将大规模预训练的世界模型Prophet作为视频级模拟器,并结合专为流式动作头设计的在线强化学习算法FA-GRPO与FlowScale,在虚拟环境中优化VLA策略,显著提升了机器人操作任务的成功率[4] - 该方法解决了当前VLA策略主要依赖模仿学习导致的分布偏移和长时序任务失败问题,以及直接在真实机器人上进行强化学习成本高昂、难以规模化的瓶颈[3][4][12] - 实验结果表明,ProphRL在多个公开基准上为各类VLA模型带来5–17%的成功率提升,在真实机器人实验中进一步取得24–30%的大幅度成功率提升[8] 研究背景与问题 - 当前大多数Vision-Language-Action策略仍主要依赖模仿学习,实质上是按示范轨迹复刻,在分布发生偏移、任务形式变化或操作时域拉长时,极易出现误差累积并导致任务失败[3][11] - 在真实机器人上开展在线强化学习成本高昂,并行执行受限,伴随大量重置与标注开销,难以规模化[12] - 基于传统物理引擎的强化学习难以同时兼顾逼真度、场景多样性与工程可用性,而现有数据驱动世界模型泛化能力有限,尚未形成能够真正支撑强化学习的通用模拟器[13][14] ProphRL技术框架 - Prophet世界模型采用视频扩散模型结构,通过双重动作条件(末端执行器位姿增量和动作帧)和FramePack历史记忆机制,学习从动作序列到未来操作视频的映射[17] - 研究团队提出光流引导的评估协议,通过对比真实视频与生成视频的光流一致性,以外观无关的方式评估末端轨迹和接触行为是否对齐[22] - FA-GRPO算法在动作层面而非流步层面构造PPO比例,使信用分配更贴近真实环境反馈;FlowScale利用噪声调度平衡各流步对整体梯度的贡献,提升训练稳定性[23][27] - 奖励模型基于视觉-语言模型,以任务文本和整段执行视频为输入,输出标量得分作为轨迹优势,替代手工设计的几何距离[26] 实验验证结果 - 在世界模型能力评估中,Prophet在AgiBot、DROID、LIBERO和BRIDGE等多数据集上,视觉逼真度和动作一致性均超越Nvidia的Cosmos与上海智元的Genie-envisioner[31][32][34] - 在仿真环境强化学习效果上,ProphRL为VLA-Adapter-0.5B模型带来最高25个百分点的成功率提升,为Pi0.5-3B模型带来最高16.7个百分点的成功率提升,为OpenVLA-OFT-7B模型带来最高19.4个百分点的成功率提升[37] - 在真实机器人验证中,基于UR30e机械臂的四个桌面操作任务显示,ProphRL相比纯监督微调在所有任务平均成功率上带来约24–30%的提升,其中Pi0.5-3B模型提升幅度最大,达到30个百分点[38]
速报!MEET2026嘉宾阵容再更新,观众报名从速
量子位· 2025-12-04 05:57
大会概况 - 会议名称为量子位MEET2026智能未来大会,将于2025年12月10日在北京金茂万丽酒店举行 [1][119] - 大会主题为“共生无界,智启未来”,关注以AI为代表的智能科技如何穿透产业、学科与场景的边界 [2] - 大会将聚焦强化学习、多模态、芯片算力、AI+行业、AI出海等前沿技术与产业落地进展 [3] - 内容涵盖学术前沿与商业落地的碰撞,以及来自基础设施、模型、产品产业的领先技术成果 [4] - 大会将权威发布人工智能年度榜单与年度AI趋势报告 [5][116] - 作为年度影响力科技商业峰会,每年吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光 [121][122] 人工智能年度榜单 - 量子位发起的“人工智能年度榜单”已成为AI行业最具影响力榜单之一 [117] - 2025年榜单将从公司、产品、人物三大维度评选五类奖项 [117] 年度AI趋势报告 - “年度AI趋势报告”将提名正在释放巨大潜力的十大AI趋势 [118] - 报告将结合技术成熟度、落地现状、潜在价值等因素对各趋势进行深入分析,并提名代表机构与最佳案例 [118] 参会嘉宾阵容 - **张亚勤**:清华大学智能产业研究院院长,中国工程院院士,曾任百度公司总裁,数字视频和人工智能领域世界级科学家 [11][12] - **孙茂松**:清华大学人工智能研究院常务副院长,欧洲人文和自然科学院外籍院士,主持多项国家级科研项目 [15] - **王仲远**:北京智源人工智能研究院院长,曾任职于快手、美团、Facebook、微软亚洲研究院,发表论文100余篇 [19] - **王颖**:百度集团副总裁,负责文库事业部、网盘事业部,曾任职搜狗公司高级副总裁 [23][24] - **韩旭**:文远知行WeRide创始人兼CEO,带领公司于2024年登陆纳斯达克,2025年登陆香港交易所 [27][28] - **Daniel Povey**:小米集团首席语音科学家,IEEE Fellow,著名开源语音识别工具Kaldi的提出者和主要维护者 [33] - **方汉**:昆仑万维董事长兼CEO,拥有31年互联网从业经验,中文Linux奠基人之一 [36][37] - **尤洋**:潞晨科技创始人兼董事长,新加坡国立大学校长青年教授,曾获福布斯30岁以下精英榜(亚洲)等荣誉 [42][43] - **杨帆**:商汤科技联合创始人、执行董事、大装置事业群总裁,主导人工智能基础设施建设与服务体系打造 [45] - **万卫星**:高通公司AI产品技术中国区负责人,负责高通智能终端侧人工智能引擎软硬件的规划及生态系统建设 [48][49] - **陈晓建**:亚马逊云科技大中华区产品部总经理,拥有超过20年企业级业务经验,中国公有云服务早期探索者 [53][54] - **Dennis Yue**:Google Cloud大中华区企业与中国初创业务负责人,在云计算和IT服务领域拥有超过30年领导经验 [58] - **朱宁**:上海交通大学上海高级金融学院金融学教授,全球知名的中国经济金融专家,研究涵盖行为金融学等领域 [62][63] - **赵俊博**:浙江大学百人计划研究员、博士生导师,蚂蚁集团资深技术专家,聚焦大模型、世界模型和合成数据技术 [67] - **喻友平**:中关村科金总裁,曾任百度智能云副总裁,提出“平台+应用+服务”大模型落地三级引擎战略 [71][72] - **刘凡平**:RockAI CEO,主导并实现国内首个非Transformer架构大模型,首倡以“群体智能”理念推动通用人工智能 [75][76] - **乔梁**:太初元碁联合创始人兼首席运营官,清华大学计算机系博士,获评2024年度“算力中国·青年先锋人物” [80][81] - **王潜**:自变量机器人创始人兼CEO,致力于研发由端到端大模型驱动的通用机器人 [84][85] - **姚欣**:PPIO联合创始人兼CEO,P2P-Streaming协议发明人,曾创办覆盖全球4.5亿用户的网络电视平台PPTV [88][89] - **毛健**:云徙科技COO/副总裁,拥有20多年管理咨询和技术落地经验,主导企业运营超级智能体产品研发 [93][94] - **屠静**:卓世科技创始人兼CEO,曾任百度地图、百度糯米、百度APP核心高管,具备丰富的AI行业实践经验 [99][100] - **杜知恒**:小宿科技联合创始人兼CEO,曾任家办CIO、红杉中国对冲基金创始成员,曾在高瓴资本、百度等企业任职 [104][105] - **赵天成**:联汇科技CEO兼首席科学家,其研发的Om多模态大模型是国内首个通过工信部信通院评测认证的预训练大模型 [108][109] - **徐达峰**:蚂蚁集团平台体验技术部负责人,资深前端技术专家,致力于通过AI驱动前端研发范式革新 [113][114]
速报!MEET2026嘉宾阵容再更新,观众报名从速
量子位· 2025-12-03 02:38
大会概况 - 大会将于2025年12月10日在北京金茂万丽酒店举行,主题为“共生无界,智启未来” [1][2] - 大会将聚焦以AI为代表的智能科技如何穿透产业、学科与场景的边界,成为驱动社会演进的核心动能 [2] - 议题涵盖强化学习、多模态、芯片算力、AI+行业、AI出海等科技圈热议话题 [3] - 大会将结合学术前沿与商业落地,展示来自基础设施、模型、产品产业的领先技术成果 [4] - 大会将权威发布人工智能年度榜单与年度AI趋势报告 [5][116] 嘉宾阵容:学术界与研究机构 - 张亚勤:清华大学智能产业研究院院长、中国工程院院士,数字视频和人工智能领域世界级科学家,曾任百度公司总裁 [11][12] - 孙茂松:清华大学人工智能研究院常务副院长、欧洲人文和自然科学院外籍院士,曾作为首席科学家主持国家973项目等20余项科研项目 [15] - 王仲远:北京智源人工智能研究院院长,曾获《麻省理工科技评论》“35岁以下科技创新35人”,在人工智能研究及搜索推荐等产品系统有丰富经验 [19] - 尤洋:潞晨科技创始人兼董事长、新加坡国立大学校长青年教授,2020年成为高性能计算领域谷歌学术引用最高的博士毕业生 [42][43] - 赵俊博:浙江大学百人计划研究员、博士生导师,蚂蚁集团资深技术专家,聚焦大模型、世界模型和合成数据技术,师从图灵奖得主Yann LeCun [67] 嘉宾阵容:科技公司与产业界 - 王颖:百度集团副总裁,全面负责百度文库、百度网盘、百度学术、橙篇等重点业务 [23][24] - 韩旭:文远知行WeRide创始人兼CEO,带领公司在全球11国超30城开展自动驾驶研发,2024年率公司成功登陆纳斯达克 [27][28] - Daniel Povey:小米集团首席语音科学家、IEEE Fellow,著名开源语音识别工具Kaldi的提出者和主要维护者,被称为“Kaldi之父” [33] - 方汉:昆仑万维董事长兼CEO,拥有31年互联网从业经验,是中文Linux奠基人之一 [36][37] - 杨帆:商汤科技联合创始人、执行董事、大装置事业群总裁,主要负责商汤科技大装置战略业务规划与落地及人工智能基础设施建设 [45] - 万卫星:高通公司AI产品技术中国区负责人,负责高通智能终端侧人工智能引擎软、硬件的规划以及相关生态系统建设 [48][49] - 陈晓建:亚马逊云科技大中华区产品部总经理,全面负责云服务在大中华区的落地、产品管理及业务拓展 [53][54] - Dennis Yue:Google Cloud大中华区企业与中国初创业务负责人,在云计算和IT服务领域拥有超过30年领导经验 [58] - 喻友平:中关村科金总裁,曾任百度智能云副总裁,主导构建百度智能云ToB商业体系,提出“平台+应用+服务”大模型落地三级引擎战略 [71][72] - 刘凡平:RockAI CEO,主导并实现国内首个非Transformer架构大模型,在大模型领域首倡“群体智能”理念 [75][76] - 乔梁:太初元碁联合创始人兼首席运营官,曾任国家超级计算无锡中心人工智能系统研发中心副主任,深耕高性能计算领域 [80][81] - 王潜:自变量机器人创始人兼CEO,致力于研发由端到端大模型驱动的通用机器人,是国内最早发布端到端视觉-语言-动作统一大模型的团队之一 [84][85] - 姚欣:PPIO联合创始人兼CEO,P2P-Streaming协议发明人,曾创办覆盖全球4.5亿用户的网络电视平台PPTV [88][89][90] - 毛健:云徙科技COO/副总裁,拥有20多年管理咨询和技术落地经验,主导GOS.AI企业运营超级智能体产品研发和交付实施 [93][94] - 屠静:卓世科技创始人兼CEO,曾任百度地图、百度糯米、百度APP核心高管,具备丰富AI行业实践经验 [99][100] - 杜知恒:小宿科技联合创始人兼CEO,曾在红杉中国对冲基金、高瓴资本、百度、罗兰贝格等企业从事投资、战略及咨询岗位 [104][105] - 赵天成:联汇科技CEO兼首席科学家,研发的Om多模态大模型是国内首个通过工信部信通院评测认证的预训练大模型 [108][109] - 徐达峰:蚂蚁集团平台体验技术部负责人、资深前端技术专家,负责AntV/Galacean/WeaveFox等社区产品,致力于通过AI驱动前端研发范式革新 [113][114] 嘉宾阵容:投资与金融界 - 朱宁:上海交通大学上海高级金融学院金融学教授,研究涵盖行为金融学、中国宏观经济、金融市场等领域,曾任雷曼兄弟与野村证券高管 [62][63] 大会影响力与奖项 - 大会每年吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光,已成为智能科技行业年度风向标 [122] - 量子位发起的“人工智能年度榜单”将从公司、产品、人物等三大维度评选五类奖项,是AI行业最具影响力榜单之一 [117] - “年度AI趋势报告”将结合技术成熟、落地现状、潜在价值等因素,提名正在释放巨大潜力的十大AI趋势,并进行深入分析 [118]
AI产业速递:从DeepSeek V3
2025-12-03 02:12
**行业与公司** * 行业涉及人工智能与大模型领域 重点包括强化学习 合成数据 稀疏化技术 注意力机制优化等方向[1] * 核心公司包括 Deepseek DeepMind OpenAI 以及提及的谷歌 阿里等大型科技公司[1][7][9] **Deepseek V3 2 模型的核心技术特点与改进** * 架构上引入 DSA 机制取代 MLA 机制 通过位置编码计算索引选取关键注意力参数 优化推理效率 尤其在复杂任务中减少冗长思维链的计算负担[1][3] * 后训练阶段的 C9 版本投入约10%的预训练计算量 显著提升模型在复杂任务(如代码调试)中的强化学习能力 达到全球领先水平[1][3][5] * 采用高效的上下文管理策略 智能处理用户频繁开启新任务 多轮对话及模糊输入 有效降低推理成本[1][3] * 使用大量人类专家编写并增量训练生成的高难度合成数据 比例较之前增加一倍以上 对后续强化学习阶段至关重要[1][3][4][6] * DSA 机制结合筛选和缓存技术 将 KV 缓存量降至50%以下 筛选机制可减少90%的 KV 缓存占比[18] * 在稠密阶段冻结部分参数 仅用少量参数(例如7 000亿参数模型中用20亿参数)进行初步规律提取 再进行稀疏训练 提高效率[18] **强化学习技术的最新发展与影响** * DeepMind 的新框架结合 Rubik‘s 规则提示机制 使系统能边思考边执行并根据环境反馈调整策略 提高了强化学习效率[8][9] * 该框架促使大型科技公司加速探索多模态视频和图像领域的应用 推动2025年相关模型发展[1][9] * 强化学习所需算力受数据条目数量 数据采样系数(简单任务为2-4倍 高难度任务可达128倍) 思维链输入输出长度等因素影响 浮动范围可达50倍[13][14] * 预计到2026或2027年 强化学习所需算力将接近预训练算力的一半 国内模型该比重可能达到20%至30%[15] **合成数据的作用与优势** * 合成数据比例大幅增加 其效果与难度系数密切相关 高难度 高质量的合成数据极大提升了模型在强化学习阶段的性能[6] * 在缺乏真实数据的极罕见长尾场景(如汽车高速碰撞)中 合成数据尤为重要 可通过智能体思维生成新个体和模拟环境来提升模型性能[16] **开源与闭源模型的趋势变化** * Deepseek 完成了全面的后训练过程并将结果开源 支持 Agent 调用能力 使得开源模型在功能上可与闭源模型媲美 可能引领开源项目新趋势[7] **稀疏化技术与未来模型价格趋势** * 稀疏化技术降低了训练算力要求并提升了训练上限 激发开发更大参数模型的动力[2][19] * 预计到2026年模型价格将大幅下降 可能降至现在的1/5 这将激发更多创业公司参与大模型开发[2][20] **预训练算力消耗现状与发展** * 全球主要厂商预训练算力需求显著提升 美国一些领先企业算力达10^25到10^26 FLOPS 相比 DeepMind(10^24 FLOPS)增长50到100倍[7] * 预训练算力需求增速趋缓 但通过基础设施效率提升(如TPU集群优化) 大规模预训练依然有发展潜力[17] **下一代大模型发展方向** * 发展方向集中在全模态融合(文本 图片 视频 音频) 与物理世界数据交互 以及具备更自适应推理机制 更强人机交互和长时间记忆能力[22] * V4 模型将基于现有高版本推进 重点验证和增强 Agent 功能[25] **大模型能力上限的迁移** * 后训练的潜力越来越大 模型能力上限正从预训练向后训练迁移 尤其在人文创意等没有固定答案的领域 其能力逐渐被打开将吸引更多应用厂商[10][11] **垂直场景中的应用示例** * 以电商平台AI万能搜索为例 通过多轮对话机制 基于用户历史数据 prompt响应和反馈数据 不断优化推荐结果 满足个性化需求[12]
DeepSeekV3.2技术报告还是老外看得细
量子位· 2025-12-03 00:11
文章核心观点 - DeepSeek发布两款开源模型DeepSeek-V3.2和DeepSeek-V3.2-Speciale,在智能体评测中达到开源模型最高水平,大幅缩小了开源模型与顶尖闭源模型的差距[6] - 模型通过长上下文强化学习技术实现性能突破,证明强化学习在长上下文长度下也能持续扩展,开辟了不同于单纯扩大预训练规模的新技术路径[13][19][22] - DeepSeek-V3.2系列在性能接近顶尖闭源模型的同时,成本大幅降低,输出token价格比GPT-5便宜近24倍,比Gemini 3 Pro便宜近29倍[29][30] 模型性能表现 - 标准版DeepSeek-V3.2在推理测试中达到GPT-5水平,略低于Gemini-3.0-Pro[7] - Speciale版本全方位超越GPT-5,在主流推理任务中与Gemini-3.0-Pro竞争,在AIME 2025得分为96.0(23k),HMMT Feb 2025得分为99.2(27k)[8] - Speciale版本获得IMO、CMO、ICPC及IOI金牌,在ICPC和IOI上达到人类选手第二名与第十名水平[9] 技术创新突破 - 利用DSA稀疏注意力解决长上下文效率问题,为长序列强化学习打下计算基础[14] - 投入超过预训练成本10%的算力进行后训练,提升模型通用推理和智能体能力[15] - 通过极长思维链让模型思考更多,通过自我修正探索让模型思考更久,解锁更强推理能力[16][17] 成本优势分析 - DeepSeek-V3.2输出百万token成本为0.42美元,GPT-5为10美元,Gemini 3 Pro为12-18美元[30] - 相较于前一代模型DeepSeek-V3.1-Terminus,在最长上下文场景下成本降低75%到83%[37] - 模型可能直接在国产算力(华为、寒武纪)中部署,将进一步拉低推理成本[33] 行业影响 - 模型发布引发硅谷高度关注,在NeurIPS 2025会议航班上有30%乘客研究DeepSeek的PDF[3] - OpenAI启动红色警报并临时推迟ChatGPT广告投放计划,谷歌Gemini团队受到网友关注[5] - 证明开源模型与闭源模型的差距已从技术问题转变为经济问题,只要计算资源足够,开源模型可不逊于闭源模型[26]
AI初创公司Runway推出影片生成模型Gen 4.5;字节Seed发布GR-RL,首次实现真机强化学习穿鞋带丨AIGC日报
创业邦· 2025-12-03 00:08
可灵AI产品发布 - 公司正式发布全新产品可灵O1,该产品基于全新的视频和图像模型,整合文字、视频、图片、主体等多模态输入 [2] - 可灵O1将所有生成和编辑任务融合于一个全能引擎,解决了AI视频生成中角色、场景等一致性难题 [2] - 产品为影视、自媒体、广告电商等应用场景提供深度适配的一站式解决方案 [2] OpenAI商业模式探索 - ChatGPT应用的最新安卓测试版中存在被标记为"特色广告"的代码,包含引用商业广告的字符串,例如"搜索广告"和"集市内容" [2] - 公司正考虑根据ChatGPT对用户交互的记忆投放个性化广告 [2] - 公司正从Google和Meta等竞争对手处挖走顶尖广告人才,并在LinkedIn发布与广告相关的招聘信息 [2] 字节跳动机器人技术突破 - 公司Seed团队发布研究成果GR-RL,着力于拓展VLA模型在长时程精细灵巧操作方面的能力边界 [2] - GR-RL提出从离线数据筛选到在线真机微调的强化学习框架,首次实现让机器人给整只鞋连续穿鞋带 [2] - 相较前作监督学习模型GR-3,GR-RL在穿鞋带任务上将成功率从45.7%提升至83.3%,失败情况减少近70% [2] Runway模型性能领先 - AI初创公司Runway推出最新影片生成模型Gen 4.5,能依照文字指令生成高画质影片 [3] - 新模型在第三方评测平台Video Arena排名第一,超越谷歌Veo 3(排名第二)和OpenAI的Sora 2 Pro(排名第七) [3] - Gen 4.5擅长理解物理效果、人类动作、镜头运动与因果关系,能更精准模拟真实世界情境,并于本周向所有用户全面开放 [3]
最近,自动驾驶的岗位招聘有一些新的变化......
自动驾驶之心· 2025-12-03 00:04
自动驾驶行业招聘趋势变化 - 感知岗位需求进一步收缩,而端到端、VLA、世界模型等方向需求较高 [1] - 头部玩家已验证端到端路径可行,其他车企正跟进模型优化、场景优化、数据优化及规划兜底等资源投入 [1] - 候选人技术栈狭窄,缺乏导航信息引入、强化学习调优、轨迹建模等量产经验,成为实际落地痛点 [1] 端到端量产课程核心内容 - 课程聚焦量产实战,涵盖一段式端到端、两段式端到端、导航信息应用、强化学习、扩散模型+强化学习等核心算法 [1][2] - 课程设计基于实际量产需求,包括轨迹优化、兜底方案及量产经验分享,仅限25名学员参与 [2][3] - 讲师为顶级Tier1算法专家,具备大模型、世界模型等前沿算法预研和量产落地经验 [3] 课程大纲与技术模块 - 第一章介绍感知任务合并与规控学习化趋势,分析主流一体化架构及开源数据集评测方式 [6] - 第二、三章对比两段式与一段式端到端框架,分别讲解PLUTO算法实战和VAD系列方法,强调一段式方案性能更优 [7][8] - 第四至七章深入导航信息编码、强化学习泛化训练、轨迹输出优化及时空联合规划兜底方案,覆盖模仿学习与强化学习结合应用 [9][10][11][12] - 第八章从数据、模型、场景等多视角分享量产经验,提升系统能力边界 [13] 课程安排与学员基础要求 - 课程周期为三个月,自11月30日起分章节解锁教学,包含离线视频与三次线上答疑 [14][16] - 学员需自备GPU(推荐算力4090及以上),熟悉BEV感知、Transformer、强化学习等算法,具备Python/PyTorch及数学基础 [15]