自动驾驶之心
搜索文档
前蔚来智驾高管加盟新公司
自动驾驶之心· 2025-12-11 00:05
核心人事变动 - 一位前蔚来智能驾驶高管已正式加入一家头部无人配送自动驾驶企业并出任要职 [3] - 该高管在蔚来期间曾先后担任感知团队负责人和大模型团队负责人 深度参与了其自动驾驶技术的研发与演进 [4] - 该高管在加入蔚来前 曾任Momenta高级计算机视觉算法工程师 并于2020年随任少卿一同加入蔚来 [4] 蔚来智驾团队调整背景 - 2024年6月 蔚来为推进“端到端”技术研发 将原有感知、规控团队合并为大模型团队 该高管被任命为新团队负责人 [4] - 2024年12月 蔚来智驾团队再次调整 任少卿直管大模型部 该高管与原部署架构与方案部负责人转任方案负责人 组成虚拟战队负责交付工作 [4] - 外界猜测或因团队调整影响 蔚来智驾团队多位高管选择离职 2025年2月 原蔚来部署架构与方案部负责人离开蔚来加入旷视科技 [4] 无人配送公司发展现状 - 该头部无人配送公司于今年10月完成D轮融资 创下中国自动驾驶领域最大一笔私募融资纪录 [5] - 公司已实现累计交付车辆突破1万台 业务覆盖全国近300个城市 [5] - 公司正全力进入即时物流和泛城配市场 并加速推进无图自动驾驶技术和端到端大模型的应用 [5] 人事变动的战略意义 - 该高管在蔚来负责的核心领域(无图自动驾驶技术、端到端大模型)正是无人配送公司加速推进的方向 [5] - 该高管的加入被视为该公司为应对下一阶段挑战所做的关键性人才储备 [5]
自驾世界模型剩下的论文窗口期没多久了......
自动驾驶之心· 2025-12-11 00:05
行业趋势与研究方向 - 近期自动驾驶世界模型相关论文爆发式增长,涌现出MindDrive、Think Before You Drive、U4D、SparseWorld-TC、AD-R1、Percept-WAM等多项工作 [1] - 根据顶会接收规律,选题多为局部突破与可验证改进,并紧贴当年主旋律,例如2024年为多模态,2025年为视频生成 [1] - 参照2026年各大顶会中稿论文,预测今年年底至明年上半年的主旋律极有可能是世界模型,当前布局该方向具有前瞻性优势 [1] 公司业务与服务定位 - 公司提供自动驾驶、具身智能、机器人等方向的论文辅导服务,旨在帮助学生冲击高区或顶会论文发表 [2] - 服务内容包括掌握技术脉络、复现模型、产出1篇论文初稿及投稿指导 [2] - 公司旗下拥有自动驾驶之心、具身智能之心、3D视觉之心等多个技术自媒体平台,是国内最大的AI类技术自媒体平台之一 [3] - 公司深耕自动驾驶、具身智能、机器人等交叉学科领域多年,拥有国内顶尖的学术资源 [3] 服务团队与过往业绩 - 公司拥有超过300名专职于自动驾驶/具身智能方向的导师,导师来自全球QS排名前100的院校,并发表过多篇顶会、子刊及A/B会论文 [5] - 近3年累计辅导学员超过400名,中稿率高达96% [5] - 过往成功案例显示,学员覆盖博一至在职等不同阶段,辅导周期在2至4个月,成果发表于NEUROCOMPUTING(2区)、CVPR(顶会)、emnlp(顶会)等多种期刊与会议 [6] 服务内容与价值主张 - 服务旨在解决学生科研中的常见痛点,如导师指导不足、知识体系零散、对投稿流程不熟悉等 [4][7] - 具体帮助包括建立科研思维、系统掌握经典与前沿算法、结合模型理论与代码实践、将baseline深化拓展形成个人论文 [7] - 提供个性化论文指导、导师实时互动、录播无限回看、免费课后答疑及24小时无时差上课等服务 [13] - 提供从选题、调研、idea验证、代码、实验、润色、投稿到中稿的一站式科研服务,目标覆盖CCF-A/B/C、SCI1-4区及EI会议 [13] 目标客户与附加价值 - 主要服务方向包括三维重建、relighting、NVS、SLAM、点云处理、VLA、机器人导航、计算机视觉等 [10] - 目标学员需自带简历并具备一定的PyTorch基础 [10] - 服务满足多种需求,包括积累科研经验、提升职称、提高学术成就;提升人工智能领域从业者竞争力以助升职加薪;以及为考研、申博、留学提升简历含金量 [14] - 优秀学员有机会获得清北、MIT等名校推荐信,或被推荐至相关实验室实习;表现突出者可获内推至阿里达摩院、华为诺亚方舟等企业研发岗位 [19] 服务模式与保障 - 服务采用班主任全程督学模式,跟进学习进度 [17] - 提供精准导师匹配系统,根据学员研究方向、目标期刊和基础水平,从300多名导师中筛选3至5位最契合人选供学员选择 [18] - 为零基础学员提供基础课程,通过系统学习,据称6个月可完成一篇小论文 [17] - 提供预收定金后与名师meeting的机会,并承诺若不满意可免费更换老师或退款 [19]
上交最新!端到端&VLA综述:广义范式下的统一视角
自动驾驶之心· 2025-12-11 00:05
文章核心观点 - 上海交通大学AutoLab团队与滴滴联合发布综述《广义端到端自动驾驶的综述:统一视角》,旨在为当前看似割裂的自动驾驶技术路线提供一个统一的分析框架 [3] - 文章提出“广义端到端(GE2E)”概念,将传统端到端、以VLM为中心的端到端和混合端到端三大范式统一起来,认为它们都是解决“从原始传感器输入到最终驾驶决策”这一共同问题的不同表现形式 [4][14] - 行业技术正从传统的模块化架构向数据驱动的端到端范式演进,核心目标是实现“传感器信息输入,动作输出” [2][5] 技术范式统一与定义 - **广义端到端(GE2E)定义**:任何一种通过整体模型将原始传感器输入处理为规划轨迹或控制动作的模式,无论架构中是否包含视觉语言基础大模型(VLM) [4][14] - **三大统一范式**:基于GE2E定义,将现有技术路线归纳为传统端到端、以VLM为中心的端到端和混合端到端 [4][5] - **核心差异**:三种范式在场景表征方式、推理深度以及计算效率的权衡上侧重点不同,但并非割裂的技术路线 [14] 传统端到端范式 - **核心特点**:基于3D场景表征(如BEV或Occupancy),利用对场景的结构化理解进行精确轨迹规划,系统集成度高、执行效率快,是目前车企落地最广泛的实战派 [9][17] - **主要分支**: - **纯规划端到端**:直接从图像/LiDAR映射到规划控制信号,近期研究重点包括多模态融合、生成式建模(如扩散模型)和高效性优化(如轻量化网络、Mamba架构) [18] - **多任务端到端**:引入感知和预测等中间任务,提供更丰富的监督信号,以强化对场景动态的理解,促使更安全鲁棒的规划 [19] - **优势与局限**:优势在于减少模块间信息丢失和误差累积,在结构化场景下稳定性强;局限在于依赖预定义的几何先验且缺乏通用世界知识,面对未见过的长尾场景时泛化能力受限 [9][10] 以VLM为中心的端到端范式 - **核心特点**:利用在大规模互联网数据上预训练的视觉-语言模型作为核心,将驾驶任务转化为多模态理解与推理问题 [11] - **优势**:得益于模型内部丰富的世界知识和强大的推理能力,在开放世界场景中展现出卓越的泛化性与逻辑可解释性,是解决自动驾驶长尾场景的一条可能路径 [11] - **挑战**:相比于传统端到端模型,在生成轨迹的物理精度上存在局限;巨量参数导致高额推理延迟,难以部署到高实时要求的真实驾驶场景 [11] - **研究重点**:包括视觉-语言对齐与时空理解、推理能力(如思维链、RAG)、规划与动作策略落地、以及学习策略与效率优化(如知识蒸馏、强化学习) [30][33][34][35][36][37] 混合端到端范式 - **设计理念**:结合传统端到端的“快直觉”(执行效率高、轨迹精度高)与VLM的“慢推理”(认知能力强),实现优势互补,是当前平衡性能与效率的有效路径 [12][13][38] - **实现方式**: - **在线分层协同**:在推理阶段,VLM作为高层推理引擎指导传统E2E模型,可在感知级或规划级进行融合 [38][39][40] - **离线知识迁移**:在训练阶段利用VLM作为教师模型,通过蒸馏技术将知识注入轻量级E2E学生模型,实现零推理成本增量 [42][43][44] 数据集演进趋势 - **语义化革命**:新一代数据集包含大量自然语言描述和问答对,旨在教会模型理解复杂的交通语境、因果逻辑及人类驾驶意图 [46] - **思维链引入**:数据集转向包含思维链的详细标注,要求不仅给出驾驶动作,还要给出完整的逻辑推导过程 [47] - **生态爆发**:基于nuScenes等经典数据集进行二次开发的图文对数据成为主流,社区正爆发式构建各类带有推理标注的Benchmark [48] - **数据规模示例**:DriveLM-CARLA数据集包含183K帧图像和3.7M个问答对;LMDrive数据集包含3M帧图像和528K个问答对 [50] 不同范式的性能表现 - **开环性能**:在nuScenes、NAVSIM等开环测试中,混合端到端范式表现最佳,证明了VLM带来的世界知识对处理长尾场景、提升规划上限的关键作用;传统端到端算法在数值轨迹预测精确度上依然占据统治地位,在nuScenes前十名中占绝大多数席位;顶尖算法在NAVSIM上的评分甚至超过了人类驾驶员 [54] - **闭环性能**:在Bench2Drive、CARLA Town05 Long等更接近真实驾驶的闭环测试中,传统端到端范式占据绝对主导地位;在Bench2Drive中,最高的路线完成率仍未突破70%,表明长程多样化驾驶任务仍是系统瓶颈 [55] - **VLA范式短板**:在闭环测试中表现稍逊,主要原因是缺乏对细粒度轨迹控制的精确理解能力,难以把握其生成轨迹对环境产生的连续影响 [56] 行业面临的核心挑战 - **长尾数据难题**:现实驾驶场景呈极端长尾分布,决定系统安全的1%稀缺Corner Case(如极端天气、异形车辆)数据获取与消化效率低下;AI模拟数据存在“虚实鸿沟”,VLM微调时易出现“灾难性遗忘” [61][62] - **可解释性信任危机**:传统E2E模型是“黑盒”,缺乏中间可解释性;引入VLM后可能出现思维链推理与规划动作“言行不一”的问题 [63] - **安全与效率平衡**:为兜底安全而外挂基于规则的后处理模块,破坏了端到端的纯粹性,可能导致车辆行为过度保守 [64][65] - **实时性效率焦虑**:VLM参数量庞大,自回归生成机制导致巨大推理延迟;现有优化手段(如蒸馏、剪枝)往往以牺牲模型鲁棒性为代价 [66][67][68] 未来技术发展方向 - **强化学习进阶**:模仿学习预训练结合强化学习后训练将成为主流,使AI能在虚拟环境中通过试错探索,学会在陌生场景中做出最优决策 [70] - **基础模型应用**:基于海量通用数据预训练的VLM基础模型,将为车辆注入世界知识和常识推理能力,成为处理长尾场景的终极武器 [71][72] - **智能体分层架构**:构建类人的分层系统,LLM/VLM作为“大脑”负责慢思考与复杂推理,专用小模型作为“身体”负责快直觉与毫秒级控制执行 [73][74] - **世界模型发展**:让AI具备基于当前状态“预演”未来环境演变的能力,可用于零成本虚拟试错和利用无标签视频进行自监督学习 [75] - **跨模态深度融合**:下一代模型将深度融合LiDAR/深度信息与RGB视觉,兼具语义理解力和3D几何感知精度 [76] - **自动化数据引擎**:构建问题驱动的自动化数据闭环,自动挖掘模型失败的Corner Case、生成场景并训练迭代,从“堆量”转向“提质” [77]
最近做 VLA 的一些心得体会
自动驾驶之心· 2025-12-11 00:05
视觉语言模型在自动驾驶应用中的核心挑战与解决方案 - 文章核心观点:视觉语言模型在自动驾驶领域展现出潜力,尤其在可解释性方面具有优势,但其在落地应用前仍需克服幻觉、3D空间理解不足和速度慢等关键挑战,行业正通过改进感知范式、训练任务、模型交互和推理过程来应对这些问题[3] VLM应用于AD的主要问题与改进方向 - 幻觉问题具体表现为无中生有和视而不见,其根源在于静态感知,解决方案包括转向动态感知、通过多次校验或DPO减少训练数据及模型产生的幻觉、以及允许模型“回头放大看看”[3] - 3D空间理解能力不足源于预训练任务多为2D,解决方案是在训练时加入空间定位任务,例如混合具身数据,研究证明额外使用3D感知和PnC轨迹生成模块效果更好[3] - 速度慢是主要瓶颈,可通过KV Cache、Visual token压缩、以及通过混合数据和强化学习让模型学会“按需思考”并根据提示调节思考深度来优化[3] VLM在自动驾驶中的技术评估与学习范式 - 从学术评估指标看,VLA方案与基于Diffusion的方案效果不相上下,VLM的核心优势在于其可解释性[3] - 学习范式需要从模仿学习转向偏好学习,在强化学习阶段,多任务同时训练比单任务分阶段训练效果更好[3] - 防止基础模型发生灾难性遗忘的最简单有效方法是增加预训练数据[3] 提升VLM模型性能的技术路径 - 提供更丰富的监督信号有助于模型学到更好的表征,具体方式是在VLM基础上增加其他任务头,如预测下一帧画面、3D占据与流、物体检测、交通信号灯识别等,这种方式有助于实现缩放定律[3] - 思维链技术很重要,但在海量数据下应用不易,除了纯文本形式,多模态思维链正在兴起[3] - 目前VLM中视觉与语言的交互不足,限制了其作为基础模型的效果,改善思路是增强视觉-语言交互,例如Qwen3-VL使用Deepstack将图像token输入到LLM的不同层,或引入图像生成的辅助任务[3] 轨迹生成与模型评估的现状 - 轨迹的输出方式不重要,无论是VLM直接以文本输出、输出特殊token映射为轨迹,还是接扩散头生成轨迹,效果都不错,工业界主要采用扩散头生成轨迹,因其速度最快[3] - 评估面临挑战,闭环测试指标比开环差,原因包括训练目标与在线部署目标不一致,以及训练时的离线传感器数据与测试时实时观测数据分布不同[3] 关于思维链的深入探讨 - 是否需要推理时也加入视觉思维链?研究指出,仅用图像生成做思维链对视觉规划任务的指标和泛化性都有提升,例如FSDrive用图像思维链代替文本思维链可提升场景理解并降低碰撞率[3] - 让模型在思维链过程中调用工具能取得更好效果,例如调用视角、查看历史、放大、测距等[3] - 目前VLM添加思维链后在AD中效果不佳的原因包括:思维链质量不高、因果关系不强;测试集不够复杂;以及VLM基础模型本身因视觉-文本对齐不佳而无法拥有LLM的优良特性[3]
Waymo刚刚的基座模型分享:快慢双系统端到端 & 世界模型仿真
自动驾驶之心· 2025-12-10 01:28
Waymo的整体人工智能战略与核心架构 - 公司正通过将“可验证安全的人工智能”置于核心优先级来攻克自动驾驶挑战,安全是从底层设计模型与人工智能生态系统的核心准则[2] - 公司打造了一套极其先进的人工智能系统,已实现大规模安全落地于物理世界,完全自动驾驶里程已远超1亿英里[2] - 在运营区域,与人类驾驶员相比,严重事故发生率降低了十倍以上[2] - 公司的人工智能方案以Waymo基础模型为核心,支撑起统一的可验证安全人工智能生态系统,实现加速、持续的学习与迭代优化[2] Waymo基础模型:核心支柱与架构 - Waymo基础模型是一款多功能、顶尖的“世界模型”,为整个人工智能生态系统提供动力[5] - 其创新架构相比纯粹的端到端方案或模块化方案具备显著优势,充分利用习得嵌入的强大表达能力,并在训练过程中支持完整的端到端信号反向传播[8] - 模型采用“快速反应与深度思考”(系统1与系统2)的架构,包含两个不同的模型组件[10] - 两个编码器的输出接入世界解码器,该解码器利用输入数据预测其他道路使用者的行为、生成高清地图、规划车辆行驶轨迹,并为轨迹验证提供信号[11] 人工智能生态系统:三大组件与知识蒸馏 - 基于整体方案,Waymo基础模型为“驾驶员”、仿真器和评估器提供动力[12] - 公司首先将基础模型适配这三大任务,训练出大型、高质量的教师模型,然后通过安全的模型蒸馏技术,将其转化为更小的学生模型,以在保留卓越性能的同时得到更紧凑、高效的版本[12] - “驾驶员”教师模型经过训练能够生成安全、舒适且合规的动作序列,通过蒸馏技术将其世界理解能力和推理能力迁移至学生模型,优化后用于车载实时部署[14] - 仿真器教师模型能够创建高保真、多模态的动态虚拟世界,学生模型则是这些大型模型的计算高效版本,专为满足大规模仿真任务而设计[14] - 评估器教师模型能够分析驾驶行为并生成高质量的反馈信号,学生模型会分析驾驶日志,识别场景并对驾驶质量提供细致反馈[16] 关键模型组件:感知与语义理解 - 用于快速反应的传感器融合编码器作为基础模型的感知组件,能实时融合摄像头、激光雷达和雷达的输入数据,生成目标物体、语义信息及丰富的嵌入特征[15] - 用于复杂语义推理的驾驶视觉语言模型基于Gemini大模型训练而成,借助其海量世界知识,以更好地理解道路上罕见、新颖且复杂的语义场景[15] 构建持续优化的飞轮效应 - 公司内部学习循环由仿真器和评估器提供动力,利用强化学习在安全可控的仿真环境中对“驾驶员”进行大规模训练[17] - 外部学习循环基于真实的完全自动驾驶数据,评估器从海量自动驾驶经验中自动标记次优驾驶行为,生成改进后的替代行为作为训练数据,经严格测试和安全框架确认后部署到真实道路[17] - 公司完全自动驾驶里程已远超人工驾驶数据量,庞大的真实世界完全自动驾驶经验是无可替代的,将这些数据融入飞轮体系使系统能从自身海量经验中学习[19] 行业技术趋势与定位 - 基本上可以断定Waymo在跟随国内的快慢双系统端到端方案,和理想的E2E+VLM以及小鹏VLA2.0有相似之处[2]
最近Feed-forward GS的工作爆发了
自动驾驶之心· 2025-12-10 00:04
3DGS技术趋势与行业应用 - 特斯拉在ICCV的分享中引入了3D Gaussian Splatting技术,基本可以判断其基于前馈式GS算法实现[2] - 学术界近期涌现大量相关工作,例如小米的WorldSplat和清华最新的DGGT,表明3DGS技术正在自动驾驶领域焕发新一轮生机[2] - 行业普遍共识是引入前馈式GS重建场景,再利用生成技术生成新视角,目前不少公司都在开放HC招聘相关人才[2] - 3DGS技术迭代速度极快,已从静态重建3DGS、动态重建4DGS、表面重建2DGS,发展到前馈式3DGS[4] 3DGS技术课程核心内容 - 课程旨在提供一套系统的3DGS学习路线图,从原理到实战细致展开,全面覆盖3DGS技术栈[4] - 课程讲师为QS20硕士,现任某Tier1厂算法专家,从事端到端仿真、多模态大模型、世界模型等前沿算法预研和量产,拥有丰富的三维重建实战经验[5] - 课程采用离线视频教学,配合VIP群内答疑及三次线上答疑,开课时间为12月1日,预计两个半月结课[15] - 课程面向人群需自备GPU,推荐算力在4090及以上,并具备一定的计算机图形学、视觉重建、概率论、线性代数及Python和PyTorch基础[17] 课程大纲详解 - **第一章:3DGS背景知识**:从计算机图形学基础讲起,涵盖三维空间的隐式/显式表达、渲染管线、光线追踪、辐射场渲染等概念及其与3DGS的联系,并介绍COLMAP、Gsplat等开发工具,设置基于3D Real Car训练模型的小作业[8] - **第二章:3DGS原理和算法**:详细梳理3DGS原理及核心伪代码,讲解动态重建、表面重建、鱼眼重建和光线追踪的经典与最新算法,实战选用英伟达开源的3DGRUT框架[9] - **第三章:自动驾驶3DGS**:聚焦自动驾驶仿真重建,讲解浙大Street Gaussian、上交OmniRe和浙大Hierarchy UGP三篇工作,实战选用学术界和工业界广泛使用的DriveStudio框架[10] - **第四章:3DGS重要研究方向**:探讨COLMAP扩展、深度估计及Relighting等研究方向,分析其工业界服务价值与学术探索意义[11] - **第五章:前馈式3DGS**:梳理前馈式3DGS的发展历程与算法原理,讲解最新的AnySplat和WorldSplat算法工作[12] - **第六章:答疑讨论**:通过线上交流形式,组织讨论3DGS岗位需求、行业痛点及开放性问题[13]
地平线苏箐:曾一度看不到自动驾驶太多希望...
自动驾驶之心· 2025-12-10 00:04
以下文章来源于RoboX ,作者RoboX RoboX . 从AI汽车到机器人,我们关注最具潜力的超级智能体! 作者 | RoboX 来源 | RoboX 原文链接: 地平线苏箐演讲全文提炼:自动驾驶的曙光、痛苦与轮回 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 演讲者:苏箐 | 地平线副总裁&首席架构师 演讲时间 :2025.12.9 演讲场合 :2025地平线技术生态大会 全文提炼如下: 今年,我们确实能看到自动驾驶的技术路径是比较清晰的,但也会看到有更难的问题在前面。你知道这些问题能解掉,但应该怎么解今天还不知道。 绝大多数行业外的人,可能并不理解自动驾驶团队面临的困难和压力。这种智力和体力的双重压榨极度痛苦,因为有SOP的时间压在那儿,然后又有方法论的变化, 还有各种corner case需要去解。 在稠密的世界里连续运行的时候,所有的case都需要解决,这就是这个行业非常痛苦的地方。 曙光:重大分水岭的出现 我刚准备加入地平线的时候,和余凯博士聊过几次, ...
北航一篇304页的Code Agent综述!近30家机构参与
自动驾驶之心· 2025-12-10 00:04
文章核心观点 - 代码智能领域正经历从“辅助工具”到“自主开发者”的革命性转变,大语言模型已彻底改变软件开发生态,部分模型在基准测试上的成功率突破95% [2] - 一篇由28家机构联合发布的304页综述系统梳理了代码大模型的技术演进,并构建了从基础模型到智能体应用的完整技术体系 [2] - 代码智能的未来价值在于自动化重复编码工作,释放开发者在高阶创造性任务上的潜力,并成为推动研发效率、代码质量与安全性的核心基础设施 [37][38] 代码智能的演进历史 - 编程开发经历了六个阶段的演进:手动编码时代(1960s-1980s)、工具辅助时代(1980s-2000s)、框架驱动时代(1990s-2020s)、AI辅助时代(2020-2025)、AI自主时代(2025+)以及未来的代码智能时代 [8] - 演进的核心驱动力是从“规则系统”到“Transformer大模型”的技术跃迁,早期模型仅能处理单一语言的简单任务,而当前模型已能支持数十种编程语言并理解百万级token的代码仓库上下文 [9] 代码基础模型 - 主流模型分为通用大语言模型和代码专用大语言模型,二者各有优势且技术相互融合 [11] - 通用大语言模型(如GPT-4、Claude、LLaMA)因训练数据包含大量代码而具备编码能力,但存在专业性不足、安全性风险(约45%的生成代码存在已知漏洞)以及长上下文乏力等短板 [12][15] - 代码专用模型通过数据聚焦、架构优化和任务微调实现超越,其核心特征包括数据从“量”到“质”的转变、架构从“dense”到“稀疏高效”的进化,以及训练任务超越传统的“下一个token预测” [15] 模型数据与架构 - 高质量数据集如The Stack v2包含32.1TB数据、600+编程语言,并解决许可证合规问题;StarCoderData进一步过滤基准测试数据以避免模型“作弊” [16] - 架构创新围绕长上下文与高效推理展开:Dense模型(如Code LLaMA)支持长代码上下文;MoE模型(如Qwen3-Coder-480B-A35B)总参数480B但仅激活35B以兼顾能力与效率;混合架构(如Jamba)融合Transformer与Mamba层提升吞吐量 [20] 模型训练任务 - 训练任务针对代码特性设计,包括:Fill-in-the-Middle适配IDE的“光标补全”场景;多token预测提升生成效率并捕捉代码块依赖;扩散式生成(如DiffuCoder)使生成结果更具多样性且支持并行计算 [20] 代码任务与评估 - 代码任务分为三个粒度:语句/函数/类级任务(基础)、仓库级任务(进阶难点)以及智能体系统任务(终极形态) [18][19] - 基础任务包括代码补全、生成、修复与翻译,使用基准如HumanEval(164个Python任务)、MBPP(974个任务)、DebugBench(4.2k调试任务)进行评估 [21] - 仓库级任务涉及多文件生成与补全、提交信息生成及软件工程任务,基准如RepoBench、CommitBench(包含1.6M commit-diff对)以及SWE-bench Verified(包含500个人工筛选的issues) [21] - 智能体任务涉及工具使用、网页/GUI交互及终端操作,基准如ToolBench、WebArena以及Terminal-Bench(目前顶级模型成功率不足30%) [21] - 评估主流采用基于执行的指标(如Pass@k)和LLM-as-a-Judge方法(如ICE-Score从正确性、效率、可读性多维度打分) [19] 模型对齐技术 - 对齐技术分为监督微调与强化学习两类,旨在使生成代码安全、高效且符合规范 [22] - 监督微调通过“指令-代码”配对数据让模型学习,包括单轮SFT(针对简单任务)、多轮SFT(针对复杂任务)以及仓库级SFT(处理跨文件任务) [23][25] - 强化学习通过反馈信号持续优化模型,包括RLHF(基于人类反馈)、RLAIF(基于AI反馈,如Skywork-OR1在SWE-bench上实现63%修复成功率)以及RLVR(带可验证奖励,如DeepCoder以14B参数匹配34B模型性能) [25][27] - SFT与RL结合才能实现最佳对齐效果 [28] 软件工程智能体 - 软件工程智能体整合代码模型、工具与记忆,能跨越软件开发生命周期自主完成复杂工程任务 [31] - 应用场景分为四个阶段:需求工程(如Elicitron挖掘需求)、软件开发(如ChatDev多智能体协作生成项目)、软件测试(如ChatUniTest生成测试)以及软件维护(如LogRESP-Agent分析日志) [31][39] - 核心优势在于“协作”与“记忆”,目前最先进的SWE Agents(如Qwen3-Coder-480B)已能处理1M token的代码仓库,在部分场景下效率达到人类初级开发者的2倍 [31] 未来趋势 - 趋势一:从“通用”到“专用”,未来将出现更多垂直领域专用模型(如嵌入式、金融、AI框架代码模型)在特定场景超越通用模型 [33] - 趋势二:智能体自主化,从“辅助”走向“自主决策”,能自主识别生产环境漏洞、制定修复方案甚至预测问题 [34] - 趋势三:多模态融合,未来的代码智能体将融合视觉(UI设计图)、音频(会议录音)等多模态输入,实现“所见即所得”的开发体验 [35]
澳门大学首个世界模型驱动的视觉定位框架!
自动驾驶之心· 2025-12-10 00:04
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Haicheng Liao等 编辑 | 自动驾驶之心 在自动驾驶的交互场景中,最尴尬的时刻莫过于此: 乘客指着前方复杂的路口说:"跟着那辆SUV"。自动驾驶系统看着眼前三辆长得差不多的车,内心OS:"哪辆?是左边那辆?还是正在变道那辆?" 现有的自动驾驶视觉定位(Visual Grounding)模型,大多像是一个" 只会看图说话 "的愣头青。它们盯着当前的这一帧画面,试图从 像素 里找答案。一旦指令模糊, 或者目标被遮挡,它们就很容易"指鹿为马",甚至引发错误推理。 人类司机为什么不会弄错?因为我们会" 预判 "。 当我们听到指令时,大脑里会瞬间推演未来的画面:左边那辆车马上要转弯了,不符合"跟着"的语境;只有中间那辆车在加速直行,才是最可能的意图。 "在行动之前,先思考未来"。 受此启发,来自[澳门大学]的研究团队提出了全新的框架 ThinkDeeper。这是首个将世界模型(World Model)引入自动驾驶视觉定位的研究。这项工作不仅刷 ...
世界模型自动驾驶小班课!特斯拉世界模型、视频&OCC生成速通
自动驾驶之心· 2025-12-09 19:00
早鸟优惠!开课即止~ 讲师介绍 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 Jason老师新课《世界模型与自动驾驶小班课》正式推出啦! 自动驾驶之心联合 工业界大佬 共同开展,先前的《端到端与VLA自动驾驶小班课》备受大家好评,因 此我们进一步推出这门世界模型小班课, 课程聚焦于通用世界模型、视频生成、OCC生成等世界模型算法,涵盖特斯拉世界模型、李飞飞团队Marble等。欢迎大 家加入学习~ Jason:C9本科+QS50 PhD,已发表CCF-A论文2篇,CCF-B论文若干。现任国内TOP主机厂算法专家,目前从事端到端、大模型、世界模型等前沿算法的预研和量 产,并已主持和完成多项自动驾驶感知和端到端算法的产品量产交付,拥有丰富的端到端算法研发和实战经验。 课程大纲 这门课程讲如何展开 第一章:世界模型介绍 第一章主要针对自动驾驶世界模型概括性的内容讲解。 这一章老师会先复盘世界模型和端到端自动驾驶的联系,接着讲解世界模型的发展历史以及当下的应用案 例。然后介绍世界模型有哪些流派:纯仿真的世界模型、仿真+Planning、生成传感器输入、生成感知结果 ...