Workflow
自动驾驶之心
icon
搜索文档
滴滴和港中文最新的前馈3D重建算法UniSplat!史少帅参与~
自动驾驶之心· 2025-11-08 16:03
文章核心观点 - 港中文(深圳)、滴滴和港大的研究团队提出UniSplat,这是一种用于动态驾驶场景重建的通用前馈框架,其核心是构建统一的3D潜在Scaffold,通过融合多视图空间信息与多帧时间信息来实现鲁棒的新视角合成 [1] - UniSplat框架旨在解决自动驾驶环视场景中因稀疏非重叠相机视角和复杂场景动态性导致的现有前馈式3D重建技术表现不佳的问题 [1] - 实验表明,UniSplat在Waymo Open和NuScenes数据集上的新视角合成任务中达到当前最优性能,即使对于原始相机覆盖范围外的视角也能提供高质量渲染 [2][7] 技术背景与挑战 - 从城区驾驶场景中重建3D场景是自动驾驶系统的核心能力,支撑仿真、场景理解和长时程规划等关键任务 [5] - 3D高斯溅射技术虽在渲染效率和保真度上取得进展,但其通常假设输入图像间存在大量视角重叠且依赖逐场景优化,限制了在实时驾驶场景中的适用性 [5] - 前馈式重建方法通过单次前向传播合成新视角以实现更快推理,但城市驾驶场景的鲁棒重建仍面临维持时间上演化的统一表示、处理部分观测和遮挡以及从稀疏输入高效生成高保真高斯体等挑战 [5] UniSplat框架设计 - 框架核心是构建统一的3D潜在Scaffold,这是一种结构化表示,利用预训练基础模型捕捉场景的几何和语义上下文 [1][6] - 框架遵循三阶段流程:首先构建以自车为中心的3D Scaffold;其次进行时空融合,整合多视图空间上下文并融合历史Scaffold;最后通过双分支解码器将融合后的Scaffold解码为动态感知高斯体 [6] - 引入高效的融合机制,直接在3D Scaffold内运作,实现一致的时空对齐,并设计双分支解码器结合点锚定细化与体素化生成,确保重建结果的完整性和细节丰富度 [8][9] 关键技术组件 - 3D Scaffold构建阶段,利用几何基础模型推断3D结构,结合视觉基础模型补充语义信息,在自车坐标系下生成潜在Scaffold [14][16] - 统一时空Scaffold融合阶段,在3D空间直接执行空间融合,并通过自车运动补偿将历史Scaffold融合到当前Scaffold中,实现时间增强的场景表示 [20][21] - 动态感知高斯生成阶段,采用双分支解码策略,一点解码器分支保留细粒度几何细节,一体素解码器分支补充稀疏覆盖区域,并引入动态属性分离静态与动态成分 [23][24][27] 实验结果与性能 - 在Waymo Open数据集上,UniSplat在输入视图重建和新视角合成任务的所有指标上均持续优于基线方法MVSplat、DepthSplat、EvolSplat和DriveRecon [33] - 在nuScenes数据集上,UniSplat的PSNR达到25.37 dB,较此前最优方法Omni-Scene提升1.10 dB [37] - 模型展现出对原始相机覆盖范围外挑战性视角的泛化能力,并能有效区分动态与静态目标,抑制重影伪影,实现渐进式场景补全 [7][37] 消融实验分析 - 消融实验表明,Scaffold中同时包含几何和语义特征对性能至关重要,缺失语义特征会导致LPIPS指标显著下降0.05 [41] - 空间融合较仅依赖图像域融合的基线方法PSNR提升0.36 dB,加入时间融合后PSNR再提升0.58 dB,证明统一时空建模的重要性 [42] - 双分支解码器中,仅使用点锚定高斯分支会导致PSNR降低0.46 dB,证明体素生成分支对提升场景完整性至关重要 [43]
被裁,大多输在薪资太高!
自动驾驶之心· 2025-11-08 16:03
当前职场裁员趋势 - 公司裁员行为仍在持续,例如某公司员工从16人裁至仅剩3人[3] - 裁员标准从注重员工能力转向优先考虑人力成本,能力强的员工因薪资较高可能成为优先裁员对象[3] - 公司通过法务手段应对产品质量问题,例如某知名车企法务团队规模达数千人[5] 企业成本控制策略 - 项目开发阶段结束后进入维护期,公司为控制成本裁减高薪人员[5] - 企业更关注员工薪资水平而非解决问题的能力,成本控制成为核心考量[6] - 通过降低人力成本维持运营,但可能影响产品质量并最终由用户承担后果[7] 行业技术社区动态 - 自动驾驶领域技术交流社区规模近4000人,吸引近300家公司和科研机构参与[11] - 社区覆盖30余个技术方向,包括大模型、端到端自动驾驶、多传感器融合等前沿领域[11] - 技术交流群涉及大模型、VLA、BEV感知、轨迹预测等近百个专业方向[9]
被裁,大多输在薪资太高!
自动驾驶之心· 2025-11-08 12:35
文章核心观点 - 当前公司裁员逻辑发生根本转变,成本控制取代员工能力成为首要考量标准 [3][5] - 高能力高薪资员工因人力成本过高而面临更高的被裁风险 [3] - 公司通过法务团队等手段应对产品质量问题,而非依赖核心员工 [5] - 员工需提前规划职业退路,不应在被裁后才被动应对 [6][7] 行业裁员趋势与标准 - 裁员标准从“谁能力强”转向“谁更便宜”,能力强的员工因薪资高可能被优先裁撤 [3] - 项目周期影响用工需求,开发阶段需要大量人手,维护阶段则大幅缩减团队规模 [5] - 公司裁员时可能采取降薪谈判,员工不同意则面临优先被裁的风险 [3] 公司应对策略 - 部分公司依靠庞大法务团队(如某知名车企法务人员达几千人)应对产品问题,采取“解决提出问题的人”的策略 [5] - 公司更倾向于在项目后期(“兔死狗烹,卸磨杀驴”)裁减高薪员工以控制成本 [5] 员工应对建议 - 硬刚维权成本高昂(涉及精力、时间、金钱),对资金有限的员工可能不划算 [6] - 员工需提前主动寻找退路和机会,避免在裁员发生时陷入被动 [6][7] - 当公司开始削减成本时,员工应警觉自身是否已成为“成本的一部分”并及早行动 [7]
滴滴和港中文最新的前馈3D重建算法UniSplat!史少帅参与~
自动驾驶之心· 2025-11-08 12:35
文章核心观点 - 港中文(深圳)、滴滴和港大团队提出UniSplat,一种用于动态驾驶场景重建的通用前馈框架,其核心是构建统一的3D潜在Scaffold,通过融合多视图空间信息与多帧时间信息来实现鲁棒的新视角合成 [1][6] - UniSplat在Waymo和NuScenes数据集上的实验表明,其在新视角合成任务中达到当前最优性能,PSNR达到25.37 dB,较此前最优方法提升1.10 dB [7][34][37] - 该框架对自动驾驶系统的仿真、场景理解和长时程规划等关键任务具有重要支撑作用 [5] 技术背景与挑战 - 城区驾驶场景的3D重建是自动驾驶系统的核心能力,但现有3D高斯溅射技术通常假设输入图像间存在大量视角重叠,且依赖逐场景优化,限制了在实时驾驶场景中的适用性 [5] - 城市驾驶场景中的鲁棒重建面临三大挑战:维持随时间平滑演化的统一潜在表示、处理部分观测和遮挡及动态运动、从稀疏输入中高效生成高保真高斯体 [5] - 前馈式重建方法通过单次前向传播合成新视角,但EvolSplat忽略语义融合且缺乏动态处理机制,Omni-Scene未纳入时间聚合且受限于粗粒度3D细节 [5] UniSplat框架设计 - 框架采用三阶段流程:首先构建以自车为中心的3D Scaffold编码几何和语义线索,其次进行时空融合整合多视图空间上下文和历史Scaffold,最后通过双分支解码器生成动态感知高斯体 [6] - 引入高效的融合机制直接在3D Scaffold内运作实现一致的时空对齐,空间融合采用稀疏3D U-Net整合多视图特征,时间融合通过自车运动补偿将历史Scaffold融合到当前Scaffold [20][21][22] - 设计双分支解码器,点解码器分支利用点级锚点保留细粒度几何细节,体素解码器分支直接从体素中心生成新高斯基元以提升场景完整性 [23][24][27] 核心技术创新 - 提出统一3D潜在Scaffold作为结构化表示,支持在3D空间内直接进行跨视图和跨时间帧的时空融合,避免传统2D图像域融合受视图重叠有限影响的问题 [6][20] - 创新性引入动态感知高斯补全机制,每个高斯基元关联动态属性,通过运动感知过滤和静态高斯记忆库实现随时间累积的渐进式场景补全 [23][29] - 利用预训练几何基础模型和视觉基础模型捕捉场景的几何和语义上下文,为Scaffold构建提供鲁棒先验,其中几何基础模型直接预测密集3D点云解决尺度模糊问题 [14][15] 实验结果与分析 - 在Waymo数据集上,UniSplat在输入视图重建和新视角合成任务的所有指标上均持续优于MVSplat、DepthSplat、EvolSplat和DriveRecon等基线方法 [33] - 在nuScenes数据集上,UniSplat的PSNR达到25.37 dB,SSIM达到0.765,显著超过Omni-Scene等此前最优方法 [34][37] - 消融实验表明,同时使用几何和语义特征时PSNR达到25.08 dB,而缺失语义特征会导致LPIPS指标显著下降;空间融合和时间融合分别带来PSNR提升0.36 dB和0.58 dB [41][42] 技术影响与潜力 - UniSplat框架展现出对原始相机覆盖范围外挑战性视角的出色泛化能力,即使对于稀疏非重叠相机视角和复杂场景动态性也能提供高质量渲染结果 [1][7] - 该技术为动态场景理解、交互式4D内容创建及终身世界建模等未来研究方向提供了极具潜力的基础 [44] - 通过流式记忆机制实现时间持久化重建,同时抑制动态伪影,为自动驾驶长时程场景理解提供了新的技术路径 [29][44]
招募4D标注和世界模型方向的合伙人!
自动驾驶之心· 2025-11-08 12:35
公司业务拓展 - 公司正积极拓展业务范围,从原有的内容平台向企业培训和求职辅导等方向进行能力输出 [2] - 业务拓展的驱动力来自行业内越来越多的企业和个人的明确需求 [2] - 公司面向全球自动驾驶领域从业者发出合作邀请,计划在技术服务、培训、课程开发与科研辅导等多个领域展开合作 [4] 市场需求分析 - 企业端培训需求呈现多样化特征,涵盖技术进展梳理、发布会方案解读以及行业发展趋势总结 [2] - 个人用户端存在显著的求职辅导需求,求职者普遍面临简历缺乏亮点、急需项目经验补充和专业技能指导的困境 [3] 合作方向与岗位说明 - 合作聚焦于多个前沿技术方向,包括自动驾驶产品经理、4D标注/数据闭环、世界模型、VLA、自动驾驶大模型、强化学习、端到端等 [5] - 合作岗位主要涉及自动驾驶培训、课程开发及原创文章创作 [6] - 培训业务明确划分为面向企业和高校研究院所的B端市场,以及面向学生和求职者的C端市场 [6] 合作激励 - 公司为合作者提供具有吸引力的高额酬金 [5] - 合作者将有机会获得公司提供的丰富行业资源 [5]
向黄仁勋汇报的英伟达36人
自动驾驶之心· 2025-11-08 12:35
公司组织架构 - 英伟达CEO黄仁勋目前有36名直接下属,分属战略、硬件、软件、AI、公关、网络及一位执行助理七个职能板块[2][4] - 硬件业务板块有9名直接下属,占团队总人数的三分之一,涵盖GPU、电信及DGX整机系统等业务,是公司的基石[7][8][9] - AI、具身智能与自动驾驶等前沿技术领域配置了7名大将,包括吴新宙,被视为公司商业版图的第二根支柱[9][10][11] - 公关职能配置了3名直接下属,远超行业惯例,原因在于公司处于产业链上游,需系统化处理与全球企业、研究机构、政府及投资人的复杂关系[13][16][17][18] 核心管理团队 - GPU工程高级副总裁Jonah Alben在公司任职28年,被誉为GPU架构灵魂,管理超千人的团队并拥有34项专利[24][25][26][31] - 软件工程执行副总裁Dwight Diercks在公司任职31年,是资历最老的高管之一,全面负责所有产品线的核心系统软件与平台层开发[33][34][38] - 首席科学家Bill Dally是并行计算权威,推动GPU从图形处理器进化为通用并行计算平台,并为AI硬件架构奠定基础[43][44][48] - 汽车业务副总裁吴新宙是直属高管中唯一的华人,其加入后公司汽车业务收入从2023年缩水4%转变为2025财年收入达5.67亿美元,几乎翻倍[57][66][72][73] 管理模式与文化 - 公司推崇扁平化管理体系,CEO直接下属曾达55名,旨在缩短决策链、加速信息流动,但近期人数缩减近四成,或预示管理模式向垂直化调整[75][79][97][115][116] - 管理层保持高强度工作节奏,CEO曾要求每位员工每周提交五项最重要工作清单,并亲自处理约两万封周报邮件以掌握一线信息[92][93][95] - 公司文化强调危机意识与高压环境,办公设施专注于工作本身,缺乏硅谷常见的休闲设施,创始人认为“第二名就是第一个失败者”[118][123][124][130] 业务与财务表现 - 公司2024财年净利润达295亿美元,同比飙升近600%,2025财年前三个月净利润已攀升至148亿美元,同比激增628%[99] - 员工总数从2024年初的2.96万人增长至2025年的3.6万人,同比上升21.62%,是过去16年间规模扩张幅度最大的一次[101][102] - 汽车业务在吴新宙带领下实现显著增长,2024至2025财年收入从2.81亿美元飙升至5.67亿美元[72]
中国自动驾驶圈最 “实在” 的老板
自动驾驶之心· 2025-11-07 16:04
公司管理哲学 - 公司采用相信人性本善的柔性管理风格 员工无需打卡考勤但工作自发性高 [5] - 管理风格在行业内属于少数派 部分同业公司采取高压监控等严格管控措施 [5] - 创始人注重不同背景人才的融合 亲自充当会议翻译官以确保团队认知对齐 [6] - 公司在成为明星独角兽后警惕管理懒惰 创始人密切关注组织文化建设 [7][9] - 创始人招聘时注重文化价值观契合 寻找长期主义者 会询问对物流和视觉路线的认可度 [9] 技术路线与战略 - 公司在2021年经历技术路线分歧 最终选择跟随特斯拉走视觉感知算法路线 导致部分支持激光雷达的技术人员离职 [10] - 选择视觉路线的核心逻辑基于物流行业降本的第一性原理 追求软件复杂、硬件简单、成本最低的方案 [10] - 对视觉算法的坚持投入使公司成为无人配送行业算法领先者 率先实现无图方案和视觉动作大模型量产上车 [10] - 公司将无人配送商业模式分为两个阶段 目前正从整车销售/租赁向运力平台服务转化 目标是成为无人车版的货拉拉或滴滴货运 [11] - 公司战略重点从大KA快递市场转向小B大C的即时物流和泛城配市场 认为后者是规模更大的蓝海 [11] 融资与资源投入 - 公司近期完成D轮融资 金额达几十个小目标 [3] - D轮融资总额超6亿美金 为技术迭代储备充足资金 [11] - 算法研发是资金投入重点 维持数百人算法团队年支出需数亿元 算力和数据基础设施更是吞金兽 [12] - 公司为吸引技术人才将办公地点从朝阳酒仙桥迁至海淀大钟寺 展现引进人才的诚意 [3][12] 数据与行业门槛 - 玩转数据飞轮需满足两大条件:上万辆真实运营车辆产生的海量数据 以及覆盖复杂场景的多元数据类型 [12] - 公司车辆投放已超万辆 覆盖超三百个城市 并积累大量小B大C场景数据 在数据层面具备门槛优势 [12] - 资本认可算法是无人配送核心关键 未来需投入数十亿级资金才可能玩转 [12] 商业化进展与未来规划 - 公司商业化形势明朗 海内外客户寻求合作 IPO上市水到渠成 [13] - 未来技术投入聚焦无图、端到端、VLA等算法方向 这些是走向未来的技术桥头堡 [13] - 创始人是兼具浪漫主义与现实主义的长期主义者 团队专注耐久 部分成员从2018年甚至更早追随创业 [15]
课程+软件+硬件!你的第一款小车,自动驾驶全栈技术平台黑武士001
自动驾驶之心· 2025-11-07 16:04
产品发布与定位 - 公司正式推出面向科研与教学领域的自动驾驶全栈小车“黑武士系列001”,并开启预售 [1] - 产品定位为教研一体轻量级解决方案,支持感知、定位、融合、导航、规划等多个功能平台 [2] - 产品支持二次开发和改装,预留了众多安装位置和接口,可加装相机、毫米波雷达等传感器 [3] - 目标用户群体包括本科生学习进阶与比赛、研究生科研与论文发表、高校及职业院校实验室教具等 [5] 硬件配置 - 主要传感器配置包括Mid 360 3D激光雷达、镭神智能2D激光雷达、奥比中光深度相机(自带IMU) [22] - 主控芯片采用Nvidia Orin NX 16G,配备1080p显示器,底盘系统为阿克曼底盘 [22] - 车体结构采用钣金件,材料为硬铝并经过发黑处理 [23] - 主控平台核心为NVIDIA Jetson Orin NX开发板,提供16GB RAM及100TOPS的AI算力 [32] 性能参数 - 自车重量为30kg,结构部分采用铝合金/不锈钢钣金加CNC加工 [25] - 电池功率50w,供电电压24V,续航时间大于4小时 [25] - 运动速度可达1.5米/秒,最大可至2米/秒,载荷能力为30kg [25] - 车体尺寸为长620毫米、宽400毫米、高320毫米 [26] 软件与功能 - 软件基于ROS框架,支持C++和Python语言,提供一键启动和开发环境 [28] - 支持多种高级功能,包括2D/3D目标检测与分割、多种SLAM方案(RGB、视觉惯性、激光等)、车辆导航与避障等 [29] - 深度相机驱动可单独启动,发布RGB图像数据、摄像头内参及深度图像数据 [43] - 支持手柄手动遥控模式,可通过配置文件修改最大线速度和角速度 [44][46] 应用场景展示 - 产品在室内、室外、地库等多种场景下进行了功能测试,包括感知、定位、融合、导航规划等 [6] - 具体测试场景涵盖户外公园行驶、点云3D目标检测、室内外2D/3D激光建图、上下坡及夜间行驶等 [8][10][12][14][16][18][20]
地平线ResAD:残差学习让自动驾驶决策更接近人类逻辑
自动驾驶之心· 2025-11-07 16:04
文章核心观点 - 地平线、华科和武大团队提出的ResAD框架通过归一化残差轨迹建模方法,解决了端到端自动驾驶中直接预测整条轨迹导致的因果混淆和规划困境两大核心问题 [2] - ResAD框架的核心思想是不直接预测整条轨迹,而是先给出一个基于物理的惯性参考线,然后让模型只学习一个调整量(残差),将学习目标从“轨迹是什么”转变为“为什么要调整方向” [2] - 该方法在NAVSIM v1和v2基准测试中均实现了最先进的性能,PDMS达到88.6,EPDMS达到85.5,展现出优秀的可行性与系统可靠性 [38][39] 技术方法创新 - **轨迹残差建模**:模型不直接从零开始预测整个未来轨迹,而是学习预测对一个简单的、基于物理的基线(惯性参考轨迹)的必要修正,量化人类驾驶员为导航环境所施加的精确修正 [17][18][19] - **逐点残差归一化**:对残差轨迹进行基于分量的标准最小-最大缩放,解决轨迹预测中坐标在时间维度上的尺度差异问题,确保优化过程不被远场误差所主导 [20][22][23] - **惯性参考扰动**:通过将随机扰动引入初始速度,生成包含略微变化的惯性参考簇,自然地产生一组多样化且与上下文相关的路径,实现多模态规划 [24][25][26] 性能表现 - 在NAVSIM v1基准测试中,ResAD的PDMS为88.6,其中NC为98.0,DAC为97.3,EP为82.5,在安全性和路线完成效率方面表现优异 [38] - 在更具挑战性的NAVSIM v2基准上,ResAD的EPDMS为85.5,比DiffusionDrive高出1.0,EP得分为88.2(对比87.5),DAC得分为97.2(对比95.9) [39] - 实车测试视频显示,在近20分钟视频中,系统在施工路段借道绕行等复杂情形下均能稳定通过,并能对动态障碍物做出智能响应 [6] 与现有方法对比 - 与传统端到端方法相比,ResAD避免了因果混淆问题(如前车刹车灯亮就刹车但不理解路口变红灯)和规划困境(过度关注不确定的远期预测) [5] - 与依赖静态预定义轨迹词库的多模态规划方法(如DiffusionDrive)不同,ResAD通过扰动惯性参考直接从高斯噪声中去噪,产生更优的、与上下文相关的多模态轨迹 [10][41] - 消融研究表明,轨迹残差建模将DAC指标从94.3提高到96.6,EP从77.8提高到80.3;结合PRNorm和惯性参考扰动后,PDMS分数从87.2提高到88.6 [43]
刚做了一份VLA学习路线图,面向初学者......
自动驾驶之心· 2025-11-07 16:04
自动驾驶VLA行业趋势 - 自动驾驶VLA是端到端技术之后学术界和工业界聚焦的核心方向,提供了类人思考能力并通过思维链形式展现车辆决策过程,旨在实现更可靠安全的自动驾驶能力 [1] - 传统BEV感知、车道线、Occupancy等方向已相对成熟,行业关注度逐渐下降,自动驾驶VLA成为各家企业急需攻克的主流方案 [4] - 主流自动驾驶企业,包括智驾方案供应商和车企,均在发力自研自动驾驶VLA [4] 自动驾驶VLA技术分类 - 自动驾驶VLA目前可分为三个子领域:模块化VLA、一体化VLA和推理增强VLA [1] - 模块化VLA强调多阶段pipeline(感知→语言→规划→控制),语言模型为规划决策提供信息 [17] - 一体化VLA实现感知→控制的端到端映射,通过单次前向传播直接将传感器输入映射为控制动作,消除模块间耦合延迟 [17] - 推理增强VLA将VLM/LLM置于控制中心,新增推理模块(如Chain-of-Thought、记忆体、工具调用),同步输出控制信号和自然语言解释 [18] 自动驾驶VLA核心技术栈 - 核心内容包括视觉感知、大语言模型、Action建模、大模型部署、数据集制作等 [7] - 涉及最前沿算法包括CoT、MoE、RAG、强化学习等 [7] - 视觉感知涉及BEV感知/动静态检测/OCC及轨迹预测 [18] - 语言模型涉及序列建模/Transformer及vision-language模态对齐算法 [18] - 动作模块包括判别式解码器和生成式解码器如何输出action [18] 行业代表性算法与模型 - 模块化&一体化VLA领域重点讲解华科和小米最新提出的ReCogDrive,其包含预训练、模仿学习训练和强化学习训练三个阶段 [17] - 推理增强VLA领域重点讲解华科&小米ICCV2025中稿的ORION、慕尼黑工大的OpenDriveVLA、上海交通大学的DriveMoE、博世和清华AIR的DiffVLA、UC Berkeley和Waymo中稿CVPR2025的S4-Driver等算法 [18][19][24] - 其他重要算法包括阿里&西交的FutureSightDrive、UCLA的AutoVLA、中科院和华为诺亚的Drive-R1等 [24] 行业实践与部署 - 以Qwen 2.5VL-72为例,讲解如何使用transformers或ms-swift本地部署大模型 [15] - 第五章配套实战选取清华AIR和博世提出的Impromptu VLA,基于开源Qwen2.5 VL进行数据集制作、训练和推理 [20] - 课程大作业要求基于ms-swift框架,自定义数据集和加载模型,开启训练任务并进行微调 [21]