Workflow
自动驾驶
icon
搜索文档
关于3D/4D 世界模型近期发展的总结和思考
自动驾驶之心· 2025-09-04 23:33
具身智能与3D/4D世界模型研究现状 - 行业前三季度研究重点集中在数据收集和利用效率上 旨在通过视频示例数据训练高性能基础模型 但进展有限且未引起广泛关注[3] - 行业开始重新关注3D/4D世界模型 通过对数据合理性和丰富性进行拓展优化来突破当前瓶颈[3] 隐式与显式世界模型技术路线 - 隐式3D世界模型通过提取3D/4D内容增强视频空间理解能力[7] - 显式3D世界模型需显式提供3D Mesh或结构信息及物理规律来保证系统稳定性[7] - 两种技术路线在应用初期均暴露明显局限性 且行业尚未找到有效解决方案[6] 基于仿真器的物理差异化模拟器 - 当前显式世界模型研究集中于静态3D场景 通过模型构建场景或扫描方式初始化3D环境[8] - Hunyuanworld-1.0和Matrix-3D通过构建全景图及恢复3D Mesh场景完成环境初始化[8] - Discoverse和EmbodiedGen采用前景背景分离构建方案 背景使用全景/扫描3D 前景采用Mujoco物理仿真+3DGS渲染实现动态交互[8] - Genesis通过Taichi对Mujoco素材进行再渲染实现超高清场景重建[8] 3DGS技术挑战与优化方向 - 3DGS对物理表面建模效果存在缺陷 SuGaR和2DGS等结构化改造方案仍存在几何优化粗糙问题[9] - GSDF和Pano2Room将Mesh或SDF作为监督学习中的优化目标 部分解决表面平滑问题但无法保障生成质量[9] - 完全弃用3DGS可能导致图形学问题 如渲染饱和度过高和光照不平衡[9] - 光照优化通过De-lighting技术(如TSGS、GS-ID)推进 表面问题通过Mesh监督结合结构化处理3DGS方案改善[10] 跨平台部署与数据规模化挑战 - 现有方案物理参数基于Mujoco设定 跨平台部署至Isaac或SAPIEN存在兼容性问题[10] - Roboverse设计统一跨物理仿真器平台以优化世界模型的物理表达[10] - Phys-diff-simulator范式面临大规模数据扩展难题 当前数据量远不足支撑模仿学习需求[10] 视频生成与多视角世界模型融合 - 通义万相模型证明规模化数据清洗和标注可提升运动预测能力[11] - Feed forward 3D技术强化3D信息预测 推动3DGS/4DGS与世界模型结合(如GWM和Enerverse)[11] - Dust3R、Mono3R等技术演进至VGGT 实现单/少帧到稠密几何的一站式推理[11] - Robot4DGen开启模仿学习3R时代 通过3R/3DGS技术补足视频中无法学习的3D空间知识[11] 2D转3D技术瓶颈 - 当前技术存在遮挡像素漂移、跨视角一致性不足等核心问题[12] - 视频动作空间不同步问题通过pixel-worldmodel scaling-up思路部分弥补[12] 4D生成技术分类与应用局限 - Template-base:以静态网格/骨架等模板为基础 通过轨迹预测实现4D生成[13] - Generate-base:通过文本/图像生成3D模型 再绑定视频运动数据构建4D模型[19] - 视频反演:从交互视频反演几何与物理参数得到可模拟4D内容[19] - 4D生成技术评价指标局限于重建画质和几何一致性 缺乏物理交互状态变化的量化评估[14] - 视频生成模型难以理解物理变化规律 仅能学习轨迹变化(如篮球运球中的状态不连贯)[14] 物理规律理解与仿真器融合趋势 - 视频生成模型短期内难以从数据反演物理规律 仿真器物理驱动模拟仍不可替代[15] - 未来可能发展仿真器-视频生成组合方案(如RoboTransfer) 但会限制视频生成模型进化为世界模型的潜力[15] 3D/4D世界模型发展定位与方向 - 当前3D/4D工作重点在几何一致性与图像质量 而非世界模型核心的预测能力(对比V-JEPA 2体系)[16] - 未来三年行业将朝外挂/内嵌物理知识方向发展 通过打破数据瓶颈重塑Real2Real具身智能任务[16] - 世界模型可能演变为具身智能基模中的模块化组件 取决于功能简化与定义优化进程[16]
开学了,需要一个报团取暖的自驾学习社区...
自动驾驶之心· 2025-09-04 23:33
自动驾驶行业招聘与求职 - 金九银十为秋招关键期 业内tier 1公司已开始发放测试岗位offer 但部分求职者仍希望冲刺算法岗[1] - 行业招聘需求集中在感知算法、端到端自动驾驶、4D标注、多模态大模型等前沿方向[7][11][14] - 主流车企与科技公司包括理想、地平线、百度、上海人工智能实验室、蔚来、小鹏、华为车BU、大疆等均开放岗位[38] - 课程学员可获得直接推荐至算法开发负责人的机会 绕过官网投递流程[38] 自动驾驶技术发展趋势 - 端到端自动驾驶成为智驾量产核心算法 分为一段式与二段式技术方向 理想汽车已宣布E2E+VLM双系统架构量产[7] - 2024年端到端技术需融合多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等多领域知识[8] - 4D自动标注算法需求激增 因端到端训练需时间同步后的传感器统一标注动静态元素、OCC和轨迹等[11] - 多模态大模型与自动驾驶结合成为新兴领域 学术界论文爆发 工业界融资案例快速增长[14] 专业培训课程体系 - 推出299元超级折扣卡 一年期内享受全平台课程七折优惠[4][6] - 开设端到端与VLA自动驾驶小班课 涵盖多模态大模型、BEV感知、强化学习等核心技术[7][8] - 4D自动标注算法就业小班课聚焦数据闭环算法开发与工程化落地[11][12] - 多模态大模型实战课程系统化覆盖从通用模型到端到端自动驾驶应用[14][15] - 感知系列课程包括BEV感知全栈、毫米波雷达视觉融合、激光雷达视觉融合等16个模块[16] - 规划控制与预测课程包含轨迹预测理论与实战、规划控制小班课等[18] - 模型部署课程涵盖CUDA与TensorRT部署、BEV模型部署实战[18] 硬件与科研平台 - 全栈教研平台黑武士001支持全流程开发[4][43] - 足式/强化学习科研平台TRON1针对进阶研究[4][43] - 四足机械狗+机械臂科研平台整合运动控制与操作[4][43] - 桌面级机械臂科研平台适用于轻量级实验[4][43] - 数采夹爪提供单臂与双臂方案 支持数据采集任务[4][43] 学习与交流机制 - 每门课程配备专属VIP交流群 主讲老师每日群内交流并定期直播答疑[26] - 重点解决小白常踩坑问题、工程常见问题及后续研究方向[26] - 实际讨论内容涵盖模型微调(如Florence2)、TensorRT部署、多模态数据标注等实操问题[28][29][32] 工程实践与挑战 - 车端部署需满足低于100毫秒响应时间的理想目标 复杂场景要求成功率99.9%以上[34] - 转向角误差需小于1度(理想目标)或2度(可接受范围)[34] - 加速制动误差需小于0.1 m/s²(理想目标)或0.2 m/s²(可接受范围)[34] - 传感器升级(如相机200万→800万像素)可能需重构数据集与模型重新训练[36] - 多传感器联合标定采用在线标定与优化结合方式 依赖高精地图投影验证精度[36]
自动驾驶超视距VLA如何实现?小鹏NavigScene另辟蹊径!
自动驾驶之心· 2025-09-04 23:33
文章核心观点 - 小鹏汽车团队提出NavigScene系统 旨在解决自动驾驶领域局部感知与全局导航信息脱节的关键瓶颈 通过导航引导的自然语言数据集和三种创新方法实现超越视觉范围的推理能力 显著提升自动驾驶系统的感知、预测和规划性能 [3][4][9] 技术方案 - NavigScene构建导航引导的自然语言数据集 在自动驾驶系统内部仿真类人化驾驶环境 弥合局部传感器数据与全局导航信息之间的差距 [4][5] - 开发导航引导推理范式 通过将导航上下文融入提示方法增强视觉语言模型的推理能力 [5] - 采用导航引导偏好优化方法 扩展直接偏好优化技术 通过建立导航相关信息摘要的偏好关系改进视觉语言模型响应 [5] - 创建导航引导视觉-语言-动作模型(NVLA) 通过特征融合将导航引导和视觉语言模型与传统端到端驾驶模型集成 [5] 应用价值 - 系统显著提升自动驾驶在基于局部视觉信息的问答、感知、预测和规划方面的性能 为构建更可靠的自动驾驶系统奠定基础 [4][9] - 使自动驾驶系统具备"高瞻远瞩"的导航思维 突破当前系统只能"看清"周围却难以"预见"远方道路与决策的限制 [3] - 研究成果以论文形式发布 标题为《NavigScene: Bridging Local Perception and Global Navigation for Beyond-Visual-Range Autonomous Driving》 [6] 内容安排 - 直播将涵盖自动驾驶研究问题简介 导航数据集的视觉生成和文本生成 基于导航数据集的多模态大模型后训练 以及视觉-语言-动作模型等核心内容 [10] - 技术分享由NavigScene论文第一作者Qucheng Peng主讲 深度解析团队如何开创性弥合局部感知与全局导航的鸿沟 [3]
文远知行Robotaxi GXR落地黄埔区 正式开启24小时纯无人商业化运营
证券日报网· 2025-09-04 12:50
商业化运营突破 - 公司在广州市黄埔区正式开启24小时纯无人商业化运营 实现行业首个超一线城市核心城区任意点到点自动驾驶出行服务[1] - 用户可在黄埔区内任意地点一键呼叫直达区内任意目的地 运营范围覆盖黄埔区全域约145平方公里公开道路[1][2] - 从车型发布到纯无人商业化运营仅用11个月 展现快速商业化落地能力[1] 技术能力与产品特性 - GXR车型具备L4级公开道路商业化运营能力 搭载全球首款NVIDIA DRIVE Thor X芯片的HPC3.0高性能计算平台 每秒钟可完成超2000万亿次复杂计算[2] - 配备Sensor Suite 5.6传感器套件 可穿透黑夜雨雾雪霾等恶劣天气 捕捉复杂路况[2] - 采用全方位冗余系统设计 包括架构 F-O线控底盘 计算单元和制动系统[2] 运营历史与规模 - 公司自2019年11月在广州推出中国首个面向市民开放的Robotaxi商业化服务[2] - 截至当前已安全运营超2200天 形成可复制的广州模式和黄埔经验[3] - 2025年5月运营范围扩大至广州核心地标 包括广州塔 珠江新城及白云国际机场 广州南站等交通枢纽[2] 发展战略 - 公司将持续深耕自动驾驶核心技术 优化Robotaxi服务体验[3] - 加速推动大规模纯无人商业化落地进程 与更多城市和合作伙伴探索智慧出行可能性[3]
文远知行自动驾驶出租车GXR在黄埔全天商业化运营
北京商报· 2025-09-04 12:12
公司动态 - 文远知行旗下全新量产自动驾驶出行服务车辆GXR在广州市黄埔区正式开启24小时纯无人商业化运营 [1] - GXR具备L4级公开道路商业化运营能力 是公司为城市出行场景定制的量产Robotaxi车型 [1] - 用户可在黄埔区内任意地点一键呼叫 直达区内任意目的地 [1]
北京高级别自动驾驶示范区应用场景增至8类
新京报· 2025-09-04 12:02
自动驾驶示范区进展 - 高级别自动驾驶示范区实现8类应用场景全面示范 包括Robotaxi 无人配送 无人零售 无人安防 干线物流 智能网联客运巴士 无人环卫 无人接驳 [1][2] - 近1200台自动驾驶车辆运行里程超过4000万公里 [1][2] - 人形机器人产业集聚企业近200家 产业规模超100亿元 [2] 产业发展与经济增长 - 经开区GDP年均增长9.6% 总量突破3600亿元 今年上半年保持12.3%高增长 增速位列国家级头部经开区第一 [4] - 工业总产值突破6000亿元 占全市25.8% 以北京1.37%土地贡献近40%工业增加值 [4] - 信息服务业营收增长23.8% 批零额增长25.4% 金融业两项净收入增长31.4% [4] 未来产业布局 - 人工智能产业集聚500余家企业 产业规模超600亿元 [4] - 建设京内最大单体算力中心 规划算力超30000P [4] - 商业航天领域集聚企业170余家 产业规模超300亿元 商业火箭企业集聚度达全国75% [3] - 布局6G 量子信息 细胞与基因治疗等23个未来产业细分领域 [3] 产业支持政策 - 每年安排产业发展资金超100亿元 惠及主体3.3万家次 [5] - "十四五"期间建立200亿元政府引导基金 撬动社会资本超2000亿元 [6] - 辖区企业年均获投金额超百亿元 [6] 人才与基础设施建设 - 各类人才总量近40万名 每年保持8%以上增长 其中45岁以下青年人才近70% [7] - 累计筹集建设各类保障性住房超2万套 [7] - 累计新增基础教育学位超过1.6万个 总量达到2.8万个 [7] 新兴领域发展 - 医疗健康与智能制造领域打造标杆应用 [1][3] - 游戏电竞产业年均举办100场以上电竞赛事 建成全国最先进数字化专业电竞场馆 [8] - 全国首个以新质生产力为主题的综合保税区预计9月封关运行 意向入区企业80家 [6]
自动驾驶秋招大批量开始了(理想/小鹏/小米/地平线/博世/mmt等等)
自动驾驶之心· 2025-09-04 11:54
近期,小鹏、蔚来、理想、地平线、华为车BU、博世中国、小米汽车、Momenta等等公司都宣布了2026届校园招聘启 动的消息~ 好消息,汽车行业秋招大批量开启了! 我们的知识星球也推出最大优惠了,续费5折,新人加入立减88,开学季最好的入手机会。 国内最大的自驾社区,和4000名成员一起交流。 很多同学还在陆续咨询柱哥关于就业、申博方向的问题,自驾领域还有很多问题没有被解决,甚至还没有有效的方 案,所以招聘需求才会持续存在。如果你在工业界,也是一个职业上升的好时机。 自动驾驶之心在此开学季,给大家提供了各类学习教程和科研平台,如果您想自动驾驶方向更上一层楼,或者希望快 速入门,可以来看看我们的教程和平台。诚意满满,是近段时间最大的优惠力度。 课程超级折扣卡 课程超级折扣卡是我们为有需要购买自驾课程同学推荐的。 一年内有效,所有自驾课程7折哦~适合购买2门及以上的 同学,优惠满满! 知识星球 更多硬件和论文辅导活动 咨询我们 更多内容欢迎咨询小助理微信AIDriver005了解更多。 ...
24小时纯无人商业运营!文远知行全新量产Robotaxi GXR驶入黄埔
中证网· 2025-09-04 11:51
商业化运营突破 - 公司在广州市黄埔区开启24小时纯无人Robotaxi商业化运营 实现行业首个超一线城市核心城区任意点到点自动驾驶出行服务[1] - 用户可在黄埔区内任意地点一键呼叫并直达区内任意目的地 标志着完全开放的商业化运营场景[1] - 从车型发布到纯无人商业化运营仅用11个月 快速完成道路测试 车型认定和运营牌照等流程[1] 技术能力建设 - GXR车型为L4级自动驾驶量产车 具备公开道路商业化运营能力[1] - 车辆搭载NVIDIA DRIVE Thor X芯片 配备自研HPC3 0高性能计算平台和Sensor Suit5 6传感器套件[1] - 技术方案支持城市复杂交通环境下的全天候全天时安全可靠运营[1] 产品发展进程 - 公司于2024年10月发布GXR新车型 专为城市出行场景定制开发[1] - 成功实现从车内有人到纯无人商业化运营的完整过渡[1] - 快速推进商业化落地进程 展现公司在Robotaxi领域的执行实力[1]
文远知行:Robotaxi GXR在广州黄埔开启24小时纯无人商业化运营
证券时报网· 2025-09-04 09:21
公司动态 - 文远知行旗下全新量产自动驾驶出行服务车辆GXR在广州黄埔区正式开启24小时纯无人商业化运营 [1]
24小时纯无人商业运营! 文远知行全新量产Robotaxi GXR全面接入黄埔
格隆汇· 2025-09-04 09:07
商业化运营突破 - 公司在广州市黄埔区正式开启24小时纯无人Robotaxi商业化运营 实现行业首个超一线城市核心城区任意点到点服务[1] - 从车型发布到纯无人商业化运营仅用时11个月 展现快速商业化落地能力[1] - 运营范围覆盖黄埔区全域约145平方公里公开道路 支持区内任意地点呼叫直达任意目的地[1][6] 技术能力优势 - GXR车型搭载NVIDIA DRIVE Thor X芯片的HPC 3.0计算平台 每秒可完成超2000万亿次复杂计算[2] - 配备Sensor Suit 5.6传感器套件 能有效应对黑夜雨雾雪霾等恶劣天气及复杂路况[2] - 采用全方位冗余系统设计 包括架构 F-O线控底盘 计算单元和制动系统[2] 运营规模与经验 - 安全运营记录超过2200天 建立成熟的商业化运营模式和经验[8] - 运营范围延伸至广州核心地标 包括广州塔 珠江新城及白云国际机场等交通枢纽[6][10] - 为全球Robotaxi行业提供可复制的广州模式和黄埔经验[8] 产品特性与用户体验 - 车辆设计最多可容纳5名乘客 提供业界最大上下车空间和行李区[4] - 配备二排VIP舒享专座 三排宽敞座席及语音控制电滑门等创新功能[4] - 支持App远程空调控制和娱乐屏音乐点播 提升乘客体验自由度[4] 市场拓展计划 - 公司将持续优化自动驾驶核心技术和服务体验 加速纯无人商业化落地进程[11] - 计划与更多城市和合作伙伴携手 共同探索智慧出行发展可能性[11] - 用户可通过文远出行APP在运营区域内体验任意点对点叫车服务[12]