Workflow
自动驾驶之心
icon
搜索文档
近日某头部自驾公司数据算法核心负责人离职。。。
自动驾驶之心· 2025-07-22 02:18
组织架构调整 - 头部自驾公司智能驾驶团队进行重要组织架构调整,原数据算法核心负责人离职,该负责人曾主导完成千万Clips数据交付并搭建两代量产及端到端方案的云端数据闭环链路 [1] - 公司引入多位行业顶尖专家强化团队技术实力,彰显在智能驾驶领域"不惜代价"投入的决心 [1] - 调整后智能驾驶团队分为三大核心板块:端到端辅助驾驶、L3级辅助驾驶和VLA预研,由业内顶级专家带队 [4] 技术研发与数据成果 - 公司近期交付1000万Clips版端到端辅助驾驶系统成为行业标杆,通过海量高质量数据训练显著提升实际驾驶体验 [5][6] - 最新车型全系标配行业顶配感知套件,包括高性能计算芯片、激光雷达及多颗高清摄像头 [7] - 1000万Clips系统已通过OTA推送至用户端,后续将结合大模型能力持续迭代 [7] 性能提升与数据质量保障 - 纵向舒适性提升57%,拥堵路况下加减速更平顺 [10] - 绕行成功率提高67%,窄路会车、占道绕行更从容 [10] - 路口通过率优化23%,复杂中国路况适应性更强 [10] - 通过专业司机团队(超20项评分标准)、智能评价系统(多模态大模型)和场景定向特训("错题本"机制)三大技术保障数据质量 [10] 长期投入规划 - 公司宣布智能驾驶领域首期投入规模巨大,专属团队超千人,测试车辆达数百台 [9] - 联合顶尖AI实验室与高校开展前沿技术研究,加速技术突破 [9] - 强调辅助驾驶技术仍需用户正确理解与使用,未来将持续以"用户体验为核心"推动创新 [11]
分析了102个VLA模型、26个数据集和12个仿真平台
自动驾驶之心· 2025-07-22 02:18
视觉-语言-动作(VLA)模型综述 - 核心观点:VLA模型通过整合视觉感知、语言理解和机器人控制,正在推动机器人技术的变革性发展[3][7] - 研究范围:全面梳理了102个VLA模型、26个基础数据集和12个仿真平台[3] - 发展趋势:从端到端框架向模块化架构演进,强调跨模态对齐和泛化能力[9][12] VLA模型架构 - 主流架构:基于Transformer的视觉和语言骨干网络,通过跨模态注意力机制融合[9] - 视觉编码器:CLIP、SigLIP和DINOv2等ViT变体成为主流选择[13] - 语言编码器:LLaMA、Vicuna系列和T5风格模型广泛应用[15] - 动作解码器:扩散策略因能建模复杂动作分布而受青睐[15][16] 数据集发展 - 数据集演进:从早期简单状态-动作映射发展到多模态、长时间跨度数据集[21] - 代表性数据集:Open X-Embodiment统一22个机器人实体和500多个任务数据[5] - 评估标准:建立任务复杂性和模态丰富度二维评估框架[22][24] 仿真平台 - 主要平台:AI2-THOR、Habitat和NVIDIA Isaac Sim等提供多模态支持[30][31] - 功能差异:从逼真室内导航到接触丰富的物理模拟各有侧重[31] - 发展趋势:强调GPU并行计算和大规模场景生成能力[33] 应用领域 - 主要方向:操作与任务泛化、自主移动、人机交互等六大领域[34] - 代表性模型:RT-2、Pi-0和CLIPort等在各自领域表现突出[37] - 技术路线:分为大型通用架构和模块化专用系统两大发展轨迹[38] 挑战与机遇 - 架构挑战:分词对齐、模态融合和跨实体泛化等关键技术瓶颈[39][40] - 数据限制:任务多样性不足、模态不平衡和注释成本高等问题[42] - 仿真差距:物理准确性、视觉真实性和语言接地API等亟待改进[44][45]
字节跳动2026校招来了!大模型算法、多模态、CV类有较多坑位
自动驾驶之心· 2025-07-22 01:47
字节跳动校招计划 - 筋斗云人才计划面向2022年9月至2026年8月毕业的博士生(全职)及2025年9月及以后毕业的在校博士生(实习),放宽了2022届博士生的招聘限制,涵盖大模型应用、搜索/推荐/广告、计算机体系结构等8大领域,支持学术研究与产业落地结合[2] - Top Seed计划针对2026届应届博士生及研究型实习生,聚焦大模型核心技术(如LLM、多模态生成、机器学习算法),提供高待遇与算力支持,目标培养顶尖人才[3] AutoRobo知识星球服务内容 - 社区定位为自动驾驶、具身智能、机器人方向求职交流平台,成员近1000人,覆盖社招(如地平线、小米汽车、华为)及2024/2025届秋招学生[8] - 提供面试题目汇总(如毫米波视觉融合一百问、BEV感知一百问)、行业研报(世界机器人报告、人形机器人量产研报)、面经(滴滴出行、英伟达等公司案例)及谈薪技巧[12][13][18][20] - 每日更新校招/社招/实习岗位信息,涉及算法、开发、产品等方向,同步公司第一手招聘资源[9] 行业研究与求职资源 - 汇总专业书籍与技能树(机器人、自动驾驶、AI类),包含转行经验、面试官建议及岗位复盘内容[23][25] - 提供宏观行业分析(技术路线、上下游产业)及实战资料(如多传感器标定技巧、Diffusion Policy面试题),帮助求职者深入理解领域发展[17][18]
为什么不推荐研究生搞强化学习研究?
自动驾驶之心· 2025-07-21 11:18
原文链接: https://www.zhihu.com/question/1900927726795334198 点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 >> 点击进入→ 大模型没那么大Tech技术交流群 本文只做学术分享,如有侵权,联系删文 ,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨 询 写在前面 我已经很久没答学术上的问题了,因为最近审的申请书一半都是强化学习相关的?所以知乎老给我推强化 学习的各种东西……我就来简单的谈一谈强化学习吧。 强化学习如果说你要是 读到硕士研究生为止 ,哪怕你读的是清华北大的,最重要的基本功就是 调包 ,搞 清楚什么时候该调什么包就可以了,其次就是怎么排列组合,怎么缩小解空间,对一些算法只需要有个基 本的流程性了解就好了。 如果你读的是 博士 ,建议 换个方向 ,我觉得在现在的强化学习上雕花就是浪费时间和生命,当然你要是 以发很多papers,混个教职当然可以,就是你可能很久都做不出真正很好的工作来,混口饭吃也不注重这 个。 我对强化学习的感受就是 古老且原始 ,感觉就好像现在我还拿着一 ...
SceneDiffuser++:基于生成世界模型的城市规模交通仿真(CVPR'25)
自动驾驶之心· 2025-07-21 11:18
技术突破 - 提出首个端到端生成式世界模型SceneDiffuser++,通过单一损失函数训练实现60秒城市级交通仿真,整合场景生成、代理行为建模、遮挡推理和环境仿真等多项技术 [1][2] - 采用多张量扩散方法,将代理和交通灯等异质元素投影到统一潜在空间,通过Transformer骨干网络进行联合去噪处理,支持异质元素的联合仿真 [4][7] - 引入软剪辑策略稳定稀疏张量生成,避免硬剪辑导致的不自然跳跃,确保代理生成和移除的平滑性,综合性能优于硬剪辑和无剪辑方案 [5][17] 性能表现 - 在WOMD-XLMap数据集上评估,SceneDiffuser++在所有指标上优于IDM和SceneDiffuser,例如当IDM作为规划器时,生成代理数量的JS散度为0.1947,远低于IDM的0.6357和SceneDiffuser的0.7027 [12] - 交通灯状态转换概率与真实数据高度一致,而IDM和SceneDiffuser不支持交通灯仿真,在60秒长时仿真中能保持代理动态性和交通灯合理性 [12][15] - 随仿真时长从30秒增加到300秒,误差累积导致部分指标下降,但代理生成和移除的位置合理性仍保持稳定 [18] 行业应用 - 实现行程级仿真(trip-level),处理更长时间的动态变化,包括初始代理离开视野、新代理无缝进入和交通灯状态随路线动态更新,避免仿真漂移问题 [2][3] - 将不同仿真任务统一为修复任务,包括行为预测和场景生成,通过随机掩码增强模型的可控性,支持公里级路线的长时仿真 [10][11] - 提出CitySim概念,明确生成式仿真城市的需求与挑战,设计统一生成式框架整合代理动态生成、遮挡推理和交通灯仿真 [1][19]
70K?端到端VLA现在这么吃香!?
自动驾驶之心· 2025-07-21 11:18
端到端自动驾驶技术发展 - 端到端自动驾驶已成为国内主流新能源主机厂抢占的技术高地 上半年VLA概念掀起新一轮量产方案迭代 [2] - 行业薪资水平显示:3-5年经验的VLM/VLA算法专家年薪达百万 月薪高达70K [2] - 技术流派分化明显:二段式端到端以PLUTO为代表 一段式分为感知型(UniAD)、世界模型型(OccWorld)、扩散模型型(DiffusionDrive)等四大方向 [4] 技术流派与前沿进展 - 二段式端到端聚焦模型自车规划 包含港科技PLUTO、浙大CarPlanner(CVPR'25)、中科院Plan-R1等代表性工作 [7][22] - 一段式端到端四大子领域: - 感知型:UniAD为奠基作 地平线VAD和CVPR'24的PARA-Drive为最新进展 [23] - 世界模型型:AAAI'25的Drive-OccWorld和复旦OccLLaMA实现场景生成/端到端/闭环仿真多应用 [23] - 扩散模型型:DiffusionDrive开创多模轨迹时代 吉大DiffE2E为最新成果 [23] - VLA型:小米ORION、慕尼黑工大OpenDriveVLA和ReCogDrive代表大模型时代技术方向 [23] 行业人才需求 - VLA/VLM算法专家岗位需求旺盛: - 3-5年经验硕士薪资40-70K·15薪 [10] - 多模态方向博士应届生可达90-120K·16薪 [10] - 模型量化部署工程师1-3年经验薪资40-60K·15薪 [10] - 技术能力要求涵盖大语言模型 BEV感知 扩散模型 强化学习与RLHF等跨领域知识 [7][15] 技术培训体系 - 课程体系覆盖五大模块: - 端到端发展历史与VLA范式演变 [21] - 核心技术栈包括Transformer/CLIP/LLAVA/BEV感知/扩散模型理论 [24] - 二段式与一段式技术对比及工业落地 [22][23] - RLHF微调实战与大模型强化学习应用 [25] - 教学采用Just-in-Time Learning理念 三个月完成从理论到实践的闭环训练 [16][17][18][30] 技术门槛与挑战 - 学习路径需同时掌握多模态大模型 BEV感知 视觉Transformer 扩散模型等六大技术领域 [15] - 论文数量繁多且知识碎片化 高质量文档稀缺导致入门难度高 [15] - 硬件要求需配备4090及以上算力GPU 需具备Transformer和PyTorch基础 [32]
研究生入学,老板让手搓一辆自动驾驶小车。。。
自动驾驶之心· 2025-07-21 11:18
产品概述 - 黑武士001是自动驾驶之心团队推出的教研一体轻量级解决方案,支持感知、定位、融合、导航、规划等多个功能平台,采用阿克曼底盘 [3] - 产品原价35999元,当前支付定金1000元可抵扣2000元,订单已启动优先安排组装发货 [2] - 目标用户包括本科生学习进阶/比赛、研究生科研/发论文/找工作、高校实验室教具、培训机构教具等场景 [6] 硬件配置 - 主要传感器包括:Mid 360 3D激光雷达(FOV360°×59°,范围0.1-40m)、镭神智能2D激光雷达(最大范围25m)、奥比中光深度相机(测量范围0.15-5m,精度≤2%)[10][18] - 主控芯片采用Nvidia Orin NX 16G,配备1080p显示器,底盘为阿克曼结构系统[10] - 车体参数:重量30kg,尺寸620×400×320mm,续航>4小时,最大速度2m/s,采用24V供电系统[12] 软件功能 - 开发框架基于ROS、C++、Python,支持一键启动并提供完整开发环境[14] - 功能覆盖2D/3D目标检测与分割、多模态SLAM(视觉/激光/惯性)、点云处理、车辆导航避障等15+方向[15] - 深度相机驱动节点可发布RGB图像(1280×800@30fps)、深度图像及相机内参数据[29] 应用场景 - 测试场景覆盖室内地库(2D/3D建图)、户外公园、夜间行驶、上下坡等复杂环境[4][7][8][9][10] - 教学应用包括语义SLAM、人体位姿估计、深度测量、多传感器融合等科研方向[15][18] - 提供手柄遥控功能,可通过修改YAML参数调整最大线速度(scale_linear)和角速度(scale_angular)[32] 产品服务 - 提供完整硬件配置说明、软件启动指南及产品说明书[17][20][24] - 售后支持1年非人为损坏保修,人为损坏提供付费维修服务[37]
还不知道研究方向?别人已经在卷VLA了......
自动驾驶之心· 2025-07-21 05:18
自动驾驶技术演进 - 传统模块化架构存在错误累积效应和信息损失问题,依赖人工规则难以应对复杂场景 [2] - 纯视觉端到端模型简化架构但存在黑箱问题和泛化能力限制,如NVIDIA DAVE-2和Wayve的模仿学习方案 [2] - VLA范式通过语言桥梁结合视觉与行为,提升可解释性并注入LLM的世界知识,解决长尾场景处理难题 [2][3] VLA模型核心优势 - 实现自然语言决策解释(如减速原因分析),增强系统透明度 [2] - 利用LLM预训练的常识理解复杂场景(如施工区域需慢行) [3] - 支持自然语言交互(如"找充电站"指令),推动人性化驾驶体验 [3] 科研辅导课程设计 - 12周在线科研+2周论文指导+10周维护期,覆盖经典与前沿论文分析及代码实践 [6] - 提供baseline代码(如DiffusionDrive、OpenDriveVLA等)和公开数据集(nuScenes、Waymo) [15][17] - 采用"2+1"多师制团队,主导师为名校教授,副导师为博士/硕士,配备督学班主任 [14] 学员能力培养目标 - 掌握VLA算法理论与创新思路,完成论文初稿 [12] - 获得选题方法、实验设计及投稿建议,强化PyTorch和Python实战能力 [7][13] - 基础要求包括深度学习基础、自动驾驶算法了解及8张4090显卡硬件配置 [13] 关键学术资源 - 必读论文包括Senna、OpenDriveVLA等5篇顶会论文,聚焦VLA与自动驾驶结合 [18] - 课程产出含结业证书、推荐信及论文初稿,助力留学申请与职业发展 [14]
自动驾驶论文速递 | 世界模型、端到端、VLM/VLA、强化学习等~
自动驾驶之心· 2025-07-21 04:14
Orbis模型技术突破 - 弗莱堡大学提出基于流匹配的连续自回归世界模型Orbis,在仅使用280小时单目视频数据和4.69亿参数条件下实现长时程预测性能突破 [1] - 在nuPlan数据集上FVD指标降至132.25(6秒预测),转弯场景轨迹精度(Frechet Precision)提升至0.47 [1] - 设计混合离散-连续tokenizer实现两种建模方法的公平对比,发现连续建模在长视野预测中显著优于离散建模 [2] - 模型在复杂驾驶场景(如转弯、城市交通)中表现突出,超越Cosmos、Vista等基线模型 [6][8] LaViPlan框架创新 - ETRI团队提出基于可验证奖励强化学习(RLVR)的语言引导视觉路径规划框架 [12] - 在ROADWork数据集上将轨迹预测ADE降低19.91%(Easy场景)和14.67%(Hard场景) [12] - RLVR使模型输出从语言忠实性转向功能准确的轨迹,揭示语义相似性与任务特定推理间的权衡 [14] - 相比监督微调需显著更少的训练样本,在强化阶段纳入硬案例能实现更好的泛化能力 [15] 世界模型驱动的场景生成 - 澳门大学团队提出世界模型驱动的驾驶场景生成框架与增强动态图卷积网络 [23] - 在DAD数据集上实现83.2% AP(提升7.0%)和3.99秒mTTA(提升9.1%) [23] - 发布包含4800样本的AoTA数据集,环境因素分布比DAD数据集更平衡 [32] - 利用视觉语言模型提取事故相关领域特征,生成保留原始特征分布的合成场景 [28] ReAL-AD类人推理框架 - 上海科大与港中文提出通过视觉语言模型驱动三层人类认知决策的端到端自动驾驶框架 [33] - 在nuScenes和Bench2Drive数据集上将规划精度(L2误差)提升33%、碰撞率降低32% [33] - 驾驶安全分数提升至41.17,战略推理注入器构建高层驾驶策略,战术推理整合器细化战术选择 [39][42] - 分层轨迹解码器将战术决策转化为精确控制动作,验证了各组件的有效性 [39]
秋招上岸小厂,心满意足了。。。
自动驾驶之心· 2025-07-20 12:47
行业现状与趋势 - 自动驾驶和具身智能成为AI技术发展的主线 支撑了近一半的技术路线和融资金额 [2] - 行业从L2到L4功能逐步量产 人形机器人及四足机械狗等具身智能产品实现复杂动作 [2] - 自动驾驶行业趋于饱和 2023年校招竞争激烈 部分求职者直至10月仍未获offer [2] 求职社区服务 - AutoRobo知识星球成立半年 专注自动驾驶、具身智能、机器人领域求职 成员近1000人 [2] - 社区覆盖地平线、理想汽车、华为、小米汽车等企业员工及2024-2025届校招求职者 [2] - 提供面试题库、面经、行业研报、谈薪技巧、内推资源及简历优化等全链条求职服务 [3][4][9][17][21][24] 技术领域细分资源 自动驾驶方向 - 毫米波视觉融合、4D雷达量产、BEV感知等10大专题 每专题含100个实战问题 [10] - 覆盖传感器标定、多模态目标检测、CUDA部署等关键技术节点 [10] 具身智能方向 - 包含VLA(视觉语言导航)、Diffusion Policy等前沿技术面试题库 [11][14] - 提供人形机器人量产硬件、技术路线及创投趋势等深度研报 [15][19] 实战案例库 - 整理滴滴、英伟达、美团等20+企业面经 涵盖算法、SLAM、产品等岗位 [20] - 收录决策规划控制、行为预测等岗位从一面到三面的完整面试流程 [20] - 汇总转行经验、面试官建议、谈薪策略等非技术类求职技巧 [24] 行业认知工具 - 发布《世界机器人报告》《中国人形机器人发展蓝皮书》等权威行业分析 [15][19] - 研报内容覆盖产业链上下游、技术发展状态及市场前景研判 [15][19] 会员服务价值 - 每日成本0.3元 提供岗位匹配、企业直推等高效求职解决方案 [25]