自动驾驶之心
搜索文档
工业界和学术界大佬带队!彻底搞定端到端与VLA
自动驾驶之心· 2025-10-09 23:32
端到端自动驾驶算法趋势 - 端到端算法已成为自动驾驶量产的核心算法,技术栈丰富,业内主要存在一段式和两段式两大类范式 [1] - 一段式范式以UniAD为代表,直接从传感器输入建模自车轨迹输出,二段式则基于感知结果进一步输出自车和他车轨迹 [1] - 一段式端到端算法可进一步细分为基于感知、扩散模型、世界模型及视觉语言模型(VLA)等多种子领域,尤其基于VLA的算法相关论文正爆发式发表,工业界也在争先量产 [1] 核心技术与课程定位 - 从模块化算法到端到端再到VLA,核心算法涉及BEV感知、视觉语言模型、扩散模型、强化学习、世界模型等,掌握这些技术可把握学术界和工业界最前沿方向 [3] - 行业推出《端到端与VLA自动驾驶小班课》与《自动驾驶VLA和大模型实战课程》,旨在帮助从业者快速高效入门 [3] - 《自动驾驶VLA与大模型实战课程》由学术界专家带队,聚焦VLA领域,涵盖从VLM作为自动驾驶解释器到模块化VLA、一体化VLA及推理增强VLA的三大领域 [3] - 课程配套理论基础梳理与大作业章节,指导学员从零搭建自己的VLA模型及数据集 [3] - 《端到端与VLA自动驾驶课程》由工业界专家带队,聚焦端到端自动驾驶宏观领域,梳理一段式/两段式重点算法,详解BEV感知、大语言模型、扩散模型和强化学习 [10] - 工业界课程设计两大实战项目:基于扩散模型的Diffusion Planner和基于VLA的ORION算法 [10] 师资力量与学员要求 - 课程讲师团队包括来自清华大学等顶尖院校的研究人员,在ICCV、IROS、EMNLP等顶级会议发表多篇论文,研究方向涵盖多模态感知、自动驾驶VLA、大模型Agent等前沿领域 [7][9] - 讲师团队具备丰富的自动驾驶、大模型研发和实战经验,并主持完成多项算法预研、框架工具及产品量产交付 [7][9][10] - 课程面向具备一定自动驾驶领域基础、熟悉Transformer大模型、强化学习、BEV感知等基本概念的学员,要求自备算力在4090及以上的GPU,并具备Python和PyTorch语言基础 [13]
算法废物跳槽记
自动驾驶之心· 2025-10-09 23:32
无名氏的胡言乱语 . 专注于分享学习、求职、AI算法内容,知乎3000粉博主"无名氏"。 作者 | Icecreamwuming 来源 | 无名氏的胡言乱语 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 以下文章来源于无名氏的胡言乱语 ,作者Icecreamwuming 本文只做学术分享,如有侵权,联系删文 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 非干货篇:认知准备 跳槽决策原则 跳槽的首要目标是比现在的槽更好,好的评判标准既可以是涨薪幅度大,也可以是其他的诸如工作压力更小、发展前景更好。千万不要一冲动就跳槽,跳槽是有风险的, 有可能你上家公司1095你还觉得累,下家直接007了,另外跳槽意味着新的环境、新的同事、新的leader,这都是你要付出的隐藏代价。如果这点想清楚了再往下看,否则 建议直接滑走。 前期准备清单 算法题库 (150-200题): 《无名氏:万字秋招算法岗深度学习八股文大全》,https://zhuanlan.zhihu.com/p/667048896 《无名氏:秋招算法岗手撕代码题合集》,https://zhuanlan ...
最近高产的苹果!RL4HS:精准定位LLM幻觉,超越GPT-5及o3!
自动驾驶之心· 2025-10-09 07:30
文章核心观点 - 苹果公司近期发布了一项名为RL4HS的突破性研究,该方法利用强化学习训练大语言模型,使其能够精确识别并定位输出内容中的幻觉片段,而不仅仅是进行笼统的错误提示 [3][4] - 该方法在片段级幻觉检测任务上的性能超越了包括GPT-5和o3在内的多个先进商用模型,标志着大语言模型在可靠性和可审计性方面迈出了重要一步 [5][6] 研究方法与技术框架 - 研究核心是探究显式推理(思维链,CoT)是否有助于复杂的幻觉片段检测任务,初步实验表明,具备CoT推理的模型在多次采样时,至少能生成一个正确答案的潜力显著提升 [8][14] - 提出的RL4HS框架结合了片段级奖励和类别感知的组相对策略优化,旨在激励模型进行有效推理,并解决因奖励函数不对称导致的模型预测偏差问题 [9][17] - 为解决奖励不平衡,引入了类别感知策略优化,为非幻觉类别的样本优势值引入缩放因子α(实验中α=0.5),以缓解模型倾向于做出非幻觉预测的偏差 [17] 实验设计与数据 - 实验在RAGTruth基准测试集上进行,该数据集涵盖摘要生成、问答和数据到文本三类任务,训练、验证和测试集规模分别为数千条样本 [10][17] - 主要采用Qwen2.5-7B-Instruct和Qwen2.5-14B-Instruct作为基础模型进行训练与评估 [17] 性能评估与结果对比 - 预训练指令微调模型表现不佳,例如Qwen2.5-7B/14B-Instruct的平均F1分数低于30,表明仅靠提示无法实现精确的片段级定位 [21] - 具备推理能力的预训练模型(如Qwen3-14B)性能有所提升,在摘要任务上F1达到35.8,但仍落后于微调模型 [24] - 监督微调显著提升性能,14B规模模型的平均F1达到55.4 [24] - RL4HS模型在所有基线模型上均表现出优势,RL4HS-7B的平均F1达到55.9,优于监督微调的50.1 [24] - RL4HS-14B模型在摘要、问答和数据到文本任务上的F1分数分别达到57.6、54.8和62.6,超越了Qwen3系列以及表现最强的GPT-5和o3模型 [24] 定性分析与实际意义 - 定性分析案例显示,RL4HS能够执行系统化的一致性检验推理,其推理过程与人工设计的启发式检测流程高度一致,表明其学习到的推理行为是真实可靠的 [25][26] - 该技术能直接指出具体错误段落,对于需要修改输出或进行事实审查的用户,可以大大节省时间 [4]
FSD奔着无人的方向去了!马斯克:FSD已经产生了自我意识...
自动驾驶之心· 2025-10-09 07:30
技术架构升级 - 实现千亿级别参数大模型在自动驾驶领域的落地应用[1] - 首次实现Robotaxi与量产车采用同源同架构技术方案[1] - 将导航和路线功能整合到基于视觉的神经网络系统中实现实时处理[6] 功能优化与新增 - 增加到达选项功能支持选择停车场街道私人车道停车场或路边等停车位置[6] - 新增对紧急车辆包括警车消防车救护车的靠边停车或让行处理能力[6] - 改进对静态和动态闸门的处理机制[6] - 提升对道路碎片如轮胎树枝箱子的规避能力[6] - 改善无保护转弯变道车辆切入和校车等多种场景的处理效果[6] - 增加自动窄视野清洗功能实现前置摄像头自清洁[6] - 新增前挡风玻璃内部残留物警示提示系统[6] 驾驶体验定制化 - 添加额外速度配置文件支持进一步自定义驾驶风格偏好[6] - 提供多种驾驶风格选项包括Sloth Chill Standard Hurry等模式[9] 系统可靠性提升 - 增强FSD管理系统故障处理能力[6] - 优化从降级操作中平稳恢复的机制以提高系统可靠性[6] - 在高速行驶时优化空气动力学冲刷效果[6] 硬件与适用范围 - 本次更新仅面向HW4 0硬件版本车辆推送硬件版本低于4 0的车辆不在此次更新范围内[1] - 功能目前适用于Model S和Model 3等车型[9][12]
我们正在寻找自动驾驶领域的合伙人......
自动驾驶之心· 2025-10-09 04:00
公司业务与招聘计划 - 公司计划招募10名业务合伙人,负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发 [2] - 招聘面向国内外优秀人才 [2] 岗位专业方向 - 主要技术方向包括4D标注、世界模型、大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、闭环仿真3DGS、大模型部署与量化感知推理等 [3] 候选人要求 - 要求候选人毕业于QS200以内高校,拥有硕士及以上学历 [4] - 优先考虑在顶级学术会议上有研究成果的候选人 [4] 薪酬福利 - 提供自动驾驶领域的资源共享,涵盖求职、读博及出国留学推荐等 [5] - 提供丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
学术界和工业界都在如何研究端到端与VLA?三个月搞定端到端自动驾驶!
自动驾驶之心· 2025-10-09 04:00
自动驾驶端到端算法技术趋势 - 端到端算法是当前自动驾驶量产的核心算法 技术栈丰富 主要分为一段式和两段式两大范式 [1] - 一段式范式以UniAD为代表 直接从传感器输入建模自车轨迹输出 两段式则基于感知结果进一步输出自车和他车轨迹 [1] - 一段式端到端算法衍生出多个子领域 包括基于感知 基于扩散模型 基于世界模型以及基于VLA的算法 其中基于VLA的算法相关论文正爆发式发表 工业界也在争先量产 [1] 前沿技术栈构成 - 核心算法涉及BEV感知 视觉语言模型 扩散模型 强化学习 世界模型等多项前沿技术 [3] - 通过学习端到端与VLA自动驾驶 可以掌握学术界和工业界最前沿的技术方向 [3] 自动驾驶VLA与大模型实战课程 - 课程聚焦VLA领域 内容涵盖从VLM作为自动驾驶解释器开始 到模块化VLA 一体化VLA 以及当前主流的推理增强VLA [3] - 课程配套理论基础梳理 包括Vision/Language/Acition三大模块 强化学习 扩散模型等基础 [3] - 课程设有专门的大作业章节 指导学员从零搭建自己的VLA模型及数据集 [3] 课程师资团队 - 师资团队包括来自清华大学等高校的硕士生和博士生 在ICCV IROS EMNLP等国际顶级会议发表多篇论文 [7][9] - 团队成员研究方向涵盖多模态感知 自动驾驶VLA 大模型Agent等前沿领域 拥有丰富的研发和实战经验 [7][9] - 部分成员长期维护GitHub开源项目 总Star数已超过2k 具备扎实的研发能力 [7] 端到端与VLA自动驾驶课程 - 该课程由工业界专家带队 聚焦端到端自动驾驶宏观领域 梳理一段式/两段式方向的重点算法和理论基础 [10] - 课程详细讲解BEV感知 大语言模型 扩散模型和强化学习 并设计两大实战项目 基于扩散模型的Diffusino Planner和基于VLA的ORION算法 [10] - 课程讲师为国内TOP主机厂算法专家 拥有端到端 大模型 世界模型等前沿算法的预研和量产经验 并主持完成多项算法的产品量产交付 [10] 目标学员要求 - 学员需自备GPU 推荐算力在4090及以上 [13] - 要求学员具备一定的自动驾驶领域基础 熟悉基本模块 并了解transformer大模型 强化学习 BEV感知等技术的基本概念 [13] - 学员需具备一定的概率论和线性代数基础 熟悉常用数学运算 并具备一定的python和pytorch语言基础 [13]
自动驾驶Ask Me Anything问答整理!VLA和WA的路线之争?
自动驾驶之心· 2025-10-08 23:33
自动驾驶技术发展现状与路径 - 特斯拉在自动驾驶体验和效果上被多位专家认为是行业领先者 [9][14] - L4级别自动驾驶已由Waymo和萝卜快跑实现,但L5级别可能还需至少5年时间 [4] - 端到端模型已能解决约90%的驾驶问题,特斯拉将其做到极致,安全性基本得到保证 [5] 技术路线与核心模型 - 视觉语言动作模型被认为是自动驾驶的终局方案,因其能利用语言模态进行推理,处理需要认知推理的长尾问题 [5][6] - 世界模型是对物理空间和运行规律的更本质建模,但技术难度更大 [9] - 端到端模型存在多种架构:一段式端到端、一段式模块端到端以及OneModel端到端 [11][12] 关键技术与传感器 - 4D毫米波雷达被视为纯视觉系统的良好冗余,当系统复杂度达到几千几万MPI时冗余的重要性凸显 [5] - 激光雷达在成本下降后与纯视觉方案相比无明显劣势,提供精确距离感知冗余的融合方案可能是终极方向 [17] - 语言模态对于自动驾驶至关重要,缺乏语言推理能力将导致车辆无法理解世界而出错 [5] 人才与专业发展 - 人工智能是未来研究自动驾驶的首选专业方向,因自动驾驶问题可能在4年内基本解决,但AI方向长期正确 [4] - 对于职业发展,建议先进入大型智驾公司培养体系化工程思维,机器人领域在产品化和工程成熟度上仍处于探索阶段 [16] 市场与区域对比 - 中国智能驾驶发展态势远优于国外市场,目前除特斯拉外,没有国外智驾方案能在中国市场发布 [10] - 国内公司与特斯拉的差距主要体现在算法和软件工程的流程规范上,但从用户体验角度看差距不大 [14][15] 机器人及具身智能 - 在机器人领域,实用功能的发展速度和商业价值远高于身体协调性和美感 [7] - 大模型背景的研究人员转向具身智能领域相对容易,真正的竞争力在于模型规模、创新和真机跨本体泛化能力 [5]
YOLO26不是第26代,而是“破局者”!颠覆性端到端架构重塑实时检测
自动驾驶之心· 2025-10-08 23:33
模型核心定位与设计原则 - YOLO26是YOLO系列实时目标检测器的最新演进版本,专为边缘和低功耗设备从头设计[5] - 模型引入一套简化设计,去除不必要复杂性,集成针对性创新,以实现更快、更轻量、更易于部署的模型[5] - 架构由简洁性核心原则驱动,是一个原生端到端模型,直接输出预测结果,无需非极大值抑制(NMS)[6] 关键技术创新 - 完全移除分布焦点损失(DFL)模块,简化推理并扩大对边缘和低功耗设备的硬件兼容性[10] - 采用原生端到端无NMS推理,取消独立后处理步骤,减少延迟,使生产系统集成更快、更轻、更可靠[11] - 引入改进的损失函数ProgLoss + STAL,显著提升检测精度,尤其在小目标识别方面有重大改进[12] - 采用新型混合优化器MuSGD,将SGD与Muon相结合,灵感来自Moonshot AI的Kimi K2,带来更稳定训练和更快收敛[13] 性能提升与优化效果 - 模型针对边缘计算专门优化,在CPU上推理速度最多提升43%,为无GPU设备提供近实时性能[7][14] - 模型家族在小目标上拥有更高精度,部署无缝,成为资源受限环境下最实用、最易部署的YOLO模型之一[7] 多任务支持能力 - YOLO26被设计为一个多任务模型家族,扩展了在不同计算机视觉挑战中的适用性[15] - 统一框架支持实时检测、实例分割、分类、姿态估计和定向目标检测,发布时均支持训练、验证、推理与导出[15][21] 目标检测性能指标(早期预览) - YOLO26n模型在640像素输入尺寸下,mAP 50-95(端到端)为39.8,参数量2.4百万,FLOPs 5.4十亿,CPU ONNX推理速度38.90毫秒[18] - YOLO26s模型mAP 50-95(端到端)为47.2,参数量9.5百万,FLOPs 20.7十亿,CPU ONNX推理速度87.16毫秒[18] - YOLO26m模型mAP 50-95(端到端)为51.5,参数量20.4百万,FLOPs 68.2十亿,CPU ONNX推理速度220.0毫秒[18] - YOLO26l模型mAP 50-95(端到端)为53.0,参数量24.8百万,FLOPs 86.4十亿,CPU ONNX推理速度286.17毫秒[18]
自动驾驶之心双节活动即将截止(课程/星球/硬件优惠)
自动驾驶之心· 2025-10-08 23:33
社区核心定位 - 专注于最前沿的自动驾驶技术,打造技术社区 [5] - 社区覆盖近40多个学习路线,包括自动驾驶VLA、世界模型、闭环仿真、扩散模型、BEV感知等关键技术领域 [5] - 旨在保持技术活力,推动持续学习 [5] 技术交流与资源 - 提供与学术界和工业界顶尖专家面对面交流的机会 [5] - 讨论行业前沿议题,如VLA和WA的路线之争、未来自驾发展方向、世界模型本质及端到端技术探讨 [5] - 社区资源包括顶会作者亲临、直播互动以及Impromptu VLA、NavigScene、LangCoop、DriveBench、ZeroGS、Diffusion planner等具体项目交流 [5] 课程与培训体系 - 平台提供七门精品课程,内容涵盖世界模型、轨迹预测、大模型、相机标定、毫米波、点云3D检测、Transformer等核心主题 [5] - 课程体系面向初学者,注重核心能力的系统性培养 [5] - 提供平台课程八折优惠券及超级折扣卡,课程可享受七折优惠 [3]