自动驾驶之心
搜索文档
某大型Tier 1中阶项目量产不顺......
自动驾驶之心· 2025-10-23 00:04
行业核心动态 - 2024年下半年,部分商务能力强但工程能力不足的Tier 1出现量产交付困难,导致项目被重新分配,工程能力扎实的Tier 1成为受益者[5] - 车企的定点项目出现流动,从量产交付不佳的Tier 1和自研团队流向量产交付能力强的供应商[7] - 智驾行业话语权呈现向头部Tier 1转移的趋势,车企的掌控力减弱,双方博弈加剧[12] 智驾方案的合作模式选择 - 车企过去试图通过要求Tier 1进行白盒交付来掌握算法能力,但效果不佳,例如某头部车企整合三家供应商白盒后算法性能仅达三年前水平[8] - 易航智能提出的联合开发模式能帮助车企建立算法方法论和理解功能开发思路,并提供工具链以提升开发效率[8] - 走通to B to C的模式需要车企与Tier 1联合开发,在功能开发阶段共同进行用户调研和产品定义,使方案更符合目标用户需求[9] - 联合开发模式能使智驾产品具备车企自身的特征和烙印,而非纯粹的供应商感觉[10] 平台化算法与定制化需求的矛盾 - 头部Tier 1普遍采用平台化算法方案以实现利益最大化,但导致C端用户体验不佳,例如某行政商务车型用户对博弈性强的算法不满[9] - 平台化复制交付需解决车型差异化工程问题,投入不足会导致同一版算法在不同车型上性能差异巨大[12] - 头部Tier 1因项目海量、人力有限,在量产交付上可能出现“潦草”情况,对核心与非核心客户的资源投入存在差异[12] 车企的供应商战略选择 - 部分传统车企开始启用知名度一般但务实的Tier 1来制衡头部Tier 1,将中高阶项目转移给更“听话”的供应商[13] - 车企需要建立自己的基石供应商,即技术能力强且合作度高的Tier 1,以增强与头部Tier 1博弈时的话语权[13] - 易航智能因其算法能力、稳健量产及合作态度,被视作潜在的基石供应商,能通过联合开发反哺车企自研团队[14] - 拥有基石供应商可帮助车企避免陷入被动接受头部Tier 1“千篇一律”方案的处境[14]
从地平线自动驾驶2025年的工作,我们看到了HSD的野心......
自动驾驶之心· 2025-10-22 00:03
公司战略与整体进展 - 公司在2025年经历组织调整和资源整合后,在自动驾驶领域双线并进,一方面推动新一代辅助驾驶系统HSD的大规模量产落地,另一方面通过前沿论文重塑自动驾驶的底层逻辑 [2] - 公司正从技术供应商向行业标准定义者跃迁,其全新的HSD系统采用创新的"一段式端到端+强化学习"架构,突破传统感知-决策-控制模块的延迟瓶颈 [2] - 公司集中发力在端到端和世界模型两个最热门的方向上,得益于从UniAD时期就积累的大量学术经验,并已将重点铺在了一段式端到端的量产 [3] - 公司在Diffusion、强化学习、GoalFlow、世界模型等领域颇有建树,未来预计会有更多自动驾驶和具身智能方面的基石工作问世 [4] 端到端自动驾驶技术 - ResAD框架通过归一化残差轨迹建模,将学习目标从直接预测未来轨迹转变为预测轨迹相对于惯性参考的偏差,在NAVSIM基准测试中以88.6的PDMS分数达到最先进性能 [6][8] - CorDriver框架引入"安全走廊"作为中间表示,在nuScenes数据集上相比VAD等方法,与交通参与者的碰撞率降低66.7%,与路缘的碰撞率降低46.5% [9][11] - TTOG框架统一运动预测与路径规划任务,在nuScenes数据集上平均L2误差降低36.06%,在Bench2Drive上驾驶分数提升22%,尤其在少样本场景下表现出强大泛化能力 [12][14][15] - MomAD框架引入轨迹动量和感知动量机制,在nuScenes和Turning-nuScenes数据集上显著降低长时预测和转弯场景中的碰撞率,提升轨迹平滑性和一致性 [16][18][19] - GoalFlow框架采用目标驱动的流匹配,在NavSim基准测试中PDMS分数达到90.3,仅需单步去噪即可达到优异性能,推理速度比传统扩散模型快数十倍 [20][22][24] - RAD框架基于3D高斯泼溅技术构建强化学习环境,相比纯模仿学习方法碰撞率降低3倍,显著提升驾驶安全性 [23][26][29] - DiffusionDrive框架采用截断扩散策略,在NAVSIM数据集上取得88.1 PDMS,在nuScenes上比VAD降低20.8% L2误差和63.6%碰撞率,实现45 FPS的实时性能 [27][30][35] 自动驾驶场景生成与世界模型 - Epona模型实现解耦的时空建模和异步多模态生成,在NuScenes数据集上取得最佳FVD指标,并将最长生成时长从现有方法的15秒大幅提升至2分钟 [31][33][36] - UMGen框架能同时生成自车动作、交通参与者、交通地图和图像四种关键模态,生成长达60秒的多样化、多模态一致的驾驶场景 [34][38][41] - DrivingWorld模型基于GPT风格视频生成框架,在仅使用15帧条件输入的情况下可生成超过40秒的高保真视频,时长是现有最佳模型的2倍以上 [39][42][46] 自动驾驶视觉语言模型 - AlphaDrive框架首次将基于GRPO的强化学习与规划推理相结合,在规划准确率上比仅用监督微调的模型显著提升25.52%,并展现出高效的数据利用能力,仅用20%的训练数据即可超越基线模型35.31% [43][45][47]
大佬开炮:智能体都在装样子,强化学习很糟糕,AGI 十年也出不来
自动驾驶之心· 2025-10-22 00:03
文章核心观点 - AI行业存在过度夸大和脱离实际的现状,AGI的实现仍需约十年时间,其发展将带来每年约2%的GDP增量,但并非以当前主流预期的方式实现[2][3][5][6][10][12][13] AGI发展时间与瓶颈 - AGI的实现预计需要十年时间,当前AI智能体存在认知缺陷,包括不够聪明、缺乏多模态能力、无法进行计算机操作、缺乏持续学习能力等[12][13] - 行业曾过早尝试完整解决方案,如雅达利深度强化学习和OpenAI的Universe项目,但因缺乏足够的表征能力而失败[16][17][18] - 预测未来算法将与当前有所不同,但核心仍将是通过梯度下降训练的大型神经网络,需在架构、优化器、损失函数等方面全面改进[33][34][35] LLM认知缺陷与学习机制 - 大语言模型存在认知缺陷,不擅长编写独特或智力密集型代码,容易误解代码风格并增加不必要的复杂性[40][41][42][43] - 模型记忆能力过强,但缺乏类似人类的反思、知识提炼和合成数据生成过程,导致其输出多样性不足且容易发生模型崩溃[60][61][62][63][67] - 人类学习通过内置硬件和进化编码的算法进行,而LLM通过模仿互联网文档训练,是两种不同的智能路径[19][20][22][23] 强化学习局限性 - 强化学习存在显著缺陷,其通过最终结果奖励整个过程的机制噪音过大,无法有效分配部分信用[50][51][52] - 基于过程的监督虽为替代方案,但自动化分配信用困难,且易受对抗性示例影响,导致模型找到漏洞欺骗评判系统[54][55][56][58] - 人类不使用强化学习进行智能任务,而是通过更复杂的回顾和思考过程,当前LLM缺乏相应机制[21][50][52] 自动驾驶与教育应用挑战 - 自动驾驶实现需要较长时间,因涉及复杂物理世界交互,其难度远高于纯数字知识工作[6][10] - 教育的未来可能涉及AI辅助,但需解决模型当前认知缺陷,如持续学习、知识提炼和长上下文处理等[6][10][31][32] 智能进化与经济影响 - 智能进化类似计算趋势的延伸,超级智能将是社会自动化的进步,逐步承担数字和体力工作[94][95] - AGI对经济的影响主要体现在自动化知识工作,预计可覆盖10%到20%的经济份额,但需考虑社会任务重构和工作界面变化[83][84][85] - AI当前最成熟的应用在编程领域,因代码高度结构化且具备相应基础设施,其他文本处理任务如内容重写等仍面临挑战[88][89][90][92]
SFT的本质,其实是在优化RL目标的下界...
自动驾驶之心· 2025-10-22 00:03
核心观点 - 在稀疏奖励设定下,标准监督微调(SFT)的优化目标实际上是强化学习(RL)目标的一个(较松的)下界 [1][9] - 为收紧该下界并保持训练稳定,研究引入了一个桥梁分布q进行调节,最终得到一个重要性加权版本的SFT目标(iw SFT) [1][11] - 相比于标准SFT,iw SFT通过调整辅助分布q,能够收紧下界并隐式利用负样本信息,从而可能学习到更优的策略 [11][19][20] 理论推导:SFT与RL的联系 - RL策略梯度算法的目标是最大化期望累积奖励,即 $J(\theta)=\mathbb{E}_{p(\tau;\theta)}[R(\tau)]$ [4][5] - 通过重要性采样和对数不等式,将RL目标与参考分布π_ref联系起来,推导出在稀疏奖励(仅对优质样本奖励为1)下,SFT目标是RL目标的一个下界,即 $J(\theta)\geq\mathbb{E}_{\tau\sim\mathcal{D}^{+}}[\log p(\tau;\theta)]$ [5][6][7][8] - 标准SFT的下界可能不够紧,且随着训练策略p_π与参考分布π_ref差异增大,下界会变松,影响性能 [9] 重要性加权SFT(iw SFT)的引入 - 为解决下界松弛问题,引入一个可自由设置的辅助分布q作为桥梁分布 [11] - 通过引入q,RL目标被重写,并再次应用不等式,得到重要性加权的SFT目标 $J(\theta)\geq\mathbb{E}_{\tau\sim\mathcal{D}^{+}}\left[{\frac{q(\tau)}{\pi_{\mathrm{ref}}(\tau)}}\log p(\tau;\theta)\right]$ [11] - 该目标多了一个权重系数 $q(\tau)/\pi_{\mathrm{ref}}(\tau)$,通过调整q可以收紧下界 [11] 桥梁分布q的选择与约束 - 理想情况下,q应尽可能接近当前策略p_π以保证下界紧度,但又不能离参考分布π_ref太远以保证训练稳定性 [13] - 研究采用时间滞后的策略模型参数来定义q,即 $q(\tau)=p_{\pi}(\tau;\theta_{q})$,以保持与p_π接近 [13] - 为控制重要性权重方差,提出了两种约束方案:在token维度进行每步裁剪,或在轨迹维度进行平滑处理 [14][15] 示例说明与优势 - 通过一个多臂老虎机示例说明,标准SFT在均匀参考策略下学习到的策略(期望奖励5/6)并非最优(最优为1)[18][19] - 在该例中,iw SFT能自适应地为高奖励动作(拉右杆)分配更高权重,最终收敛到最优策略,隐式地恢复了负样本信息 [19][20] - iw SFT的优势在于其目标函数中包含了参考分布π_ref的信息,从而能更有效地利用数据 [20]
我们正在寻找自动驾驶领域的合伙人...
自动驾驶之心· 2025-10-22 00:03
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发 [2] 重点技术方向 - 公司重点关注大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶、具身交互、联合预测等技术 [3] - 其他关键方向包括SLAM、3D目标检测、世界模型、闭环仿真3DGS、大模型部署与量化感知推理 [3] 合伙人资质要求 - 候选人需来自QS200以内高校并拥有硕士及以上学历 [4] - 拥有顶级会议论文成果的候选人将获得优先考虑 [4] 合伙人待遇与支持 - 提供自动驾驶领域的资源共享,包括求职、读博及出国留学推荐 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
我们的具身社区,最近又增加了很多模块~
自动驾驶之心· 2025-10-22 00:03
增加了很多模块,我们的具身智能社区进一步完善了! 9月和10月一直在补充我们的具身社区版块,重点增加了VLA、real2sim2real、移动操作、世界模型、域适应等 任务,当然还有很多高质量的直播。 除此之外,目前正在给大家更新一些开源的方案与硬件,后期我们期望能在这些方案的基础上做一些分享,让 每个同学都能完成自己的project。 近一年的搭建,我社区内已经完成了技术路线分享、直播、问答、求职、赛事等多个版块的分享。实现了产 业、学术、求职、问答交流等多个领域的闭环。 这里是一个认真做内容的社区,一个培养未来领袖的地方。欢迎加入,和近2000名具身成员一起交流产业、学 术、求职等。微信扫码,领取专属优惠券! 1)持续的直播分享 社区为大家准备了很多圆桌论坛、直播,从本体、数据到算法,各类各样,逐步为大家分享具身行业究竟在发 生什么?还有哪些问题待解决。 2)完整的技术路线 针对入门者,我们整理了许多为小白入门的技术栈和路线。 3)产业&项目相关的方案 已经从事相关研究的同学,我们也给大家提供了很多有价值的产业体系和项目方案。 4)内推与求职 星球还和多家具身公司建立了岗位内推机制,欢迎大家随时艾特我们。 ...
提供最专业的平台和运营团队!我们正在招募运营的同学~
自动驾驶之心· 2025-10-21 00:06
公司业务与团队发展 - 公司已从初创团队发展为具备技术深度和广度的平台,业务线日益增多 [1] - 团队在2年多时间内孵化了4个核心IP,包括具身智能之心、自动驾驶之心、3D视觉之心、大模型之心Tech [1] - 公司内容矩阵在全网覆盖近36万用户,并通过公众号、视频号、知识星球、哔哩哔哩、知乎、小鹅通等多个平台持续运营 [1] 招聘岗位与职责 - 招聘全职及兼职自媒体运营和销售岗位各一名 [2] - 自媒体运营核心职责包括:管理课程/辅导进度、多平台运营以提升用户规模与质量、策划商业化项目与流量转换、负责行业技术类选题和内容、原创稿件撰写策划、推文管理和数据复盘 [4] - 销售岗位核心职责包括:制作在线/硬件产品宣传内容、对接硬件厂家和高校/企业客户、推广和转换在线教育产品 [5][6] 岗位要求 - 自媒体运营岗位要求:强大的执行力与沟通意识、本科及以上学历且计算机/AI类专业优先、熟悉多平台运营、具备文字功底 [4] - 销售岗位要求:强大的执行力与抗压能力、本科及以上学历且计算机/AI类专业优先、有自媒体销售经验、能接受出差和参会 [12] 工作地点与职业发展 - 工作地点位于杭州和上海 [7] - 员工将接触国内顶级运营团队,学习运营技巧和销售策略,获得快速成长机会 [7] - 员工将接触到自动驾驶、具身智能、3D视觉、大模型等前沿AI领域内容,同时对接工业界和学术界,以拓宽产业视野 [8] - 岗位提供读研、读博等个人提升机会 [9]
李飞飞发布的单GPU推理世界模型,自动驾驶应用还会远吗?
自动驾驶之心· 2025-10-21 00:06
模型发布与核心特性 - 李飞飞团队推出全新实时世界模型RTFM,该模型具备实时运行、持久性和3D一致性,且仅需单张H100 GPU即可运行 [2][3] - RTFM的设计遵循三大核心原则:效率(单张H100 GPU实现交互级帧率实时推理)、可扩展性(架构可随数据量与算力增长持续扩展)、持久性(用户可无限时长交互且场景永久留存) [5][6] - 模型采用端到端的通用架构,从海量视频数据中自主学习构建三维世界模型,无需依赖显式3D表征 [5] 技术挑战与设计目标 - 生成式世界模型对算力需求巨大,生成60帧4K交互视频流每秒需产生超过10万个token,维持一小时以上持续交互需处理上下文token超1亿,基于当前计算基础设施既不可行也不经济 [11][12] - 团队目标是在当前硬件限制下设计一款高效、可立即部署并能随算力提升持续扩展的生成式世界模型,旨在单张H100 GPU上保持交互帧率且虚拟世界永不消散,以预览未来模型潜力 [15] - 团队深信随算力增长优雅扩展的简洁方法将主导AI领域,生成式世界模型将从持续降低的算力成本中获益 [14] 模型架构与工作原理 - RTFM作为可学习的渲染器,通过训练单一神经网络,输入场景的单张或多张2D图像即可从新视角生成2D图像,无需构建任何显式3D表征 [17][19] - 模型采用作用于帧序列的自回归扩散变换器架构,通过海量视频数据端到端训练实现基于历史帧的后续帧预测,输入图像帧被转换为神经网络中的激活以隐式表示整个世界 [19][20] - RTFM模糊了“重建”(在已有视角间插值)与“生成”(创造输入视角中不可见的新内容)的界限,输入视角多时倾向于重建,输入视角少时被迫进行外推生成 [21][22] 持久性实现与空间记忆 - RTFM通过将每一帧建模为在三维空间中具有姿态(位置和方向)来规避自回归帧模型实现持久性的挑战,模型对世界的记忆具有空间结构 [24][26] - 模型使用带有姿态的帧作为空间记忆,提供了一个弱先验——即所建模的世界是三维欧几里得空间,而无需强制显式预测物体的三维几何形状 [26] - 通过“上下文切换”技术,模型在生成新帧时会从已姿态帧的空间记忆中检索附近帧以构建定制上下文,使得RTFM能在长时间交互中保持对大型世界的持久记忆 [27]
转行多家自动驾驶大厂的经验分享
自动驾驶之心· 2025-10-21 00:06
社区核心定位 - 社区定位为国内首个自动驾驶全栈技术交流平台,集学术与工程问题讨论于一体,目标是打造完整的自驾生态 [17][18] - 社区已汇聚超过4000名成员,目标在未来2年内发展到近万人规模 [4][5] - 成员背景覆盖国内外顶尖高校(如上海交大、北京大学、CMU、清华大学等)和头部公司(如蔚小理、地平线、华为、大疆等) [18] 社区资源体系 - 社区系统梳理了近40种自动驾驶技术方向的学习路线,涵盖感知、规划控制、仿真、端到端等核心领域 [11][19] - 资源形式包括视频课程、图文资料、技术问答和求职交流,并提供近40种开源项目、近60种数据集及主流仿真平台汇总 [4][18][19] - 提供七大专属视频教程,覆盖世界模型、自动驾驶大模型、3D目标检测等前沿主题,并已举办超过100场行业大佬直播分享 [14][91][93] 技术内容覆盖 - 感知技术全面覆盖BEV感知、3D目标检测、多传感器融合、Occupancy Network等量产关键技术,并详细梳理了纯视觉与多模态方案 [56][58][60] - 重点布局端到端自动驾驶、VLA、世界模型等前沿方向,汇总了一段式/二段式量产方案及最新学术界进展 [40][48][50] - 仿真技术聚焦3DGS与NeRF在闭环仿真中的应用,结合Carla、Apollo等平台提供工程实践指南 [42][43][86] 职业发展支持 - 建立与多家自动驾驶公司的内推机制,直接对接企业招聘需求 [14] - 社区定期探讨行业公司前景与跳槽机会,并提供岗位内推服务 [22][95] - 汇总国内外高校自动驾驶团队及企业信息,为成员提供升学与职业规划参考 [30][32]
世界模型深入浅出 | VQ家族论文整理(VQ-VAE/VQ-GAN/RQ-VAE等)
自动驾驶之心· 2025-10-21 00:06
编辑 | 自动驾驶之心 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 约了知乎大佬@论文推土机,整理下世界模型技术栈下VQ家族的相关论文,分享给大家! >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 为什么要离散化: 作者 | 论文推土机 离散化直接应用到像素级ar: 像素级 AR 的困境 :直接在像素空间做自回归步数过大(256×256 需约 20 万步),难以落地。 "先压缩后生成"的主流与隐患 :VQ-VAE/VQ-GAN/FSQ 等"图像 tokenizer"在 32×32 或 16×16 网格上生成,再解码回像素;但这是 强压缩 ,会引入信息损失 (SEED 可视化重构示例:语义对,但细节走样)。 信息论下的下界估算 :以 ImageNet-64 平均熵估算,一个长度为V的词表,信息容量是log2(V), 若想在 L=32×32 或 16×16 的长度上"无损"承载图像信息,词表规模 需夸张到 甚至 ,远超现有 codebook 能力—— 强压缩必然有损。 然而,直接在像素空间上操作的最大问题是——序列太长,生成太慢。在多数应用场景中,图片 ...