自动驾驶之心
搜索文档
相约杭州!具身智能之心首次赞助IROS并现场颁奖
自动驾驶之心· 2025-10-20 06:30
挑战赛概述 - 挑战赛旨在系统性评估机器人在真实场景下的感知与理解能力 以应对动态人群 恶劣天气 传感器故障等复杂环境条件[1] - 挑战赛致力于推动多模态感知模型的稳健性研究 鼓励跨模态融合与任务泛化方向的创新探索[1] - 该赛事由新加坡国立大学 南洋理工大学 香港科技大学 密歇根大学机器人研究院等多家研究机构联合主办 并作为IROS 2025官方认证竞赛项目[4][5] 赛道二:社交智能导航 - 赛道核心目标是打造具备"社交智能"的自主导航机器人 使其能安全 高效且符合社会规范地在动态室内环境中穿行[8][9] - 任务要求机器人在无地图 无特权信息的前提下 仅基于RGBD视觉与里程计输入完成目标导航任务 且不影响人类行为[9][10] - 关键挑战包括动态行为建模 社交规则编码 不确定性处理 评测维度涵盖成功率 路径效率及路径社会性指标等[12] 技术方向与活动 - 推荐技术方向包括使用Transformer-based社交轨迹预测模块 引入行为分类器进行风险判断 以及多主体地图编码与图神经网络[15] - 挑战赛重要日期包括第一阶段截止日期为2025年8月15日 第二阶段截止日期为2025年9月15日 获奖决定将于2025年10月19日在IROS 2025公布[3] - 联合主办方将在IROS 2025大会期间于中国杭州举办线下展示与颁奖 并提供与学术 创业 投资领域专家交流的after party活动[5][16][18]
手撕大模型,KVCache 原理及代码解析
自动驾驶之心· 2025-10-20 06:30
KV Cache技术概述 - KV Cache是大型语言模型推理过程中的关键技术,通过缓存中间计算结果显著提升模型运行效率[1] - 该技术专门针对Transformer自回归推理场景,在文本生成等任务中发挥重要作用[1] KV Cache的工作原理 - 核心思想是缓存历史计算中的键(Key)和值(Value)矩阵,避免重复计算[4] - 生成新token时只需计算新的Q矩阵并与历史KV矩阵进行注意力计算[4][7] - 将时间复杂度从O(n²)降低到O(n),极大提升长序列生成效率[4][7] - 首次生成时计算并缓存所有输入token的K和V矩阵,后续生成只需计算新token的查询矩阵[7] KV Cache的技术实现细节 - 为每个注意力头维护独立缓存,结构为[batch_size, num_heads, seq_len, head_dim][11] - 缓存会随着生成过程动态增长,直到达到模型最大序列长度限制[11] - 采用滑动窗口机制处理超长序列,如Llama 2只保留最近N个token的KV缓存以控制内存占用[12] - 需要权衡最大缓存长度、批量大小和精度选择等参数[15] 内存与性能权衡 - KV Cache提升速度但需要额外内存存储缓存数据[11] - 以GPT-3 175B模型为例,每个token的KV缓存约占用20KB内存[12] - 生成1000个token时单个样本需要约20MB内存,批量处理时内存消耗线性增加[12] 代码实现机制 - 通过维护cache_k和cache_v变量实现历史KV值的存储和更新[14] - 使用缓存时会将新计算的K、V与历史缓存进行拼接[14] - 提供reset_cache方法用于新序列生成时重置缓存状态[14] 优化策略 - 分页KV Cache借鉴内存分页机制,将连续缓存分割成固定大小块提高内存利用率[22] - 动态缓存管理根据输入序列长度动态调整缓存大小[22] - 量化缓存使用INT8或INT4等低精度格式存储,大幅减少内存占用[22] - 选择性缓存对不重要层或注意力头不进行缓存,平衡速度和内存[22]
今日开课!清华团队带队梳理自动驾驶VLA学习路线:算法+实践
自动驾驶之心· 2025-10-19 23:32
自动驾驶行业技术趋势 - 行业技术焦点已从传统的BEV感知、车道线、Occupancy等相对成熟的方向转向自动驾驶VLA [4] - VLA被视为提供类人思考能力、通过思维链形式展现车辆决策过程的关键技术,旨在实现更可靠安全的自动驾驶 [1] - 自动驾驶VLA目前主要分为模块化VLA、一体化VLA和推理增强VLA三个子领域 [1] 自动驾驶VLA核心技术要素 - 核心技术涵盖视觉感知、大语言模型、Action建模、大模型部署及数据集制作等 [7] - 涉及的最前沿算法包括CoT、MoE、RAG以及强化学习 [7] - 行业主流企业,包括智驾方案供应商和车企,均在发力自研自动驾驶VLA [4] 自动驾驶VLA课程核心内容 - 课程系统讲解自动驾驶VLA三个子领域的前沿算法,并配备两个实战及一个课程大作业 [8] - 课程大纲包含VLA算法介绍、算法基础、VLM作为解释器、模块化与一体化VLA、推理增强VLA及综合大作业 [13][15][16][17][18][21] - 课程设计从原理到实战,包含对开源BenchMark、评测指标及数据集制作专题的详细讲解 [14][15] 自动驾驶VLA算法发展路径 - VLA发展路径显示,Language从被动的场景描述演变为模块化架构中的主动规划组件 [17] - 模块化VLA强调多阶段pipeline,而一体化VLA实现感知到控制的端到端映射 [17] - 推理增强VLA的趋势是向长思维链推理、记忆和交互发展,将VLM/LLM置于控制中心 [18] 行业实践与前沿算法案例 - 课程实战部分选取了华科与小米最新提出的ReCogDrive及清华AIR与博世提出的Impromptu VLA等算法进行代码学习 [17][20] - 重点讲解的算法案例包括DriveGPT4、TS-VLM、ORION、DriveMoE、DiffVLA、S4-Driver等业界前沿工作 [16][18][19][24] - 算法训练涵盖预训练、模仿学习、强化学习GRPO、扩散模型轨迹输出等主流范式 [17]
9篇NeurIPS工作,我们读出了「3D渲染与重建」的三个确定方向
自动驾驶之心· 2025-10-19 23:32
文章核心观点 - 2025年NeurIPS会议在3D渲染与重建领域释放出明确的产业风向,研究重点从单点模型性能提升转向系统层面的范式变革[2] - 技术发展正从“能做出Demo”迈向“真能上线用”的拐点,重点关注动态场景重建、3D高斯泼溅(3DGS)工程化、生成式与可编辑3D三大方向[4][18][60] - 评价标准升级,不再只看清晰度或分数,更看重时延、带宽、能耗、稳定性、可编辑性以及对下游任务的实际帮助[60] 动态场景与时序重建 - 研究目标从重建静态几何转向表达、压缩和实时渲染时间维度的变化(4D),让3D世界“动”起来[2][4] - ReCon-GS方法通过连续体高斯流实现在线重建与实时渲染,训练效率提升约15%,在同等画质下内存减半[3][5] - ProDyG方法将SLAM思路引入动态重建闭环,实现跟踪-建图-渲染一体化,新视角质量接近离线方法,相机跟踪达到动态SLAM级别[8][9][10] - 针对4DGS数据点数庞大、存储传输瓶颈的问题,有研究实现了最高91倍的压缩比且保持高保真度,显著提升边缘设备与在线分发的友好性[14][15][18] 3D高斯泼溅(3DGS)的结构革新 - 研究重点是将3DGS从“能渲染得快”升级为“可部署、可维护”,解决大场景显存占用、移动端适配、几何精度和语义稳定性问题[20][21] - LODGE方法通过分层细节(LOD)技术,按相机距离自适应选择高斯子集,在室外与室内基准上实现高质量、更低延迟与更低内存占用的实时渲染[22][23][26] - Gaussian Herding across Pens方法从最优传输视角进行全局高斯“瘦身”,在仅保留约10%高斯的情况下,PSNR/SSIM/LPIPS指标近乎无损,优于现有压缩方法[27][28][33] - VA-GS通过视图对齐增强几何一致性,引入边缘感知渲染损失、可见性感知的跨视光度对齐以及法线约束,实现表面重建与新视角合成的双向提升[30][31][34] - FHGS提出通用特征融合架构,将CLIP/SAM等2D语义稳健映射到3D,使3D语义呈各向同性分布,为语义建图、风格化与交互打下基础[36][37][43] 生成式与可编辑3D - 研究目标从“还原世界”升级为“创造+操作”,使3D资产从静态模型变为可编辑、可复用的生产资料,支持生成新资产、拆分部件、上骨骼、做动画、改材质等操作[42][45] - PhysX-3D构建首个物理标注的3D数据集,涵盖绝对尺度、材质、可供性、运动学、功能描述五个维度,生成的资产在物理属性预测上更合理,保持几何质量[46][52] - PartCrafter实现从单张图像同时去噪出多个语义部件的3D网格,生成可拆解、可重排的多部件网格,对遮挡部件也能合理补全,天然适配参数化编辑与装配变体[48][49][53] - KaRF基于弱监督的Kolmogorov-Arnold Networks构建辐射场框架,实现三维场景任意区域的高保真色彩编辑,边界更准确、多视一致性更好,降低了人工成本[55][57][59]
4000人的自动驾驶技术社区,日常提供这些咨询......
自动驾驶之心· 2025-10-19 23:32
社区定位与愿景 - 社区致力于让AI与自动驾驶技术普及化,成为连接企业与高校的桥梁 [1] - 目标是打造涵盖产业、学术、求职、问答交流的完整闭环生态 [1] - 社区定位为培养未来行业领袖的技术交流平台 [4] 社区资源规模 - 已梳理超过40种自动驾驶技术路线 [2] - 汇总近40个开源项目和近60个自动驾驶相关数据集 [15] - 邀请数十位来自产业界和学术界的领域专家担任嘉宾 [2] 技术内容覆盖范围 - 基础入门板块包含数学基础、计算机视觉、深度学习、编程等学习资料 [5] - 算法进阶板块涵盖BackBone、2D/3D目标检测、分割、跟踪、BEV感知等17个技术方向 [5] - 实战落地板块包括模型压缩、部署优化等工程化内容 [5] - 专门设置自动驾驶100问系列,覆盖TensorRT部署、毫米波雷达融合等7个专题领域 [5] 学习路线体系 - 感知学习路线包含VLA、多模态大模型、占用网络等8个方向 [15] - 仿真学习路线涵盖Carla、Apollo等平台及闭环仿真等6个模块 [15] - 规划控制学习路线包括基于搜索、采样、优化等7种方法 [15] 行业资源整合 - 汇总国内外知名自动驾驶高校实验室,供升学参考 [24] - 整理RoboTaxi、重卡、造车新势力等各类自动驾驶公司信息 [26] - 提供计算机视觉和自动驾驶相关经典书籍资源 [28] 前沿技术专题 - 端到端自动驾驶板块涵盖一段式、二段式方案及VLA算法 [34] - 3DGS与NeRF专题包含算法原理、场景重建与仿真应用 [36] - 世界模型板块聚焦技术前沿和业界应用 [38] - VLM专题汇总最新综述、开源数据集及量产方案 [40] - VLA板块梳理2025年最新综述、数据集及量产讨论 [42] 专业活动体系 - 已举办超过100场专业技术直播分享会 [79] - 直播内容涵盖VLA、V2X、3D检测、扩散模型等前沿话题 [79] - 提供行业大佬实时答疑和工作机会对接服务 [19][80]
李想:特斯拉V14也用了VLA相同的技术
自动驾驶之心· 2025-10-19 23:32
OpenAI人工智能五阶段定义 - 聊天机器人阶段的核心是基座模型,功能为压缩人类已知数字知识,类比人类从小学到大学的知识积累过程[19] - 推理者阶段具备思维链和连续性任务能力,依赖SFT和RLHF训练,类比人类读研或师傅带徒弟的经验传授[20][21] - 智能体阶段AI开始实际工作,能使用工具完成长任务,对专业性和可靠性要求极高,需达到80-90分合格标准,类比人类胜任专业岗位[22][23] - 创新者阶段通过出题解题进行强化训练,需要世界模型和RLAIF模拟真实环境,类比职业选手通过上万小时实战成为专家[25][26] - 组织者阶段负责管理大量智能体和创新,防止失控,类比企业管理者的角色[27] 算力需求与技术布局 - 未来5年推理算力需求可能扩大100倍,训练算力需求扩大10倍[29] - 不同阶段需要不同类型算力:智能体阶段主要需要推理算力,机器人设备需要端侧推理,世界模型阶段需要海量云端推理[28][29] - 公司自研技术包括推理模型(MindVLA/MindGPT)、智能体(司机Agent/理想同学Agent)和世界模型[31] - 2026年将为自动驾驶配备自研端侧芯片,实现车与AI深度融合[33] 机器人发展路径与训练方法论 - 机器人发展有两条路径:将现有工具改造为机器人(如自动驾驶车辆),或开发人形机器人操作万物[34][35] - 训练的核心目标是提高成功率,参考人类"一万小时"专业训练理念[36][38] - 专业训练聚焦三大能力:信息处理能力(筛选有效信息)、出题解题能力(定义和解决问题)、资源分配能力(优化有限资源使用)[39][40][41] 行业技术观察与应用实践 - 特斯拉FSD V14证明其采用与VLA相同技术,具备空间完整理解能力和长任务多任务处理能力[44] - 公司内部已实现全面AI化,特别是在VLA技术应用后[45] - 行业领先的AI工具应具备简洁干脆的对话风格,避免过多铺垫性内容[46] - AI资讯获取渠道包括关键账号订阅、B站UP主内容跟踪以及内部多领域研究团队每周同步会议[48]
过去一个月高强度RL的实践和思考 - 如何涨点?
自动驾驶之心· 2025-10-19 23:32
文章核心观点 - 强化学习在视觉语言模型上能带来显著性能提升,部分基准测试取得同规模模型1-2个点的整体涨幅,最高单项涨幅达8-10个点[2] - 强化学习的本质是提高采样效率,而非让基础模型学习新知识,其关键在于一套完整流程而非单一数据[7][8] - 实现有效强化学习需注重数据基础、算法选择和实验细节,通过做好多件小事而非追求单一突破来达成目标[2] 强化学习目标 - 在监督微调模型版本上取得1-2个点的整体性能提升[5] - 在特定基准测试上取得超过1-2点的涨幅,如数学、指令遵循、幻觉避免等领域[5] 强化学习整体思路 - 强化学习必须基于基础模型采样,使用其他模型回复作为好坏答案或试图用一份数据更新所有模型可能无法奏效[8] - 与监督微调后训练相比,监督微调最高可实现5-6个点的涨幅,而强化学习版本整体涨幅在1-2点左右[8] 视觉语言模型强化学习难点 - 算法层面需选择高效、上限高的强化学习算法,考验工程师判断能力[10] - 训练层面基础设施要求高,需对原始模型进行多次前向传播,训练效率挑战大[13] - 数据层面输入混合平衡要求高,不同任务数据比例需平衡,输出回复长度与算法相关度较高[13] 技术选型与实践 - 选择基础设施成本较低的DPO强化学习算法进行快速验证,该算法为离线策略算法[11] - DPO算法优点包括数据可离线生成、奖励评分可用多种模型实现、无需引入在线奖励模型[14] - DPO算法缺点在于训练后期数据无法反映模型效果,训练上限不如在线策略强化学习高[14] 数据组织策略 - 提示库构建需避免回复过短的提示,针对数学推理类任务构造能引导思维链回复的提示格式[15][19] - 数据混合需让不同任务数据比例平衡,实现所有指标同步提升而非有升有降[15] - 回复生成需满足差异较大且有明确对错的要求,确保接受和拒绝回复有明确好坏区分[16][20] 实验过程关键发现 - 直接使用真实答案作为接受回复或固定模型结果作为接受回复会导致训练快速饱和,无法提高采样效率[27] - 训练动态中奖励准确度不断增长往往意味着更好训练效果,但该值与基准测试无直接关联[28] - 回复过短会导致DPO训练崩溃,尽管准确度能直接反映正确比例,但训练效果会变差[28] 结论与展望 - 视觉语言模型强化学习在数据提示混合、数据生成和配对数据构建几个关键环节做对后一定能带来性能提升[24] - 后续将投入视觉语言模型的在线强化学习训练,面临更多未知挑战[24]
对比学习视角,GRPO即DPO?
自动驾驶之心· 2025-10-18 16:03
文章核心观点 - 文章分享了作者在强化学习(RL)领域优化GRPO(Generalized Reinforcement Policy Optimization)算法的研究历程,重点描述了从最初尝试到最终发现2-GRPO有效性的过程 [2][3][4][5] - 研究揭示了在特定条件下,极简化的采样策略(如2-GRPO)可能与传统认知相悖但依然有效,并将GRPO与DPO(Direct Preference Optimization)联系起来 [4][5] 研究动机与初始尝试 - 研究动机源于对GRPO算法推理速度过慢的不满,旨在进行效率优化 [2] - 初始尝试方向为树状采样,希望借鉴TreePO的思路,通过预填充减少生成时间,但在Qwen2.5-7B-Math上的初步实验表明正确率高度依赖第一个句子,存在不平衡问题,因此放弃 [2][3] - 第二次尝试基于投机采样思想,即采到正确样本就停止,但工程实现中引入过多CPU操作可能导致气泡,未能实现时间优化 [3] 方案演进与关键发现 - 第三个方案利用历史信息估计题目正确率,并基于贝叶斯方法(Beta分布和Thompson采样)动态分配采样预算,实验结果显示在降低采样数量的同时保持了性能 [4] - 后续消融实验发现,在保持总采样量不变的情况下,将每个提示的采样次数从16降至8,性能几乎无差异 [4] - 进一步实验扩展到不同采样次数(32, 16, 8, 4)和模型规模(7B, 1.5B, deepseek-distill),均发现性能差异不大,挑战了常规认知 [4] - 受到与同行讨论启发,将GRPO与DPO及对比学习联系起来,提出了2-GRPO有效的理论依据,即其奖励归一化机制与对比学习原理相似 [5] 社区介绍 - 文章末尾部分介绍了“大模型之心Tech知识星球”,这是一个面向大模型技术的综合性社区 [7][8][9][10] - 社区聚焦于学术界和大模型应用一线,覆盖RAG、Agent、大模型微调、部署等多个子方向 [9] - 社区提供前沿技术文章、大佬交流、独家招聘信息、时效技术总结等内容 [10]
某新势力多位智驾高管离职......
自动驾驶之心· 2025-10-18 16:03
公司核心人员变动 - 蔚来智能驾驶产品负责人黄鑫于国庆节前离职,其于2022年加入公司并担任副总裁,直接向首席执行官汇报,负责智驾产品体验业务[4][6] - 人工智能平台负责人白宇利与世界模型负责人马宁宁于近期离职,白宇利2020年入职,职级为资深总监,马宁宁团队主导了世界模型1.0版本的全量推送[4][7][8] - 算法核心负责人樊昊阳已于四月份离职,其主导研发的端到端Planner模型显著提升了公司NOP+系统的实时决策能力[4][9] 公司组织架构与战略调整 - 公司回应此次人员变动为主动的组织架构调整,旨在强化对通用人工智能技术的吸收并加速智能驾驶体验交付[11] - 调整后构建了预研、量产、平台复制、车型复制的「4×100接力棒」模式,将智能驾驶组织与通用人工智能组织并轨[11] - 组织架构调整旨在全力冲刺世界模型2.0版本的开发与交付,预计从今年底到明年一季度陆续在多个平台推出迭代版本[11][13] 公司技术发展方向 - 公司技术战略以世界模型为主,旨在打通自动驾驶时空认知能力,认为真正的技术上限在于以视频为核心,学习时空和物理规律的世界模型[11] - 世界模型2.0的开发将引入语言能力,目标是实现像人一样的开放式交互,构建Open-set智能引擎[11] - 行业层面,近期多家主机厂与新势力公司在组织架构上均有大动作,预示下一轮智能驾驶质变时刻的前兆[14]
明日开课!自动驾驶VLA三大体系学习路线图:算法+实践
自动驾驶之心· 2025-10-18 16:03
自动驾驶VLA行业趋势 - 端到端技术之后,学术界和工业界聚焦方向是VLA(Vision-Language-Action),其提供类人思考能力,通过思维链形式展现车辆决策过程,从而提升自动驾驶可靠性和安全性[1] - 自动驾驶VLA目前可分为模块化VLA、一体化VLA和推理增强VLA三个子领域[1] - 传统BEV感知、车道线、Occupancy等方向相对成熟,行业关注度逐渐下降,自动驾驶VLA成为各家企业急需攻克方案[4] - 主流自动驾驶企业,包括智驾方案供应商和车企,都在发力自动驾驶VLA自研[4] 课程核心内容 - 课程涵盖自动驾驶VLA三大子领域前沿算法细致讲解,配备两个实战及一个课程大作业[6] - 核心内容包括视觉感知、大语言模型、Action建模、大模型部署、数据集制作等[6] - 最前沿算法包括CoT(思维链)、MoE(混合专家模型)、RAG(检索增强生成)、强化学习等[6] - 第一章概述VLA算法概念及发展历史,介绍开源BenchMark和常见评测指标[12][13] - 第二章讲解VLA算法基础,包括Vision、Language、Action三个模块基础知识,以及大模型与自动驾驶VLA结合方式[14] - 第三章讲解VLM作为自动驾驶解释器的经典和最新算法,如DriveGPT4、TS-VLM、DynRsl-VLM、SENNA[15] - 第四章聚焦模块化和一体化VLA,讲解语言模型从被动场景描述演变为主动规划组件的过程,配套ReCogDrive实战代码[16] - 第五章聚焦推理增强VLA,讲解长思维链推理、记忆和交互技术,配套Impromptu VLA实战代码[17][19] - 第六章为大作业,基于ms-swift框架进行网络构建、自定义数据集和模型加载,开启训练任务并进行微调[20] 行业技术发展 - 模块化VLA强调多阶段pipeline(感知→语言→规划→控制),语言模型为规划决策提供信息[16] - 一体化VLA直接连接动作解码器,实现感知→控制端到端映射,通过单次前向传播将传感器输入映射为控制动作[16] - 推理增强VLA将VLM/LLM置于控制中心,新增推理模块(如Chain-of-Thought、记忆体、工具调用),同步输出控制信号和自然语言解释[17] - 课程涉及多家机构最新研究成果,包括华科&小米ICCV2025中稿的ORION、慕尼黑工大OpenDriveVLA、上海交通大学DriveMoE、博世和清华AIR的DiffVLA、UC Berkeley和Waymo的S4-Driver等[17][18][23]