自动驾驶之心

搜索文档
快手团队发布8B Kwai Keye-VL!技术报告速递~
自动驾驶之心· 2025-07-07 12:17
{ "核心观点": { "模型定位": "快手团队推出8B参数规模的多模态基础模型Kwai Keye-VL,专注于提升短视频理解能力,同时保持通用视觉-语言处理能力[2]", "技术突破": "通过6000亿token的大规模视频数据集和创新的四阶段预训练+两阶段后训练策略实现性能突破[2][4]", "应用价值": "在公开视频基准测试和自建KC-MMBench短视频基准上达到SOTA水平,用户体验优于同规模模型[3]" }, "技术架构": { "数据构建": "数据集总量超6000亿token,侧重视频数据,采用过滤、重描和帧级标注等严格处理流程[4]", "预训练流程": { "阶段1": "基于Qwen3-8B初始化,冻结视觉/语言模型参数,优化投影MLP层实现跨模态对齐[12]", "阶段2": "解冻所有参数,端到端多任务训练覆盖图像描述、OCR、VQA等任务[13][14]", "阶段3": "精选高质量数据进行退火优化,解决广覆盖训练中的细节理解不足问题[15]", "模型融合": "采用同构-异构融合技术平均不同数据混合策略的模型权重,降低偏差[16]" }, "后训练策略": { "阶段1": "通过监督微调(SFT)和混合偏好优化(MPO)提升指令遵循等基础能力[5]", "阶段2": "五模式冷启动数据混合+强化学习(RL)激发高级推理能力[6]" } }, "性能表现": { "基准测试": { "通用能力": "在MMMUval(71.4)、AI2D(86.7)、MMStar(75.5)等通用基准领先[27]", "视频专项": "Video-MME(67.7)、LongVideoBench(62.8)、MMVU(66.1)体现视频理解优势[27]", "数学推理": "MathVistaMINI(80.7)、MathVersevision(59.8)显示跨模态推理能力[27]" }, "人类评估": { "视频子集": "整体评分3.33(5分制),在正确性(3.34)、相关性(4.83)等维度领先竞品[30]", "图像子集": "整体评分3.81,视觉识别(3.97)和基础描述(4.0)能力突出[30]" } }, "工程实现": { "并行策略": "混合数据并行(DP)与序列并行(SP),集成ZeRO优化器实现计算/通信重叠[23]", "负载均衡": "全局贪心策略按FLOPs分配样本,减少硬件空闲时间[24]", "容错机制": "样本级自动恢复检查点,精确恢复训练状态[25]", "推理优化": "适配vLLM框架支持视频输入,奖励模型随机调度降低RL时间开销[26]" }, "行业贡献": { "基准建设": "发布KC-MMBench短视频基准含6类任务1840个实例,填补领域空白[28]", "方法论输出": "提供从数据构建、训练策略到工程优化的全链路实践参考[3][4]" } }
分钟级长视频生成!地平线Epona:自回归扩散式的端到端自动驾驶世界模型(ICCV'25)
自动驾驶之心· 2025-07-07 12:17
自动驾驶世界模型Epona的核心创新 - 提出自回归扩散世界模型框架Epona,融合扩散模型与自回归模型优势,支持分钟级长视频生成、轨迹控制生成和实时运动规划[1][2] - 两项关键架构创新:解耦时空分解(分离时间动态建模与细粒度生成)、模块化轨迹与视频预测(端到端整合运动规划与视觉建模)[2][18] - 引入链式前向训练策略(CoF),解决自回归误差累积问题,FVD指标提升7.4%,支持600帧(2分钟)长视频生成[23][26][29] 技术架构与性能表现 - **解耦设计**:时序建模采用多模态时空Transformer(MST),空间生成采用双-单流DiT结构,支持逐帧自回归生成[20] - **多模态生成**:TrajDiT分支生成3秒连续轨迹(20Hz实时),VisDiT分支生成下一帧图像(4090 GPU上2秒/帧)[21][25] - **基准测试优势**:在NuPlan数据集上FVD降至82.8(优于Vista的89.4),NAVSIM轨迹预测碰撞率0.36%(优于UniAD的0.31%)[29][30] 行业应用价值 - 突破现有世界模型局限:解决传统视频扩散模型固定长度限制(如GAIA-2)与自回归Transformer模型离散token质量损失(如GAIA-1)[15] - 支持实际场景需求:可应用于轨迹控制视频生成(定制化驾驶模拟)和轻量化实时规划(仅启用TrajDiT分支)[21][28] - 参数量2.5B,计算效率优于NVIDIA Cosmos等同类模型,在消费级硬件(4090)上可部署[25][32] 行业技术趋势 - 世界模型成为下一代端到端自动驾驶关键路径,减少对感知模块与标注数据的依赖[6] - 自回归+扩散的混合架构成为前沿方向,Epona首次实现连续表征下的长序列自回归生成[9][33] - 当前行业痛点包括长时序一致性(如Cosmos限于短视频)与实时规划能力(如Vista缺乏轨迹控制),Epona提供统一解决方案[17][26][32]
滴滴自动驾驶感知算法一面面经
自动驾驶之心· 2025-07-07 12:17
滴滴自动驾驶技术布局 - 滴滴与广汽埃安联合成立广州安滴科技 专注于L4级无人驾驶研发 技术积累深厚[2] - 公司在自动驾驶领域投入力度大 是2024年求职者值得重点关注的企业[2] 感知算法面试技术考察要点 - 面试深度聚焦2D目标检测领域 要求梳理从传统方法到深度学习的关键算法演进[5] - 重点考察Anchor-Free检测算法FCOS的核心流程理解[6] - 涉及端到端检测算法最新发展 包括DETR的Transformer实现机制[7][8] 项目经验评估维度 - 面试官深度挖掘候选人在BEVDet模型等实际项目中的算法架构设计能力[9] - 重点评估业务落地过程中具体挑战的解决思路 要求结合场景化案例说明[10] - 现场代码能力测试包含NMS后处理等算法实现环节[11] 行业人才发展现状 - 自动驾驶领域技术岗位面试门槛高 要求对简历项目细节和技术原理完全掌握[2] - 行业已形成规模化的求职社群 覆盖地平线/理想汽车/华为等头部企业从业人员[12]
现在自动驾驶领域的行情怎么样了?都有哪些方案?
自动驾驶之心· 2025-07-07 06:47
自动驾驶产业概况 - 自动驾驶分级与应用主要包括行车、泊车、座舱和V2X功能 [1] - 核心系统由芯片、软件和传感器构成 [3] 技术发展趋势 - 传统自动驾驶pipeline仍是基础技术路线 [5] - 新兴技术包括端到端自动驾驶、VLM方案和VLA方案 [6][7] 行业主要参与者 - 主机厂分为新势力(小鹏、理想、蔚来等)、老牌车厂(比亚迪、吉利等)和外企(奔驰、大众等) [7] - 供应商包括已上市企业(地平线、小马智行等)和未上市企业(momenta、轻舟智行等),以及大厂如百度、滴滴 [8] 职位与技术方向 - 传统方案涵盖定位建图(定位匹配、建图)、感知层次(障碍物检测、BEV算法等)和后融合技术 [8] - 新方案包括端到端算法、扩散模型算法、强化学习、世界模型等前沿技术 [8] 行业资源与求职支持 - 提供自动驾驶、具身智能领域的面试一百问,涵盖毫米波视觉融合、BEV感知、规划控制等细分方向 [16][17] - 行业研报包括轨迹预测、Occupancy感知、端到端自动驾驶等深度内容 [21][22] - 分享成功和失败的面试经验,涵盖社招、校招和实习等多个维度 [25][27] - 提供谈薪技巧、HR面常见问题汇总等求职辅助内容 [29][32] 企业招聘与案例 - 招聘信息涵盖算法、开发、产品等岗位,包括校招、社招和实习机会 [11] - 具体企业面经包括滴滴出行、英伟达、小米汽车、华为等公司的真实案例 [31]
自动驾驶黄埔军校,一个死磕技术的地方~
自动驾驶之心· 2025-07-06 12:30
自动驾驶技术发展现状 - 自动驾驶技术正处于从辅助驾驶(L2/L3)向高阶无人驾驶(L4/L5)跨越的关键阶段 [2] - 特斯拉的纯视觉方案凭借成本优势和算法革新正在撼动多传感器融合的主流地位 [2] - 激光雷达成本已降至200美元,比亚迪自研体系内价格再降70%,技术红利背后是从业者持续升级的压力 [2] 自动驾驶人才市场变化 - 传统激光雷达感知算法工程师面临技术路线冲击,规划控制领域从PID到强化学习的转型带来技能升级紧迫感 [2] - 学生新手面临选择困难:感知算法赛道内卷加剧,数据闭环工程师需掌握分布式计算与AI模型调优能力,车路协同方向要求跨界知识融合 [2] 自动驾驶技术社区 - 自动驾驶之心知识星球是国内最大的自动驾驶学习社区,聚集近4000名成员和100+行业专家 [7] - 社区覆盖30+技术学习路线,包括端到端自动驾驶、BEV感知、Occupancy、3D目标检测等几乎所有子方向 [7] - 提供学术界与工业界前沿直播、求职内推渠道,每周活跃度位居国内前20 [7] 前沿技术方向 - 视觉大语言模型(VLM)在自动驾驶中的应用包括场景理解、轨迹生成和决策控制 [26][27] - 世界模型技术如GAIA-1、DriveDreamer通过生成式AI模拟驾驶场景演化,提升系统预测能力 [32][33] - 扩散模型在自动驾驶中用于场景合成、数据增强和轨迹预测,相关研究数量快速增长 [35][40] 数据集与评估 - 主流自动驾驶数据集包括nuScenes(12亿帧)、Waymo Open Dataset(12亿帧)和BDD100K(10万视频) [23][24] - VLM预训练数据集规模从1M(SBU Caption)到12B(WebLI),评估指标涵盖mAP(目标检测)、mIoU(语义分割)等 [17][18] 端到端自动驾驶进展 - 端到端方法逐步替代模块化架构,DriveGPT4、DriveMLM等模型实现感知-规划一体化 [29][53] - 技术挑战包括长尾场景处理、系统可解释性以及与传统规控方法的协同 [54][55] - 行业研究报告显示,特斯拉FSD的端到端方案推动量产落地进程加速 [47] 工业界应用案例 - 智能交通领域采用VLM实现语言引导车辆检索和视觉问答,提升交互效率 [25] - 自动驾驶决策控制中,DiLu、LanguageMPC等模型利用大语言模型增强决策可解释性 [28] - 仿真测试依赖扩散模型生成高保真场景,如DriveDreamer-2支持定制化视频生成 [30] 技术社区资源 - 知识星球提供四大板块:技术领域分类、学术直播、求职资料和问题解答 [10][11] - 汇总Awesome资源列表,包括视觉大语言模型、扩散模型和端到端自动驾驶的论文与代码库 [12][35] - 学习路线覆盖BEV感知、Occupancy、CUDA加速等30+方向,配套工程解决方案与优化思路 [66][67]
自动驾驶之心求职辅导推出啦!1v1定制求职服务辅导~
自动驾驶之心· 2025-07-06 12:11
辅导服务概述 - 推出1v1定制求职辅导服务 目标人群为希望转型智能驾驶方向的应届生和职场人士 周期约2个月 [2] - 课程特色为以求职成功为导向 聚焦目标岗位需求 快速补足知识能力短板 [2] 服务内容 基础服务 - 收费8000元/人 包含至少10次线上1v1会议 每次不低于1小时 [4] - 包含8次答疑+1次面试前复盘+1次正式面试后复盘 [5] - 服务涵盖学员能力评估 定制学习计划 提供学习资料 定期会议答疑 简历优化 岗位内推 [5][6] 进阶服务 - 项目实战需额外付费3000元 提供可写入简历的实际项目参与机会 [6] - 模拟面试需额外付费2000元 包含HR面试和业务面试全流程模拟 [6] 可辅导岗位范围 - 覆盖智能驾驶全链条岗位 包括产品经理 系统工程师 算法 软件开发 测试工程师 智能座舱产品经理 行业分析师等 [6][8] 师资力量 - 辅导老师均为行业专家 包括智驾产品专家 系统架构专家 算法专家等 平均从业经验超8年 [7] - 专家团队来自国内自动驾驶独角兽企业和主机厂 主导过头部车企智能驾驶产品方案 参与早期座舱方案开发 [7][9] - 具备算法/软件/测试全领域实战经验 输出过多份行业重量级研究报告 [9]
从25年顶会论文方向看后期研究热点是怎么样的?
自动驾驶之心· 2025-07-06 08:44
计算机视觉与自动驾驶研究热点 - 2024年CVPR和ICCV两大顶会的研究热点集中在四大领域:通用计算机视觉、自动驾驶相关、具身智能、3D视觉 [2] - 通用计算机视觉细分方向包括diffusion模型、图像质量评估、半监督学习、零样本学习、开放世界检测等 [3] - 自动驾驶领域聚焦端到端系统、闭环仿真3DGS、多模态大模型、扩散模型、世界模型、轨迹预测等技术 [3] - 具身智能领域重点研究方向为VLA(视觉语言动作模型)、零样本学习、机器人操作、端到端控制、sim2real迁移、灵巧抓取等 [3] - 3D视觉领域热点包括点云补全、单视图重建、3D高斯泼溅(3DGS)、3D匹配、视频压缩、神经辐射场(NeRF)等 [3] 自动驾驶技术应用方向 - 自动驾驶核心技术涵盖大模型应用、VLA系统、端到端解决方案、3D高斯泼溅(3DGS)、BEV感知、多传感器融合等 [4] - 具体技术分支包括毫米波雷达与视觉融合、激光雷达与视觉融合、多传感器标定、车道线检测、在线地图构建、Occupancy网络等 [4] - 决策规划领域涉及高性能计算、语义分割、轨迹预测、世界建模、3D目标检测等关键技术 [4] 具身智能与机器人技术 - 具身智能核心方向包括视觉语言导航、强化学习、Diffusion Policy、具身交互、机器人位姿估计等 [4] - 机器人控制技术覆盖运动规划、双足/四足机器人控制、遥控操作、触觉感知、SLAM等 [4] - 零样本学习在具身智能中具有重要应用价值 [4] 3D视觉与通用CV技术 - 3D视觉关键技术包含点云处理、3D高斯泼溅(3DGS)、SLAM等 [4] - 通用计算机视觉持续关注diffusion模型、图像质量评估、半监督学习等基础方向 [4] - 零样本学习在通用CV和具身智能领域均具有交叉应用 [3][4] 学术成果与科研支持 - 自动驾驶领域已有2篇论文被CVPR 2025收录 [3] - 科研支持范围覆盖自动驾驶顶会(CCF-A/B/C)、SCI各分区期刊、EI/中文核心等 [4] - 技术支持方向包括毕业论文、申博研究、学术竞赛等应用场景 [4]
资料汇总 | VLM-世界模型-端到端
自动驾驶之心· 2025-07-06 08:44
视觉大语言模型 - 视觉大语言模型在智能交通和自动驾驶领域有广泛应用,相关资源包括Awesome-VLM-AD-ITS和Awesome-LLM-Inference等GitHub项目 [4] - 视觉语言模型的研究方向包括预训练、迁移学习、知识蒸馏等,涉及CVPR、ICLR、NeurIPS等多个顶会论文 [5][7][8] - 视觉语言模型的架构和推理策略有专门的研究,如Awesome-VLM-Architectures和Awesome-VLM-Inference-Strategies等项目 [4] 世界模型 - 世界模型在自动驾驶中的应用包括3D场景理解和未来场景生成,代表性工作有HERMES和DrivingGPT等 [9][10] - 2025年最新综述总结了自动驾驶中的世界模型研究现状 [10] - 世界模型在4D驾驶场景表示和规划中发挥重要作用,如DriveDreamer4D和DriveWorld等项目 [12][13] 扩散模型 - 扩散模型在自动驾驶视频生成和场景理解中有广泛应用,相关资源包括Awesome-Diffusion-Models等项目 [14] - 扩散模型在图像处理、视频编辑、3D视觉等领域都有专门研究,涉及多篇综述论文 [15] - 扩散模型与自动驾驶世界模型的结合是新兴研究方向,如DriveDreamer-2等项目 [13] 端到端自动驾驶 - 端到端自动驾驶研究涉及感知、预测、规划等多个环节,相关资源包括Awesome-End-to-End-Autonomous-Driving等项目 [21] - 端到端自动驾驶的最新进展在CVPR、ICRA、NeurIPS等顶会上有专门研讨 [21] - 端到端自动驾驶技术栈涵盖大模型、BEV感知、多传感器融合等30+方向 [19][21] 行业社区 - 自动驾驶行业有近4000人的交流社区,300+公司和科研机构参与 [19] - 社区覆盖30+技术方向的学习路线,从基础到前沿全面覆盖 [19] - 社区提供专业课程,涉及端到端自动驾驶、大模型、仿真测试等多个方向 [20][21]
deepseek技术解读(3)-MoE的演进之路
自动驾驶之心· 2025-07-06 08:44
DeepSeek MoE技术演进 - 核心观点:DeepSeek在MoE架构上持续创新,从V1到V3版本通过细粒度专家分割、共享专家隔离、负载均衡优化等技术手段提升模型性能 [15][16][36] MoE基础架构 - MoE包含三部分:专家网络(前馈网络)、门控网络(计算专家权重)、选择器(TopK策略) [7] - Google提出的Transformer MoE层设计:用MoE替换FFN层,通过门控值加权多个专家输出 [5] - 负载均衡辅助损失解决专家间token分配不均问题,防止少数专家过载 [6][8] DeepSeek V1创新 - 细粒度专家分割:分割FFN隐藏维度增加专家数量,提升知识分解精度 [16] - 共享专家隔离:设置常激活专家捕获共同知识,减少其他专家冗余 [16] - 双层级负载均衡:专家级(公式12-14)和设备级(公式15-17)负载loss [19][23] DeepSeek V2升级 - 设备受限路由机制:限制每个token的激活专家分布在≤3台设备,降低通信成本 [28] - 通信负载均衡loss:公式29-31确保设备间输入输出负载均衡 [30][32] - Token丢弃策略:超过设备容量的低权重token跳过计算,通过残差传递 [33][34] DeepSeek V3改进 - 门控函数升级:用Sigmoid替代Softmax,解决高维度专家(256个)权重区分度问题 [36][38][39] - 精简辅助损失:通过动态bias替代多层级负载loss,减少对主模型干扰 [40][41] - 序列级均衡loss:公式17-19在单样本粒度平衡专家分配 [42][43] 技术演进总结 - V1:建立共享专家+细粒度专家框架,引入双层级负载均衡 [44] - V2:优化通信效率,新增设备路由限制和通信均衡机制 [44] - V3:门控函数革新,负载均衡策略简化,支持更大规模专家 [44]
具身智能,到了交卷的时刻了。。。
自动驾驶之心· 2025-07-06 03:10
具身智能行业动态 - 具身智能技术从概念验证进入量产阶段 多家公司正在推进商业化落地 如地瓜机器人演示的宇树Go2四足机器狗已展现实用化潜力 [2] - 行业竞争焦点从PR宣传转向技术可靠性 未来市场将更关注实际产品表现而非营销噱头 [2] 核心技术发展 - 感知能力升级聚焦多模态融合 触觉感知成为灵巧手领域突破重点 力控技术提升操作精细度30%以上 [4] - 大模型算法推动机器人认知进化 通过多模态数据训练提升自主学习与决策规划能力 轻量化模型设计需求迫切 需支持低算力跨平台部署 [4] - 仿真环境构建加速技术迭代 Sim2Real技术实现虚拟与现实数据对齐 物理世界建模覆盖光电气热等复杂变量 [4] - 本体形态多样化催生数据共通需求 需从双足/轮式等不同结构中抽象通用特征 [5] 技术社区生态 - 具身智能之心知识星球汇聚近200家头部企业与研究机构 包括斯坦福、清华等高校及优必选、小米等公司 [13] - 社区提供40+开源项目、60+数据集及主流仿真平台 覆盖强化学习、多模态大模型等16个技术方向 [13][18] - 行业资源包含30家研报汇总、零部件品牌库及国内外实验室名录 助力学术与产业对接 [17][20][22][26] 人才发展路径 - 自动驾驶与具身智能技术栈高度互通 视觉语言导航和DL-based SLAM成为转型热门方向 [69][72] - 行业处于探索期 对标自动驾驶2017-2018阶段 技术窗口期预计持续12-24个月 [72][73] - 职业转型建议优先选择头部厂商 薪资差异显著 初创公司总包可达70-80万但稳定性较低 [75] 技术应用案例 - 机械臂领域已实现LLM+MoveIt技术栈应用 需强化问题解决能力的项目包装 [68] - 仿真环境下推荐Isaac Sim框架延续项目 重点突破分层决策与端到端方案优化 [68][18] - VLM在机器人抓取规划中实现跨模态指令解析 需结合Transformer基础进行迁移 [69]