自动驾驶之心

搜索文档
超级折扣卡推出啦,平台所有课程七折优惠!
自动驾驶之心· 2025-09-04 03:35
使用范围 :自动驾驶&具身智能自研课程,包括后续新课程; 有效期 :自购买之日起一年内使用; 超级折扣卡推出啦 不少同学一直吐槽自动驾驶之心的课程太贵了hhh,想买但预算有限。我们也收到了大家的反馈,今年我们陆续推出了《 端到端与 VLA自动驾驶小班课 》、《自动驾驶端到端与规划控制(第三期)》、《 自动驾驶4D标注算法就业小班课 》。反响都还不错,尤其 是 端到端与VLA,大家反馈都很好,Jason老师也很给力。未来还计划推出一些VLA、模型部署等方向的课程。 针对同学们反馈的课程价格问题,团队内部也商量了一下,决定给大家更多的优惠,开学季也到了,我们正式推出 价值 299元 的 『超级折扣卡』! 购买后平台所有课程一律七折优惠! 折扣卡价格 :299元; 活动时间 :9.1-9.14日; 补充说明 :若购买后的一年内您未在平台购买任何课程,超级折扣卡可以全额退款; 扫码购买折扣卡 微信添加小助理咨询 ...
开放几个大模型技术交流群(RAG/Agent/通用大模型等)
自动驾驶之心· 2025-09-04 03:35
技术交流群成立 - 大模型之心Tech技术交流群正式成立 专注于大模型相关技术交流 [1] - 交流内容涵盖大模型RAG AI Agent 多模态大模型 大模型部署等方向 [1] - 感兴趣者可添加小助理微信AIDriver005申请加入 需备注昵称和大模型加群 [2]
从MLLM到Agent:万字长文览尽大模型安全进化之路!
自动驾驶之心· 2025-09-03 23:33
大模型演进与安全挑战 - 人工智能从单一文本交互发展到多模态理解与智能体自主决策阶段 能力上限持续扩张但安全风险呈指数级增长 [2] - 越狱攻击通过精心设计的输入或环境扰动绕过模型安全机制 诱导生成违法有害内容 可能引发虚假信息传播和网络攻击等严重后果 [2] - 现有研究缺乏对LLMs-MLLMs-Agents全演进链路的系统性梳理 尚未形成统一的攻击分类框架和评估标准 [2] 研究综述核心贡献 - 系统追溯大模型从LLMs到MLLMs再到Agents的发展脉络 构建越狱攻击分类体系 [3] - 梳理数据集 评估指标与防御策略的最新进展 指出当前研究局限与未来方向 [3] - 核心贡献包括完整呈现演进路径与安全挑战 从双视角对越狱技术分类 解析实验设计 体系化防御策略和提出未来方向 [4] 大语言模型(LLMs)发展 - Transformer架构的自注意力机制实现全局语境建模与并行计算 为超深网络训练奠定基础 [8] - 模型性能随参数 数据量 算力增长而提升 从BERT的3.4亿参数到PaLM的5400亿参数 [9] - 模型能力涌现链式推理和上下文学习等高级能力 InstructGPT通过指令微调和RLHF优化交互效果 [9] - LLMs仅能处理文本模态 易受训练数据偏见和提示操纵影响 早期越狱攻击集中于文本层面操纵 [11] 多模态大语言模型(MLLMs)发展 - MLLMs通过跨模态对齐和联合表示学习实现图像音频等非文本信息与文本语义关联 [12] - 能力扩张带来全新安全风险 多模态输入复杂性使攻击面显著扩大 攻击者可利用视觉漏洞和音频漏洞诱导有害内容生成 [13] - 越狱攻击更具隐蔽性 多模态信息融合可能掩盖单一模态中的恶意信号 防御机制难以精准识别 [15] 智能体(Agents)发展 - Agents定义为能够感知环境自主采取行动的智能实体 由核心 规划 工具和记忆四大组件构成 [17][21] - 应用场景从被动响应转向主动执行 带来最严峻的安全挑战 攻击目标变为篡改决策行为 [17] - 攻击者可能通过污染长期记忆或利用工具调用漏洞使Agents执行恶意行动 引发跨Agent的攻击传播 [17] 越狱攻击双维度分类 - 从攻击影响维度细分为攻击阶段与干预层级 攻击阶段包括训练期和推理期攻击 干预层级包括提示层 推理层和模型层攻击 [25][26][28][29][31][32] - 从攻击者权限维度分为白盒攻击和黑盒攻击 白盒攻击可访问模型内部信息进行精准打击 黑盒攻击仅通过输入输出交互进行盲测 [32][35][36] 数据集现状与局限 - 现有数据集按数据来源分为LLM自动生成 搜索引擎检索和人工制作 按数据格式分为问答格式 指令格式和有害句子图像格式 [38][39][40][41] - 存在动态性不足 语言与文化局限 多模态与多轮场景覆盖少三大局限 静态数据集难以跟上快速迭代 英文为主缺乏多语言覆盖 [43] 评估指标分类与应用 - 主流评估指标分为人工评估 Perspective API评估 LLM评估 关键词词典评估和自定义评估五类 [44][46][47][48][50][53][55] - 多方法融合成为趋势 先用关键词词典初步筛选 再用LLM评估批量处理 最后对高争议样本人工审核 [58] - 不同评估方法在各类模型上表现差异显著 例如GCG在AdvBench数据集上对GPT-3.5攻击成功率达90% 但对GPT-4V仅为35% [57] 防御策略体系 - 按防御响应时机分为输入防御 输出防御和联合防御 输入防御源头阻断恶意输入 输出防御结果审核有害内容 联合防御融合多阶段策略 [59][61][62] - 按技术手段分为规则启发式防御 ML/DL防御 对抗检测防御和混合策略防御 混合策略防御成为应对复杂攻击的主流方向 [62][65][66][69][70] - 当前防御存在多模态防御能力不足 智能体防御滞后和防御与能力平衡难三大挑战 [70] 现存局限与未来方向 - 四大核心局限包括数据集多样性模态覆盖与动态性不足 评估方法缺乏统一标准 攻击技术泛化性差和防御技术被动响应 [74][75][76][77] - 五大未来方向包括构建动态多模态多语言数据集 优化评估框架建立统一标准 突破攻击技术泛化性 研发主动防御技术和重视伦理与监管 [79][80][81][82][83] - 大模型安全研究进入全链路多模态多智能体协同防御新时代 需突破现有瓶颈兼顾伦理与监管构建稳健生态 [85]
上岸自动驾驶多传感融合感知,1v6小班课!
自动驾驶之心· 2025-09-03 23:33
多模态感知融合技术背景 - 单一传感器如摄像头、激光雷达或毫米波雷达的感知能力难以满足复杂场景需求 自动驾驶、机器人导航和智能监控等领域快速发展推动多传感器融合技术应用[1] - 多传感器融合通过优势互补构建更全面鲁棒的环境感知系统 摄像头提供丰富语义信息和纹理细节 激光雷达生成高精度三维点云提供准确距离和深度信息 毫米波雷达在恶劣天气下穿透性强能稳定探测物体速度和距离且成本相对较低[1] - 传感器融合实现全天候全场景可靠感知 显著提高自动驾驶鲁棒性和安全性[1] 多模态感知融合技术演进 - 技术从传统融合方式向端到端融合和基于Transformer架构演进 传统融合分为早期融合(输入端拼接原始数据计算量巨大)、中期融合(传感器数据初步特征提取后融合不同模态特征向量目前主流方案)和晚期融合(传感器独立感知决策层面结果融合可解释性强但难以解决信息冲突)[2] - 基于Transformer的端到端融合是当前最前沿方向 通过跨模态注意力机制学习不同模态数据深层关系 实现高效鲁棒的特征交互 端到端训练减少中间模块误差累积 直接从原始传感器数据输出感知结果如三维目标框[2] - 技术已广泛应用于L2-L4级自动驾驶系统 包括高精度地图构建、全场景鲁棒感知和自动泊车等领域[2] 技术挑战 - 传感器标定是首要难题 需确保不同传感器在空间和时间上的高精度对齐[3] - 数据同步问题需解决传感器帧率不一致和时延不同步情况[3] - 核心研究方向是设计更高效鲁棒的融合算法 有效利用处理不同传感器数据的异构性和冗余性[3] 课程体系与安排 - 课程周期为12周在线小组科研加2周论文指导再加10周论文维护期 共24周[4][14] - 课程内容涵盖经典论文、前沿论文和代码实现 包括创新点、baseline、数据集以及选题方法、实验方法、写作方法、投稿建议[4][11] - 参考时间安排共14周 每周课时1-1.5小时 从课题概览到未来发展方向全面覆盖[21][23] 学习资源与要求 - 提供多模态数据集包括ADUULM-360、nuScenes、KITTI等公开数据集[18][19] - 提供Baseline代码取决于具体应用 包括多模态3D目标检测、BEV视角下Transformer融合以及基于点云图像的多模态融合等开源项目[19][21] - 必读论文包括Multi-View 3D Object Detection for Autonomous Driving、PointPillars、BEVFormer等5篇核心论文[22] 硬件与基础要求 - 最好具备4张4090显卡或以上设备性能的机器 最低不少于2张4090显卡设备 可考虑租赁云服务器[15] - 需具备深度学习基础 对多模态融合算法有简单了解 熟悉掌握Python语法以及PyTorch使用 最好具备Linux系统下开发调试能力[15] - 需完成在线1v1面试 学习Python编程语言入门和深度学习与PyTorch框架等先修课程[15] 课程产出与价值 - 学员将产出论文初稿、项目结业证书 并根据优秀程度获得推荐信[20] - 课程交付价值包括科研流程、写作方法和论文初稿[31] - 提供科研论文idea、数据集和Baseline代码三大核心资源[33]
特斯拉Optimus:世界模型会终结一切
自动驾驶之心· 2025-09-03 23:33
特斯拉Optimus技术演进路径 - 特斯拉Optimus大脑技术方案已从模仿学习转向视频学习,并计划最终采用世界模型方案[5] - 模仿学习虽实现端到端控制,但存在数据泛化性问题[6] - 视频学习解决数据来源多样性问题,但无法解决规模和成本问题[6] - 世界模型作为终极方案可同时解决数据多样性、规模和成本问题,并为机器人提供物理世界知识[6] 世界模型技术特性 - 世界模型是拥有大规模真实世界物理知识的模型,其内部所有行为都符合物理规律[6] - 与手动编写规则的传统模拟器不同,世界模型通过海量真实世界视频自主学习物理规律[6] - 谷歌Genie3创造近似3D物理世界,支持用户交互和创造,与2D固定视角的视频生成模型有本质区别[9][11] - Genie3生成的内容符合物理规律且可进行强交互,非常逼近真实场景[11] 世界模型在机器人领域的应用 - 首先使用Optimus执行任务的少量视频对通用视频生成模型进行微调,使模型理解机器人自身的物理特性[12] - 模型理解后可接受自然语言指令生成海量逼真模拟视频[14] - 通过逆向动力学模型分析成功视频,反解出电机控制指令(伪动作)[14] - 将视频与伪动作配对形成海量数据对,用于高效训练主控AI[14] - 该方法使机器人能在虚拟世界进行零成本、零风险的试错学习,特别适用于处理罕见边缘案例[14][16] - 英伟达技术显示该方法使人形机器人从1个现实任务扩展到22种新行为,未知环境任务成功率从0%提升至40%以上[16] 行业技术发展现状 - 目前自动驾驶行业大多数企业尚未实现端到端,仍采用感知-决策-控制分层设计[17] - 国内人形机器人企业仍处于花费大量资金收集数据进行模仿学习的阶段[17] - 特斯拉Optimus从模仿学习迁移到视频学习花费数年时间,预计还需数年才能实现世界模型方案[17]
百度视觉技术部多模态感知与理解招聘(社招/校招/实习)
自动驾驶之心· 2025-09-03 23:33
百度视频理解算法岗位招聘 - 招聘类型包括校招、社招和实习(可转正) 工作地点为北京或深圳 [2] - 负责文心一言在视频理解方向的SOTA算法研发 聚焦视频问答、视频描述/摘要生成、时序行为定位、视频主题检测等核心任务 [2] - 要求计算机/人工智能相关领域硕士或博士学历 在顶级会议(CVPR/ICCV等)发表论文者优先 [4][5] 团队优势与福利 - 团队处于快速扩张期 校招、社招、实习岗位Headcount充足 [6] - 提供大牛导师一对一指导 深度参与文心大模型项目 [6] - 福利包含免费水果、健身房及有竞争力的薪资 [6] AutoRobo求职社区资源 - 社区专注自动驾驶/机器人/具身智能/大模型领域 已有近1000名成员 涵盖智元机器人、地平线、理想汽车等企业员工及2024/2025届校招者 [9] - 每日更新算法/开发/产品岗位招聘信息 包含校招、社招、实习等类型 [10] - 提供行业研报如《世界机器人报告》《中国人形机器人发展蓝皮书》等 覆盖技术路线与市场前景分析 [19] 专业面试资源库 - 汇总自动驾驶领域专项问题集 包括毫米波视觉融合、BEV感知、多传感器标定等10个核心模块的"一百问"专题 [14] - 包含具身智能方向Nerf应用、轨迹预测、Occupancy感知等6个技术方向的面试题库 [15][18] - 整理多家企业面经 如滴滴算法工程师、英伟达春招、小米汽车算法岗等7类实战案例 [21] 职业发展支持服务 - 提供谈薪技巧指导 包含HR面常见问题汇总与薪资谈判关键回答 [23][25] - 分享转行自动驾驶行业经验 面试官建议及算法岗基础技能树构建方法 [25] - 提供专业书籍资源与简历优化服务 支持C++、产品经理等岗位面试准备 [24]
自驾VLA新SOTA!阿里AutoDrive-R²:自反思思维链&物理奖励,突破VLA泛化瓶颈
自动驾驶之心· 2025-09-03 23:33
核心观点 - 阿里巴巴和昆士兰大学团队提出AutoDrive-R²框架 通过结合思维链处理和强化学习 显著提升自动驾驶系统的推理能力和轨迹规划质量 [2][8][10] - 该框架采用两阶段训练方法 包括监督微调SFT和基于物理奖励的GRPO强化学习 在nuScenes和Waymo数据集上实现最先进性能 [17][35][37] - 创新性构建nuScenesR²-6K数据集 包含6000个样本 采用四步逻辑链结构 首次在自动驾驶领域同时激发模型推理与自反思能力 [8][19][20] 技术框架 - 第一阶段监督微调使用nuScenesR²-6K数据集 通过四步逻辑链(可视化→计算→逻辑→反思)建立基础感知能力 [19][20][43] - 第二阶段采用GRPO算法 每个输入生成6个候选响应 通过基于物理的奖励函数优化轨迹规划 [21][33][45] - 奖励函数整合空间对齐 车辆动力学和时间平滑性约束 确保轨迹的物理可行性和安全性 [26][28][29] 性能表现 - 在nuScenes数据集上 7B模型将平均L2误差降至0.19米 相比基准模型Qwen2.5-VL-7B的1.45米降低86.9% [35][43] - 在Waymo数据集零样本测试中 相比EMMA+方法降低33.3%误差 相比Qwen2-VL-72B基准降低90.7%误差 [37][38] - 3B模型同样表现优异 平均L2误差0.49米 证明框架对小规模模型的有效提升 [35][39] 关键创新 - 基于物理的奖励框架包含四个组件:空间对齐奖励(公式4) 转向角偏差惩罚(公式5) 速度约束(公式6)和时间平滑性惩罚(公式7) [27][28][29] - 自反思机制作为第四步推理 通过反向验证结论提升模型鲁棒性和答案正确性 [20][43] - GRPO算法采用候选响应间成对比较机制 简化架构并降低计算开销 [21][25] 实验验证 - 消融实验证明四步逻辑链的必要性:移除自反思使误差上升21.1% 移除完整推理结构使误差上升31.5% [43] - 奖励组件缺省实验显示空间对齐最关键 其缺失使误差升至0.53米 转向角 速度和时间组件缺失分别导致误差上升10.5% 15.8%和26.3% [44] - 候选响应数量实验表明6个为最优平衡点 达到0.19米最低误差 超过6个后性能提升减弱 [45][46] 行业意义 - 解决现有VLA方法两大局限:物理不可行轨迹生成和复杂场景推理能力不足 [8][9] - 为端到端自动驾驶提供新范式 实现感知 推理和规划的联合优化 [6][11][47] - 推动视觉-语言-动作模型在自动驾驶领域的实际应用部署 [7][12][47]
自动驾驶之心超级折扣卡推出啦,所有课程七折优惠!
自动驾驶之心· 2025-09-03 06:44
课程产品与市场反馈 - 公司近期推出《端到端与VLA自动驾驶小班课》《自动驾驶端到端与规划控制(第三期)》《自动驾驶4D标注算法就业小班课》等自研课程 [2] - 端到端与VLA课程市场反响显著 用户反馈积极 [2] - 未来计划推出VLA、模型部署等方向新课程 [2] 超级折扣卡促销策略 - 推出定价299元超级折扣卡 购买后平台所有课程享受七折优惠 [2][4] - 折扣卡适用范围覆盖自动驾驶及具身智能领域全部自研课程 包括未来新课程 [4] - 活动限时开展 时间为9月1日至9月14日 [4] - 折扣卡有效期自购买日起一年 若未使用可全额退款 [4] 用户需求与定价调整 - 用户反馈课程定价较高 存在预算限制问题 [2] - 公司基于用户反馈调整定价策略 通过折扣卡形式提供优惠 [2]
AI Day直播 | MemoryVLA:助力长时序机器人操作任务
自动驾驶之心· 2025-09-03 03:19
文章核心观点 - 现有视觉-语言-动作模型在长周期时序依赖任务中表现不佳 主要依赖当前观测而忽略历史时序信息 [2][7] - 受人类记忆机制启发提出MemoryVLA框架 通过工作记忆和长期记忆系统提升机器人操作性能 [3][7] - 该框架包含感知-认知记忆库和记忆条件化扩散动作专家 能够自适应融合历史信息生成时序感知动作序列 [3] 技术方案细节 - 预训练VLM将观测编码为感知token和认知token 分别形成工作记忆和长期记忆 [3] - 感知-认知记忆库存储低层级细节和高层级语义信息 并通过合并冗余实现记忆更新 [3] - 工作记忆从记忆库检索决策相关条目 与当前token融合后生成动作序列 [3] 应用场景与价值 - 专门针对长周期机器人操作任务设计 解决非马尔可夫性任务中的时序依赖问题 [2][3] - 通过模拟人类海马体系统和工作记忆机制 提升模型在复杂操作任务中的表现 [3][7] 研究背景与进展 - 论文已发表于arXiv平台 编号2508.19236 项目主页同步开放 [4] - 研究成果由清华大学自动化系团队开发 计划通过直播形式进行技术分享 [4][7]
自动驾驶论文速递 | DriveQA、闭环仿真、AIGC、世界模型等~
自动驾驶之心· 2025-09-03 03:19
分享下最近自动驾驶领域的相关工作! DriveQA 基于多模态大语言模型的交通规则理解与评测 波士顿大学与圣路易斯华盛顿大学团队ICCV25中稿的论文,本文提出了DriveQA数据集,通过整合美国各 州驾驶手册文本与CARLA仿真环境中的视觉场景,构建了包含474K样本的驾驶规则问答基准,在表1中与 现有多模态数据集(如NuScenes-QA、DriveLM等)对比突显其全面覆盖交通规则的优势,并在表2-9中验 证了其对模型泛化与推理能力的提升效果。 主要贡献: 算法框架: 论文标题:DriveQA: Passing the Driving Knowledge Test 论文链接:https://arxiv.org/abs/2508.21824 项目主页:https://driveqaiccv.github.io/ 1. 提出 DriveQA 多模态驾驶知识基准 :构建了涵盖文本(DriveQA-T)与视觉 - 文本(DriveQA-V)的大 规模评估基准,其中 DriveQA-T 含 26K QA 对(源自美国 51 个地区驾驶手册,覆盖 19 个问题类别, 含答案解释),DriveQA-V 含 68K 图 ...