Workflow
自动驾驶之心
icon
搜索文档
Tesla终于分享点东西了,世界模型和闭环评测都强的可怕......
自动驾驶之心· 2025-10-25 16:03
特斯拉FSD技术架构 - 采用单一大型模型处理自动驾驶任务,利用海量数据和长上下文输入[5] - 神经网络计算时间为固定值,不受环境影响,系统运行频率高达36Hz,直接输出控制动作[5] - 工程能力强大,实现了从感知到动作的端到端输出[5] 端到端自动驾驶的驱动因素 - 人类驾驶行为难以用单一评价函数精确描述,规则优化方法存在局限性[8] - 传统模块化架构中感知、预测与规划间的接口定义存在信息损失问题[8] - 端到端架构具备更好的可扩展性,更有利于解决长尾场景问题[8] - 神经网络固定计算时间相比传统规划控制求解器能有效降低系统延迟[8] - 遵循Sutton的"苦涩教训"哲学,强调依赖算力与数据而非过多人工预设[8] 端到端技术面临的核心挑战 - 存在维度灾难问题,即高维输入到低维监督信号导致学习信号不充分[20][21] - 模型可解释性与安全保障是重大挑战,需确保网络真正理解驾驶而非仅拟合捷径[21][23] - 系统评估是三大挑战中最困难的部分,无法直接用损失函数衡量实际表现[36][39] 特斯拉的解决方案与技术亮点 - 通过丰富数据产生有效梯度破解维度灾难,利用各种触发机制和小型神经网络挖掘数据[23][25] - 采用思维链推理过程,融合3D高斯重建、语言理解等多模态信息进行决策[27][33] - 3D高斯重建技术具有速度快、支持动态物体、无需点云初始化、新视角合成效果好等优势[30][31] - 构建基于世界模型的模拟器,通过动作生成后续视频,支持大规模强化学习训练[41][44] - 评估体系强调闭环测试的重要性,需覆盖驾驶行为的多模态性,并平衡评估数据集[39] 技术通用性与应用拓展 - 整套FSD技术架构完全适用于人形机器人领域[46] - 可通过视频数据训练世界模型,并利用仿真环境进行强化学习训练,实现技术闭环[46]
0.1$一键Get神仙主页!让科研人不再熬夜秃头的Paper2Page来了
自动驾驶之心· 2025-10-25 16:03
核心产品介绍 - 推出AutoPage多智能体协作框架,旨在将学术论文PDF一键转化为高质量、交互式项目主页,解决研究者手动制作主页的低效问题 [1] - 产品功能包括自动解析论文章节结构与图表信息、智能生成叙事文本与模块化内容块、自动调整图像和排版、一键渲染支持动态交互的网页结构 [4] - 用户只需输入论文PDF,即可在15分钟内自动生成结构清晰、图文丰富的研究主页,成本低于0.1美元 [2][16] 技术方法与创新 - 采用多智能体分工协作管线,将任务拆解为“从粗到精”的三个步骤:叙事规划与结构设计、多模态内容生成、交互式页面渲染 [7][8][9] - 创新点在于通过“规划师”、“内容生成器”、“核查员”、“渲染工程师”等多个智能体分工协作,避免传统端到端生成导致的页面结构混乱和内容失真 [7] - 流程中设置多个人工校验点,允许用户随时介入修改结构或调整风格,增强协作的自然性 [10] 性能表现与优势 - 在超过1500个学术主页模板构建的评测基准PageBench上,AutoPage在内容保真度、视觉美感、布局合理性等指标上显著优于GPT-4o-mini和Gemini-2.5-Flash等基线模型 [13][16] - 端到端生成时间少于15分钟,成本低于0.1美元,大幅减少传统手工制作的时间开销 [16] - 真实用户盲评得分最高,被评价为“内容更连贯、视觉更吸睛” [16] 可用性与开源 - 所有代码已开源,项目提供论文链接、项目主页、代码库及Huggingface Space等多个访问渠道 [4][14] - 算法适配多种大模型API,用户可自由选择使用Qwen、Gemini或GPT的API,其中使用Gemini2.5 Flash的性价比最高 [14]
CVPR 2026倒计时Day21,冲这个方向简直降维打击!
自动驾驶之心· 2025-10-24 16:03
文章核心观点 - 文章预测CVPR2026会议投稿量已超2000篇,主旋律可能是“世界模型”,并以此作为论文辅导服务的核心方向 [1] - 公司提供论文辅导服务,旨在通过学术界/工业界大牛指导,帮助学员在关键节点发力,掌握技术脉络并产出论文,以冲击顶会和中稿 [2] - 公司拥有国内顶尖学术资源,300+专职老师来自全球QS前100高校,近3年辅导学员成果显著,涵盖CVPR、ICRA等顶会 [3] 公司服务与资源 - 公司作为国内最大AI类技术自媒体平台,拥有自动驾驶之心/具身智能之心/3D视觉之心等IP,深耕自动驾驶、具身智能、机器人方向 [3] - 公司拥有300+专职于自动驾驶/具身智能方向的老师,来自全球QS排名前100高校,发表过多篇顶会/子刊/A会/B会论文 [3] - 公司提供个性化论文指导服务,包括导师实时互动、录播无限次回看、免费课后答疑、24h无时差上课,覆盖选题至投稿一站式科研服务 [11] 服务流程与成果 - 公司辅导流程包括掌握技术脉络、复现模型、产出1篇论文初稿、投稿指导,助力学员冲击高区/顶会 [2] - 公司展示学员成果案例,如程同学(研二)4个月中稿CVPR顶会,张同学(博五)3个月中稿emnlp顶会 [4] - 公司服务帮助解决导师放养、科研体系不清晰等问题,协助学员建立科研思维、掌握算法、提升实践能力,并将baseline深化为论文 [5] 目标学员与方向 - 公司主要辅导方向包括三维重建、relighting、NVS、SLAM、点云处理、VLA、机器人导航、计算机视觉等 [8] - 目标学员为有科研需求、从事人工智能领域工作想升职加薪、考研申博留学提升简历含金量的人群 [9][10] - 学员要求自带简历,有一定pytorch基础,公司通过精准匹配系统从300+导师中筛出3-5位最契合人选 [8][15] 服务优势与附加价值 - 公司提供基础课程供零基础学员自主学习,承诺踏实地跟导师学习6个月能出一篇小论文 [14] - 优秀学员可获清北/MIT等名校推荐信,推荐到实验室实习,表现突出者直接内推阿里达摩院、华为诺亚方舟等企业研发岗 [16] - 公司承诺预收定金后可和名师meeting,不满意可免费更换老师/退款,收费根据分区目标和学员情况详细报价 [16]
马斯克:钱不到位,这CEO是一天也干不下去了?
自动驾驶之心· 2025-10-24 16:03
特斯拉CEO薪酬方案 - 特斯拉为留住CEO马斯克推出新薪酬方案,价值高达万亿美元[3][7] - 方案要求马斯克继续掌舵公司至少10年[7] - 若无法获得该高额薪酬,马斯克表示将不再担任特斯拉CEO[6][17] 薪酬方案绩效目标 - 市值目标最高需达到8.5万亿美元,较当前水平增长近8倍[8] - 利润目标最高需达到4000亿美元,较2024年提高近24倍,最低档为500亿美元[8] - 产品目标包括累计交付2000万辆特斯拉汽车、1000万个FSD活跃订阅用户、100万台特斯拉机器人及投入运营100万辆Robotaxi[8] - 若达成所有目标,马斯克持股比例将从13%增至约25%,对应价值1万亿美元[10] 薪酬方案的市场反应 - 该方案被描述为人类史上最高薪酬方案,超过特斯拉成立以来利润总和[11] - 机构股东服务公司等反对者认为薪酬规模是"天文数字",可能稀释现有股东股权且方案设计存在漏洞[19][20][21][22] - 支持者包括方舟投资创始人"木头姐",她预测方案将以压倒性优势通过[26][28] - 薪酬方案最终结果将于11月6日股东大会定夺[31] 特斯拉产品路线图 - 特斯拉首席设计师确认第二代Roadster跑车将在2027年投产,并于今年亮相[32][33][38] - Roadster 2.0定位为四座敞篷跑车,0-100km/h加速时间预计不到1秒,目标成为陆地上最快量产车[39][40] - 该车型被定位为"最后一台驾驶者之车",FSD全自动驾驶并非其核心特点[40] - 特斯拉高管将在股东大会展示最新产品路线图和战略重点[31]
上交OmniNWM:突破三维驾驶仿真极限的「全知」世界模型
自动驾驶之心· 2025-10-24 16:03
研究概述 - 研究提出了一种名为OmniNWM的全景、多模态、带精确控制与内在奖励的驾驶导航世界模型 [2] - 该模型在生成质量、控制精度与长时序稳定性上全面超越现有SOTA(State-of-the-Art) [2] - 研究为自动驾驶的仿真训练与闭环评估树立了新标杆 [2] 技术框架与核心创新 - 模型核心在于将状态生成、动作控制、奖励评估三者无缝集成,提出了一个创新的统一框架 [10] - 针对现有世界模型的三大核心挑战:状态的局限性、动作的模糊性、奖励的缺失,提供了解决方案 [10] - 首次在状态、动作、奖励三大维度实现统一,构建可交互、可评估、可扩展的综合性虚拟驾驶环境 [8][58] 多模态状态生成能力 - 利用Panoramic Diffusion Transformer (PDiT)作为核心,首次实现RGB、语义图、度量深度图、3D语义Occupancy的联合生成 [11][12] - 四模态输出在像素级别对齐,共享解码器确保跨模态一致性 [12] - 生成的3D Occupancy是奖励计算与闭环规划的核心依据 [13][16] 精确动作控制机制 - 创新性地提出归一化全景Plücker Ray-map作为动作表示,将输入轨迹转化为稠密的射线场指导生成过程 [18] - 通过尺度归一化与位姿归一化,构建统一Plücker空间,支持跨数据集、多相机配置下的零样本泛化 [22][27] - 该策略显著扩展了有效轨迹的覆盖范围,轨迹分布多样性远超原始数据集,支持复杂驾驶行为生成 [28][32] 长时序生成技术 - 引入Flexible Forcing策略,支持生成超过GT(Ground Truth)长度的321帧超长序列 [29][31] - 采用多层级噪声注入,支持帧级自回归和片段级自回归两种推理模式 [32][33] - 该策略显著抑制长时序中的结构退化,FVD@201帧指标为25.22,远优于消融模型的386.72 [34] 内生稠密奖励系统 - 直接利用生成的3D Occupancy定义稠密奖励函数,无需依赖外部模型 [35] - 奖励函数包含碰撞惩罚、越界惩罚和速度奖励三项,用于评估驾驶行为的合规性与安全性 [35][36][39] - 在测试场景中,奖励函数能有效区分碰撞、避让不足、成功规避三种行为 [41] 闭环规划与评估 - 引入专用的Vision-Language-Action (VLA) 规划器OmniNWM-VLA,基于多模态大模型Qwen-2.5-VL构建 [43] - 核心创新是Tri-Modal Mamba-based Interpreter (Tri-MIDI)融合模块,轻量且即插即用 [44] - 模型采用因果语言建模目标,将轨迹视为"动作序列"进行预测,能学习驾驶场景下的时空连贯性与物理合理性 [48][50] 实验性能与评估 - 在视频生成质量上,无需Occupancy或点云等体积条件,仍超越所有SOTA模型 [51][52] - 在深度图生成和3D Occupancy预测任务中,以生成的方式超越所有SOTA的预测类模型 [53][54] - 支持零样本泛化,可无缝迁移到nuPlan与内部数据集,支持不同相机数量配置且无需微调 [56]
2025年全球汽车Tier1厂商排名
自动驾驶之心· 2025-10-24 16:03
2025年全球汽车Tier1厂商排名 - 博世在汽车电子、动力总成和自动驾驶领域占据领先地位,排名第一 [2] - 采埃孚在传动系统、底盘技术和自动驾驶领域具有优势,排名第二 [2] - 电装专注于汽车电子和动力总成,排名第三 [2] - 宁德时代作为动力电池厂商进入前十,排名第六,主要优势在动力电池和储能系统 [2] - 德赛西威和华阳集团等中国厂商在智能驾驶和智能座舱领域表现突出,分别排名第七和第八 [2] 行业核心趋势:电动化与智能化 - 电动化转型加速推动动力电池厂商市场份额提升,中国厂商如宁德时代和比亚迪有望在2025年进一步扩大份额 [3] - 智能驾驶和智能座舱成为行业核心增长点,德赛西威、华阳集团等中国厂商在相关领域市场占有率不断提升 [3] 市场竞争格局演变 - 传统Tier1厂商如博世、采埃孚、电装凭借技术积累和客户基础继续主导市场,但2024年业绩普遍承压,营收和利润下滑明显 [4] - 中国Tier1厂商在新能源汽车和智能驾驶领域取得显著突破,逐渐打破国际龙头壁垒 [5] 区域市场动态 - 中国新能源汽车市场快速发展,为本土Tier1厂商提供巨大市场空间,2025年中国自主车企在新能源领域市场份额持续增长 [10] - 欧美市场电动化转型放缓,但对自动驾驶和智能座舱的需求依然旺盛,为Tier1厂商提供新的增长机会 [10] 未来技术与发展方向 - 具备软硬件全栈技术能力的供应商有望获得更大市场份额 [6] - 海外Tier1厂商通过投资中国初创企业和开发本地化产品,试图重回市场主导地位 [6]
自动驾驶之心合伙人招募!
自动驾驶之心· 2025-10-24 16:03
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发 [2] 重点技术方向 - 公司关注的前沿技术方向包括大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶 [3] - 其他重点方向涵盖具身交互、联合预测、SLAM、3D目标检测、世界模型 [3] - 同时关注闭环仿真3DGS、大模型部署与量化感知推理等关键技术 [3] 人才招聘要求 - 合伙人岗位要求应聘者毕业于QS200以内高校并拥有硕士及以上学历 [4] - 优先考虑在顶级学术会议上有研究成果的候选人 [4] 合伙人待遇与激励 - 提供自动驾驶领域的资源共享,包括求职、读博及出国留学推荐 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
沈劭劼团队25年成果一览:9篇顶刊顶会,从算法到系统的工程闭环
自动驾驶之心· 2025-10-24 00:04
港科大ARCLab研究团队概况 - 团队由沈劭劼教授领衔,专注于自主导航、无人机技术、传感器融合与三维视觉等领域,强调从算法到系统的工程闭环与开源生态[2] - 团队在学术与工程落地双线并进,获得IEEE T-RO最佳论文奖荣誉提及、IROS最佳学生论文奖等多项荣誉,并两度获AI 2000最具影响力学者荣誉提名[3] - 团队特色为产品化思维与强工程执行力,坚持问题选择直面真实场景痛点,解法偏向优化与系统集成,重视落地实验与全链路复现[3] - 人才培养成果显著,实验室成员活跃于学术与产业一线,如高飞(浙大长聘副教授)、秦通(上交副教授、曾任华为"天才少年")等[4] 状态估计与多源融合 - 提出统一位姿图优化框架,将局部高精度但会漂移的VO/VIO与全局无漂移但噪声较大的传感器融合,通过图优化对齐局部轨迹到全局坐标并显式消除累计漂移[5] - 框架通用可插拔,在公开数据集与真实环境验证中优于多种SOTA方案,为长时程与大范围任务在GNSS受限场景提供低门槛多源融合方案[5] - 利用事件相机超高时间分辨率,提出不依赖地图的视觉惯性估计方案,通过实时恢复线速度实现低时延、米级标定的速度估计,适用于高速无人机与极端运动场景[17][18] 轻量化建图与地图对齐 - 开发SLIM框架,将LiDAR点云简化为"线"和"面"表示道路和建筑,使地图更轻量且易于维护,支持不同时间采集地图的合并与整体优化[8] - 在KITTI数据集上实现整张城市地图约130 KB/公里的体量,精度不降且支持直接再次定位,显著降低长期运行中地图存储、更新和复用成本[8] - 提出场景图配准方法,将环境抽象为场景图,通过开放集语义、局部拓扑和形状特征融合成紧凑节点描述,实现低带宽下的多机器人地图对齐,每帧仅需约52 KB通信[13] 复杂环境自主导航 - 针对狭窄隧道(最小直径0.5 m)提出实时在线多旋翼自主系统,通过虚拟全向感知克服弱纹理/弱光与有限视场,显式建模感知可见性与自体气流扰动[6] - 在真实窄隧道实验中定制四旋翼表现优于人类飞手,并提供跨平台部署流程与开源包,为检修/搜救等受限空间作业提供可复用工程方案[6] - 结合视觉识别与主动触觉确认玻璃存在性,通过轻量触觉模块点触确认后写入三维体素地图并即时重规划绕行路径,提升玻璃密集空间巡检/搜救效率[10] 场景理解与拓扑推理 - 提出SEPT框架,将标准清晰度地图作为先验信息接入在线感知与拓扑推理,通过混合特征融合缓解SD地图与BEV特征的错位问题[12] - 利用路口特性设计路口感知关键点辅助任务,在OpenLane-V2数据集上对远距离/遮挡等难场景有明显提升,为低成本轻地图自动驾驶提供可行路径[12] - 基于向量化车道图表示道路与交互关系,在逆强化学习框架下学到隐含奖励与策略,采样出多种合理未来轨迹,提升复杂路口与长尾交互场景的预测稳健性[16] 轨迹预测与决策 - 采用逆强化学习方法,先推理意图后预测轨迹,通过可解释意图推理器编码场景车辆与道路要素到统一向量表示,推断多种可能意图作为先验[20] - 在Argoverse与nuScenes数据集上取得SOTA效果,显著提升置信度与性能,为路口博弈、遮挡等不确定场景提供更可解释且易与规划对接的预测路径[20] - 提出分层参数化生成器与精修模块,结合概率融合提高置信度,对未见场景的泛化能力优于纯监督方法,增强预测结果的可扩展性[16] 2025年研究主线总结 - 团队沿五条主线推进:更稳的状态估计与多源融合、更轻量的建图与地图对齐、更可靠的复杂/极端环境自主导航、更全面的场景理解与拓扑推理、更精准的轨迹预测与决策[23] - 整体风格保持问题导向与从算法到系统,兼顾可复现与工程落地,面向长期运行、低带宽与弱先验场景,强调通用性与可扩展性[23] - 年度关键词为稳、轻、实、通、可解释,体现技术演进方向[24]
Optimus要量产了,特斯拉Q3电话会议(251023)
自动驾驶之心· 2025-10-24 00:04
Optimus发展规划与产能目标 - 公司计划建立年产100万台Optimus的生产线,最终产量目标约1000万台,远期产能或达5000万至1亿台[3][16] - Optimus V3预计将在2026年第一季度或之前发布,第一代生产线目前正在安装,准备进行批量生产[6] - 计划在明年底左右启动年产100万台规模的生产线,明年一季度(2-3月)将推出生产意向展示原型[15] 技术整合与能力展示 - 公司强调其全自动驾驶(FSD)人工智能技术可以直接转移到Optimus机器人上[7] - Optimus机器人现已能在公司总部全天候巡逻,并具备引导访客前往房间的自主导航与对话能力[10] - 为提升智能性,Optimus预计将接入Grok,重点展示自主规划及对话能力[18] 供应链与生产挑战 - 制造人形机器人需从零开始建立全新供应链,公司必须实现垂直一体化并自行设计零部件[13][14] - 硬件设计会在启动生产时冻结,但会持续迭代,因制造难题多在后期显现,Gen3投产后设计仍会滚动式更新[15] - 公司结合了现实世界AI、机械工程和大规模生产三大要素,这在行业内处于几乎独一无二的地位[14] 硬件设计预测与迭代 - 为获得更高精细度,Optimus大概率采用腱绳驱动加连杆的手部与前臂整体方案,手臂合计31个执行器[17] - 由于行星滚柱丝杠的球关节稳定性问题,可能会放弃部分线性执行器,转向旋转传动方式[19] - 灵巧手加前臂的组合方案被强调为目前依然很难的技术挑战[12]
FSD v14很有可能是VLA!ICCV'25 Ashok技术分享解析......
自动驾驶之心· 2025-10-24 00:04
FSD V14技术进展 - Tesla FSD V14系列在两周内连续迭代4个小版本,从14.1到14.1.3,展现了快速进化节奏[4] - 初始版本14.1在驾驶AI能力上实现显著突破,后续版本分别优化刹车顿挫问题、引入Mad Max模式、扩大对Model S/X车型支持[4] - 这种高速版本迭代表明自动驾驶技术在融入其他AI领域进展后,正进入加速演化新阶段[4] 端到端架构优势 - 从V12版本开始,Tesla FSD转向全面端到端架构,实现从传感器像素输入到车辆控制信号输出的单一神经网络模型完成[7] - 端到端架构减少中间规则处理环节,使模型训练梯度能够从输出端无缝反向传播至感知端,实现模型各部分整体协同优化[7] - 该架构能更好地编码人类价值判断复杂性,通过大量学习人类驾驶数据掌握细微价值权衡[9] - 解决感知与决策规划间接口定义难题,神经网络间直接信息传递能最大程度减少信息损失[11] - 具备同构计算带来的确定性延迟优势,神经网络固定结构和参数量保证单帧计算延迟确定性[11] 端到端系统技术挑战 - 端到端模型面临维度诅咒挑战,输入信息维度相当于20亿token,而输出仅为2个token,需要解决从极高维度到极低维度映射问题[16] - Tesla通过强大数据引擎应对挑战,车队每日产生相当于500年驾驶时长数据,采用复杂触发机制回传长尾场景数据[18] - 公司采用VLA架构保障可解释性和安全性,系统输出驾驶控制指令同时输出多种中间结果,包括3D占据网格、动态障碍物、静态物体等[20] 技术创新与应用 - Tesla FSD V14很可能采用基于VLA的端到端技术方案,与国内头部自动驾驶团队技术路线不谋而合[22] - 自然语言决策实现慢系统思考,在复杂场景中展现逻辑推理能力,例如识别道路封路标志并通过推理做出左转决策[24][26] - Feedforward 3D Gaussian提供丰富监督信号和空间理解能力,相比点云或多边形表达更高效可微,相比NeRF等隐式表达几何信息更明确[28] - 3D高斯表征利用神经网络模型泛化能力,通过重建模型前向推理推导场景几何信息和颜色属性,不需要点云初始化[29] 评测体系与仿真系统 - 完善评测体系是端到端系统核心壁垒,训练Loss不能代表模型性能,开环指标不能保证闭环性能[32][34] - Tesla评测体系核心是基于神经网络闭环仿真系统,可利用大量廉价离线状态-动作数据对进行训练[36] - 闭环仿真系统具有三大作用:验证端到端Policy正确性、利用场景编辑生成能力生成对抗样本检验模型能力、在闭环仿真系统中获取人驾真值[36][38][42] - 丰富多样真实数据是自动驾驶核心资源,训练数据多样性和质量决定世界模型性能[40]