Workflow
自动驾驶之心
icon
搜索文档
具身界影响力最大的两位博士创业了!
自动驾驶之心· 2025-11-18 00:05
创业团队核心成员 - Tony Z Zhao担任公司CEO 为斯坦福大学计算机科学专业三年级博士生(已辍学) 在校期间主导提出ALOHA ALOHA2 Mobile ALOHA等一系列具身智能领域有影响力的工作方案 [2][4][5] - Cheng Chi担任公司CTO 为哥伦比亚大学博士及斯坦福大学新教师奖学金获得者 师从Shuran Song教授 提出通用操作接口UMI(获RSS 2024最佳系统论文决赛奖)及Diffusion Policy方案 [2][4][10] 行业背景与影响力 - 创业团队两位成员被描述为具身界影响力最大的博士 其技术背景与研究成果在行业内具有显著知名度 [2][4] - 公司技术基础建立在ALOHA系列方案 UMI通用操作接口及Diffusion Policy等前沿研究之上 这些工作对机器人操作与具身智能发展有重要贡献 [4][5][10]
谁偷走了斑马智行的梦想?
自动驾驶之心· 2025-11-18 00:05
文章核心观点 - 斑马智行面临业绩压力、市场格局挑战和核心业务流失等多重问题,独立上市被视为解决股东退出压力和资金需求的唯一出路,但其业务模式可持续性和估值真实性存在重大疑问 [6][7][37] 公司财务状况与股东压力 - 截至2025年3月底,公司总负债达到25.7亿元,每季度需承担巨额研发投入,现金流压力显著 [7] - 累计完成多轮融资超50亿元,2023年9月投后估值达210亿元,但最新估值已大幅下调至约100亿元 [8][11] - 阿里巴巴持有44.72%股权,上汽集团持有34.34%股权,双方不愿继续投入,中小股东要求退出,上市成为唯一选择 [7][10] 业务数据真实性与市场接受度 - 宣称智能座舱解决方案搭载于60家主机厂的超800万辆汽车,2022-2024年搭载量从83.5万台增至233.4万台,复合年增长率达67.2% [12] - 实际AliOS系统真实搭载量仅约400万台,其余400万为"小程序"应用,与座舱系统概念差异较大,数据存在水分 [13] - 汽车行业对AliOS接受程度低,系统级操作系统解决方案占营收80%以上,但客户集中度高,前五大客户营收占比连续三年超88% [16][19][20] 核心业务风险与人才流失 - 大众油车平台订单于2026年结束后不再搭载AliOS系统,下一代GP平台改用大众自研系统,该风险未在招股书中披露 [14][17][18] - 原大众业务事业部总经理姜可和核心商务杨帆近期离职,业务连续性受挑战 [17] - 2025年7月公司启动裁员,比例约10%-30%,主要因斑马智行7.0系统开发受阻 [33] 战略调整与行业竞争 - 现任CEO戴玮削减OS研发投入,转向AI Agent和重庆算力中心等固采项目,被质疑算力转租业务可能虚增AI收入预测 [23][33] - 华为鸿蒙系统与主流车厂合作加剧竞争,上汽加速切换至鸿蒙与安卓方案,主机厂自研操作系统趋势蚕食第三方供应商份额 [35][36] - 公司十年内更换4位CEO,早期技术红利消退后,产品未能形成代际优势,智能座舱领域从蓝海转为红海 [27][31]
做了一份端到端进阶路线图,面向落地求职......
自动驾驶之心· 2025-11-18 00:05
文章核心观点 - 市场对端到端和视觉语言动作模型技术人才需求旺盛,主机厂和供应商积极寻求相关专家,3-5年经验的专家岗位月薪高达70k [1] - 为满足行业学习需求,公司联合工业界和学术界专家推出两门实战课程,分别聚焦VLA大模型和端到端自动驾驶技术 [1][10] 课程内容与技术方向 - 自动驾驶VLA与大模型实战课程由学术界团队主导,课程体系覆盖从视觉语言模型作为解释器到模块化VLA、一体化VLA及推理增强VLA的全链路技术 [1] - 课程配套理论基础模块,包括Vision/Language/Action三大组件、强化学习、扩散模型等,并通过大作业指导学员从零搭建VLA模型及数据集 [1] - 端到端与VLA自动驾驶课程由工业界专家带队,重点讲解一段式/两段式端到端算法,核心技术点包括BEV感知、大语言模型、扩散模型和强化学习 [10] - 端到端课程设计两大实战项目:基于扩散模型的Diffusion Planner和基于VLA的ORION算法,紧密结合工业界量产实践 [10] 师资力量与团队背景 - 课程讲师团队由清华大学硕士、QS30高校博士等顶尖学术背景人才组成,在ICCV、IROS、EMNLP、Nature Communications等顶级会议和期刊发表多篇论文 [6][9] - 工业界讲师具备C9本科和QS50博士学历,现任国内顶级主机厂算法专家,拥有端到端算法和大模型预研及量产交付经验,已发表多篇CCF-A/B类论文 [12] - 讲师团队长期维护GitHub开源项目,总Star数超过2k,具备扎实的多模态大模型研发能力和丰富的自动驾驶实战经验 [6] 目标学员与技术要求 - 课程面向具备一定自动驾驶领域基础的学习者,要求熟悉自动驾驶基本模块和transformer大模型、强化学习、BEV感知等技术概念 [14] - 学员需具备概率论、线性代数基础和常用的数学运算能力,同时要求掌握一定的Python和PyTorch编程语言基础 [14] - 硬件方面要求学员自备GPU,推荐算力在4090及以上级别以满足课程实战需求 [13]
顶级四校联手打造OmniVGGT:全模态视觉几何Transformer!
自动驾驶之心· 2025-11-17 00:05
核心观点 - 提出OmniVGGT框架,旨在解决现有3D基础模型无法灵活利用多种辅助几何信息(如深度、相机参数)的问题 [5][6] - 该框架通过两个核心创新(GeoAdapter和随机多模态融合策略)实现在训练和推理时能利用任意数量的辅助模态,且不影响纯RGB输入的性能 [7][9][10] - 实验表明,该模型在单目/多视图深度估计、相机位姿估计、3D重建及机器人操作任务上均达到顶尖水平,展示了强大的性能与实用性 [7][29][48] 技术背景与问题定义 - 当前主流3D基础模型(如VGGT)主要依赖RGB图像,无法有效利用实际应用中广泛存在的辅助信息(如RGB-D数据、激光雷达点云、相机参数) [5] - 现有方法要么只能使用一种辅助信息,要么最多处理两种,缺乏对不同应用场景的灵活适配能力,造成“信息浪费” [5][9] 核心技术:OmniVGGT框架 - **基础架构**:基于VGGT改进,使用DINO骨干网络提取空间令牌,并通过交替注意力机制处理多视图信息 [13][14] - **GeoAdapter(几何适配器)**:包含相机适配器和深度适配器,采用零初始化卷积等技术将不同几何信息轻量且稳定地注入基础模型,计算开销极小 [10][15][16] - **随机多模态融合策略**:在训练时随机采样模态子集,使模型能适应测试时任意数量和组合的模态输入,增强鲁棒性 [10][22][23] - **端到端处理**:输入图像集及任意数量的辅助信息,通过网络直接输出深度图、相机位姿和3D点云图 [12] 实验性能评估 - **单视图深度估计**:在Sintel数据集上,仅使用RGB输入时,其绝对相对误差(Abs Rel)为0.558,优于基线VGGT的0.722;当使用100%深度信息时,Abs Rel显著降低至0.106 [30][36] - **多视图深度估计**:在ETH3D数据集上,结合深度信息后,相对误差(rel)仅为0.5,准确率(δ<1.25)达到98.7% [36][40] - **相机位姿估计**:在CO3Dv2数据集上,结合相机参数输入时,AUC@30°达到93.4%,远超对比方法Pow3R的82.2%,且推理速度仅需0.2秒,快30倍以上 [39][42] - **3D重建**:在7-Scenes数据集上,结合相机与深度信息后,重建精度(Acc)提升至0.036,比纯RGB输入(0.104)提升约64.4% [43][47] - **机器人操作任务**:集成到视觉-语言-动作模型后,在CALVIN数据集上,使用RGB-D输入的任务平均连续完成数(Avg Len)达4.08,优于基线 [48][51] 架构有效性验证 - 消融实验证明,完整的OmniVGGT设计(零卷积处理相机信息、直接相加处理深度信息)性能最优,替代方案(如直接替换令牌或单层适配器)均导致性能下降 [49][52] - 该设计确保了在引入辅助信息时不破坏原有特征空间,纯RGB输入性能仍优于基线 [30][52] 行业应用与前景 - 该技术解决了3D视觉模型在多样化真实场景(如VR/AR、自动驾驶、机器人)中的输入适配性问题,实现了“全能辅助” [5][53] - 模型高效且实用,计算开销小,易于集成到现有系统(如VLA模型)以提升下游任务(如机器人操作)性能 [7][53] - 展现了在多模态融合领域的潜力,为未来扩展到更复杂动态场景奠定了基础 [54]
特斯拉3D重建可以参考的前馈GS算法有哪些?
自动驾驶之心· 2025-11-17 00:05
文章核心观点 - 文章系统梳理了前馈式3D高斯泼溅(Feed-Forward 3D Gaussian Splatting)技术的最新研究进展,重点介绍了从CVPR 2024到CVPR 2025期间涌现的多篇代表性论文 [2] - 前馈式3DGS旨在克服传统“逐场景优化”方法的不便,实现无需针对每个新场景进行耗时优化的快速、通用化三维重建 [2] - 该技术路线已成为计算机视觉和三维重建领域的一个重要发展方向,并在人体重建、驾驶场景重建等多个应用领域展现出潜力 [74][77][82][85] CVPR 2024 代表性工作 - **pixelSplat**:通过编码器预测密集概率分布并从中采样高斯均值,利用重参数化技巧使采样操作可微分,从而避免局部最小值问题,仅需一对图像即可进行前馈重建 [3][6][7] - **GPS-Gaussian**:引入定义在源视角图像平面上的2D高斯参数图,通过可学习的反投影操作得到3D高斯点,主要用于人体重建并依赖真实深度进行监督 [8][9][10] - **TriplaneGaussian**:首个利用高斯泼溅从单视图图像实现通用化三维重建的研究,核心是利用三平面表示 [11][13] - **Splatter Image**:设计简单网络将输入图像映射为每个像素一个3D高斯函数,将重建问题转化为图像到图像的网络学习问题,计算效率高但主要关注物体级重建 [14][16][17] ECCV 2024 代表性工作 - **MVSplat**:利用Transformer提取多视图图像特征并构建代价体积,通过反投影获得3D高斯中心,证明了代价体积表示在学习前馈高斯中的重要性 [28][30][31] - **GRM**:基于前馈Transformer的像素对齐高斯模型,有效整合多视角信息,将输入像素转换为像素对齐的高斯函数以创建密集3D高斯集合,但尚未开源 [32][34][35] - **GS-LRM**:采用基于Transformer的简单网络架构,预测每个像素的高斯分布,使3D高斯保留输入图像中的高频细节 [36][38][39] - **Gaussian Graph Network (GGN)**:构建高斯图来建模来自不同视角的高斯组之间的关系,通过高斯特征融合和池化策略实现高效表示 [47][48] 2025年最新进展 (CVPR/ICLR/AAAI) - **DepthSplat**:将高斯泼溅与深度估计两个领域连接,利用预训练单目深度特征增强多目特征匹配,构建鲁棒的多目深度模型以提高重建质量 [60][62][63][66] - **MonoSplat**:直接利用冻结的深度基础模型中嵌入的丰富视觉先验知识,通过单目-多目特征适配器实现更高效、更泛化的高斯重建 [67][68][69][72] - **HiSplat**:在前馈3DGS中引入分层方式,通过由粗到细的策略构建分层3D高斯,并利用误差感知模块和调制融合模块实现联合优化 [54][56][57][59] 技术应用领域拓展 - **人体重建**:Generalizable Human Gaussians和HumanSplat等研究专注于在稀疏视图下实现可泛化的人体渲染,结合人体结构先验 [74][76][77][81] - **驾驶场景重建**:DrivingForward和EVolSplat等模型从车载摄像头的稀疏环视输入中学习,支持实时重建复杂的驾驶场景 [82][84][85] - **医学影像**:X-GRM模型将大型前馈Transformer应用于从稀疏X射线投影到计算机断层扫描的重建任务 [87][90]
三个月手搓了一辆自动驾驶全栈小车
自动驾驶之心· 2025-11-17 00:05
产品概述 - 公司推出教研一体轻量级自动驾驶全栈解决方案“黑武士001”,支持感知、定位、融合、导航、规划等多个功能平台 [1][2] - 产品定位为面向科研与教学场景的自动驾驶小车,原价为36999元,预售期间下单赠送模型部署、点云3D检测、多传感器融合3门课程 [1] - 产品支持二次开发和改装,预留了安装位置和接口以便加装相机、毫米波雷达等传感器 [3] 目标用户与应用场景 - 目标用户涵盖本科生学习进阶与比赛、研究生科研与论文发表、研究生找工作与项目经验积累 [5] - 应用场景包括高校实验室教具、培训公司及职业院校教具 [5] 功能与性能展示 - 产品在室内、室外、地库等多种场景下测试了感知、定位、融合、导航规划等功能 [6] - 具体演示功能包括户外公园行驶、点云3D目标检测、室内地库2D/3D激光建图、上下坡测试、室外大场景3D建图以及室外夜间行驶 [8][10][12][14][16][18][20] - 软件功能支持2D目标检测与分割、人体位姿估计、深度估计与测量、多种SLAM方案(RGB、视觉惯性、2D/3D激光、激光视觉融合、激光惯性融合)、点云处理与感知、车辆导航及避障等 [29] 硬件配置 - 主要传感器包括Mid 360 3D激光雷达(FOV 360°*59°,测量范围0.1m-40m)、镭神智能2D激光雷达(最大范围25m)、奥比中光深度相机(深度测量范围0.15-5m,相对深度精度≤2%) [22][32] - 主控芯片采用NVIDIA Jetson Orin NX,配备16GB RAM,AI算力达100TOPS [22][32] - 底盘系统为阿克曼底盘,结构系统采用硬铝钣金件经发黑处理 [2][23] 技术参数 - 车体尺寸为620mm(长)x 400mm(宽)x 320mm(高),自车重量为30kg,最大载荷为30kg [25][26] - 电池功率为50W,供电电压为24V,续航时间大于4小时,运动速度最大可达2m/s [25] - 采用轮毂伺服电机,轮毂外径为130mm [25] 软件与开发环境 - 软件与语言框架基于ROS、C++、Python,提供一键启动的开发环境 [28] - 提供详细的驱动启动脚本,如深度相机驱动脚本(driver_camera.sh)和手柄遥控驱动脚本(driver_teleop.sh) [43][44] - 手柄控制可通过配置文件(atk3.config.yaml)调整最大线速度(scale_linear)和最大角速度(scale_angular)参数 [46] 售后与支持 - 产品提供1年内非人为损坏的售后支持,保修期内因个人操作失误或代码修改导致的损坏可获免费维修 [51]
FSD v14里面藏了VLA吗?谁在定义自动驾驶下一代方案:VLA vs WA的一场深入探讨......
自动驾驶之心· 2025-11-17 00:05
自动驾驶下一代技术方案探讨 - 行业对自动驾驶下一代方案的讨论空前高涨,核心围绕世界模型和视觉语言动作模型的形态、产业落地进展及融合可能性展开 [2][3] - 圆桌讨论将深入分析特斯拉FSD v14、理想汽车世界模型训练闭环、地平线HSD实车表现、英伟达最新视觉语言动作模型工作以及小鹏视觉语言动作模型2.0技术路线 [6][8] - 学术界与工业界将共同探讨世界模型和视觉语言动作模型的未来发展方向,包括二者融合统一的潜力,以及学术界在数据与算力高需求背景下的参与机会 [3][11] 行业技术进展与会议焦点 - 特斯拉在ICCV分享了FSD最新技术进展,理想汽车分享了世界模型的训练闭环技术,地平线HSD实车表现亮眼 [6] - 英伟达发布了最新的视觉语言动作模型工作,小鹏视觉语言动作模型2.0去掉了语言转译环节 [6] - 圆桌议题包括FSD v14是否蕴含视觉语言动作模型技术,以及世界模型与视觉语言动作模型谁将定义下一代自动驾驶方案 [8][11] 主要参与方与专家背景 - 主讲嘉宾包括中国科学院博士、卡内基梅隆机器人研究所博士后许凌云,其主导过多项行车泊车量产项目落地,研究方向为自动驾驶感知与端到端系统 [4] - 嘉宾博世中央研究院高级算法科学家江岸青负责视觉语言动作模型/闭环算法研究团队,上海交通大学AutoLab创始人张志鹏为人工智能学院PI [5] - 圆桌会议汇聚了学术界与工业界专家,如知乎大V、深度流光联合创始人CTO刘斯坦,旨在提供多元视角的技术探讨 [5][6]
秋招太难了,坚持!就有好日子了......
自动驾驶之心· 2025-11-15 16:04
文章核心观点 - 当前秋招市场对普通应届生存在挑战 但10月后是普通求职者的主要机会期 线下招聘流程更快 [1] - 简历质量是求职关键 在学历不占优情况下 亮眼的论文和项目成果是超越竞争对手最直接的方法 [2] - 公司提供论文辅导服务 旨在帮助学生通过产出高质量论文提升简历竞争力 进而获取工作offer或升学机会 [3][8][18] 公司业务与服务 - 公司为自动驾驶之心旗下平台 是国内最大的AI类技术自媒体 拥有自动驾驶之心、具身智能之心、3D视觉之心等IP [6] - 公司拥有300多名专职老师 来自全球QS排名前100 发表过多篇顶会及子刊论文 近3年辅导学员超过400名 中稿率高达96% [6] - 主要服务方向包括三维重建、SLAM、点云处理、机器人导航、计算机视觉等 [10] - 提供个性化论文指导服务 包括导师实时互动、录播回看、课后答疑等 服务覆盖从选题到中稿的全流程 [16] 目标客户群体 - 服务对象包括想为秋招春招早做准备丰富简历的学生 以及想申博但科研成果不突出的人群 [8] - 旨在解决导师放养、科研体系不清晰的问题 帮助学生建立科研思维并熟悉流程 [9] - 也面向有科研需求以提升职称或学术成就 以及从事AI领域工作想升职加薪的人群 [18] 服务模式与承诺 - 公司提供精准导师匹配系统 根据学员研究方向、目标期刊和基础水平 从300多名导师中筛选3至5位最契合的 [22] - 承诺零基础学员通过6个月辅导可完成一篇小论文 课程提供基础内容供自主学习 [21] - 优秀学员可获得清北、MIT等名校推荐信 或获内推至阿里达摩院、华为诺亚方舟等企业研发岗 [23] - 提供预收定金后与名师meeting服务 meeting不满意可免费更换老师或退款 [23]
楼天城:VLA帮不了L4
自动驾驶之心· 2025-11-15 16:04
文章核心观点 - L4级自动驾驶(Robotaxi)的技术发展已进入超越人类理解的阶段,其决策逻辑与L2级辅助驾驶有本质区别,L2模仿人类而L4必须超越人类[5][6] - 小马智行发布的第七代自动驾驶系统实现了100%车规级零部件,成本下降70%,并基于世界模型技术使安全性达到人类驾驶的10倍[8][9] - 公司认为实现L4级自动驾驶面向个人用户的时间将晚于2020年代,目前技术降维至量产车仍面临挑战,而具身智能领域正经历类似自动驾驶早期的真空期[22][24][26] 技术路线与模型应用 - 世界模型技术在机器学习领域有30年历史,小马智行已使用近6年,L4公司普遍采用强化学习模式进行技术演进[12] - 自Transformer出现后,公司开始整合从感知到执行的模块,并于2023年8月将感知、预测、规控三大模块打通为统一端到端模型,该模型在L4车辆中扮演冗余系统角色[15] - 视觉语言模型(VLA)被视为“全科大夫”,其跨领域通用性不适合L4对极端场景安全性的深度优化需求,在L4应用上帮助有限[17] 商业化与成本控制 - 小马智行Robotaxi车队已累计运行至少50万小时,覆盖市中心及高快速路场景,第七代系统的使命是实现降本与量产[29][30][33] - 降本两大里程碑为“去掉人”和“实现车规化量产硬件”,公司强调云代驾方案成本极高,相当于购买并折旧十辆普通车辆的总和,因此从未采用该逻辑[33][34] - 尽管成本下降70%,第七代Robotaxi定价将在合理范围内相对较高,公司认为AI应提供高质量服务而非追求最低价格[34] 行业发展趋势 - L2级辅助驾驶技术已逐渐“平权”,行业向L3进阶是合理趋势,但L3做法仍延续L2思路,无法渐进至L4,L4的安全及格线接近满分,L2目前远未达到该标准[19][21] - 自动驾驶被视为智能体(Agent)领域中最前沿的应用,Robotaxi是当前最好落地的场景,若无法在此领域突破则难以参与行业竞争[28] - 具身智能与机器人领域与自动驾驶存在技术通用性,但商业化需解决长尾问题,目前状态类似自动驾驶2018年阶段,需经历真空期才能衡量商业价值[23][24][26]
扩散语言模型的潜力被严重低估了!新国立发现可全面超越自回归
自动驾驶之心· 2025-11-15 16:04
研究核心观点 - 扩散语言模型在数据成为瓶颈的未来展现出超越传统自回归语言模型的巨大潜力 [1] - 在数据受限条件下,DLM比AR模型具有大约3倍的数据效率,能更快达到性能交叉点 [5] - DLM通过去除因果偏置和噪声增强技术,能够从有限数据中提取更多信息 [44] 实验设计与设置 - 实验总训练token数量固定为96B,独特token数量从0.5B到96B不等,模型规模为1B [12] - 使用经过修改的Megatron-LM代码库,数据集包括Nemotron-CC、c4-en和RefinedCode [12] - 批量大小为256,序列长度2048,学习率采用预热—稳定衰减策略,初始为2e-4 [12] - 架构采用GPT-2 tokenizer、RoPE、SwiGLU激活函数、预层RMSNorm等技术 [12] 数据预算对性能的影响 - 在较低数据预算下,DLM显著超越AR模型,训练0.5B独特token的DLM可达训练1.5B独特tokenAR模型的性能 [13] - 随着独特数据量增加,交叉点出现越来越晚,数据量越大AR模型越能表现优势 [13] - 在计算资源充足、数据丰富情况下,AR模型更有效拟合数据 [13] 数据质量的影响 - 使用三种质量等级数据(低、中、高质量)训练1B参数的AR和DLM模型 [14] - 数据质量提高使AR模型对质量变化更敏感,DLM交叉点稍微推迟 [16] - 在高质量数据上两者表现都改善,但DLM在数据受限时仍占优势 [16] 模型规模的影响 - 模型规模从1B到8B参数,训练1B独特token,共96个epoch [17] - 较大模型规模使交叉点提前出现,AR模型在数据受限时很快饱和 [19] - DLM可充分利用更大模型规模,随着参数增加表现持续提高 [19] 架构稀疏性对比 - 使用MoE架构对比稀疏和密集模型 [20] - 所有稀疏性水平下DLM始终超越AR模型,交叉点时机为8B密集模型 < 8B1A MoE < 1B密集模型 [22] - 增加FLOPs能显著改善性能,DLM密集架构在数据受限时优于稀疏架构 [22] 噪声注入分析 - 通过向AR模型输入数据注入噪声模拟DLM过程 [24] - 噪声注入对AR模型有提升作用,但无法超越DLM [26] - DLM通过蒙特卡洛采样和噪声增强在数据受限环境中表现更稳定 [26] 大规模扩展验证 - 在大规模独特token数据集上验证交叉点现象,计算预算约1.5T tokens [27] - 训练初期DLM在下游基准任务上明显超越AR模型 [31] - 即使训练达到1.5T token,DLM仍未完全收敛,具有大量未开发潜力 [31] 过拟合与验证损失 - AR模型验证损失上升不一定意味着性能下降,在下游任务中表现仍持续改进 [33] - 即使验证损失上升,正确答案与错误答案之间的NLL差距持续增加 [36] - DLM在极端数据重复情况下(480个epoch,480B tokens)在HellaSwag和MMLU上分别达到56%和33%准确率,显著超过AR模型的41%和29% [40] 技术优势与限制 - DLM去除因果偏置,允许任意顺序建模,更好捕捉数据中的复杂模式 [44] - 训练时DLM需要比AR多约100倍FLOPs,推理时消耗也大得多 [44] - 通过蒙特卡洛采样进行数据增强,从有限数据中更有效学习 [44]