DriveDreamer
搜索文档
华为刚投的物理AI:首家国产世界模型公司
量子位· 2025-11-12 04:08
华为投资动态 - 华为哈勃与华控基金联合投资物理AI公司极佳视界 完成亿元级A1轮融资[2] - 这是极佳视界两个月内连续完成的第三轮融资 也是华为哈勃首次投资主业定位为"世界模型"的公司[2][28] 极佳视界公司概况 - 公司成立于2023年 是国内第一家"纯血"物理AI公司 创业目标为世界模型[4] - 产品覆盖自动驾驶世界模型 具身基础模型到世界模型平台的全栈软硬件[4] - 应用落地领域包括自动驾驶和具身智能 与华为押注方向一致[4] 技术产品进展 - 2024年发布国内首个支持原生16秒超长时长视频生成模型"视界一粟YiSu"[5] - 2023年推出全球首个真实世界驱动的自动驾驶世界模型DriveDreamer[9] - 2024年DriveDreamer升级4D版本 联合多家研究机构实现4D驾驶场景重建效果增强[11] - DriveDreamer系列为自动驾驶和具身智能提供数据生成和闭环仿真解决方案 已签约多家头部主机厂 服务客户几十余家[12] 核心团队背景 - 创始人兼CEO黄冠为清华大学自动化系AI方向博士 拥有微软 三星 地平线等公司算法经历及连续创业经验[9] - 联合创始人兼首席科学家朱政论文被引数达1 7万+ h-index为50 其代表作SiamRPN和DaSiamRPN是深度学习时代最具影响力目标跟踪算法[15][16] - 另一位联合创始人孙韶言曾任阿里云总监 地平线数据闭环产品线总经理[17] - 合伙人兼工程副总裁毛继明曾任百度 嬴彻架构师 曾担任百度Apollo仿真技术负责人[18] 华为技术布局 - 华为在自动驾驶领域偏好世界模型而非VLA路径 强调从视觉直接到决策的端到端方式[21] - 华为智能汽车解决方案BU CEO靳玉志表示更看重WA路径 省掉Language环节直接通过视觉信息输入控车[22] - 华为与高校合作的世界模型研究还扩展到更大范围 如联合推出的WorldGrow可单卡30分钟生成272㎡室内场景[26] - 结合此前对具身智能公司千寻智能的投资 华为在空间智能和世界模型上的布局正在连点成线[28]
双非研究生,今年找工作有些迷茫。。。
自动驾驶之心· 2025-07-14 14:04
行业趋势与人才需求 - 自动驾驶和具身智能公司对人才要求较高,倾向于实力强、背景好的候选人 [3] - 大公司招聘需求集中在端到端、大模型、VLA、强化学习、3DGS等前沿方向 [4] - 机器人初创公司融资活跃,未来几年发展前景可观 [4] - 传统机器人技术仍是产品主线,但具身智能是最前沿方向 [5] 技术方向与就业建议 - 双非学生可转向机器人/具身智能领域,从事SLAM、ROS相关优化和集成工作 [4] - LV融合、无图、BEV感知等技术已应用但人才饱和 [4] - 深圳、杭州的机器人公司提供全面技术培养机会 [5] 前沿技术资源汇总 - 视觉大语言模型、世界模型、扩散模型和端到端自动驾驶是四大技术方向 [9] - 提供10个Awesome和综述资源链接,涵盖智能交通、AIGC、视觉语言模型等领域 [10] - 列出17个VLM预训练数据集,最大规模达12B图像-文本对(LAION5B) [17] - 汇总图像分类、文本检索、行为识别等评估数据集,如ImageNet-1k(1000类)、Kinetics700(700类) [18][20] 自动驾驶数据集与应用 - 覆盖2D/3D目标检测、语义分割、跟踪等任务,如NuScenes(2020年,多模态)、Waymo Open Dataset(2020年) [23] - 语言增强数据集支持视觉-语言导航、车辆检索等应用,如NuScenes-QA(2023年) [24] - 智能交通领域方法聚焦语言引导的车辆检索和视觉问答 [25] - 自动驾驶感知技术包括语言引导的3D检测、开放词汇分割(如OpenScene) [26] 世界模型与扩散模型 - 世界模型研究集中在3D场景理解和生成,如HERMES(2025年)、DriveGPT(2024年) [32][33] - 扩散模型在自动驾驶中用于视频生成(如DriveDreamer)、数据增强(如Cityscape-Adverse) [35][41] - 汇总19篇扩散模型综述,涉及3D视觉、推荐系统等方向 [35][38][39] 端到端自动驾驶 - 开源仓库跟踪E2E最新研究,如opendilab/awesome-end-to-end-autonomous-driving [43][47] - 方法融合多模态感知与规划,如DriveGPT4(2023年)、VADv2(概率规划) [47][50] - 研讨会覆盖CVPR、ICRA等会议,探讨基础模型与规模化应用 [48] - 长尾分布问题通过对抗训练(如CAT)、场景生成(如KING)解决 [53][58]