世界模型

搜索文档
开放几个自动驾驶技术交流群(世界模型/端到端/VLA)
自动驾驶之心· 2025-09-20 16:03
欢迎大家加入一起交流相关的内容。感兴趣的同学欢迎添加小助理微信进群:AIDriver005, 备注:昵称 +方向加群。 自动驾驶之心技术交流群成立了,开学季&秋招期我们开放了几个技术交流群(世界模型/端到端/VLA等方 向)。 ...
黄仁勋随特朗普访英:26亿美元下注英国AI,智驾公司Wayve或获5亿美元加码
搜狐财经· 2025-09-20 09:57
20 亿英镑,是英伟达给英国送上的新礼物。 近日,英伟达首席执行官黄仁勋宣布,他们将在英国投资 20 亿英镑(约合 26 亿美元),催化英国的人工智能初创企业生态系统,并 加速创造新公司、新工作和引领全球变革的人工智能业务。 Wayve,一家总部位于英国的无人驾驶初创公司,有望凭一己之力拿到其中的五分之一。该公司日前宣布,已与英伟达签署意向书, 后者将在其下一轮融资中"评估 5 亿美元的投资"。同时,Wayve 即将推出的 Gen 3 硬件平台,将完全基于英伟达的 DRIVE AGX Thor 车载计算平台打造。 图 | 亚历克斯·肯德尔(Alex Kendall)个人主页(来源:肯德尔) 图 | Wayve 宣布与英伟达签署投资意向书(来源:Wayve) 英伟达曾在 2024 年 5 月参与了 Wayve 的 10.5 亿美元 C 轮融资,当时的投资者还包括软银和微软等。此次,在 Wayve 尚未披露 D 轮 融资日程的情况下,英伟达就展现出了积极的意向,足见其对 Wayve 的青睐。 Wayve 联合创始人兼首席执行官亚历克斯·肯德尔(Alex Kendall)表示:"我们的 AV2.0 构建具身人工智能 ...
任少卿加入中科大......
自动驾驶之心· 2025-09-20 05:35
参考 | 量子位 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 任少卿去中科大了! AI大神任少卿开始在母校中国科学技术大学,开班招生了。 任少卿,曾任Momenta联合创始人、蔚来汽车副总裁,07级中科大本硕博(微软亚洲研究院联合培养),ResNet和Faster R-CNN作者。学术高被引超44 万,是全球中国籍学者高被引第一。ResNet也是21世纪全球最高被引论文。获未来科学大奖-数学与计算机科学奖。 招生方向为AGI、世界模型、具身智能、AI4S等。 硕士、博士生都在招。有推免资格的学生,下周一(22日)开启紧急面试。 更多内容 自动驾驶产业和学术最新咨询,欢迎加入自动驾驶之心知识星球,国内最大的自驾社区平台。 ...
任少卿在中科大招生了!硕博都可,推免学生下周一紧急面试
量子位· 2025-09-20 05:12
明敏 发自 凹非寺 量子位 | 公众号 QbitAI 一则招生消息不胫而走,A I大神任少卿 开始在母校 中国科学技术大学 ,开班招生了。 任少卿,曾任Momenta联合创始人、蔚来汽车副总裁,07级中科大本硕博(微软亚洲研究院联合培养),ResNet和Faster R-CNN作者。学 术高被引超44万,是全球中国籍学者高被引第一。ResNet也是21世纪全球最高被引论文。获未来科学大奖-数学与计算机科学奖。 招生方向为AGI、世界模型、具身智能、AI4S等。 硕士、博士生都在招。有推免资格的学生,下周一(22日)开启紧急面试。 任少卿简介 任少卿,计算机视觉、自动驾驶领域专家。 2007年毕业于蚌埠二中,考入中国科学技术大学信息安全专业,2016年获得中国科学技术大学与微软亚洲研究院的联合培养博士学位。 核心作者为何恺明、张祥雨、任少卿、孙剑。 2022年入选人工智能全球最具影响力学者榜单——AI 2000,排名第十。2023年获得未来科学大奖数学与计算机科学奖。 他是ResNet的作者之一。 ResNet是深度学习领域里程碑式工作,其成就在于从根本上解决了深度神经网络训练中的梯度消失难题。它使得构建高性能 ...
具身的这几个方向,组成了所谓的大小脑算法
具身智能之心· 2025-09-19 00:03
具身智能技术框架 - 具身智能领域围绕大脑和小脑两大模块展开 大脑负责思考感知和任务规划 小脑负责高精度运动执行[3] - 细分技术包括仿真 VLA Diffusion Policy VLN 世界模型和强化学习等多个子模块[5] - VLA和世界模型在自动驾驶和具身领域同时发力 代表两个不同技术路线[5] 技术演进阶段 - 第一阶段聚焦抓取位姿检测 通过点云或图像预测末端执行器姿态 但缺乏任务上下文和动作序列建模[7] - 第二阶段进入行为克隆阶段 通过专家演示数据学习端到端映射 但存在泛化能力弱和误差累积问题[7] - 第三阶段引入Diffusion Policy方法 通过扩散模型生成动作轨迹 提升策略稳定性与泛化能力[8] - 第四阶段探索VLA模型与强化学习 世界模型 触觉感知等模块融合 弥补现有局限[9] 关键技术发展 - VLA研究热点为端到端和分层两种方案 分别基于大模型和diffusion技术拓展 VLA+RL方案成为新探索方向[5] - Diffusion Policy负责学习具体动作和执行 包括状态扩散 动作空间扩散和三维空间扩散等多个方向[6] - 仿真技术发展sim2real和real2sim2real 解决真机泛化差问题 获多家具身公司认可[6] - VLN更关注目标导航 与移动操作相关联 map-free方案利于任务泛化[6] 应用与落地 - 技术发展推动人形机器人 机械臂 四足机器人等产品落地 服务于工业 家居 餐饮 医疗康复等领域[10] - 产业界重视推动具身智能从论文走向部署 对工程能力提出更高要求[14] - 需掌握在Mujoco IsaacGym Pybullet等平台完成策略训练与仿真测试的能力[14] - 需实现强化学习在VLA后训练上的应用 支持机器人反馈微调[14] 人才需求与培养 - 岗位呈现爆发式增长 导致许多专业人士转入具身智能领域[10] - 需要掌握具身大脑+小脑算法全体系知识点 熟悉模型优化方法[25] - 需掌握仿真 DP VLA VLA+RL模型的基本原理和实际应用[25] - 需熟悉世界模型在具身智能领域中的应用 掌握基于触觉信息的VLA主流方案[25]
从 ChatGPT 到 Marble,李飞飞押注的下一个爆发点是 3D 世界生成?
锦秋集· 2025-09-18 07:33
文章核心观点 - 李飞飞创立的World Labs推出空间智能模型Marble 其核心突破在于通过一张图片或文本提示生成持久存在且可自由导航的3D世界 在几何一致性、风格多样性、世界规模和跨设备支持上显著优于同类产品[1][2] - Marble并非孤立产品 而是李飞飞"世界模型-空间智能-三维表征"思路的集中落地 代表从语言理解到世界理解再到AGI的演进路径[3][6] - 世界模型被视为AI发展的第三阶段范式 其核心在于三维表征与时空一致性 而不仅是多模态拼接 这将推动内容生产、机器人和AR/VR领域的变革[6][21][29] 大语言模型边界与空间智能必要性 - 大语言模型在写作、推理等任务中展现强大能力 但其基于一维序列的结构无法原生理解三维世界 语言作为有损编码方式难以传递几何、物理和时序因果信息[5][9][10] - 二维像素和视频输入不会自动生成三维结构 关键在模型内部表征需原生支持三维表达 满足可微渲染、视角一致性和物理一致性要求[11][14] - 空间智能是AGI的必要条件 因为世界本质是三维的 二维观测是不完备投影 且语言训练信号是纯生成的 无法替代对三维结构的直接建模[16] 世界模型的技术实现路径 - 数据策略采用混合路径:真实采集+重建生成+仿真合成 以解决三维数据匮乏问题 同时强调数据质量与一致性约束的重要性[20][26] - 算法层面注重"重建与生成合流" 同一套三维表示既能重建真实场景 也能生成虚拟世界 NeRF等方法让小规模算力也能实现原创突破[20][24] - 算力资源配置体现学术与产业分工:工业界侧重系统工程与产品化 学术界专注表示方法和跨模态原理研究[25] 产业发展与落地节奏 - 内容生产为首要落地场景 目标将3D内容生成成本从AAA游戏级降至创作者可及水平 应用覆盖游戏、虚拟摄影、工业设计和教育领域[6][29] - 机器人被视为天然应用场景 空间智能连接数字脑与物理界面 但需先打磨三维表示与交互能力 再承接高风险实体操作[30] - AR/VR作为后续发展阶段 需实现从静态场景到动态要素、可交互性和场景语义的逐步演进[29] 范式演进与投资逻辑 - AI发展遵循三要素共振规律:数据×算力×算法 ImageNet时代是二维标注数据驱动 世界模型时代是三维表示驱动[18][21][23] - 范式演进分为三阶段:监督学习(ImageNet)→生成式建模(扩散/GAN)→三维世界模型(重建×生成)[21][24] - 投资逻辑围绕"找到时代最被低估的数据形态" 三维表示被视为当前最具潜力的数据形态[21][23]
来自MIT最强AI实验室:OpenAI天才华人研究员博士毕业了
36氪· 2025-09-17 07:05
个人背景 - 陈博远现任OpenAI研究科学家 是GPT图像生成技术五位核心研究人员之一 也是Sora视频生成团队成员[5] - 拥有MIT电子工程与计算机科学博士学位 并辅修哲学 研究重点包括世界模型 具身人工智能和强化学习[7] - 本科毕业于加州大学伯克利分校 主修计算机科学和数学 辅修哲学 曾师从机器人领域专家Pieter Abbeel教授[24][25] 职业经历 - 2023年5-8月在谷歌DeepMind实习 参与基于大规模合成数据的多模态大语言模型训练项目 其指令微调技术被Gemini 2.0采用[7] - 本科期间创办机器人教育公司 主导竞赛用机器人套件的软硬件开发[25] - 博士期间发表多篇高影响力论文 包括SpatialVLM(被引367次) Diffusion Forcing(被引136次)等 总引用数达1183次[15][16] 技术研究方向 - 专注于世界模型开发 认为视觉世界模型对具身智能至关重要[4] - 主张结合世界模型 具身AI和强化学习 使AI更好地理解物理世界[7] - 预测具身智能将是未来百年最令人激动的技术 有生之年有望见证通用机器人诞生[17] 行业影响 - 其研究成果NLMap和SpatialVLM在学术界和工业界获得认可[12][15] - 加入OpenAI后将继续推进世界模型发展 参与GPT图像生成和Sora视频团队[1] - OpenAI正在加大机器人技术投入 组建团队开发控制机器人算法[20]
DeepMind哈萨比斯最新认知都在这里了
量子位· 2025-09-15 05:57
文章核心观点 - 谷歌DeepMind CEO哈萨比斯认为AGI将在未来十年内实现 并开启科学的黄金时代和新文艺复兴 在能源 健康等领域带来巨大益处 [2][7][51] - 当前AI系统仍存在关键瓶颈 包括缺乏真正的创造力 无法提出新假设 以及在某些领域表现优异但其他方面犯简单错误 [4][5][33] - 实现AGI需突破多模态理解 世界模型构建和持续学习能力等核心技术障碍 [6][21][36] DeepMind战略定位与团队规模 - DeepMind与谷歌完成合并 整合Alphabet所有AI团队 成为谷歌和Alphabet的"发动机舱" 负责构建核心Gemini模型及视频模型 交互式世界模型等多种AI模型 [15] - 团队规模约5000人 其中80%以上为工程师和博士研究员 约有三四千名顶尖技术人才 [16] - 模型已全面接入谷歌生态 包括Workspace和Gmail等全线产品 每日服务数十亿用户通过AI概览 AI模式或Gemini应用进行交互 [15] 世界模型技术突破 - Genie 3世界模型通过分析数百万段YouTube等平台视频 自主推导现实世界运行逻辑 能即时生成可交互的沉浸式环境 [17][19] - 模型无需预编程物理规则 仅通过观察学习即掌握光影反射 物体运动等复杂原理 生成持续一两分钟的高度一致性交互场景 [19][20] - 技术突破点在于实现逆向工程学习物理规律 生成范围远超人类活动 包括操控沙滩小狗或与水母互动等多元世界模拟 [19] 机器人技术发展路径 - 采用"安卓模式"战略 打造跨机器人的通用操作系统层 同时探索垂直整合 将最新模型与特定机器人类型深度结合 [25] - 人形机器人对日常任务极具价值 因人类环境基于人体工学设计 但专用机器人形态在工业等领域仍有不可替代性 [26][27] - 当前处于类似70年代PC初期阶段 未来两三年将实现算法突破 关键挑战在于硬件规模化时机选择 需平衡成熟度与量产需求 [28][29] AGI核心能力缺失与衡量标准 - 当前AI缺乏真正创造力 无法像爱因斯坦提出狭义相对论那样实现直觉飞跃或类比推理 [33][34] - 真正AGI需在所有领域保持博士级表现 而非仅在某些领域优异 同时需具备持续学习能力以实时吸收新知识 [35][36] - 关键测试包括给AI设置1901年知识截止点 检验其能否提出类似1905年爱因斯坦的创新理论 [34] 创意工具变革与行业影响 - Nano Banana等工具的核心优势在于惊人一致性 能理解指令并保持其他元素不变 实现高效迭代 [14][38] - 工具双轨赋能:降低大众创作门槛 同时为顶级创作者提供十倍百倍效率提升 但输出质量仍依赖使用技巧和审美素养等专业因素 [38][39] - 未来娱乐将出现融合共创的新艺术形式 顶级创意先锋主导高质量动态叙事 数百万人可参与部分内容共创 [39][40] 药物研发加速前景 - Isomorphic Labs依托AlphaFold技术 旨在将药物研发周期从数年或十年缩短至几周或几天 [41] - 目前与礼来 诺华等重要合作 推进癌症 免疫学和肿瘤学研究 预计明年进入临床前阶段 [43][44] - 采用混合模型架构 结合学习组件与化学物理规则约束 以解决生物学数据不足问题 [45] 能源效率与AGI贡献 - 通过模型蒸馏等技术 相同性能下模型能效过去两年提升10倍甚至100倍 [49] - AI系统在电网效率 材料设计和新能源等领域的贡献将远超其自身能源消耗 [50] - 当前总需求未降低因前沿模型仍需扩大规模实验 但服务端能效持续优化 [49]
理想汽车推送OTA 8.0版本,李想称公司辅助驾驶开始“全面领先”,VLA优于世界模型?
每日经济新闻· 2025-09-12 10:06
理想汽车OTA8.0系统升级 - 理想汽车推送OTA8.0版本车机系统 辅助驾驶、智能座舱和智能电动迎来升级 [1][3] - 自研VLA司机大模型向理想MEGA和理想L系列AD Max车型全量推送 [3] - VLA是第三代辅助驾驶技术 具备"看得懂道路状况 听得懂人类指挥 记得住车主习惯"特性 [3] VLA技术特性与功能 - VLA司机大模型具备环境理解和推理能力 在复杂路口选路更精准 [6] - 拥有车速记忆功能 可记住用户特定道路车速偏好并通过对话设定 [6] - VLA泊车实现自主寻路、漫游找车位、导航终点靠边停车等功能 [6] - 9月10日开始向AD Max车型推送 但初期为缺少某功能的"残血版" [4][6] VLA技术优势与行业地位 - VLA可被视为端到端的"智能增强版" 引入思维链实现可解释性决策 [7][8] - 解决传统模型长尾场景挑战 泛化能力更强 下限超过端到端上限 [7][8][11] - 多模态大模型驱动 语言模型作为"中台"转译感知内容为执行决策 [8] - 理想汽车、元戎启行、小鹏汽车等多家车企竞相布局VLA领域 [7] 行业技术路线对比 - 华为采用WA世界行为模型 直接通过Vision信息输入控车 [12] - 世界模型通过感知数据构建物理世界内部模拟 实现预测和推理 [12] - VLA与世界模型并不矛盾 VLA强化学习阶段需在世界模型闭环学习 [13] - 技术路线选择取决于企业目标 智驾行业预计2028年收敛至稳定状态 [13]
成都研发出国内首个基于世界模型的机器人任务执行系统 让人形机器人实现“类人思考”
四川日报· 2025-09-12 06:23
技术突破 - 成都人形机器人创新中心成功研发国内首个基于世界模型的机器人任务执行系统(R-WMES)[1] - 系统通过目标图片输入实现自主状态判断、任务规划与执行 最终使结果与目标完全一致[1] - 世界模型框架模拟人类大脑思考方式 学习物理和因果规律并具备类似条件反射的物理直觉[2] 系统性能 - 在陌生环境中展现强大自适应性和任务完成度 从源头解决人形机器人不够聪明的问题[1] - 演示案例显示机器人能准确抓取吸管插入玻璃瓶 并处理不同杯盖配置的玻璃杯任务[2] - 系统填补国内高适应性、强推理能力人形机器人任务执行系统的空白[2] 产业影响 - 技术突破显著提升机器人在复杂多变环境下的自主作业能力[2] - 系统落地巩固成都在国内人形机器人领域的领先地位 加速技术迭代与应用场景拓展[3] - 将有力吸引产业链上下游资源集聚 推动人工智能与人形机器人产业生态迈向更高能级[3]