Workflow
世界模型
icon
搜索文档
小马智行:一线城市全布局 深度合作整车厂商助力实现盈亏平衡
证券时报网· 2025-08-27 14:55
核心观点 - 公司作为全国唯一在北上广深四大一线城市同步开启无人驾驶出行服务的企业 实现深圳7×24小时无人驾驶服务常态化 并计划2025年底车队规模突破千辆以加速商业化闭环 [2] - 公司通过世界模型和远程协助系统实现安全性超人类近10倍 第七代自动驾驶车辆已量产下线200余台 海外市场在迪拜 首尔和卢森堡同步推进测试运营 [5][6][7] - 公司与丰田 北汽和广汽深度合作新一代车型 希望通过合作降低自动驾驶整车成本 助力实现盈亏平衡 [8] 国内业务进展 - 在深圳覆盖前海 南山 宝安核心商圈及深圳宝安机场 服务范围包括深圳湾口岸 2022年深圳成为全国首个推出自动驾驶地方立法的城市 [3] - 国内无人驾驶运营面积超过2000平方公里 2023年在广州 北京启动商业化运营 2024年在深圳获取商业化牌照 2025年在上海完成北上广深全覆盖布局 [4] - 深圳已开放7×24小时运营 凌晨时段有固定用户呼叫无人车 市民将其视作日常通勤工具 [3] 技术体系 - L4级自动驾驶被定义为自主智能体 无需人类接管 与L2辅助驾驶存在本质差异 [5] - 世界模型每周完成超100亿英里虚拟仿真里程 使系统安全性比普通人类提升10倍 [6] - 远程协助系统可实现一对多管控 1名协助员可同时监控多台车辆 降低对高速网络的依赖 [6] 产品与产能 - 第七代自动驾驶车辆与北汽极狐 广汽埃安合作研发 支持60万公里运营里程 成本大幅下降 外观与普通量产车接近 [7] - 2025年第七代车辆将在北上广深陆续部署 年底车队规模预计突破千辆 [2][7] 海外拓展 - 在阿联酋迪拜启动道路测试 在韩国首尔进入江南区开展测试运营 在欧洲卢森堡启动研发中心 [7] - 向海外监管部门分享中国在自动驾驶监管 牌照发放 商业化推进等方面的经验 目标帮助更多国家在2-3年内达到中国当前开放程度 [7] 行业合作与成本控制 - 与丰田 北汽和广汽合作开发丰田铂智4X Robotaxi 北汽极狐阿尔法T5 Robotaxi和广汽埃安霸王龙Robotaxi的自动驾驶套件 [8] - 通过与整车厂商深度合作降低自动驾驶整车成本 助力公司达到盈亏平衡点 [8] 行业竞争格局 - 通用汽车关停Cruise Robotaxi为行业敲响安全警钟 Waymo和特斯拉发展迅速 Waymo计划今年在美国落地数千台运营车辆 运营范围扩展至亚特兰大 迈阿密等多个城市 [9] - 美国政府高度重视境内自动驾驶发展 可能通过政策手段助力Waymo等巨头 通用汽车未来仍有可能重启L4级别Robotaxi [9]
人形机器人,缺一个杀手级共识
创业邦· 2025-08-26 03:37
公司技术路径与观点分野 - 星动纪元采用软硬一体、端到端VLA+强化学习+世界模型融合的垂直整合路线[8][30] - 宇树科技坚持硬件先行策略 通过自研关节电机和优化机械结构提升性能[10][31] - 双方对VLA可行性存在分歧:星动纪元认为端到端方法可行并投入研发ERA-42大模型[13][15] 宇树科技质疑其过度依赖数据且缺乏长期规划能力[16] 技术架构差异 - 星动纪元构建五层技术系统:硬件层(自研关节模组/灵巧手)[37] 实时控制层(混合传统控制与强化学习)[38] 感知与世界模型层(多模态融合)[38] VLA大模型决策层[39] 数据工程与训练平台层[40] - 宇树科技侧重硬件性能基础 关注模型决定数据与分布式算力工程实现[18][22] - 端到端架构优势:实现感知-决策-执行闭环 高频控制减少延迟[34][35] 商业化进展与策略 - 星动纪元已落地B端工业场景 产品达到70%人工效率 预计明年达90%[23] 累计交付超300台 服务全球市值前十科技公司中的9家[45] - 宇树科技采取多元化策略 现阶段聚焦表演与格斗比赛场景[26] 发布新品人形机器人R1及四足机器狗A2[27] - 星动纪元实现灵巧手量产 与VLA控制整合实现细粒度操作[44] 行业共识与发展阶段 - 共同认可人形机器人是AI终极载体 具身智能需感知-决策-执行闭环[50][52] - 短期(1-3年):工业场景小批量落地[56] - 中期(3-5年):迎来"ChatGPT时刻" 扩展至物流/医疗场景[56] - 长期(5-10年):进入家庭场景但需解决安全性问题[56] - 技术路径可能融合:VLA吸收世界模型预测能力 世界模型提升实时交互[56] 工程成果与行业影响 - 星动纪元L7以95.64cm成绩创人形机器人跳高世界纪录[4][43] - 开源Humanoid Gym框架与VPP大模型推动行业协作[21][45] - 行业需跨越软硬件协同瓶颈 硬件性能决定模型发挥上限[53][54]
中信证券:短期建议关注具身模型行业的资本布局者及数据采集卖铲人
第一财经· 2025-08-25 00:58
模型架构发展 - 大语言模型、大型视觉模型与动作模型融合是当前架构主旋律 [1] - 基于扩散模型的流匹配算法在短期逐渐占据主导地位 [1] 数据战略竞争 - 强资本开支企业以真实数据采集为突破口构建竞争壁垒 [1] - 合成数据及互联网数据因规模化与泛化属性成为重要价值底色 [1] - 数据样方理念持续兴起 预训练及后训练需与数据属性有机结合 [1] 技术赋能方向 - 世界模型对合成数据和策略评判具备规模化赋能潜力 [1] 投资关注重点 - 短期建议关注具身模型行业资本布局者及数据采集卖铲人 [1] - 长期维度建议关注云计算及算力提供者 [1]
视频生成 vs 空间表征,世界模型该走哪条路?
机器之心· 2025-08-24 01:30
世界模型技术路线之争 - 视频预测路线主张在像素空间预测未来视频片段,认为高质量画面生成代表模型对物理规律的掌握,如OpenAI Sora宣称通过大规模视频训练构建"通用物理世界模拟器"[8] - 世界表征路线主张在潜在抽象空间建模时空与因果结构,避免像素级冗余细节预测,如LeCun提出在抽象表征上进行预测以去除不可预测细节[9] - 技术实现差异显著:视频预测路线通过生成器在高维图像空间按帧还原视觉内容,世界表征路线通过VAE压缩数据至低维潜在空间后用RNN等模型预测状态演化[9] 前沿模型技术架构分析 - Google DeepMind发布Genie 3模型,能够根据文本提示生成可交互3D环境并支持机器人训练和虚拟现实应用[6] - 视频预测路线代表包括OpenAI Sora、Veo 3、Runway Gen-3 Alpha,侧重视觉生成质量与一致性[11] - 世界表征路线代表包括Meta V-JEPA 2和Genie 3,强调在抽象空间进行预测与规划[11] 技术路线有效性争议 - 支持视频生成的研究者认为高质量画面生成即代表物理规律掌握,批评者指出像素一致性不等于因果理解能力[10] - 研究机构指出除JEPA外多数所谓"世界模型"仅为严格视频生成工具,未真正融入决策或规划能力[10] - 核心争论在于建模优先级:从像素逐步抽象或直接跳过像素细节在抽象空间建模[9]
拾象 AGI 观察:LLM 路线分化,AI 产品的非技术壁垒,Agent“保鲜窗口期”
海外独角兽· 2025-08-22 04:06
大模型行业分化趋势 - 大模型公司正从通用模型向垂直领域分化 Google Gemini和OpenAI继续专注通用模型 Anthropic聚焦Coding和Agentic领域 Thinking Machines Lab探索多模态和下一代交互[6][7] - 行业呈现横向全家桶与纵向垂直整合两大路线 ChatGPT代表横向全家桶模式 Gemini代表纵向垂直整合模式[6][37] - 模型能力趋同导致前三名格局稳定 OpenAI、Gemini和Anthropic形成第一梯队 其他公司难以突破前三名壁垒[24][26] 头部公司战略与表现 - Anthropic通过聚焦Coding实现爆发式增长 2024年底ARR达9.5亿美元 预计2025年收入超120亿美元 月复合增速达20-30%[8][11] - OpenAI在C端建立强大壁垒 ChatGPT成为10亿用户最快增长产品 ARR达120亿美元 与Anthropic合计占AI产品营收70-80%[29][30] - Thinking Machines Lab获史上最贵天使轮融资 估值100亿美元融资20亿美元 团队来自OpenAI核心infra部门[13][18] - xAI面临战略定位困境 超大算力投入未带来相应回报 可能在未来半年并入Tesla[22] 产品与技术创新 - L4级别体验产品已出现 ChatGPT Deep Research和Claude Code分别实现信息搜索和软件开发的端到端体验[49] - Coding领域成为当前最大红利 Claude Code仅用3-4个月ARR反超Cursor 预计年底达15-20亿美元[33][50] - 模型保鲜窗口持续缩短 Perplexity窗口期近2年 Cursor窗口期9个月 Manus窗口期仅3个月[45] - Context能力成为关键差异点 Claude在long context领域具有独特优势 最新实现百万context能力[52] 市场竞争格局 - 头部效应加剧 OpenAI和Anthropic增速持续陡峭 其他公司出现明显断层[30] - 成本优势成为核心竞争力 不做模型的Coding公司将失去优势 未来竞争重点转向成本优化[3][53] - 谷歌规模效应开始显现 端到端整合TPU芯片、Gemini模型和安卓系统 后劲可能最强[37][60] - 产品形态趋向融合 ChatGPT计划推出广告平台 谷歌整合Gemini功能推出AI mode[55][58] 投资与创业环境 - 投资策略需要高度集中 头部公司拿走最大价值 错过头部项目意味着错过整个周期[65][66] - 创业窗口期缩小 科技巨头既看得懂又跟得动 留给创业公司的空间有限[37][39] - 华人团队全球影响力提升 在AGI领域扮演重要角色 需要积极开拓北美高价值市场[62][63] - 优秀AI产品经理画像变化 下一代PM需要算法或模型背景 才能更好利用模型红利[47] 技术发展前景 - 语言和代码仍是当前最大红利 多模态和机器人发展还需突破多个GPT-4级别技术[49][64] - 产品形态持续演进 可能打破APP端到端优势 介于手机屏幕和APP之间的新形态[60] - 世界模型与Coding可能本质相同 都是实现AGI的"虚拟子宫" 只是路径不同[12] - 智能与产品需要平衡 OpenAI在智能探索和产品转化方面做得最好[40][43]
从“内部世界”到虚拟造物:世界模型的前世今生
经济观察报· 2025-08-21 08:25
谷歌DeepMind Genie 3模型 - 谷歌DeepMind发布Genie 3模型 能够根据文本或图像提示实时生成可交互的3D虚拟环境 例如输入"月球上的火山边"可生成相应场景并允许用户探索 [2] - Genie 3在实时交互能力上显著提升 支持记忆连贯性 如用户涂鸦后离开再返回 涂鸦仍保留 并引入"可提示的世界事件"功能 允许通过新指令动态改变环境 [2] - 该模型被视为通向通用人工智能(AGI)的"世界模型"路径 刷新AI生成内容边界 引发行业对"世界模型"技术路线的广泛讨论 [2][21] 世界模型技术发展史 - 世界模型灵感源自人脑构建"内部世界"的能力 早期AI研究如维纳的反馈控制理论和符号主义知识图谱已尝试模仿该机制 [6] - 1989年理查德·萨顿提出Dyna架构 结合强化学习与内部世界模拟 1990年施密德胡伯首次用RNN实现"世界模型"概念 但受限于当时技术条件未受重视 [6][7] - 2018年施密德胡伯团队发表《世界模型》论文 借助深度学习革命浪潮 该概念重新引发关注 谷歌DeepMind随后推出PlaNet(2019)和Dreamer(2020)等迭代产品 [7][8][9] 世界模型技术实现路径 - 核心技术包括表征学习(如VAE压缩多模态数据)、动态建模(嵌入物理规律避免模拟偏差)、控制规划(蒙特卡洛树搜索或强化学习)及结果输出(潜在空间渲染) [11][12][13][14] - 动态建模需解决因果关系学习难题 通过嵌入物理定律或多样化数据训练确保模拟准确性 例如抛掷物体需涵盖羽毛与铅球不同场景 [12] - 输出环节采用潜在空间生成再解码为像素 效率高于直接像素生成 多模态输出需结合声音、触觉等渲染技术 [14] 世界模型行业应用前景 - 具身智能领域:为机器人提供安全虚拟训练场 通过"做梦"式模拟降低试错成本 避免现实环境中的事故风险 [15][16] - 数字孪生领域:从被动模型升级为主动预测系统 实现设备故障预警、流程优化等"感知-预测-决策"闭环 [16] - 游戏娱乐领域:实时生成动态虚拟世界 提升NPC交互智能 未来或成为"虚拟社会"基础设施 支持大规模数字生活 [17] 行业技术路线争议 - Meta杨立坤认为世界模型是AGI必经之路 因其模拟人类"离线思考"能力 而大语言模型缺乏物理一致性推理 [21] - DeepMind哈萨比斯等学者持反对意见 指出AlphaGoZero等无模型方法已超越人类 显式物理建模可能受误差累积限制 [22] - 中间路线派主张隐式建模 如大语言模型通过参数隐含世界知识 虽可解释性差但能完成逻辑推演 技术路径应依任务需求选择 [23][24]
上下文即记忆!港大&快手提出场景一致的交互式视频世界模型,记忆力媲美Genie3,且更早问世!
量子位· 2025-08-21 07:15
技术框架与核心创新 - 香港大学和快手可灵研究团队提出全新框架"上下文即记忆"(Context-as-Memory),通过将完整历史上下文帧作为记忆并利用记忆检索机制优化长视频生成的场景一致性 [8][10] - 框架核心思想包括:依赖长期历史记忆保持场景一致性、通过记忆检索模块智能筛选有用历史信息、将筛选后的上下文帧拼接至输入中指导新帧生成 [15][17][19] - 采用基于摄像机轨迹搜索的帧选取方法,通过计算视场重叠度选择高重叠上下文帧,在保证计算效率的同时维持一致性 [20][22] 实验设计与性能表现 - 在相同基础模型和训练配置下,Context-as-Memory方法在PSNR(20.22)、LPIPS(0.3003)、FID(107.18)和FVD(821.37)指标上均优于基线方法,显示其显著优越的记忆能力和生成质量 [25] - 对比方法包括:单帧上下文(PSNR 15.72)、多帧随机上下文(PSNR 17.70)、DFoT(PSNR 17.63)及FramePack(PSNR 17.20) [25][29] - 使用Unreal Engine 5构建包含100个视频、12种场景风格的数据集,每个视频由7601帧组成并附带摄像机位姿标注,简化位姿处理至二维平面移动和旋转 [22][23] 应用案例与泛化能力 - 方法成功应用于《塞尔达传说》绿色田野、《黑神话悟空》废弃寺庙及《原神》云堇角色模型等游戏场景,在镜头晃动时保持场景元素完全稳定 [1][3][5][7] - 在开放域测试中,使用互联网不同风格图像作为首帧并采用"旋转远离再返回"轨迹,验证了方法在开放场景中的强大记忆泛化能力 [26][27] 研究背景与团队构成 - 论文由香港大学、浙江大学和快手可灵团队联合完成,第一作者为香港大学博士生余济闻,师从刘希慧教授并在快手可灵担任研究实习生 [28][32] - 研究是作者在交互式视频生成、世界模型和具身人工智能方向的延续,其前期成果GameFactory曾入选ICCV 2025 Highlight [33]
上下文记忆力媲美Genie3,且问世更早:港大和可灵提出场景一致的交互式视频世界模型
机器之心· 2025-08-21 01:03
核心技术突破 - 提出Context as Memory方法 将历史生成帧作为记忆载体实现长视频场景一致性 无需显式3D建模辅助[2][10][17] - 创新设计基于相机轨迹视场(FOV)的记忆检索机制 动态筛选相关历史帧 减少计算开销并提升训练推理效率[3][12][17] - 通过context learning技术学习上下文条件 使模型隐式掌握视频数据中的3D先验[2][12] 技术实现细节 - 采用基于Context learning的视频自回归生成框架 所有历史帧作为记忆条件参与生成过程[12] - 基于Unreal Engine 5构建多样化场景数据集 包含精确相机轨迹标注的长视频用于训练测试[3] - 用户仅需提供初始图像即可沿设定相机轨迹自由探索生成的虚拟世界[3] 性能表现 - 在几十秒时间尺度下保持静态场景记忆力 并在不同场景展现优秀泛化能力[6] - 实验结果显示其场景记忆力显著超越现有SOTA方法 在开放域场景中保持记忆[10][15] - 与Google DeepMind的Genie 3效果接近 且投稿时间早于Genie 3发布[2] 研究背景与延伸 - 团队提出世界模型五大基础能力模块:Generation Control Memory Dynamics Intelligence 为领域研究提供框架指导[18] - 同期开发GameFactory技术 聚焦可泛化开放域控制能力 可生成无限可交互新游戏 获ICCV 2025 Highlight论文[18][19] - 已发表多篇交互式视频生成领域综述与观点论文 系统总结领域发展现状[18][19]
开源版Genie 3世界模型来了:实时+长时间交互,单卡可跑,国内公司出品
机器之心· 2025-08-19 02:43
核心观点 - 昆仑万维发布开源交互世界模型Matrix-Game 2 0,参数量仅1 8B,能在单块GPU上实现25FPS的分钟级实时互动生成,效果媲美Google DeepMind的Genie 3 [1][12][11] - 该模型突破传统世界模型在实时交互、长序列生成和计算效率上的瓶颈,支持键盘WASD控制自由移动,生成画面具有物理一致性和高保真细节(如GTA地图、神庙逃亡无限延伸场景)[4][8][9][19] - 技术架构采用视觉驱动交互方案,通过3D Causal VAE+DiT模型实现少步骤自回归扩散生成,训练数据来自虚幻引擎和GTA5采集的120万视频片段(准确率99%)[35][36][37][39] - 定量对比显示其图像质量(0 61)、时间一致性(0 94)、键盘控制准确率(0 91)等指标显著优于Oasis模型,解决"转圈画风突变"问题[48][49] - 公司2023年持续发力开源生态,已发布SkyReels视频生成、Skywork-R1V多模态推理等10余个模型,技术覆盖图像/音频/视频/智能体全领域[51][53] 技术突破 - **架构创新**:移除文本分支专注视觉理解,动作模块支持帧级键鼠输入,通过MLP+交叉注意力实现精准交互控制[39][40] - **训练机制**:采用Self-Forcing将双向模型转为自回归变体,减少误差累积,生成视频时长可达分钟级[42][45] - **数据管线**:构建虚幻引擎+GTA5双数据源,开发Script Hook V工具同步记录动作与画面,积累1200小时交互视频[36][37][38] 应用场景 - **游戏开发**:实测可复刻《荒野大镖客》自然景观、《CS:GO》地图细节补充、《我的世界》像素场景动态生成[20][21][24] - **现实模拟**:成功生成自行车骑行第一视角,柏油马路与行道树动态符合物理规律[26] - **AI训练场**:为具身智能提供虚拟环境训练,解决机器人/自动驾驶数据采集难题[57][58] 行业影响 - 成为首个开源通用实时世界模型方案,推动技术民主化发展[10][11] - 模型效果接近商业级3A游戏引擎,帧率与谷歌Genie 3相当(25FPS vs 30FPS)[12][4] - 开源策略加速行业创新,HuggingFace模型获超1k星标热度[52]
诺奖得主谈「AGI试金石」:AI自创游戏并相互教学
36氪· 2025-08-19 00:00
Genie 3 世界模型 - Genie 3 是 DeepMind 多个研究分支融合的成果,核心目标是构建“世界模型”,让 AI 理解物理世界的规律,包括物理结构、材料特性、液体流动、生物行为等 [3] - 通过 3D 游戏引擎等模拟环境生成大量数据,让 AI 在虚拟场景中学习现实规律,能生成具有一致性的世界,用户返回虚拟场景时状态与离开时保持一致 [4] - 已用于内部训练,游戏 agent SIMA 可直接操控电脑游戏,Genie 3 实时生成对应的环境变化,形成“AI 生成世界、另一个 AI 探索”的闭环,为机器人技术和 AGI 系统创建无限训练数据 [4] - 在互动娱乐领域有潜在价值,可能催生介于电影与游戏之间的新型娱乐形式,与视频模型共同为探索现实本质提供新维度 [5] Game Arena 评估平台 - Google DeepMind 与 Kaggle 合作推出 Game Arena,作为评估 AGI 进展的新测试平台,让模型玩各种游戏并测试能力 [6] - 游戏是非常纯粹的测试场所,通过 Elos 等级分客观衡量性能,没有主观性,不需要人类进行 A/B 测试 [9] - 随着 AI 系统能力提升,游戏难度可自动调整,系统在比赛中相互较量,能力增强则测试自动升级 [9] - 未来支持 AI 自创游戏并相互教学,避免训练数据过度拟合,更真实检验通用学习能力 [10] - 将与其他新型评估工具共同作用,确保 AI 系统在认知能力的各个维度得到全面检验 [11] AI 系统现状与挑战 - 当前 AI 系统存在能力不均衡现象,能在 IMO 中获得金牌,却可能在高中数学、简单逻辑问题或特定游戏中犯低级错误 [7] - 现有评估基准存在局限性,很多 benchmark 开始变得饱和,例如数学领域 AIME 的正确率已达 99.2%,进入回报非常有限的阶段 [7] - 需要更难、更广泛的 benchmark,涵盖物理世界理解、直觉物理、物理智能及安全特性等维度 [8] Thinking 模型与工具使用 - Thinking 模型演进是重要方向,以 Deep Think 为代表的系统延续 AlphaGo 等早期游戏 AI 的 agent 系统思路,强调思考、规划与推理能力 [12] - 可进行深度思考和并行规划,在数学、编程、科学问题等领域通过反复推演优化结果,而非直接输出初始结论 [12] - 工具使用成为 AI 能力扩展的新维度,在推理过程中可调用搜索功能、数学程序、编码工具等,更新规划方案 [12] AI 系统架构转变 - AI 正从权重模型向完整系统转变,早期模型输入输出模式较简单,如今系统能结合工具使用、规划与思考能力,实现更复杂功能 [13] - 产品设计需具备前瞻性,预判一年后技术水平,允许底层引擎定期更新,周期可能短至三到六个月,以适应技术快速迭代 [13]