世界模型

搜索文档
LeCun出手,造出视频世界模型,挑战英伟达COSMOS
机器之心· 2025-07-29 09:58
世界模型概念与发展 - 世界模型是一种神经网络,能够根据智能体过去的观察与动作预测环境的未来状态 [2] - 深度学习三巨头之一Yann LeCun将世界模型视为通向人类智能的核心路径 [3] - 训练有效世界模型面临数据获取成本高、任务复杂度高、算力消耗大等挑战 [4][5][6] DINO-world模型创新 - 采用冻结视觉编码器DINOv2在潜在空间预训练视频世界模型,显著降低计算成本 [9][19] - 模型参数量少于10亿,远低于生成式模型COSMOS的120亿参数规模 [19] - 引入残差预归一化交叉注意力块架构,提升预测效率 [20][21] 技术实现细节 - 使用旋转位置编码(RoPE)处理时空关系,支持可变帧率训练增强泛化能力 [23][24][28] - 通过动作条件微调模块将预测与智能体动作结合,缓解数据不足问题 [30][32][33] - 在6000万条未清洗网络视频数据集上训练,获得跨领域迁移能力 [11] 性能验证结果 - 在VSPW分割预测任务中,0.5秒预测mIoU提升6.3% [13] - 密集预测任务表现优于V-JEPA和COSMOS,Cityscapes mIoU达64.7 [37][38] - 直觉物理测试显示与V-JEPA ViT-H相当,验证大规模预训练价值 [40][41] 应用优势 - 解耦视频预训练与动作微调,减少90%标注数据需求 [12] - 潜在空间建模避免像素级计算,推理资源消耗降低80% [10][12] - 规划任务成功率比从头训练模型提高50%以上 [44]
具身领域LLM结合强化学习与世界模型工作汇总
具身智能之心· 2025-07-29 06:15
具身智能领域最新研究进展 通用现实世界交互模拟器 - UniSim通过整合多维度数据集(图像/机器人/导航数据)构建生成式交互模拟器,支持从高层级指令到低层级控制的视觉结果模拟,训练后的策略可零样本迁移至现实场景[3] - 应用场景涵盖游戏/电影内容生成和具身智能体纯模拟训练,视频描述生成等AI任务也能从中获益[3] 因果世界模型与鲁棒智能体 - Google DeepMind证实因果模型是智能体实现跨领域泛化的必要条件,最优智能体的因果模型将收敛至真实因果模型[5] - 该结论对迁移学习和因果推断领域具有深远影响[5] 元强化学习效率突破 - MAMBA框架结合模型方法和元强化学习技术,在基准测试中实现15倍样本效率提升,且无需超参数调优[8] - 成功验证高维任务场景有效性,推动现实世界泛化智能体发展[8] 多模态具身智能体训练 - EMMA通过文本世界LLM指导视觉世界VLM训练,采用DAgger-DPO算法实现跨模态模仿学习,在ALFWorld任务中成功率提升20%-70%[10] - 突破传统VLM在具身视觉世界中的动态对齐障碍[10] 自动化奖励函数生成 - TEXT2REWARD框架基于LLM自动生成密集奖励代码,在17项机器人操作任务中13项超越专家编写代码,运动任务成功率超94%[14] - 支持人类反馈迭代优化,仿真器训练策略可直接部署至现实[14] 持续学习型交互智能体 - 提出Behavior-IL与环境-IL两种持续学习框架,CAMA机制无需任务边界信息,通过滑动平均实现参数更新[18] - 显著超越基于数据先验的传统持续学习方法[18] 可扩展情境强化学习 - AMAGO通过并行化Transformer训练解决记忆容量和规划视野瓶颈,在元强化学习和长期记忆任务中表现优异[21] - 结合多目标hindsight重标注方案可攻克开放世界难题[21] 大语言模型与世界模型构建 - 创新性采用PDDL构建显式世界模型,GPT-4生成含40余个动作的高质量PDDL模型,成功求解48项复杂规划任务[23] - 通过前置修正机制将人工干预需求降低至初始阶段[23]
WAIC 2025观察:算力竞赛升维,模型寻路落地
经济观察报· 2025-07-28 13:36
行业趋势 - 2025年世界人工智能大会(WAIC)规模创纪录,展区超7万平方米,参展企业800余家,单日票价一度炒至3000元[2] - 行业呈现"一体两面"发展路径:硬件厂商聚焦算力性能提升,模型厂商转向商业场景落地[2] - 模型厂商集体转向产业"深水区",从参数比拼转向商业价值转化[1][14] 算力基础设施 - 华为展出昇腾384超节点,单集群算力达300PFLOPS(每秒30京次浮点运算)[4] - 芯鑫租赁累计向集成电路产业投放2100亿元,其中80亿元专项用于AI数据中心和算力租赁[4] - 神州数码发布业界首款鲲鹏技术路线大模型训推一体服务器KunTai R624 K2,计算效能提升2倍[6][7] - 曙光存储与中国移动联合落地国内首个全局统一文件存储系统,覆盖四大国家级枢纽节点[8] - 超云数字发布全栈液冷智算服务器R8429 L13,解决单机柜功率超20kW的散热问题[10] 模型与应用落地 - 商汤科技提出AI需通过"具身智能"与"世界模型"实现与现实世界交互进化[15] - 阶跃星辰发布Step 3模型,国产芯片推理效率达DeepSeek-R1的3倍,并联合10家芯片厂商成立"模芯生态创新联盟"[17] - 百望股份基于953.5万亿元交易数据构建"业务大脑",与阿里通义千问等合作推进开源模型+行业场景落地[18][19] - 数字王国发布"AI DOMAIN"影像创作平台,集成七大AI功能,联合成立"数字视觉创新联盟"[21] - 出门问问推出TicNote AI录音笔,内置"Shadow AI"实现记录、总结等复杂功能[23] 技术突破与创新 - 华为昇腾384超节点采用全对等UB总线和无阻塞Clos架构,实现384颗NPU与192颗鲲鹏CPU高效互联[4] - 曙光存储通过GDS技术实现数据直达GPU,将AI处理速度从每秒数百tokens提升至2000-3000[8] - 存算协同效益显著,存力投入1元可节约算力成本10元[9] - 神州数码产品兼容国内外主流AI加速卡,打破硬件兼容壁垒[7]
最近被公司通知不续签了。。。
自动驾驶之心· 2025-07-28 13:21
自动驾驶行业现状 - 行业整体盈利挑战巨大,头部公司如百度Apollo、小马智行的Robotaxi业务面临规模化运营成本高和法规限制问题,距离稳定盈利尚远 [3] - 乘用车主机厂如特斯拉、蔚小理的智能驾驶功能(FSD、NOP/NGP等)仍处于持续投入阶段,盈利主要依靠整车销售支撑 [3] - 特定场景如港口、矿区、园区物流AGV落地相对成熟,但市场规模有限且面临成本效益考验 [4] - 高级别自动驾驶(L4)系统综合成本在大多数应用场景下仍难以显著超越人力或传统方案的成本优势 [4] 技术发展趋势 - 端到端自动驾驶成为技术趋势,需要了解BEV Transformer、模仿学习、强化学习等技术在自动驾驶中的应用 [8] - 视觉大语言模型(VLM)在自动驾驶中的应用日益广泛,包括场景理解、轨迹预测和规划控制等方向 [31][32][34] - 世界模型技术快速发展,如HERMES、DrivingGPT等统一了驾驶世界建模和规划功能 [36][37] - 扩散模型在自动驾驶视频生成、场景合成等方面取得突破,如DriveDreamer、DrivingDiffusion等 [35][40] 人才市场情况 - 与前几年投资热潮相比,行业趋于冷静,L4级别岗位总量收缩明显,竞争加剧 [5] - 社招岗位数量减少,要求更高更务实,不仅需要扎实的工程能力和领域深度,还需具备量产/落地经验 [5][6] - 规划控制等传统岗位机会减少,建议转向新能源车企自动驾驶岗位或机器人、工业自动化等领域 [8] - 技术栈转型建议:C++开发者可考虑转向嵌入式或其他行业,如AGV、机械臂等工业自动化领域 [8] 技术社区资源 - 自动驾驶之心知识星球已聚集近4000人,包含100+行业专家和30+技术学习路线 [9][12] - 社区提供四大技术方向资源:视觉大语言模型、世界模型、扩散模型和端到端自动驾驶 [15] - 与多家自动驾驶公司建立岗位内推机制,简历可直达心仪公司 [11] - 社区每周活跃度国内前20,包含学术进展、量产应用、求职招聘等全方位内容 [70][74] 数据集与评估 - 主流自动驾驶数据集包括nuScenes、Waymo Open Dataset、BDD100K等,涵盖2D/3D目标检测、语义分割、目标跟踪等任务 [28] - 语言增强的自动驾驶数据集如NuScenes-QA、Talk2Car等支持视觉问答和自然语言导航等任务 [29] - VLM评估涵盖图像分类、图像文本检索、行为识别、目标检测、语义分割等多个维度 [23][24][25][26][27]
WAIC 2025上海开幕,“绝影开悟”世界模型升级亮相
中国汽车报网· 2025-07-28 02:45
公司动态 - 商汤绝影在2025世界人工智能大会上展示全新升级的"绝影开悟"世界模型,该模型是行业首个已量产、可交互的生成式世界模型产品平台 [1] - 公司发布业内最大规模的生成式驾驶数据集"WorldSim-Drive",持续赋能辅助驾驶行业 [1] - 商汤绝影与上汽集团旗下智己汽车深度合作,已打通Cut-in、碰撞等场景的数据生成链路,未来将共同打造数据工厂加速辅助驾驶系统落地 [4] - 公司正式发布辅助驾驶领域首个生成式世界模型产品平台,面向B/C端用户开放试用,基于"绝影开悟"世界模型构建 [4] 技术突破 - "绝影开悟"世界模型具备强大的物理规律理解与场景控制生成能力,是业内首个应用于真值训练数据生产的世界模型 [4] - 公司20%的数据通过世界模型生产,生产效率很高 [4] - 商汤绝影展示虚实融合的数据范式,以人、物体、场景为核心生成时空一致的第一视角和第三视角数据,赋能具身智能领域 [3] - 公司技术可生成千万级场景数据,打造实时交互训练场,同时构建具身智能的数据引擎 [3] 行业影响 - 商汤绝影深度参与上海自动驾驶实训场建设,以世界模型的数据生成和仿真测试能力赋能实训场 [3] - 公司在WAIC 2025展台提供世界模型实时交互体验,观众可通过简洁界面生成场景视频体验领先数据集性能 [7] - 商汤绝影CEO表示世界模型将AI创造力转化为生产力,搭建AI从数字世界通往物理世界的桥梁 [3]
具身智能迎来实力派!十年多模态打底,世界模型开路,商汤「悟能」来了
量子位· 2025-07-27 11:57
商汤科技具身智能平台发布 - 公司在WAIC 2025论坛正式发布「悟能」具身智能平台 标志着其入局具身智能领域[1][2] - 该平台是公司从感知视觉、多模态走向物理世界交互的必然结果 依托超过十年的行业落地经验积累[13] - 平台架构包含感知、决策与行动等多个层次 支持自动驾驶、机器人等具身场景的功能实现[27] 日日新V6.5多模态模型 - 新模型独创图文交错思维链 使图像以本体形式参与推理 跨模态精度显著提升[4][6] - 在MathVista等数据集上超越Gemini 2.5 Pro 如MathVista得分83.1 vs Gemini的80.9[8][9] - 相比6.0版本性能提升6.99% 推理成本降至30% 性价比提升5倍[10] 开悟世界模型技术特点 - 包含10万3D资产 支持多视角视频生成 最多11个摄像头角度并保持150秒时空一致性[16] - 支持参数化编辑 可一键变换天气、光照等环境要素[20] - 同时处理人、物、场信息 构建4D真实世界 融合第一与第三视角[21][23][25] 具身智能商业化路径 - 采取"软硬协同"路线 已与人形机器人、物流搬运等厂商达成合作预装模型[29] - 通过硬件销售积累视觉、语音和操作数据 形成正向数据飞轮[30] - 验证"通用大脑+场景闭环"双轮路径 多模态大模型与垂直应用相互促进[39] 行业痛点解决方案 - 通过虚拟环境合成99%数据 配合1%真机样本解决数据稀缺问题[32][33] - 同步生成并标定第一和第三视角数据 确保时空一致性 缩短仿真与现实落差[35] - 感知层多传感输入 决策层LLM+世界模型协同 行动层端到端控制形成闭环[34]
上海徐汇揭牌建立模速空间海归人才创新创业基地
新华财经· 2025-07-27 10:38
行业动态 - 2025世界人工智能大会"归潮新声:青年海归科技对话"活动在上海西岸智塔启幕,模速空间海归人才创新创业基地正式揭牌发布 [1] - 上海人工智能实验室有限公司、上海未来产业基金、上海临港科创投资管理有限公司、徐汇资本四方签署科技成果转化战略框架协议,推动人工智能领域顶尖科研力量与资本、产业资源精准对接 [1] - 上海徐汇区相关负责人表示徐汇的今天因人工智能而重塑,徐汇的明天靠青年人才而定义 [1] 技术发展 - 中国工程院外籍院士张建伟展示具身智能在未来的广泛应用场景,认为应通过产学研国际合作应对全球重大挑战 [2] - 商汤科技联合创始人王晓刚分享与世界模型协同交互的生成式智驾方案,通过4D仿真复现、强化学习等方法实现数字世界向物理世界的跃进 [2] - 智平方科技创始人郭彦东指出中国正成为科技制造业创新的沃土,具备辽阔的机器人市场,未来希望用中国的人工智能与硬件供应链做世界的新终端 [2] 产业生态 - 专家呼吁构建"政府引导-高校支撑-企业主体-专家助力"的协同生态,让智慧种子结出产业硕果 [2] - 圆桌讨论探讨"协同筑生态·智汇共发展——海归人才与产业创新的共生之路",共话打破壁垒、建立常态化的沟通协作机制、加速成果转化的新思路 [2]
实现 Agent 能力的泛化 ,是否一定需要对世界表征?
机器之心· 2025-07-27 01:30
实现 Agent 能力的泛化,是否一定需要对世界表征 - 现代AI智能体定义为能够感知环境、自主行动并提升性能的实体,其核心在于具备泛化能力,区别于仅响应预设规则的机器人[5] - 学界存在两大思想脉络:无模型范式认为智能行为可通过感知-行动循环直接涌现,无需构建显式世界模型;基于模型范式则认为灵活目标导向行为必须依赖内部世界表征[5] - DeepMind通过数学框架证明,具有泛化能力的智能体必然内化世界表征,且从策略本身可恢复环境转移函数的近似模型[6] - 研究区分短视行为与长远规划:短视智能体无需世界模型,而需长远规划的通用智能体必须比较不同行动引发的未来轨迹优劣[7] - 当前AI领域涌现多种世界模型构建方法,但现有范式存在缺陷且实践层面仍存非共识,焦点已从"是否需要表征"转向"如何表征"[8] 技术狂飙下的AI Assistant发展现状 - 当前多数AI Assistant仍停留在对话器阶段,与真正的通用行动体存在差距,需突破场景深度与交互延迟等瓶颈[2] - 技术架构上,Cross-Attention与MoE有望降低语音交互延迟,提升实时性[2] - 商业化路径存在争议:AI Assistant可能成为企业新盈利入口,但增量流量价值尚未验证;未来形态可能介于"第二手机"与"个人操作系统"之间[2] OpenAI前产品VP的产品方法论 - Peter Deng强调产品本身并非核心,产品品味才是企业护城河,其对当前AI产品的评价未公开但隐含高标准[3] - 打造爆款产品的超级团队需具备特定特征,不同团队对产品经理的特质要求存在差异化[3] 行业数据概览 - 本期通讯覆盖3项专题解读及27项AI&Robotics赛道要事,含10项技术动态、8项国内进展、9项国外进展[3] - 通讯总字数达22439字,免费试读比例8%,完整版需消耗99微信豆(约9.9元人民币)[4]
出现断层了?ICCV2025的自动驾驶方向演变...
自动驾驶之心· 2025-07-24 09:42
多模态大模型 & VLA - ORION框架提出端到端自动驾驶方案 通过视觉语言指令生成动作 华科与小米联合研发 [5] - DriveMM构建全合一大型多模态模型 中山大学与美团合作开发 支持自动驾驶多任务处理 [6][7] - MCAM模型实现自我车辆级驾驶视频因果分析 重庆大学团队开源代码 [9] - AdaDrive/VLDrive双系统实现语言驱动的自适应驾驶 轻量化设计提升效率 [10] 仿真 & 重建 - ETA框架采用大模型双路径决策 科奇大学与港大合作提升自动驾驶效率 [13] - InvRGB+L实现复杂场景逆向渲染 清华与UIUC联合建模色彩与激光反射 [14] - AD-GS通过B样条高斯泼溅技术 南开与UIUC实现自监督场景重建 [16][18] - BézierGS动态重建城市场景 复旦大学采用贝塞尔曲线高斯泼溅技术 [19] - RGE-GS利用扩散先验引导场景重建 清华与菜鸟网络联合开发 [21][24] 端到端 & 轨迹预测 - Epona世界模型基于自回归扩散 清华与地平线合作生成驾驶轨迹 [25] - World4Drive构建意图感知潜空间模型 中科院自动化所与理想汽车联合研发 [30] - MagicDrive-V2实现高分辨率长视频生成 港中文与华为诺亚方舟实验室合作 [32][35] - DiST-4D解耦时空扩散生成4D场景 清华与旷视科技联合开发 [36] 占用网络 - B2S模型将二值占用数据升级为语义预测 丰田汽车公司研发 [44] - DISC模型解耦实例与场景上下文 华科团队实现3D语义场景补全 [45] - GaussRender采用高斯渲染学习3D占用 Valeo AI与索邦大学合作 [52] - GaussianOcc基于高斯泼溅自监督估计3D占用 东京大学团队开发 [54] 目标检测 - PI3Det实现透视不变3D检测 新国大与复旦联合研发 [59] - MambaFusion多模态3D检测框架 中科院自动化所与上海交大合作 [64] - OcRFDet基于神经辐射场多视角检测 南京理工大学开发 [69] 数据集与评估 - ROADWork数据集专注施工区场景识别 卡内基梅隆大学发布 [73] - VLADBench细粒度评估大视觉语言模型 中科大与华为诺亚方舟实验室联合推出 [81] - LiMA跨视角蒸馏提升LiDAR表征 新国大与南航合作 [88][89] 其他技术 - Dynamic-DINO实时开放词汇检测 浙大与中兴通讯联合开发 [83] - DepthForge增强域泛化语义分割 集美大学与中山大学合作 [87][90]
AI落地难?这场对话揭开真相,给出破局“三板斧”
21世纪经济报道· 2025-07-24 07:02
AI技术发展趋势 - 全球AI正从大语言模型快速迈向世界模型新阶段 AI能力从语言理解延伸至对真实世界的感知 预测与决策 支撑具身智能和自动驾驶等复杂场景落地[2] - AI产业应用从通用模型转向垂直领域智能体开发 金融 交通 制造 营销等专用AI模型正实现与具体场景深度融合[2] - 世界模型标志着AI进入新阶段 成为推动产业革命核心力量 今年世界人工智能大会焦点是AI如何推动产业变革[2] 企业AI落地挑战 - 企业管理层需从战略高度理解AI对个人 企业及社会的影响 真正重视和推动技术落地[2] - AI技术存在应用门槛 员工存在畏难心理 难以推进实际执行与部署[2] - 企业需构建内部人才培养机制 尤其是AI工程化能力 并搭建持续学习体系[2] - 产业场景具体且繁多 通用大模型可能不适用 专业小模型面临专业数据少 迭代慢问题[3] - 技术能力不足或机器幻觉会引发内部质疑 对应用落地产生阻力[3] 企业AI战略实施路径 - 企业决策者必须树立清晰AI战略 积极拥抱创新 管理层需对技术细节 应用效果 局限性及人才投资等有清晰认知[3] - 建立全员参与 积极创新的文化氛围 让员工意识到AI是提升效率帮手 实现人技协同发挥规模效应[4] - 企业需构建完善数字化基础 借助既懂技术又熟悉行业的生态伙伴 围绕具体场景协同合作[4] - 小模型依赖专业数据 算法 算力 场景等多方因素 需要生态伙伴携手并进[5] 产业应用实践案例 - 施耐德电气设立AI创新实验室 基于软硬件一体化能力聚焦垂直领域场景创新 成果用于自身智能升级并赋能上下游生态伙伴[6] - 通过5G 柔性制造 AR与AI算法深度融合 上海普陀工厂实现生产流程全面数字化智能化 人均生产效率提高82% 获评灯塔工厂[6] - 发起创赢计划 与软件开发商 系统集成商及终端用户组成共创三角 联合开发AI嵌入式解决方案加速产业化落地[7] 生态体系建设 - AI技术发展和应用需要牵头人 通过构建企业级 产业级乃至国家级生态圈 促使AI与更多产业深度融合[7] - 世界人工智能大会旨在扩大AI生态圈 为构建世界模型夯实基础 助力开启社会经济新篇章[7] - AI成为引领全球经济转型核心引擎 需通过技术 管理 生态全方位创新 实现高效 绿色与普惠的产业新格局[7]