Workflow
世界模型(WM)
icon
搜索文档
不管VLA还是WM世界模型,都需要世界引擎
自动驾驶之心· 2025-09-13 16:04
端到端自动驾驶定义 - 学习单一模型直接将原始传感器输入映射到驾驶场景并输出控制指令 取代传统模块化管道 [3] - 训练流程包括监督学习 模仿学习或强化学习 通过大量标注数据或奖励设计实现 [3] - 涵盖当前VLA和世界模型等技术方向 属于自动驾驶算法最广概念 [6] 技术发展路线 - 从20多年前黑白图像输入起步 经历条件模仿学习 泛化 可解释性网络等阶段 [8] - 当前处于1.5代端到端自动驾驶阶段 基于基础模型解决长尾问题 [10] - 分化出两大分支:世界模型分支(扩散管道/视频生成模型)和VLA分支(大型语言模型应用) [11] 世界模型分支技术 - 包含Drive Dreamer Cosmos Predict One和导航世界模型等具体应用 [11] - Gaia 2作为视频生成模型 利用多视图图像预测不同类型视频 提升驾驶安全性与自动化 [11] - 通过多模态动作预测实现真实感和多样性生成 [11] VLA分支技术 - Java LM采用"草图维基"方式增强驾驶场景理解 [11] - Lingo Tool和Job VRM利用基础模型提升准确性 但存在延迟较高问题 [11] - 通过大小模型协同工作预测多数情况 优化系统性能 [11] 部署挑战与数据需求 - 需要处理大量生产问题和工程工作 进入第二代发展阶段 [14] - 特斯拉FSD追踪器显示MPI指标年度增长 数据量增加使模型持续优化 [18] - 剩余20%长尾问题需海量数据 危险案例收集成本昂贵且可能危及生命 [18] 世界引擎解决方案 - 通过极端情况生成和安全关键场景构建 大幅降低数据收集成本 [21] - 包含数据引擎和算法引擎 生成大量训练场景并改进端到端算法 [24] - 通过环境交互与行为建模 实现从失败中学习并优化规划器 [21] 技术路径对比 - 世界模型概念覆盖范围更广但实施存在不确定性 [25] - VLA被视为更切合实际的技术路径 世界模型为终极目标 [25] - 需警惕概念包装与实际技术内容不符的情况 [25]
医学领域也有世界模型了:精准模拟肿瘤演化,还能规划治疗方案
量子位· 2025-06-11 05:13
医学世界模型(MeWM)的核心技术 - 引入世界模型(WM)理念构建"观察-模拟-评估-优化"闭环路径[3] - 以影像观察为输入通过感知模块生成初始状态[4] - 策略模型采用GPT-4o等视觉大模型生成候选治疗组合[5] - 动态模型利用3D条件扩散模型模拟治疗后肿瘤形态[6] - 逆动态模型对候选肿瘤图像进行生存风险打分[7] - 通过启发式函数动态优化保留低风险方案[8] 三大核心功能 - 肿瘤演变模拟器:使用3D扩散模型模拟治疗方案下的肿瘤形态演变[11] - 生存风险预知:通过生存分析模型预测治疗方案预后风险[11] - 临床决策闭环:构建方案生成-模拟推演-生存评估的优化循环[11] 技术创新点 - 将治疗行为作为条件控制生成模拟肿瘤演化[14] - 通过GPT-4o与Deepseek-R1构建治疗组合[14] - 采用组合对比学习(CCL)提升生成效果真实度[14] - 合成图像被误判为真实的比例最高达79%[16][19] - FID(0.71)和LPIPS(0.6120)指标均为最优[20] 临床验证表现 - 生存风险评估MSE降至0.2142优于传统Cox模型(0.3550)[22] - C-Index提高至0.752显著优于影像组学特征驱动模型[23] - TACE治疗F1-score达64.08%接近专业医生水平(71.43%)[29] - 融入医生决策流程可带来13%的F1-score提升[29] - 推荐结果与专家方案高度一致[30]