世界模型
搜索文档
智驾软硬件持续迭代,robotaxi未来已来
2025-11-03 02:35
行业与公司概览 * 纪要涉及的行业为智能驾驶(智驾)行业,包括高级辅助驾驶(L2/L2+)和全自动驾驶(L4/Robotaxi)领域 [1] * 纪要重点讨论的第三方智驾软件供应商包括Momenta、华为、大疆(卓翼)、地平线、元戎启行 [3] 市场格局与公司能力 * Momenta在第三方智驾市场占据领先地位,份额达55%,华为占25% [1][3] * Momenta提供单Orin X和双Orin X两种方案,覆盖从比亚迪、智己到奇瑞等不同车型,展现其工程化和算法裁剪能力 [1][3] * 华为凭借强大的体验和工程化能力,支持多款车型、自研芯片及大规模路侧泛化,但其顶尖算力芯片目前主要用于ADS 4.0 Ultra版本 [3] * 大疆在低算力芯片(如TI TDA4)解决方案上工程化能力出众,但市场对低算力芯片(32 TOPS或100 TOPS以下)的需求正在转向中高算力方案 [1][4] * 地平线采用自研软硬一体化方案(如HSD及G6P系列),已在奇瑞星途车型上量产,但受限于NPU算力及迭代升级,整体效果仍需提升,需更多车型验证工程化能力 [1][6] * 元戎启行主要集中在城市NOA,基于英伟达平台开发并与长城汽车合作紧密,其算法开发能力领先但工程化能力相对较弱 [7] 技术路线与核心观点 * 当前智驾行业技术路线主要分为三类:端到端算法(代表企业有Momenta、特斯拉、极氪)、VLA模型(代表企业有理想、小鹏)以及世界模型(华为、Momenta、地平线等正在开发) [2] * 车企智驾能力差异主要由算法、数据和算力三大因素决定,短期内算法调整效果明显,长期来看数据积累是关键,高效训练依赖强大计算资源 [8][9] * 长期看,若厂商继续沿用当前技术路线(如Transformer),智驾能力差异将逐渐收敛,数据积累达到一定规模(如特斯拉的50亿英里)后会出现数据饱和效应 [10] * 在感知硬件路线上,融合感知路线(结合激光雷达)比纯视觉更具长期优势,原因包括激光雷达成本已降至200多美元、数据处理技术提升能应对复杂场景、新法规对障碍物检测提出更高要求 [12] * L2+公司向L4发展更具优势,过渡自然且资源投入较少,但挑战在于全域泛化能力和量产一致性 [1][20] 芯片架构与发展需求 * 下一代智能驾驶芯片需求包括:强大的GPU/NPU以支持VLA和世界模型等高级功能、高带宽(未来可能需要从当前290GB/s翻倍或增至1.5倍)、工艺与功耗平衡(如3纳米或5纳米)、增加内存容量 [14][15] * 不同级别自动驾驶的算力需求:L2级需5-10 TOPS,增加泊车功能需约16 TOPS;L2++(高速辅助驾驶)需30-100 TOPS;L3级需500 TOPS以上;L4级普遍认为需1,000 TOPS以上 [16] * 对于L3及以上级别,冗余设计变得重要,例如采用双Orin芯片配置以备未来升级 [16] * 智能驾驶芯片与机器人芯片平台差异不大,许多厂商借鉴共用平台以降低成本 [17] Robotaxi商业化前景 * Robotaxi市场是一个正能性市场,不完全依赖技术驱动,关键在于提高场景内车辆通行效率和减少远程接管及事故率 [18] * 实现盈亏平衡需区域扩展足够大且定价合理,主要成本来自车辆折旧(如小马智行第六代车成本高达60万人民币),可通过定制化、换电等方式降本,同时需确保价格竞争力和扩大行驶里程覆盖范围以提高收入 [19] 其他重要细节 * VLA技术对智能驾驶体验的提升主要集中在功能创新(如自动前进/后退)和对带有语义信息的环境理解能力上,提高了决策合理性和流畅性 [11] * 大多数第三方算法公司(如Momenta、元戎启行)更倾向于开发通用算法并进行跨平台适配,而非与特定芯片厂商深度绑定,软硬件耦合较深的主要是同时提供软硬件解决方案的公司(如华为、地平线) [13]
2025大脑具身智能落地的关键
搜狐财经· 2025-11-02 00:45
文章核心观点 - 具身智能正成为科技领域新焦点,其核心载体是人形机器人,而机器人的“大脑”系统是决定行业发展速度的关键 [1] - 机器人大脑以AI大模型为核心,需整合传感器数据、物理规律和硬件限制,技术研发难度高于通用大模型 [2] - 行业技术路线呈现多元化探索,包括大脑+小脑分层、端到端VLA和世界模型等,目前尚未形成统一标准 [2][3] - 全球参与者分为三类:专业机器人大脑公司、通用大模型企业和机器人本体自研厂商,形成差异化竞争格局 [4][5] - 当前限制人形机器人规模化应用的核心瓶颈是模型本身而非数据,技术临界点预计在未来1-5年内到来 [5] - 机器人大脑研发面临数据获取难、训练复杂度高、通用泛化能力不足等核心挑战 [6] - 尽管存在挑战,特斯拉Optimus、Figure AI等企业的技术突破正推动行业从“机械执行”向“自主思考”迈进 [7] 机器人大脑的定义和能力 - 人形机器人由大脑、小脑和肢体三部分构成:大脑作为决策中枢基于AI大模型进行自主判断,小脑专注运动控制精准性,肢体负责环境感知和执行动作 [1][14] - 大脑系统需具备实时交互能力,能通过语言、手势等方式与人类进行多轮任务级交互,快速理解并执行指令 [15] - 需要强大的多模态感知能力,整合视觉、听觉、触觉等多种感官信息,实现对环境的全面理解 [16] - 必须具备自主可靠决策能力,能够理解复杂任务并将其分解为可执行的子任务序列 [19] - 应具备涌现和泛化能力,能够在未见过的新环境中适应未知情况,展现出创新性解决方案 [19] - 与通用大模型有本质区别,机器人大脑必须解决物理世界的现实问题,考虑硬件限制和动力学规律 [2][19] 人形机器人大模型技术路线 - 大脑+小脑分层路线是相对成熟的主流方向,大脑由多模态大模型担任任务规划和流程理解,小脑专注于运动控制的精准执行 [2][20] - 端到端VLA技术路线采用单一模型直接从感知到动作,灵活性强但目前更适合短时间简单任务,复杂长程任务仍有局限 [3][20] - 世界模型路线是最前沿探索方向,旨在建立对物理世界的认知地图,通过预测未来状态优化动作,但因物理规则复杂仍处于早期阶段 [3][20] - 类脑智能通过对人脑生物结构进行直接模拟,未来有望成为代替大模型的新技术路线 [20][22] - 脑机接口技术建立人脑与外部设备连接通路,未来可能实现“人+机”混合智能的解决方案 [22] 行业竞争格局 - 专业机器人大脑公司包括北京通用人工智能研究院(通研院)、美国的Physical Intelligence和Skild AI等,专注为机器人公司进行AI赋能 [4][25] - 通用大模型企业如谷歌、OpenAI、字节跳动等尝试将自身大模型能力延伸至机器人领域,拥有海量数据和成熟架构但对物理世界理解需加强 [4][25] - 机器人企业自主研发以特斯拉为代表,Optimus采用与自动驾驶同源的单一基础模型架构,实现从感知到行动的端到端自主决策 [5][25] - 国内智元机器人已实现通用具身机器人量产,并推出自己的基座模型,能通过人类操作视频快速学习新技能 [5] 研发瓶颈与挑战 - 模型本身是限制人形机器人规模化应用的最大阻碍,行业发展阶段类似ChatGPT发布前1-3年,临界点预计在未来1-5年内到来 [5][27] - 数据获取困难,机器人大脑需要的是与物理世界交互的“行为数据”,采集成本高且不同机器人硬件导致数据格式不统一 [6][28] - 真实数据被称为“黄金数据”但采集成本高,仿真数据虽能大规模生成但难以还原真实世界的复杂物理交互 [6][28] - 训练难度大,机器人与物体的物理接触会让问题复杂度呈指数级上升,需要同时考虑重力、摩擦力等多重参数 [6][29] - 通用泛化能力不足,如何让模型在未见过的场景中自主应对问题仍是行业需要突破的核心难题 [6][29] 代表性厂商技术进展 - 特斯拉Optimus采用与FSD自动驾驶同源的单一基础模型架构,整合xAI的Grok模型提升逻辑推理能力,复杂指令准确率达92%以上 [32][33] - Figure AI自主研发Helix模型,是全球首个能对整个人形机器人上半身进行高频率连续控制的VLA模型,实现多机器人协同作业效率提升4倍以上 [34][36] - Physical Intelligence聚焦家用场景,其π0.5模型能让机器人在陌生厨房自主完成清理,并能从其他机器人那里学习动作经验 [4] - 通研院推出“通智大脑”系统,联合多家机器人企业成立联盟,推动技术与硬件的适配 [4]
智源研究院王仲远:世界模型的关键是真正预测下一个状态
经济观察网· 2025-11-01 10:51
世界模型成为AI新焦点 - 2025年“世界模型”成为AI领域最受关注的词汇之一 其核心是让AI理解世界运作规律 实现从识别生成到想象预测的跨越 [2] - 随着大模型红利减弱 行业正寻找新增长点 世界模型被视为重要方向 [2] 智源研究院Emu3.5模型技术突破 - 智源研究院发布悟界·Emu3.5多模态世界大模型 采用自回归架构统一了图像 文本与视频的生成和理解 能够预测下一个状态 [2] - 模型基于超过10万亿token的多模态数据训练 视频数据累计时长达790年 参数规模为340亿 [3] - 通过“离散扩散自适应”推理方法 图像生成速度提升近20倍 同时保持高质量输出 [3] - 模型在三个维度实现突破 理解高层级人类意图并生成多步骤行动路径 动态模拟物理世界 提供泛化交互能力 [3] 世界模型的核心价值与应用 - 世界模型核心是对因果与物理规律的理解 而非简单的视频生成 [3] - Emu3.5不限定用途 既可支撑具身智能 也能生成多模态训练数据 展示了中国科研团队的原创路线 [4] - 未来AI的发展方向是理解世界本身并在其中行动 [4] 行业巨头布局世界模型 - DeepMind推出可生成交互式3D世界的Genie 3 OpenAI强化Sora的物理一致性 [2] - 英伟达 华为 百度等公司正从机器人与自动驾驶场景切入 让AI从看懂迈向参与 [2]
从视频生成工具到“世界模型”距离有多远?
中国经营报· 2025-10-31 09:49
行业竞争格局 - OpenAI推出的第二代Sora在登陆苹果应用商店后5天内下载量超过100万次,增速超过ChatGPT [1] - 视频生成模型赛道已聚集谷歌、Meta等科技巨头以及Runway、Luma AI、Midjourney等创业公司 [1] - 国内市场已有阿里、腾讯、字节、快手、百度等企业推出数十款视频大模型产品,美团也开源了其首款视频生成模型LongCat-Video [1] - 视频生成模型的主战场正从“拼参数”的通用模型竞赛转向“拼落地”的垂直生态竞争 [7] 技术应用与影响 - AI视频工具使能进行较高质量内容创作的人群从可能只有10%的专业人员提升至可能90%的人 [2] - 使用Sora等产品未来制作影视、游戏、动漫的效率将会呈现几何倍数增长 [2] - AI视频正在成为社交网络的新名片,相关特效广受欢迎,满足了消费者在数字社交中的个性化等心理需求 [2] - 抖音AI短剧排行榜中的《兴安岭诡事》等作品播放量破亿次,AI短剧正在快速崛起 [3] - 视频生成技术发展迅速,表现在内容生态重塑、社交逻辑重构、内容消费体验升级等方面 [6] 技术演进与市场前景 - Sora2的推出标志着视频生成技术正在进入全民可用的成熟阶段,将给视频相关领域带来深远影响 [4] - 通用大模型正在加速从技术提供商向应用平台服务商转变,社交是撬动大众市场的驱动力 [5] - 多模态生成大模型正迎来系统性可用窗口,生数科技旗下Vidu称用户在30秒内可完成多个镜头切换 [6] - 全球AI视频生成市场规模去年达6.15亿美元,预计今年达7.17亿美元,2032年达25.63亿美元,年均复合增速20% [8] 技术挑战与发展方向 - 美团开源的LongCat-Video模型是其探索“世界模型”的第一步,意图是深耕自家田地而非与通用大模型硬碰硬 [6] - 视频生成模型正探索垂直场景的专用模型,在电商广告、短视频制作等领域已有初步试水 [6] - 要成为真正的“世界模型”需跨越诸多关卡,包括对复杂物理规律的精准模拟、前后逻辑及画面的一致性等 [7] - 成功关键在于技术能否与自身商业场景深度耦合,实现闭环价值,而非单纯技术领先 [7]
DeepMind一篇论文终结十年之争,GPT-5推理靠世界模型
36氪· 2025-10-31 08:22
GPT-5的推理能力突破 - GPT-5展现出惊艳的推理能力,逻辑水平堪比专家,网友评价如同与博士讨论问题[1] - 其核心突破不在于参数规模扩大,而在于智能体内部形成了“世界模型”[1] - 这种推理能力表现为多步逻辑处理能力,如解数学习题和规划流程[5] 世界模型的理论基础 - 世界模型是AI脑中的预测地图,能够对事件发展进行预测(如球桌边缘滚动→掉落预测)[3][4] - 学术框架中存在目标、策略、世界模型的三角推导关系:已知世界模型和目标可推导最优策略,已知策略和世界模型可反推目标[7] - 最新研究补齐三角关系最后一角:通过智能体策略和目标可恢复其世界模型,证明世界模型是通用智能的必要条件[9] 世界模型的实验验证 - 研究人员搭建虚拟迷你世界(含X/Y状态概率跳转)验证世界模型存在性[10][11] - 实验数据显示任务复杂度与模型精度正相关:任务越复杂,世界模型误差迅速下降[12][14] - 在复合目标实验(需状态间来回跳转)中,世界模型仍能被稳定恢复[15] 世界模型的技术意义 - 世界模型解释了“涌现能力”现象:非魔法而是模型清晰化的自然结果[17] - 模型为破解AI黑箱提供新途径,未来可能通过抽取世界模型解释AI行为[17] - 智能体强度与模型精度正相关,GPT-5的推理能力提升直接源于世界模型优化[16] 行业影响与未来展望 - 世界模型既是通向通用智能的通行证,也可能因模型与人类认知差异成为不确定性源头[17] - 该突破改变对AI能力的理解范式,从数据模仿转向内在认知构建[4][9] - 研究成果为AI安全性研究提供理论支撑,使模型可解释性具备实现基础[17]
L4大方向有了:理想自动驾驶团队,在全球AI顶会上揭幕新范式
机器之心· 2025-10-31 04:11
AI范式转变与行业趋势 - AI发展进入下半场,从依赖人类生成数据转向体验式学习的范式转变[1] - 要实现超越人类智能,AI必须超越模仿人类,依赖可随智能体改进而扩展的新数据源[1] - 在自动驾驶领域,AI范式转变趋势已显现,理想汽车在ICCV 2025提出全球首个将世界模型与强化学习闭环落地于量产自动驾驶系统的完整架构[2][5] 理想汽车辅助驾驶技术演进 - 辅助驾驶技术从规则算法发展到以VLA为核心的可交互自动驾驶方案[7] - 去年率先提出双系统方案,使用E2E和VLM结合构建辅助驾驶系统,成为AI时代主流路线[7] - 端到端辅助驾驶上线后,MPI水平在近12个月内提升明显[9] - 当训练数据扩展到1000万Clips后,基本端到端方式面临边际效应,技术提升出现瓶颈[11] 世界模型与训练闭环架构 - 构建从数据闭环到训练闭环的系统化思路,核心在于训练目标的达成而非单纯收集数据[5][12] - 系统包含具备先验知识的VLA车端模型和云端世界模型训练环境,通过强化学习体系实现迭代训练[14] - 世界模型系统需要场景重建、多传感器渲染、多模态生成、交通智能体、3D资产库等关键技术支撑[15] - 理想探索重建+生成路线,新一代AI系统具备重建稳定性和生成泛化能力[15] 合成数据与仿真技术突破 - 可通过提示词直接生成全部视频和点云,应用于新法规准入条件和新地区环境等少见场景[22] - 合成数据能力使训练数据配比更合理,辅助驾驶系统在实际道路的稳定性和泛化能力大幅改善[24] - 提出层次结构统一高斯图元,增强模型容量,能够建模大规模场景并重建任意动态元素[17][21] - 开发可编辑视频模拟框架RoboPearls,能够从演示视频构建照片般逼真、视图一致的模拟[32] 研究成果与学术贡献 - 自2021年起,自动驾驶团队有32篇论文中稿学术会议,研究方向从感知BEV E2E扩展到VLM/VLA/世界模型等前沿领域[28] - ICCV 2025大会上有五篇论文入选,覆盖3D数据集、端到端自动驾驶框架、3D重建、视频模拟等方面[28] - 提出业界首个大规模3D真实汽车数据集3DRealCar,通过对2500辆汽车精细3D扫描获得高保真图像和点云[28] - 开发端到端自动驾驶框架World4Drive,利用视觉基础模型构建潜在世界模型生成和评估多模态规划轨迹[30] 技术挑战与未来方向 - 强化学习引擎是辅助驾驶领域最具挑战的应用场景,要求泛化性、时效性和大规模并发[35] - 强化学习引擎五大关键因素:世界模型、3D资产、仿真智能体、奖励模型和性能优化[35][38] - 交互式智能体是比单车L4更困难的挑战,可通过调整强化学习reward约束多智能体行为[38] - 理想正在开展的交互智能体工作MAD即将发表[39] 公司AI战略与行业影响 - 研发资金近一半投入人工智能领域,已建立四支AI团队分别负责辅助驾驶、理想同学、智能工业和智能商业[43] - 两大战略级AI产品辅助驾驶和理想同学自2024年以来快速迭代,取得重大技术突破[43] - 成为行业首个推送VLA司机大模型的汽车企业,基于MindGPT的理想同学已上线手机App[43] - 开源部分辅助驾驶代码和数据库,被超过3200名开发者收藏或调用,VLA范式逐渐成为行业共识[43]
极佳视界联合湖北人形机器人创新中心,打造具身智能 “超级大脑”!“全市场唯一两百亿规模”机器人ETF(562500) 早盘稳步上行
新浪财经· 2025-10-31 02:27
机器人ETF市场表现 - 机器人ETF(562500)早盘报1.036元,上涨0.68%,呈现技术性反弹格局 [1] - 持仓股中61只上涨,12只下跌,东杰智能、埃斯顿、瀚川智能等多股涨幅超4%,石头科技下跌10% [1] - 开盘不足半小时成交额近3亿元,显示资金参与度较高 [1] 行业动态与战略合作 - 极佳视界与湖北人形机器人创新中心宣布战略合作,将共建"世界模型驱动的虚实结合具身智能数据工厂" [1] - 双方同步发布了视觉-语言-动作基础模型GigaBrain-0 [1] 机构观点与行业前景 - 麦高证券表示国产人形机器人本体厂有望在量产阶段获得竞争优势 [1] - 2025年被视为人形机器人商业化落地元年,国内市场是早期落地最佳市场 [1] - 国内人形机器人产业具备完善供应链和丰富高质量劳动力,量产后国产厂商有望在国际竞争中获得优势 [1] 机器人ETF产品概况 - 机器人ETF(562500)是全市场唯一规模超两百亿的机器人主题ETF [2] - 成分股覆盖人形机器人、工业机器人、服务机器人等多个细分领域,帮助投资者布局机器人上中下游产业链 [2]
特斯拉已不是智驾行业“标准答案”
36氪· 2025-10-31 00:25
技术架构演进 - 特斯拉在计算机视觉顶会ICCV上分享了其端到端智能辅助驾驶架构的最新进展[1] - 端到端架构旨在减少从感知输入到控制输出的信息损失,输入端信息维度相当于20亿token,而输出端仅约2个token,面临极高维到极低维映射的挑战[5] - 为解决端到端模型的"黑箱"问题和训练数据瓶颈,特斯拉在输出决策前引入了OCC占用网络、3D高斯特征等视觉信息以及思维链自然语言信息[3][7][8] - 公司建立了名为"神经世界模拟器"的闭环仿真系统,用于训练算法、验证正确性及生成难例数据[3][11][12] 行业竞争格局 - 特斯拉的技术路线已与理想、小鹏、华为、地平线等中国公司趋同,均涉及VLA模型和世界模型的探索[3][15] - 国内主流玩家如理想、小鹏、华为乾崑等已布局云端世界模型,部分还在车端部署世界模型,形成端到端、VLA和世界模型三种技术路线[15] - 特斯拉此次技术分享的热度相比之前的AI Day显著降低,反映出行业对其关注度下降[18] - 小鹏汽车CEO何小鹏表示,国内有实力的AI玩家已不再关注马斯克的动向[4] 自动驾驶业务现状 - 特斯拉最新财报显示,其全自动驾驶软件FSD的订阅比例仅约12%[4][23] - 公司已将FSD在美国的买断价从12000美元降至8000美元,并推出99美元月度订阅服务,但未能有效提振需求[24] - 市场调研显示,有35%的美国消费者因对FSD技术不成熟、责任界定模糊等的担忧,反而更不愿意购买特斯拉[24] - 美国国家公路交通安全管理局正对约288万辆配备FSD的特斯拉汽车展开调查,涉及58起交通安全违规及事故报告[24] 领导层表态与外部质疑 - 马斯克在财报会上表示,特斯拉有望在2025年底前在8至10个新州展开Robotaxi运营,并覆盖美国50%人口[19] - 特斯拉前人工智能主管安德烈·卡帕西指出,自动驾驶迭代是无限接近100%的过程,特斯拉的进步已不明显[20] - 特斯拉自动驾驶项目首任负责人斯特林·安德森质疑其安全记录,并对比通用汽车Super Cruise系统已实现11亿公里无接管行驶且无技术导致事故[22] - 特斯拉目前在奥斯汀和旧金山运营的Robotaxi仍配备安全员,马斯克计划在2025年底前逐步取消奥斯汀的大部分安全员[22]
阿里新研究:一统VLA和世界模型
具身智能之心· 2025-10-31 00:04
WorldVLA框架概述 - 核心创新是将视觉语言动作模型与世界模型融合的统一框架,由阿里巴巴达摩院、湖畔实验室和浙江大学共同提出[2] - 该自回归动作世界模型通过结合动作与图像理解来预测未来图像,同时基于图像观测生成后续动作[5][6] - 实验结果显示其表现显著优于独立的动作模型与世界模型,体现二者相互增强效应[3] 技术架构设计 - 基于Chameleon模型初始化,采用三套独立分词器处理图像、文本和动作编码[9] - 图像分词器使用VQ-GAN模型,压缩比为16,码本大小8192:256×256图像生成256个token,512×512图像生成1024个token[9] - 动作分词器将连续机器人动作的每个维度离散化为256个区间,动作由7个token表示[9] - 创新设计替代注意力掩码,使动作生成仅依赖文本和视觉输入,屏蔽之前动作影响,实现并行生成多个动作[12][13] 性能基准测试 - 在离散动作模型对比中,WorldVLA(256×256)平均成功率79.1%,优于OpenVLA的76.5%[22] - 分辨率提升至512×512时性能进一步提高,平均成功率81.8%,显示分辨率与性能正相关[22] - 在连续动作模型对比中,WorldVLA未使用预训练即超越部分预训练模型,证明架构有效性[20][22] 世界模型对动作模型的增强 - 引入世界模型后动作模型成功率从62.8%提升至78.1%,特别是在长序列任务中从23.0%提升至52.4%[26][27] - 世界模型赋予系统前瞻推演能力,通过预判动作后果优化决策,案例显示能持续尝试直到操作成功[26][28] - 环境物理理解、动作风险评估和精确动作解析是三方面主要增强机制[15][16][17] 动作模型对世界模型的提升 - 在视频生成质量上,动作世界模型在50帧序列的FVD指标从718.6优化至674.1,PSNR从23.98提升至24.30[33] - 纯世界模型出现抽屉无法拉开、物体消失等缺陷,而动作世界模型生成连贯且符合物理规律的后续状态[33] - 动作模型通过增强视觉理解能力进一步支持世界模型的视觉生成[18] 行业专家观点 - 小米汽车高级研究总监陈龙认为VLA与世界模型可结合相互促进,分别负责"抽象思考"和"物理感知"[37] - VLA与世界模型结合被视为通往具身智能的重要路径[37]
世界模型有了开源基座Emu3.5,拿下多模态SOTA,性能超越Nano Banana
36氪· 2025-10-30 11:56
模型核心定位与能力概述 - 北京智源人工智能研究院发布开源原生多模态世界模型悟界·Emu3 5 定位为世界模型基座 在AI领域开辟全新赛道 [1][11] - 模型具备图、文、视频任务综合处理能力 包括画图改图、生成图文教程 视频任务增强了物理真实性 [1] - 核心能力体现在世界探索与具身操作 能像智能体一样理解长时序、空间一致的序列 模拟虚拟世界中的探索和操作 [12] 技术性能与基准测试表现 - 模型参数量为34B 基于Decoder-only Transformer框架 单一模型可完成视觉叙事、视觉引导、图像编辑、世界探索、具身操作等多种任务 [17] - 在多项权威基准测试中 性能媲美甚至超越Gemini-2 5-Flash-Image 在文本渲染和多模态交错生成任务上优势显著 [9] - 采用离散扩散适配技术 将图像推理速度提升近20倍 解决了自回归模型生成图像慢的问题 [26] 关键技术创新点 - 模型将所有任务统一为下一状态预测任务 通过强大的多模态分词器将文本和图像转换为离散Token序列 [17] - 在超过10万亿Token的多模态数据上进行预训练 主力数据为互联网视频的连续帧和转录文本 使其沉浸式学习时空连续性和因果关系 [18] - 视觉分词器基于IBQ框架 拥有13万视觉词汇表 并集成扩散解码器 能实现高达2K分辨率的高保真图像重建 [19] - 预训练后经过大规模有监督微调和大规模多模态强化学习 使用复杂奖励系统进行优化 [25] 应用场景与功能演示 - 能够以第一人称视角构建动态3D虚拟世界 用户移动和转身时能动态构建下一步场景 全程保持空间一致性 [3][6] - 擅长提供具有连贯性和指导意义的视觉内容 例如根据狐狸草图指令一步步生成从草图到最终手办形态的完整视觉流程 完美保留核心特征和神态 [13] - 支持生成分步教学指南 如手把手教做菜、画画、种菜 并能进行多图、多轮指令的复杂图像编辑 主体一致性和风格保持能力达业界顶尖水平 [14][15] - 演示案例包括高精度操作如一句话消除手写痕迹 以及复杂任务如按照多步指令整理桌面 [1][22][24]