世界模型

搜索文档
能空翻≠能干活,我们离通用机器人还有多远?
36氪· 2025-05-22 02:28
具身智能发展现状 - 具身智能成为AI领域热点方向,人形机器人作为载体受到重点关注 [1] - 2025年可能成为具身智能"元年",行业竞争集中在多模态和具身智能领域 [3] - 英伟达提出AI发展四阶段论:感知AI→生成式AI→自主智能体AI→物理AI [3] - 具身智能发展仍处于早期爬坡阶段,离通用机器人还有较大距离 [31][32][33] 技术演进路径 - 大模型带动具身智能研究从精密控制向智能化、通用化方向迈进 [4] - 计算机视觉研究人员转向具身智能领域,因大模型提升了对物理世界的理解能力 [5] - 自动驾驶技术积累为具身智能提供重要基础,两者在感知、规划、控制模块高度相似 [15][16] - 具身智能系统需要具备世界模型和自我模型两大核心内部模型 [21][22] 商业化落地挑战 - 硬件成本和开发门槛居高不下是制约普及的关键因素 [10] - 垂直场景优先落地,工业、检修、家庭陪护是最具潜力的三大应用方向 [41][42][44] - 实验室精度与工业需求存在两个数量级差距,需持续提升系统精度 [40] - 早期商业化需配套大客户提供真实反馈和场景打磨 [39] 关键技术瓶颈 - 数据瓶颈是最大痛点,真实数据采集速度跟不上模型训练需求 [47][48] - 计算资源限制和模型架构挑战制约系统性能提升 [46] - 仿真环境难以完全还原真实世界物理特性,影响数据质量 [52] - 需突破自监督探索、生成式合成数据、少样本学习等数据解决方案 [53] 未来发展趋势 - 从性能优化转向适应性设计,强化环境适应能力 [55] - 从确定性控制转向概率性思维,应对现实世界不确定性 [55] - 从工具属性转向伙伴属性,实现更自然的交互协作 [55] - 模仿学习与强化学习融合、多智能体协作将成为重要突破方向 [59][60]
谷歌IO大会点评
2025-05-21 15:14
纪要涉及的公司 谷歌 纪要提到的核心观点和论据 - **应对竞争增强 AI 搜索产品竞争力**:谷歌通过提升 AI 搜索器比例、推出升级版 AI 模式,使 AI 搜索产品月活跃用户达 15 亿;月均处理 tokens 达 480 万亿,较去年同期增长 50 倍,远超微软同期 50 万亿的处理量;今年资本开支预计 750 亿美元,云业务增速显著[2][3] - **原生多模态技术取得进展**:展示 native language understanding 功能,支持原生语音和音频输出;演示视频和图像生成产品 ImageFour 的更新[2][6] - **Google Lens APP 新增功能**:Project Xtra 改名为 Jennifer Live,实现实时屏幕共享和摄像头演示;增加实时投影、与 AI 助手互动等功能[2][7] - **提升算力支持生态系统**:2024 年等效 H100 算力接近 150 万,2025 年预计达到 450 万,但因生态系统消耗量大,仍需扩展计算能力[2][8] - **推出新的 AI 功能和技术**:推出基于 Gemini APP 的 AI agent(Action Intelligent),能主动操作用户手机并接入 MCP 接口;PC 端推出 agent mode 功能,与 Airbnb 等合作预约;推出 Chrome 浏览器扩展 Gmail on Chrome[9] - **利用生态系统增强 AI 应用**:通过整合安卓设备、Gmail 邮箱、Google 日历等,推出 personal context 功能,利用用户个人信息背景提供个性化服务[4][10] - **推出新的 AI 眼镜**:推出 Android XR AI 眼镜,与三星、高通、时尚眼镜公司合作,具备发短信、拍照、实时对话翻译等功能[11] - **构建下一代模型**:构建世界模型,从模拟世界各方面学习和理解,推动机器人技术发展,使 AI 系统能在现实世界有效运作[4][12] 其他重要但是可能被忽略的内容 - 谷歌提前发布 Jenna 2.5 Pro 预览版本,而非原计划在 520 当天发布[3] - 升级版 AI 模式输出内容更丰富、详细,包含更多图表总结,tokens 数量是传统 AI Overview 的两到三倍[4][5] - 全美范围内全面推出增强现实试穿功能,消费者可通过拍摄全身照片虚拟试穿衣物[5] - 谷歌 JUMPER 2.5 Po 模型 TOKEN 调用量增长最快,微软月均消耗 50 万亿 TOKEN,谷歌达到 48 万亿 TOKEN,供不应求[13] - 谷歌全面武装产品线上的 AI 能力,包括 QQ 浏览器、手机端及 PC 端,以提升整体竞争力[13]
见谈 | 商汤绝影王晓刚:越过山丘,我如何冲刺智驾高地?
21世纪经济报道· 2025-05-20 12:31
公司技术发展历程 - 2017年王晓刚团队在论文中首次提出端到端多级场景描述网络(MSDN)架构,比特斯拉早6年探索该技术 [2] - 2017年与本田合作L4自动驾驶项目,采用纯视觉方案直接规划轨迹,但因硬件算力限制未能量产 [3] - 2018年推出SenseDrive DMS驾驶员监控系统,2018-2019年获得威马、安波福、伟世通、蔚来、广汽等10余家主机厂订单 [4] - 2021年推出SenseAuto Pilot-P实现L2+级辅助驾驶,2022年提出一段式端到端技术但行业条件不成熟 [4] - 2024年北京车展展示UniAD一段式端到端实车,11月发布AD Pro/Max/Ultra三大量产方案,年底与东风汽车落地量产 [5] 技术路线演进 - 早期受限于网络结构、硬件算力和行业认知,端到端方案未被广泛接受 [3] - 2022年ChatGPT出现后行业开始认可大模型,特斯拉FSD V12率先实现端到端量产 [5] - 2024年发现端到端存在数据瓶颈问题,转向世界模型+强化学习路线 [30][32] - 世界模型通过仿真生成"奥数题"级难题场景,突破人类驾驶行为天花板 [35][36] - 多模态大模型DriveAGI加入与世界模型交互,提升智驾系统安全确定性 [11] 商业模式与战略 - 采用白盒交付模式,与车企共享工具链、数据平台和超算中心 [10][39] - 定位汽车AI平台型公司,重点布局中低端市场,2025年新增广汽埃安、一汽红旗等客户 [11] - "太极模式"赋能车企自研团队,改造其研发体系并共建AI基础设施 [37][39] - 云端服务是核心业务盘,通过数据回流管道构建长期壁垒 [11][40] 行业竞争格局 - 智能座舱业务率先突破,2018年SenseDrive DMS落地威马等车企 [4] - 2024年小鹏、理想、Momenta、华为等竞相布局端到端方案 [5] - 与小米合作SU7座舱大模型,提升小爱同学多模态交互能力 [19][21] - 与蔚来长期合作DMS/OMS系统,开发3D gaze等创新功能 [22][23][24] 管理与企业文化 - "黑羊文化"强调创新与协作,在汽车行业进化为"太极模式" [8] - 通过引进主机厂人才和开发工具链平台化解决量产难题 [7] - 王晓刚管理风格亲力亲为,常驻一线与工程师共同解决问题 [10]
中金:维持第四范式跑赢行业评级 上调目标价至60港元
智通财经· 2025-05-19 03:05
核心观点 - 中金上调第四范式25e/26e收入预测3.5%/7%至64.76/77.38亿元,上调25e/26e调整后归母净利润预测至0.57/2.69亿元 [1] - 维持跑赢行业评级,上调目标价9.1%至60港元,对应35.9%上行空间 [1] - 公司1Q25收入10.77亿元同比+30.1%,毛利润4.44亿元同比+30.1%,毛利率41.2% [2] - 先知AI平台业务驱动收入超预期,一体机销售乐观 [2] 业务表现 - 1Q25总收入10.77亿元同比+30.1%,考虑子公司出表因素内生增速更高 [3] - 先知AI平台/SHIFT智能解决方案/式说AIGS服务收入占比分别为74.8%/19.7%/5.6%,核心业务集中度提升 [3] - 标杆用户数59个覆盖14行业,ARPU 1,167万元同比+31.3% [3] - 1Q25研发费用3.68亿元同比+5.7%,研发费用率34.2%同比-8ppt [4] 产品与技术 - 先知AI平台软件需求稳定增长,一体机硬件占比保持平稳 [4] - 发布SageOne IA一体机解决方案,支持主流模型,单机多任务处理效率+3x、推理性能提升5-10x [5] - 成立消费电子业务板块(Phancy),提供基于AI Agent的软硬件一体解决方案 [5] 战略布局 - AI agent应用在多行业落地,与致远互联合作探索OA领域Agent布局 [5] - Agent布局覆盖金融、能源电力、交通运输、运营商等重点行业,并向制造业、医疗、零售等领域渗透 [5]
第四范式一季度总收入超10亿元,但未披露消费电子业务收入|钛媒体AGI
钛媒体APP· 2025-05-16 04:31
财务表现 - 2025财年第一季度总收入10.77亿元,同比增长30.1% [2] - 毛利润4.44亿元,同比增长30.1%,毛利率41.2% [2] - 先知AI平台营收8.05亿元,同比增长60.5%,占总收入74.8% [5] - SHIFT智能解决方案收入2.12亿元,同比下降14.9%,占比降至19.7% [5] - 式说AIGS服务收入0.6亿元,占比5.6% [5] - 研发费用3.68亿元,同比增加5.7%,研发费用率34.2%,同比下降8个百分点 [5] 股价与市值 - 财报发布次日股价高开4%,盘中涨超8%,中午报42.9港元/股,涨幅8.47% [2] - 最新市值211亿港元 [2] 业务布局 - 企业级Agent已落地金融、航空、汽车等14个行业 [5] - 联合企业软件公司发布协同运营AI Agent、财税赋能Agent、HR Agent等产品 [5] - 成立范式集团,原业务为核心子业务,新增消费电子板块Phancy [6] - 消费电子业务定位为AI Agent软硬一体解决方案,不直接生产自有品牌硬件 [6] 战略规划 - 未来通过范式集团端侧AI模组赋能消费电子厂商,降低AI终端开发门槛 [7] - 企业服务与消费电子并行发展,Agent和世界模型为核心竞争力 [7] - 目标实现AI for everyone愿景,拓展AI能力至更广阔软件市场 [8] 行业对比与盈利预期 - 研发和收入规模小于商汤,但盈利空间更大 [7] - 2025财年有望实现盈亏平衡或归母净利润为正,或成国内第三家盈利的纯AI软件上市公司 [7]
公司深度报告智驾平权“最大公约数”,乘渗透率东风加速全域征程
信达证券· 2025-05-16 00:30
报告公司投资评级 - 首次覆盖,给予“买入”评级 [3][6] 报告的核心观点 - 2025年国产OEM推出平价智驾方案推动AD渗透率提升,智驾软硬件及解决方案市场将快速发展,地平线成长潜力和投资价值凸显 [11] - 智驾市场规模高增,AD有望接棒ADAS成主流,地平线市占率和客群规模领先,新产品或打开增长空间,且有望受益于国内OEM销量增长 [5] - 地平线在ADAS到城市NOA全域覆盖有优势,BPU架构迭代提升计算效能,端到端和世界模型结合成就高阶智驾标杆,国产OEM智驾需求提升使其受益 [7] 根据相关目录分别进行总结 领军国内智驾Tier2,各大OEM智驾方案“最大公约数” - 新一代汽车智能芯片领导者和世界级AI算法公司,产品覆盖芯片平台、解决方案及配套工具链与生态,与英伟达、鸿蒙智行对比各有优劣 [14][21][24] - ADAS和AD市场规模快速扩张,软件占重要份额,国内智能汽车渗透率提升,AD占比扩大,AD有望接棒ADAS成市场主流,出海空间广阔 [26][37] - 地平线市场份额持续提升,ADAS行业领军,AD快速爬坡,在国内ADAS、ADAS+AD及全球ADAS+AD市场份额均稳步上升,受主流车企青睐 [49][57] - 国内OEM销量持续发力,地平线有望从中获益,中国OEM市场份额增加且收入高速增长,地平线产品出货量和定点车型增多,客户覆盖广,与Tier1合作打开下沉市场 [61][67][72] 从ADAS到城市NOA全域覆盖,BPU架构迭代带动计算效能倍数提高 - ADAS领域领军者,成体系的解决方案,HorizonMono适配不同芯片支持多种驾驶辅助技术,HorizonPilot覆盖全国高速,HorizonSuperDrive迈向高端市场 [74][78][81] - 算力之外,FPS更能体现软硬件的实际表现,征程5的MAPS跑分高,软硬优化助力车厂落地自动驾驶方案 [89] - 自研BPU计算架构,高效率支持Transfomer算法,从伯努利到纳什架构计算性能提升显著,J6P+端到端成就高阶智驾标杆 [93][99][105] 端到端和世界模型,软硬件耦合成就高阶智驾新标杆 - 端到端技术的先行者,软硬一体或为智驾终局的标准答案,2016年提出端到端演进理念,打造纳什BPU实现软硬协同 [110] - 端到端配合世界模型,同时提高上限和下限,世界模型可输出对驾驶环境的理解,提升数据驱动替代程度,通过交互式博弈实现性能提升和场景泛化 [116][121][126] - 从规则驱动到数据驱动,实际带来直观改善,世界模型为端到端路线减负加速,让高阶智驾全场景覆盖,HSD图形化界面有拟真效果 [129] 从天神之眼到千里浩瀚,国产OEM智驾需求显著提升 - 地平线深度参与各大主机厂发起的智驾平权战略,征程6P及HSD将量产,多家主机厂采用其方案,出货量级与渗透率齐升推动智驾普及 [131][150] - 特斯拉FSD入华,有望加剧全行业在智驾能力上的角逐,虽搅动竞争格局加速普及,但与地平线客群竞争交集小 [151][152] - 性价比、软件能力、定制化及响应能力,三大优势奠定行业地位,J6M在中阶算力芯片和解决方案领域有优势,推动辅助驾驶向大众市场渗透 [156][159] - 收入增长带动费用及成本摊薄,财务表现逐步向好,2022 - 2024年营收高速增长,研发费用占比下降,解决方案+授权服务收入为主要来源,商业模式具持续性 [162][169][177] 盈利预测、估值与投资评级 - 盈利预测及假设,汽车产品解决方案、汽车解决方案 - 授权及服务业务、非车解决方案业务2025 - 2027年均有望实现不同程度增长,毛利率有相应变化 [183][184] - 估值与投资评级,首次覆盖给予“买入”评级,预计2025 - 2027年营业收入为36.10/56.97/80.53亿元,同比增长51%/58%/41%;归母净利润为 - 13.14/-7.74/6.68亿元,对应当前股价PS分别为24/15/11倍 [6]
地平线机器人-W(09660):公司深度报告:智驾平权“最大公约数”,乘渗透率东风加速全域征程
信达证券· 2025-05-15 13:58
报告公司投资评级 - 首次覆盖,给予“买入”评级 [3][6] 报告的核心观点 - 2025年国产OEM推出平价智驾方案推动AD渗透率提升,智驾软硬件及解决方案市场将快速发展,地平线成长潜力和投资价值凸显 [11] - 智驾市场规模高增,AD有望接棒ADAS成主流,地平线市占率和客群规模领先,新产品或打开增长空间,且有望受益于国内OEM销量增长 [5] 各目录总结 领军国内智驾Tier2,各大OEM智驾方案“最大公约数” - 地平线是新一代汽车智能芯片领导者和世界级AI算法公司,产品覆盖智驾芯片平台、解决方案及配套工具链与生态,与英伟达、鸿蒙智行相比各有优劣 [14][21][24] - ADAS支持基础功能,AD自动化程度更高,国内智能汽车渗透率和AD占比持续提升,AD年复合增速有望达48.1%,智驾市场规模高增,软件市场规模短期内快速增长 [26][28][37][41] - 地平线在ADAS和ADAS+AD市场份额稳步提升,领跑全阶智能驾驶计算方案市场,占中国OEM ADAS和AD市场份额超40%和30%,且客户覆盖广 [49][57][69] - 中国OEM市场份额增加且收入高速增长,地平线产品解决方案出货量和车型定点数提升,与多家车企合作,有望受益于国内OEM销量增长 [61][67][72] 从ADAS到城市NOA全域覆盖,BPU架构迭代带动计算效能倍数提高 - HorizonMono是量产ADAS解决方案,HorizonPilot标志在AD市场发力,HorizonSuperDrive迈向高端市场,国内ADAS解决方案市场规模增长斜率或放缓,地平线有望提升市占率 [74][78][81] - 算力并非决定芯片实际表现的唯一因素,每秒准确识别帧率MAPS更能体现性能,征程5的MAPS跑分高 [89] - 地平线自研BPU计算架构,支持Transformer算法,从伯努利到纳什架构计算性能提升,J6P+端到端成就高阶智驾新标杆 [93][99][105] 端到端和世界模型,软硬件耦合成就高阶智驾新标杆 - 地平线是端到端技术先行者,提出相关理念和算法,打造纳什BPU实现软硬协同,具备打造“面向单一任务的计算系统”的底层逻辑 [110] - 端到端算法有“跷跷板效应”,世界模型可生成视频数据和输出驾驶决策,实现ScaleUp和ScaleOut [116][121][126] - 世界模型为端到端路线减负加速,实现全场景覆盖等,HSD图形化界面有拟真效果 [129] 从天神之眼到千里浩瀚,国产OEM智驾需求显著提升 - 征程6P回片,地平线HSD将量产,多家主机厂采纳其方案,随着信任度加深,合作或增多 [131] - 特斯拉FSD入华将加剧智驾竞争,普及全域智驾功能,但与地平线客群竞争交集小 [152] - J6M在中阶算力芯片和解决方案领域有性价比、软件能力、定制化及响应能力优势,推动辅助驾驶向大众市场渗透 [156] - 2022 - 2024年公司营收高速增长,研发费用占比下降,解决方案+授权服务收入为主要来源,授权服务业务收费方式多样,商业模式有持续性 [162][169][177] 盈利预测、估值与投资评级 - 预测汽车产品解决方案业务2025 - 2027年同比增长50%/55%/45%,毛利率分别为47.0%、47.4%、50.0% [183] - 预测汽车解决方案 - 授权及服务业务2025 - 2027年同比增长53.0%/60.0%/40.0%,毛利率分别为92.1%/92.3%/92.4% [183] - 预测非车解决方案业务2025 - 2027年同比增长30%/30%/40%,毛利率保持18%水平 [183]
自研算法是否将成为主机厂的必选项?——第三方算法厂商的“护城河”探讨
2025-05-13 15:19
纪要涉及的行业和公司 - **行业**:自动驾驶行业 - **公司**:华为、小鹏、理想、文远知行、小米、吉利、长安、长城、比亚迪、上汽、一汽、蒙塔、大疆、元戎启行、地平线、蔚来、德赛、智行科技、蘑菇车联、轻舟智航、小马智行、百度、博世、奇瑞新纪元 纪要提到的核心观点和论据 1. **主机厂自研算法难点**:技术能力上传统主机厂弱于新势力及头部第三方,与领军人物水平有关且多为集成适配而非自研;开发周期上新势力及头部第三方迭代快,传统主机厂慢;资金投入大,如头部企业人均薪酬超 50 万元,算力储备和租赁年投入数亿元;数据闭环能力方面,传统车企智能化渗透率低,数据积累不如新势力和第三方 [3] 2. **主机厂自研芯片难点**:技术能力上传统主机厂在车端芯片核心架构 IP 选择和自研能力建设等领域落后;开发周期上传统主机厂开发模式僵化,与新势力及第三方比有劣势;资金支持上自研芯片流片成本超 1.5 亿元,持续研发投入大;芯片与算法协同优化方面,传统车企算法方向不明,优化难度高 [4] 3. **主流主机厂梯队排名**:第一梯队华为、小鹏、理想、文远知行全栈自研且量产,有自研芯片计划;第二梯队小米、吉利、长安、长城、比亚迪自研加第三方联合开发,未来计划用自研替代第三方;第三梯队上汽、一汽及外资合资品牌完全依赖第三方 [5] 4. **中间梯队发展可能**:既有机会向上发展,需提升研发实力、加大资金投入、缩短开发周期、引入先进技术合作伙伴;也可能向下滑落,若不能应对挑战会依赖外部供应商失去竞争优势 [6] 5. **企业自研芯片条件**:能开发中等算力芯片,如 200 多 TOPS 或 80 多 TOPS;满足数据、算力和算法三要素,数据上需有量产乘用车数据闭环能力,累计销量超 100 万且含相关域控制器功能数据量,通常达 600 万以上,算力最低 3 亿 FLOPS,算法需有懂业务且具前端思考能力的领军人物和支持快速迭代开发的组织结构 [7] 6. **IP 收费模式**:包括一次性支付的授权费和年度维护费,还按芯片销量收取版税,如 BPU IP 授权费约 3000 万元,年维护费约 200 万元,版税按 5%比例提成 [8][9] 7. **第一二梯队算法厂商能力差异**:数据迭代速度与效率上第一梯队快于第二梯队;算法架构预判能力上第一梯队在端到端架构表现突出;工程量产能力上第一梯队保证车型一致性和适配新车型速度优于第二梯队 [12][13] 8. **数据稀缺性及影响**:数据稀缺性重要,地平线虽通过数百台车路测部署端到端能力,但因比亚迪和理想未开放数据反补渠道,数据获取有限,限制其优化和扩展潜力 [14] 9. **端到端技术路线**:业内共识向一段式发展,但有 VRAK 路线和纯端到端路线分歧,除特斯拉外大多采用两段式,传统主机厂有必要做规则算法,要追赶一梯队效果需投入端到端模型 [16] 10. **算法迁移难度**:跨平台迁移难度中等,需重构部分模型并适配工具链;同品类产品间算法迁移可能性高,可复用大量代码;从大算力平台向低算力平台迁移难度高 [17][18][19] 11. **工信部新规影响**:对头部智能驾驶企业影响不大,理想等一梯队企业数据积累丰富,迭代有优势,新规可能拉开二梯队差距,比拼车数量和内部测试、迭代发版投入成本 [20][21] 12. **解决 corner case 数据量少问题**:微调少量关键 corner case 数据在强化学习环境中学习,提高泛化能力,行业内强化学习刚起步,完善需时间 [22] 13. **端到端版本迭代周期**:工信部标准出台前一个月迭代两次并上车两个版本,新规出台后如比亚迪每月发版一次 [23] 14. **声称可做算法的公司类型**:车企自研、域控厂商(自家域控盒子)、传统第三方纯软件商(算法厂商) [24] 15. **主机厂和域控厂商分工**:主机厂分完全自研、尝试自研但集中低端方案、完全依赖第三方三类;域控供应商提供基于与芯片厂商合作的感知算法;纯软件算法供应商大多自主研发 [25][26] 16. **国内公司世界模型和强化学习表现**:世界模型方面国内无公司达特斯拉水平,理想、Momenta、华为、小鹏大致相同;强化学习方面 Momenta、大疆(卓玉)、小马智行表现不错;L4 级自动驾驶公司部分进入 L2 级市场 [26] 17. **自动驾驶算法供应商收费模式**:一般为一次性开发费加根据销量收取 license 费或仅收取 license 费,目前多数两种费用都收,主机厂渐倾向只付 license 费;城市 NOA 每辆车 license 费 2000 元以上,高者 3000 元左右,高速 NOA 每辆车约 600 - 800 元 [27] 18. **国内公司世界模型能力评价**:总体差异不大,以特斯拉 100 分标准,理想、文远知行、华为等在 60 - 70 分之间,评估看云端模型泛化能力及对车端表现影响 [28] 19. **世界模型及强化学习发展方向**:预计两年内取得显著成果,技术格局稳定后主机厂持续投入研发有机会追赶领先者,长期看自研能力强的主机厂能跟上或反超 [29] 20. **自动驾驶技术发展趋势**:未来两年经历优胜劣汰,竞争者包括世界模型和强化学习领先企业及部分主机厂,预计最终两家主机厂、五家以内供应商保持竞争力,技术路线进入新迭代阶段 [29] 21. **端到端大模型发展前景**:目前基于 2019 年 Transformer 架构,若 2026 年后出现更优新型基座模型如 Disformer 技术路线演进,否则传统架构两到三年迭代后达边际效益低点,主机厂有跟随新型架构创新和追赶现有方向上限两个机会 [30][31] 22. **学术界自动驾驶技术探讨方向**:利用强化学习生成模型并通过合成数据训练;探索新架构如 Mamba 架构;补充世界模型通过生成式 AI 更新 [32] 其他重要但可能被忽略的内容 - 蒙塔自研芯片为中算力约 270 TOPS,对标 Dow X,实现城市微循环点对点功能,NPU 自研,2025 年流片完成,预计 2026 年第一或二季度量产上车,已有具体客户合作 [10] - 地平线通过数百辆车跑半年时间收集通用数据训练可开发端到端系统,但效果不如 Momenta、华荣和华为等用专门采集车辆收集精华数据的公司 [15] - 数据收集需经许可,通过收集触发信息即关键案例数据进行迭代获取相关数据 [16]
AI无限生成《我的世界》,玩家动动键盘鼠标自主控制!国产交互式世界模型来了
量子位· 2025-05-13 03:01
核心观点 - 昆仑万维推出的Matrix-Game通过AI技术实现交互式虚拟世界生成,用户可通过简单键鼠指令自由探索和创作高保真虚拟内容[10] - 该技术突破传统手写代码和渲染方式,大幅降低创作门槛并提升效率[11] - Matrix-Game在视觉质量、时间一致性、交互可控性和物理规则理解四大维度全面领先现有开源模型[36] - 空间智能成为AI发展新方向,3D AIGC技术正在重塑虚拟内容创作和交互方式[43][48] 技术实现 数据集构建 - Matrix-Game-MC数据集包含无标签Minecraft视频和带控制信号的可控视频数据[14] - 采用三阶段过滤机制从6000小时数据中筛选出近千小时高质量内容[16][17] - 通过探索代理和程序化模拟生成数千小时可控监督数据[17] 主模型架构 - 基于扩散模型框架,包含图像到世界建模、自回归视频生成和可控交互设计[18][20] - 图像到世界建模以单张图像为起点,结合用户动作输入生成视频内容[20] - 自回归生成以前5帧为上下文确保时间连贯性,采用扰动和分类引导策略缓解误差[23][24][25] - 动作控制模块采用离散/连续token表达,结合多模态Diffusion Transformer架构[27] 性能表现 评测体系 - GameWorld Score首次实现感知质量+控制能力+物理合理性的综合评估[29][30] - 四大核心维度:视觉质量、时间一致性、交互可控性、物理规则理解[31][32][33][34] 对比结果 - 在8大Minecraft场景中全面超越Decart的Oasis和微软的MineWorld[36] - 用户偏好率达96.3%,视觉质量偏好率98.23%[37] - 键盘动作准确率90%+,鼠标视角控制精度达0.97-0.98[39][40] 行业应用 - 可应用于游戏世界搭建、影视/元宇宙内容生产、具身智能训练等领域[41] - 实现低成本高效率生成高保真可交互虚拟环境[42] - 3D AIGC技术成为大模型发展新方向,谷歌DeepMind、腾讯等巨头均已布局[45][46] - 空间智能将重塑人机交互方式,是下一代AI技术的重要赛道[48][49]
生成视频好看还不够,还要能自由探索!昆仑万维开源Matrix-Game,单图打造游戏世界
机器之心· 2025-05-13 02:37
世界模型技术进展 - 开源世界模型Oasis首次实现实时可交互虚拟环境,包含画面及物理规则理解[1] - 微软开源MineWorld提升视觉效果和动作生成一致性[2][3] - 创业公司开源"多元宇宙"支持多玩家在同一世界模型游戏[4] - 英伟达提出"物理图灵测试"作为具身智能新标准[4] Matrix-Game技术突破 - 昆仑万维开源17B参数世界基础模型Matrix-Game,实现完整可交互游戏世界生成[6][10] - 模型特点包括细粒度交互控制(键盘指令准确率超90%)、高保真视觉物理一致性、多场景泛化能力[17][20][25][26] - 建立GameWorld Score评估体系,在视觉质量(0.72)、时间一致性(0.97)、交互可控性(0.95)、物理规则(0.76)四大维度超越竞品[30][31][35] 技术实现路径 - 采用两阶段训练策略:无标签数据预训练+标注数据可控训练[41] - 构建Matrix-Game-MC数据集,包含2700小时中质量+870小时高质量无标签数据及1000小时有标签数据[41][42] - 模型架构基于图像到世界建模,通过DiT生成潜在表示并由3D VAE解码为视频序列[44][45] 应用场景与行业影响 - 应用领域涵盖游戏开发、具身智能训练、影视与元宇宙内容生产[7][51] - 可与公司其他AI产品(天工大模型、Mureka、SkyReels)联动构建完整创作生态[51][52] - 代表空间智能发展方向,推动国内在交互式视频生成领域的技术突破[50][51] 行业趋势 - 三维世界AI研究加速发展,计算平台可能从处理token转向处理原子级单位[4] - 空间智能被视为生成式AI下一个发展方向,将推动更高级的智能实现[48][49] - 行业呈现技术全面兴起态势,类似大模型爆发的局面可能重演[4]