世界模型 - 财报，业绩电话会，研报，新闻 - Reportify

世界模型

搜索文档

DeepMind哈萨比斯：智能体可以在Genie实时生成的世界里运行

量子位· 2025-08-13 07:02

世界模型与Genie 3技术进展 - Genie 3能实时生成可交互的虚拟世界并让智能体在其中运行，标志着世界模型技术取得突破[3][5][35] - 世界模型需理解物理规律、材料特性及生物行为，这是实现AGI的必要条件[33][34] - Genie 3已实现720p分辨率、多分钟交互时长及可导航的提示性世界事件生成能力[32] DeepMind发展动态 - 公司研发节奏持续加速，几乎每天都有新成果发布，包括DeepThink、IMO金牌模型等里程碑[9][15][18] - 智能体系统从早期游戏领域扩展到多模态模型，现正通过整合思考规划能力向AGI迈进[24][25] - 强化学习仍是核心技术路径，2010年至今持续投入并验证其可扩展性[27][28] AI能力评估与Game Arena平台 - 现有模型表现参差不齐：IMO金牌级数学能力与高中基础题错误并存[11][29] - 行业亟需新评测基准，需覆盖物理直觉、多目标优化等更复杂维度[13][45][46] - Game Arena平台通过数千款游戏动态测试AI能力，支持模型间对抗与自动难度调整[47][48][53] 工具整合与系统进化 - 工具使用能力成为AI新扩展维度，需平衡内置功能与外部工具调用[63][64][66] - 模型正向系统级进化，能组合调用数学软件、搜索引擎等工具完成复杂任务[68][69] - 产品设计需预测技术发展节奏，保持架构灵活性以适应快速迭代[72] 技术融合与AGI路径 - Genie、VO、Gemini等模型正朝"全能模型"方向融合，形成统一能力体系[75][76] - AGI需具备自主转化人类意图为动态奖励函数的能力，解决多目标优化难题[23][60] - 物理模拟器可能成为关键工具，帮助AI理解并操作现实世界[33][63]

创投月报 | 锡创投：管理20亿低空经济母基金时隔四年再投3D图形引擎研发商粒界科技

新浪证券· 2025-08-13 04:29

私募股权及创业投资市场动态 - 2025年7月新增登记的私募股权、创业投资基金管理人共16家，较6月激增77.8%，达到2024年7月的四倍 [1] - 新增备案私募股权投资基金、创业投资基金分别为130只、245只，合计同比增长7.1%，环比下降3.4% [1] - 国内一级股权投资市场共发生552起融资事件，同比、环比分别增长5.1%、11.7% [1] - 披露总融资额约717.56亿元，较2024年7月提高142.0%，与2025年6月相比涨幅超100% [1] - 平均单笔融资额接近1.3亿元，创下近7个月内最高点 [1] 锡创投基金设立及管理情况 - 锡创投管理资本总量超2400亿元，自主管理的股权投资基金参投企业超1000家，投资额接近900亿 [3] - 2025年截至7月末，锡创投共登记备案5只新基金，注册出资额合计33.50亿元 [3] - 江苏无锡低空经济和空天产业专项母基金注册出资额高达20亿元，重点聚焦低空经济、商业航天等产业链 [4] - 未来产业（无锡）天使基金合伙企业注册出资额为10亿元，重点培育前瞻性战略新兴产业 [4] 锡创投投资活动分析 - 2025年7月锡创投公开披露股权投资事件共6起，较2024年同期激增200%，环比小幅下降25% [4] - 2025年上半年平均每个季度参投12次，较2024年下半年单季低至7次的表现有所回暖 [4] - 投资阶段以早期为主，天使轮和A轮投资事件数占比超66% [6] - 所关注行业赛道中，一半投向先进制造赛道，覆盖集成电路、航空航天和通信制造细分领域 [6] - 约三分之二参投项目位于江苏无锡市内，另外三分之一获投公司注册在上海 [8] 粒界科技融资及技术发展 - 3D图形引擎技术提供商粒界科技完成千万美元级B3轮融资，由锡创投、无锡滨湖产业集团和比亚迪联合领投 [10] - 融资资金将用于3D图形引擎GritGene的原生AI化升级及具身智能、世界模型模拟训练等研发 [10] - 锡创投早在2021年便参投过粒界科技的A3轮融资 [10] - 粒界科技自研的图形渲染引擎GritGene已发展到第三代，广泛应用于手机、混合现实设备、汽车等消费者终端 [10] - 重要客户包括华为、比亚迪、荣耀、中国联通等 [10]

新质生产力

多模态智能人机交互

3D图形引擎技术

新质生产力

多模态智能人机交互

3D图形引擎技术

专访星海图赵行：热闹的Demo不等于泛化能力，具身智能胜负仍在数据量

36氪· 2025-08-13 03:37

核心观点 - 星海图在2025WRC展示具身智能机器人铺床Demo 突出VLA端到端基础模型G0的技术能力该任务集柔性物体操作、全身控制和场景泛化性于一体[1][2][7] - 公司发布基于500小时真实场景数据集训练的G0模型在平均指标上超越竞品PI 0约20% 并计划开源数据集推动行业标准化[9][10][28] - 具身智能行业当前处于非共识阶段公司采取"快慢双系统"技术路线同时探索世界模型等前沿方向但暂未工业化[34][35][39] - 公司已完成近15亿元人民币A轮系列融资数据工程成为研发重点首席科学家亲自参与采集流程标准化[5][19][26] 技术突破 - G0模型采用三阶段VLA训练框架(跨本体预训练/单本体预训练/后训练) 解决复杂全身移动控制任务表现不佳的行业痛点[9][10] - 机器人铺床需协调23个自由度分三步完成底盘移动、躯干调节和机械臂操作各步骤存在动态耦合关系[2][7][8] - 模型泛化性面临三大挑战：操作对象差异(纹理/软硬/尺寸)、场景环境多样性、任务动作的非语言可定义性[12][13] - 采用Transformer架构短期内聚焦视觉-语言-动作模态暂未引入触觉因传感器标准化程度不足[16][33] 数据战略 - 投入十个月构建五类场景(家庭/酒店/工厂/超市/餐厅)数据集强调真实性和多样性拒绝"数据采集厂"式理想环境[27][28] - 开源500小时真机数据集目的：建立行业基准测试标准缩短用户从购机到部署的开发链条[29][30] - 数据工程包含采集员培训、真机遥操作、清洗标注全流程目前尚未形成标准化SOP[22][23][26] - 数据质量被视为比模型结构更关键的因素参考Sora案例证明数据规模的决定性作用[18] 商业模式 - 采用"整机+智能"双轮驱动通过开源数据降低行业准入门槛培育开发者生态[30] - 已完成A4、A5轮战略融资 A轮系列累计融资达15亿元人民币[5] - 技术路线选择兼顾学术前沿与工业化可行性优先推进已成熟的VLA范式[32][34] - 产学协同效应显著高校研究成果转化与产业数据规模形成良性循环[45][46]

VLA端到端基础模型G0

VLA端到端基础模型G0

VLA：何时大规模落地

中国汽车报网· 2025-08-13 01:33

VLA技术发展现状 - 理想i8成为首款搭载VLA司机大模型的车型，主打"像家人一样懂你"的辅助驾驶体验 [2] - 博世认为VLA短期难以落地，坚持投入一段式端到端技术，因多模态对齐和数据训练困难 [2] - 行业对VLA落地时间存在分歧，乐观预测2025年为元年，保守估计需3-5年技术成熟 [2][12][13] 技术路线对比 - 模块化端到端保留部分人工设计接口，存在感知与决策衔接难题 [2] - 一段式端到端采用全局优化模型，特斯拉FSD V12代码量从30万行缩减至2000行 [4] - VLA通过思维链实现可解释性决策，在潮汐车道等复杂场景表现优于传统端到端 [4][5] - VLA单日可完成30万公里仿真测试，显著降低实车数据依赖 [5] 技术演进路径 - 行业主流从端到端+VLM双系统转向VLA原生融合架构 [6] - 端到端+VLM需同步处理TB级视频流与百亿参数模型，车载算力紧张 [6] - VLA通过对比学习实现多模态特征对齐，仿真复现率达99.9% [7] - 理想汽车通过端到端+VLM升级至VLA架构，实现空间理解等四大能力 [5] 算力与芯片挑战 - 当前智驾芯片算力不足，英伟达Orin(254TOPS)不支持语言模型直接运行 [9] - 英伟达Thor芯片实际算力缩水，基础版仅300TOPS [9] - VLA低速自动驾驶需10赫兹运行频率，高速需20赫兹 [9] - 车企加速自研芯片：理想马赫100计划2026量产，特斯拉AI 5算力或达2500TOPS [11] 落地时间表 - 短期(2025-2026)：特定场景如高速路/封闭园区应用 [14] - 中期(2027-2029)：算力达2000TOPS时覆盖城市全场景，接管率或低于0.01次/公里 [14] - 长期(2030年后)：光计算架构+脑机接口实现类人直觉决策 [14] - 需突破多模态对齐、训练效率、芯片能效比等关键技术 [14]

端到端模型

多模态大模型

端到端模型

多模态大模型

热爆了！中国机器人企业近100万家、融资超240亿，但仍有三大具身智能“非共识”争论

钛媒体APP· 2025-08-12 23:25

行业规模与增长 - 中国现存机器人相关企业达95.8万家其中2024年注册量19.32万家同比增长4.59% 2025年前7个月注册量15.28万家同比增长43.81% [2] - 华东地区机器人企业占全国39.64% 人形机器人整机平台超160家占全球50%以上核心零部件供应链企业逾600家 [2] - 2025年1-7月具身智能和机器人领域投资事件超200起融资总额超240亿元预计2025年中国人形机器人市场规模超82亿元占全球50%以上 [4] - 花旗预测2050年全球人形机器人市场规模达7万亿美元（约50万亿元人民币）全球人形机器人数量近6.5亿台其中超50%来自中国市场 [4] 技术路线争议 - 行业存在VLA模型与世界模型的技术路径分歧 VLA模型通过视觉-语言-动作多模态框架实现端到端闭环但当前性能尚未达到理想状态 [6][8] - 宇树科技CEO王兴兴认为VLA模型存在泛用性不足问题训练新动作需从头开始且强化学习的Scaling Law尚未出现 [6][8] - 世界模型路线（如视频生成模型）可能更快收敛但存在GPU消耗大、精度要求过高等问题谷歌DeepMind的Genie3模型展现物理对齐潜力 [8][9] - 星动纪元陈建宇认为世界模型是VLA技术的一种路径下一代VLA模型需融合语言交互、视觉感知和物理世界操作能力 [9][10] - 国家创新中心江磊指出全参数模型尚未适用需通过云端与终端算力协同构建"云网一端"架构 [14][15] 数据与模型发展瓶颈 - 王兴兴强调行业过度关注数据而忽视模型架构当前模型统一性和泛用性不足具身智能的"ChatGPT时刻"预计在1-5年内实现 [19][22] - 陈建宇认为模型优先级高于数据需提升数据利用效率当前工业场景机器人效率达人类70% 预计明年达90% [21] - 自变量机器人CEO王潜指出数据质量控制困难端到端架构是突破性能上限的关键需3-5年达到ChatGPT水平 [22][24] - 江磊强调中国拥有全球最大机器人数据集和最多模型从业者制造业与数据优势是重大历史机遇 [24] 真机数据与合成数据应用 - 超90%企业倾向真机数据训练仅银河通用、跨维智能等少数企业坚持合成数据路线 [26] - 银河通用99%训练数据为合成数据通过自研引擎生成百亿级抓取和柔性操作数据集真实数据仅占1% [26] - 跨维智能自研DexVerse引擎构建仿真到现实的端到端闭环彻底颠覆传统真实数据采集模式 [27] - 星海图赵行强调真机数据是打破能力天花板的关键需在真实环境中采集数据 [29] - 卢策吾指出复杂操作（如擦桌子）更依赖真实数据比例应由模型自动计算而非人为决定 [29] 商业化与应用场景 - 行业分歧在于机器人应侧重娱乐表演（如跳舞）还是实用场景（如进厂打工、家庭服务） [30][32] - 宇树科技终极目标是工业与家务场景现阶段通过娱乐展示运动能力 [32] - 王兴兴预测行业处于"ChatGPT时刻"前夜未来2-5年需解决端到端模型、低成本硬件和算力问题 [33] - 王鹤预计人形机器人每三年产值乘10 未来十年市场规模超1000亿元二十年后达万亿级 [33] - 行业将进入淘汰赛阶段分析称80%企业可能无法跨越量产门槛 [33]

机器人(SZ:300024)

人形机器人

Walker机器人

人形机器人

Walker机器人

拐点已现："人工智能+"的价值70%来自物联网，AI归位物理世界

36氪· 2025-08-12 11:07

AI技术突破与物联网融合 - Google发布Genie 3模型，首次实现实时互动的3D环境生成 [1] - OpenAI推出GPT-5，但部分用户反馈其表现不如前代GPT-4o [5][6] - AI产业化进程中，物联网成为核心驱动力，预计2025年全球物联网终端连接数突破270亿 [1] 物联网在AI进化中的关键作用 - 物联网终端为AI应用提供67%-72%的原始数据来源 [1] - 物联网不仅是数据采集器，更是AI与现实世界交互的桥梁 [2] - 物理世界数据成为AI突破虚拟智能天花板的关键，具备场景泛化性价值 [7][8] AI模型发展的瓶颈与转向 - 大模型依赖参数和算力堆叠的范式遭遇边际效益递减 [5] - 虚拟智能面临推理能力不足、物理常识缺失等瓶颈 [7] - AI转向物理世界感知与交互，Genie 3和具身智能体成为新方向 [7][12] 智能体经济的崛起 - AI竞争焦点从模型能力转向平台化、软硬件一体化和数据闭环 [15] - AIoT重新定义为主动智能体，成为智能体时代的新基建 [16] - AIoT平台、具身智能模型、Agent生态形成三位一体共振发展 [18] 产业格局与未来趋势 - AI重心从虚拟世界向物理世界迁移，AIoT成为关键基石 [19] - 智能工厂、智慧城市等领域依赖端到端数据闭环和持续进化 [15] - 未来十年AIoT将主导智能体发展，推动实体经济智能化升级 [19]

Artificial Intelligence

Internet of Things

Artificial Intelligence

Artificial Intelligence

Internet of Things

Artificial Intelligence

理想汽车的VLA“长征”

经济观察网· 2025-08-12 10:04

核心观点 - 公司选择长期主义技术路线自研VLA司机大模型通过强化学习实现机器理解决策逻辑区别于行业主流端到端架构的模仿学习模式 [1][3][11] - VLA模型具备持续进化能力可实现事故预防率提升至人类驾驶10倍(600万公里/次事故) 并支持个性化驾驶风格学习 [4] - 公司构建数据/算法/算力/工程四位一体护城河包括43亿公里辅助驾驶数据积累自研MoE架构模型部署以及日均30万公里仿真测试能力 [9][12][5] 技术架构优势 - VLA采用CoT思维链技术实时呈现决策逻辑解决端到端模型"无脑执行"痛点 [11] - 通过强化学习实现"越开越像用户"个性化体验未来支持Face ID自动切换驾驶风格 [4] - 模型部署突破: 4B MoE混合专家架构轨迹生成时延仅15毫秒 32B云端大模型蒸馏至3.2B车端模型 [12][15] - 算力优化实现700TOPS有效算力采用QAT量化感知训练与底层指令重写技术 [15] 数据与测试体系 - 累计43亿公里辅助驾驶里程数据 12亿公里有效回传数据经过严格"老司机数据"筛选标准 [9] - 仿真测试替代90%实车路测 2025年上半年累计测试超4000万公里单日峰值达30万公里 [5][9] - 仿真一致性达99.9%以上基于150万公里实车测试进行验证校准 [10] - 建立超40万个场景评测体系形成技术壁垒 [7] 性能目标与进展 - 当前辅助驾驶事故率350-400万公里/次人类驾驶约60万公里/次 [4] - 目标2025年底将MPI接管里程提升至400-500公里 2026年达1000公里 [8] - 智能驾驶试驾率72.4% 试驾满意度92% 30万以上车型AD Max交付占比75.4% [8] 行业技术痛点 - 端到端+VLM架构训练数据超1000万Clips后性能增长缓慢 [3] - 实车测试无法复现极端场景接管里程数字存在统计缺陷 [3] - 人工采集数据成本高昂部分企业雇佣数百人实车路测 [3] 价值观与原则 - 安全绝对优先原则: 拒绝危险指令执行即便牺牲初期体验保守 [22][25] - 技术发展三原则: 安全优先/有效算力至上/用户共建迭代 [25] - VLA架构被评估为长期技术路线可持续延续至机器人技术时代 [25]

新能源汽车

理想VLA司机大模型

新能源汽车

理想VLA司机大模型

对话星动纪元陈建宇：人形机器人的通途与征途

环球网资讯· 2025-08-12 10:01

技术路线 - 具身智能领域的技术路线正从争议走向共识，VLA（Vision-Language-Action）范式成为行业智能底座，端到端模型在实践中被证明有效 [1] - VLA是一个覆盖"感知-理解-行动"的完整闭环，近期备受关注的"世界模型"被视为VLA范式下的重要演进方向 [2] 效率提升 - 人形机器人执行效率在部分工业场景已达人类的70%以上，预计明年提升至90%，端到端架构实现实时反馈与控制是关键 [3] - 软硬件深度协同是攻坚重点，自研灵巧手已实现稳定量产且成本大幅下降，VLA模型能端到端直接控制每个手指关节的高频动作 [3] 应用场景 - 人形机器人的杀手级应用路径清晰：先B端后家庭，工业场景是必经阶段，企业级应用能验证技术、积累数据并推动产业飞轮 [3] - 未来五年可能是家用机器人爆发的关键窗口期，简单形态家用机器人将很快普及，高净值家庭或率先尝试通用人形机器人 [4] 生态建设 - 行业倾向于"软件定义硬件"逻辑，模型可适配不同硬件但硬件决定模型能力上限，灵巧手采用直驱设计以利于高质量数据收集 [5] - 开源成为推动生态共建的主动选择，仿人机器人强化学习框架"Humanoid Gym"及生成式大模型"VPP"已在社区获得广泛关注 [5] 公司发展 - 公司坚持"双腿运载双手"理念并深度自研核心零部件如关节电机、减速器，强调软硬一体打磨以尽快形成闭环 [3] - 公司创始人表示世界级成果仍是进行时，实验室理想正熔铸于产业化实践，但尚未达到其个人标准 [6]

机器人(SZ:300024)

端到端VLA范式

软件定义硬件

人形机器人

端到端VLA范式

软件定义硬件

人形机器人

商汤王晓刚：世界模型将加快AI从数字空间进入物理世界，「悟能」想做那个桥梁

机器之心· 2025-08-12 07:34

具身智能与世界模型 - 具身智能「大脑」以「世界模型」为内核，成为AI下一阶段竞争焦点 [1] - 世界模型被视为通往「类人智能」的解法，业界形成新共识 [1] - 2025年下半年具身智能「大脑」成为全球AI领域焦点 [1] - 世界模型技术研究曲线与具身智能产业发展路径交汇，引发行业争夺战 [2] 行业动态与厂商布局 - 谷歌推出具身智能RT-2模型，AI教母李飞飞聚焦具身智能创业 [3] - 国内厂商密集发布具身智能平台：智源研究院RoboBrain、华为云CloudRobo、字节跳动GR-3、京东JoyInside、商汤「悟能」、腾讯Tairos [3] - 商汤优势在于计算机视觉起家、多模态大模型打磨经验、智能驾驶沉淀、大装置算力支持 [3] - 商汤通过「悟能」平台将多年积累赋能行业 [3] 技术突破与挑战 - 大模型带来导航、人机交互、VLA端到端操作三方面技术突破 [7][8] - 自动驾驶技术进步使机器人导航功能提升 [9] - 多模态大模型带来全新人机交互方式 [10] - 世界模型通过学习物理规律和交通法则实现更高层次智能 [12] - 硬件质量和数据缺乏是主要挑战，尤其是规模化数据生产困难 [13] - 仿真数据与现实差距大，计算机视觉技术可带来新动能 [14] 商汤的技术布局 - 「开悟」世界模型应用于智能汽车，衍生出「悟能」具身智能平台 [5] - 平台包含10万3D资产，支持多视角学习，保持150秒时空一致性 [5] - 世界模型三大技术优势：时空一致性（11摄像头同步）、内容可编辑、反应速度实时 [21][23][24] - 「悟能」平台提供第一视角和第三视角数据，推动端到端VLA实现 [27][29] - 与机器人厂商合作形式为提供SDK软件功能API调用 [33] 应用场景与未来展望 - 机器狗可实现陪伴守护，家庭机器人建立情感连接 [30] - 具身智能成熟后将形成人机社交网络，机器人可完成多项家庭功能 [36] - 每项功能突破都将带来巨大市场想象空间 [37] - 商汤规划提供包含视觉、交互、导航、操作的「机器人大脑」 [39]

商汤(HK:00020)

开悟世界模型

悟能具身智能平台

具身大脑RoboBrain

开悟世界模型

悟能具身智能平台

具身大脑RoboBrain

WRC 2025聚焦(2)：人形机器人临近“CHATGPT时刻” 模型架构成核心突破口

新浪财经· 2025-08-12 06:33

行业核心观点 - 人形机器人行业正处于ChatGPT时刻前夜最快1-2年实现关键突破 [1] - 2025H1国内整机及零部件厂商平均增长50-100% [1] - 技术突破与算力升级将驱动市场规模和生态格局全面重塑 [2] 行业发展阶段 - 短期1-2年国内市场在政策补贴与场景拓展推动下保持高速增长整机厂及核心零部件厂商订单可见度高 [2] - 中期2-5年端到端具身智能模型有望成为主流架构推动从示范样机向大规模商业化迈进 [2] - 长期5年以上家用与工业市场年出货量或达百万级别竞争焦点转向成本控制与生态体系建设 [2] 技术瓶颈分析 - 硬件并非最大瓶颈整机和灵巧手已满足多数应用需求量产与工程化仍需优化但非根本制约因素 [3] - 具身智能AI模型架构是关键短板 VLA模型存在先天不足数据不足且结合RL训练后效果有限 [4] - 视频生成/世界模型路径更具潜力通过模拟任务再映射控制更易收敛且速度可能优于VLA [4] 技术突破方向 - RL Scaling Law有待突破当前缺乏迁移性新任务需从零训练需实现类似语言模型的Scaling Law [5] - 视频生成路径需降低画质追求以减少GPU算力消耗重点关注执行效率 [4] - 分布式算力是未来趋势本体算力仅相当于数个手机(峰值功耗约100W) 需依赖工厂/小区级局域服务器 [6] 产业链投资机会 - 硬件端关注进入量产爬坡阶段的驱动器与传感器厂商 [2] - 软件端关注具备视频生成世界模型研发能力的AI公司 [2] - 基础设施端看好分布式算力中心及边缘云服务商将与5G/6G形成生态协同 [2] 全球化发展 - 海外特斯拉/Figure AI等龙头企业实现量产将加速全球产业链分工与技术标准统一 [2]

机器人(SZ:300024)

具身智能AI模型

视频生成模型

分布式算力

具身智能AI模型

视频生成模型

分布式算力