世界模型
搜索文档
DeepMind哈萨比斯:智能体可以在Genie实时生成的世界里运行
量子位· 2025-08-13 07:02
世界模型与Genie 3技术进展 - Genie 3能实时生成可交互的虚拟世界并让智能体在其中运行,标志着世界模型技术取得突破[3][5][35] - 世界模型需理解物理规律、材料特性及生物行为,这是实现AGI的必要条件[33][34] - Genie 3已实现720p分辨率、多分钟交互时长及可导航的提示性世界事件生成能力[32] DeepMind发展动态 - 公司研发节奏持续加速,几乎每天都有新成果发布,包括DeepThink、IMO金牌模型等里程碑[9][15][18] - 智能体系统从早期游戏领域扩展到多模态模型,现正通过整合思考规划能力向AGI迈进[24][25] - 强化学习仍是核心技术路径,2010年至今持续投入并验证其可扩展性[27][28] AI能力评估与Game Arena平台 - 现有模型表现参差不齐:IMO金牌级数学能力与高中基础题错误并存[11][29] - 行业亟需新评测基准,需覆盖物理直觉、多目标优化等更复杂维度[13][45][46] - Game Arena平台通过数千款游戏动态测试AI能力,支持模型间对抗与自动难度调整[47][48][53] 工具整合与系统进化 - 工具使用能力成为AI新扩展维度,需平衡内置功能与外部工具调用[63][64][66] - 模型正向系统级进化,能组合调用数学软件、搜索引擎等工具完成复杂任务[68][69] - 产品设计需预测技术发展节奏,保持架构灵活性以适应快速迭代[72] 技术融合与AGI路径 - Genie、VO、Gemini等模型正朝"全能模型"方向融合,形成统一能力体系[75][76] - AGI需具备自主转化人类意图为动态奖励函数的能力,解决多目标优化难题[23][60] - 物理模拟器可能成为关键工具,帮助AI理解并操作现实世界[33][63]
创投月报 | 锡创投:管理20亿低空经济母基金 时隔四年再投3D图形引擎研发商粒界科技
新浪证券· 2025-08-13 04:29
私募股权及创业投资市场动态 - 2025年7月新增登记的私募股权、创业投资基金管理人共16家,较6月激增77.8%,达到2024年7月的四倍 [1] - 新增备案私募股权投资基金、创业投资基金分别为130只、245只,合计同比增长7.1%,环比下降3.4% [1] - 国内一级股权投资市场共发生552起融资事件,同比、环比分别增长5.1%、11.7% [1] - 披露总融资额约717.56亿元,较2024年7月提高142.0%,与2025年6月相比涨幅超100% [1] - 平均单笔融资额接近1.3亿元,创下近7个月内最高点 [1] 锡创投基金设立及管理情况 - 锡创投管理资本总量超2400亿元,自主管理的股权投资基金参投企业超1000家,投资额接近900亿 [3] - 2025年截至7月末,锡创投共登记备案5只新基金,注册出资额合计33.50亿元 [3] - 江苏无锡低空经济和空天产业专项母基金注册出资额高达20亿元,重点聚焦低空经济、商业航天等产业链 [4] - 未来产业(无锡)天使基金合伙企业注册出资额为10亿元,重点培育前瞻性战略新兴产业 [4] 锡创投投资活动分析 - 2025年7月锡创投公开披露股权投资事件共6起,较2024年同期激增200%,环比小幅下降25% [4] - 2025年上半年平均每个季度参投12次,较2024年下半年单季低至7次的表现有所回暖 [4] - 投资阶段以早期为主,天使轮和A轮投资事件数占比超66% [6] - 所关注行业赛道中,一半投向先进制造赛道,覆盖集成电路、航空航天和通信制造细分领域 [6] - 约三分之二参投项目位于江苏无锡市内,另外三分之一获投公司注册在上海 [8] 粒界科技融资及技术发展 - 3D图形引擎技术提供商粒界科技完成千万美元级B3轮融资,由锡创投、无锡滨湖产业集团和比亚迪联合领投 [10] - 融资资金将用于3D图形引擎GritGene的原生AI化升级及具身智能、世界模型模拟训练等研发 [10] - 锡创投早在2021年便参投过粒界科技的A3轮融资 [10] - 粒界科技自研的图形渲染引擎GritGene已发展到第三代,广泛应用于手机、混合现实设备、汽车等消费者终端 [10] - 重要客户包括华为、比亚迪、荣耀、中国联通等 [10]
专访星海图赵行:热闹的Demo不等于泛化能力,具身智能胜负仍在数据量
36氪· 2025-08-13 03:37
核心观点 - 星海图在2025WRC展示具身智能机器人铺床Demo 突出VLA端到端基础模型G0的技术能力 该任务集柔性物体操作、全身控制和场景泛化性于一体[1][2][7] - 公司发布基于500小时真实场景数据集训练的G0模型 在平均指标上超越竞品PI 0约20% 并计划开源数据集推动行业标准化[9][10][28] - 具身智能行业当前处于非共识阶段 公司采取"快慢双系统"技术路线 同时探索世界模型等前沿方向但暂未工业化[34][35][39] - 公司已完成近15亿元人民币A轮系列融资 数据工程成为研发重点 首席科学家亲自参与采集流程标准化[5][19][26] 技术突破 - G0模型采用三阶段VLA训练框架(跨本体预训练/单本体预训练/后训练) 解决复杂全身移动控制任务表现不佳的行业痛点[9][10] - 机器人铺床需协调23个自由度 分三步完成底盘移动、躯干调节和机械臂操作 各步骤存在动态耦合关系[2][7][8] - 模型泛化性面临三大挑战:操作对象差异(纹理/软硬/尺寸)、场景环境多样性、任务动作的非语言可定义性[12][13] - 采用Transformer架构 短期内聚焦视觉-语言-动作模态 暂未引入触觉因传感器标准化程度不足[16][33] 数据战略 - 投入十个月构建五类场景(家庭/酒店/工厂/超市/餐厅)数据集 强调真实性和多样性 拒绝"数据采集厂"式理想环境[27][28] - 开源500小时真机数据集目的:建立行业基准测试标准 缩短用户从购机到部署的开发链条[29][30] - 数据工程包含采集员培训、真机遥操作、清洗标注全流程 目前尚未形成标准化SOP[22][23][26] - 数据质量被视为比模型结构更关键的因素 参考Sora案例证明数据规模的决定性作用[18] 商业模式 - 采用"整机+智能"双轮驱动 通过开源数据降低行业准入门槛 培育开发者生态[30] - 已完成A4、A5轮战略融资 A轮系列累计融资达15亿元人民币[5] - 技术路线选择兼顾学术前沿与工业化可行性 优先推进已成熟的VLA范式[32][34] - 产学协同效应显著 高校研究成果转化与产业数据规模形成良性循环[45][46]
VLA:何时大规模落地
中国汽车报网· 2025-08-13 01:33
VLA技术发展现状 - 理想i8成为首款搭载VLA司机大模型的车型,主打"像家人一样懂你"的辅助驾驶体验 [2] - 博世认为VLA短期难以落地,坚持投入一段式端到端技术,因多模态对齐和数据训练困难 [2] - 行业对VLA落地时间存在分歧,乐观预测2025年为元年,保守估计需3-5年技术成熟 [2][12][13] 技术路线对比 - 模块化端到端保留部分人工设计接口,存在感知与决策衔接难题 [2] - 一段式端到端采用全局优化模型,特斯拉FSD V12代码量从30万行缩减至2000行 [4] - VLA通过思维链实现可解释性决策,在潮汐车道等复杂场景表现优于传统端到端 [4][5] - VLA单日可完成30万公里仿真测试,显著降低实车数据依赖 [5] 技术演进路径 - 行业主流从端到端+VLM双系统转向VLA原生融合架构 [6] - 端到端+VLM需同步处理TB级视频流与百亿参数模型,车载算力紧张 [6] - VLA通过对比学习实现多模态特征对齐,仿真复现率达99.9% [7] - 理想汽车通过端到端+VLM升级至VLA架构,实现空间理解等四大能力 [5] 算力与芯片挑战 - 当前智驾芯片算力不足,英伟达Orin(254TOPS)不支持语言模型直接运行 [9] - 英伟达Thor芯片实际算力缩水,基础版仅300TOPS [9] - VLA低速自动驾驶需10赫兹运行频率,高速需20赫兹 [9] - 车企加速自研芯片:理想马赫100计划2026量产,特斯拉AI 5算力或达2500TOPS [11] 落地时间表 - 短期(2025-2026):特定场景如高速路/封闭园区应用 [14] - 中期(2027-2029):算力达2000TOPS时覆盖城市全场景,接管率或低于0.01次/公里 [14] - 长期(2030年后):光计算架构+脑机接口实现类人直觉决策 [14] - 需突破多模态对齐、训练效率、芯片能效比等关键技术 [14]
热爆了!中国机器人企业近100万家、融资超240亿,但仍有三大具身智能“非共识”争论
钛媒体APP· 2025-08-12 23:25
行业规模与增长 - 中国现存机器人相关企业达95.8万家 其中2024年注册量19.32万家 同比增长4.59% 2025年前7个月注册量15.28万家 同比增长43.81% [2] - 华东地区机器人企业占全国39.64% 人形机器人整机平台超160家 占全球50%以上 核心零部件供应链企业逾600家 [2] - 2025年1-7月具身智能和机器人领域投资事件超200起 融资总额超240亿元 预计2025年中国人形机器人市场规模超82亿元 占全球50%以上 [4] - 花旗预测2050年全球人形机器人市场规模达7万亿美元(约50万亿元人民币) 全球人形机器人数量近6.5亿台 其中超50%来自中国市场 [4] 技术路线争议 - 行业存在VLA模型与世界模型的技术路径分歧 VLA模型通过视觉-语言-动作多模态框架实现端到端闭环 但当前性能尚未达到理想状态 [6][8] - 宇树科技CEO王兴兴认为VLA模型存在泛用性不足问题 训练新动作需从头开始 且强化学习的Scaling Law尚未出现 [6][8] - 世界模型路线(如视频生成模型)可能更快收敛 但存在GPU消耗大、精度要求过高等问题 谷歌DeepMind的Genie3模型展现物理对齐潜力 [8][9] - 星动纪元陈建宇认为世界模型是VLA技术的一种路径 下一代VLA模型需融合语言交互、视觉感知和物理世界操作能力 [9][10] - 国家创新中心江磊指出全参数模型尚未适用 需通过云端与终端算力协同构建"云网一端"架构 [14][15] 数据与模型发展瓶颈 - 王兴兴强调行业过度关注数据而忽视模型架构 当前模型统一性和泛用性不足 具身智能的"ChatGPT时刻"预计在1-5年内实现 [19][22] - 陈建宇认为模型优先级高于数据 需提升数据利用效率 当前工业场景机器人效率达人类70% 预计明年达90% [21] - 自变量机器人CEO王潜指出数据质量控制困难 端到端架构是突破性能上限的关键 需3-5年达到ChatGPT水平 [22][24] - 江磊强调中国拥有全球最大机器人数据集和最多模型从业者 制造业与数据优势是重大历史机遇 [24] 真机数据与合成数据应用 - 超90%企业倾向真机数据训练 仅银河通用、跨维智能等少数企业坚持合成数据路线 [26] - 银河通用99%训练数据为合成数据 通过自研引擎生成百亿级抓取和柔性操作数据集 真实数据仅占1% [26] - 跨维智能自研DexVerse引擎构建仿真到现实的端到端闭环 彻底颠覆传统真实数据采集模式 [27] - 星海图赵行强调真机数据是打破能力天花板的关键 需在真实环境中采集数据 [29] - 卢策吾指出复杂操作(如擦桌子)更依赖真实数据 比例应由模型自动计算而非人为决定 [29] 商业化与应用场景 - 行业分歧在于机器人应侧重娱乐表演(如跳舞)还是实用场景(如进厂打工、家庭服务) [30][32] - 宇树科技终极目标是工业与家务场景 现阶段通过娱乐展示运动能力 [32] - 王兴兴预测行业处于"ChatGPT时刻"前夜 未来2-5年需解决端到端模型、低成本硬件和算力问题 [33] - 王鹤预计人形机器人每三年产值乘10 未来十年市场规模超1000亿元 二十年后达万亿级 [33] - 行业将进入淘汰赛阶段 分析称80%企业可能无法跨越量产门槛 [33]
拐点已现:"人工智能+"的价值70%来自物联网,AI归位物理世界
36氪· 2025-08-12 11:07
AI技术突破与物联网融合 - Google发布Genie 3模型,首次实现实时互动的3D环境生成 [1] - OpenAI推出GPT-5,但部分用户反馈其表现不如前代GPT-4o [5][6] - AI产业化进程中,物联网成为核心驱动力,预计2025年全球物联网终端连接数突破270亿 [1] 物联网在AI进化中的关键作用 - 物联网终端为AI应用提供67%-72%的原始数据来源 [1] - 物联网不仅是数据采集器,更是AI与现实世界交互的桥梁 [2] - 物理世界数据成为AI突破虚拟智能天花板的关键,具备场景泛化性价值 [7][8] AI模型发展的瓶颈与转向 - 大模型依赖参数和算力堆叠的范式遭遇边际效益递减 [5] - 虚拟智能面临推理能力不足、物理常识缺失等瓶颈 [7] - AI转向物理世界感知与交互,Genie 3和具身智能体成为新方向 [7][12] 智能体经济的崛起 - AI竞争焦点从模型能力转向平台化、软硬件一体化和数据闭环 [15] - AIoT重新定义为主动智能体,成为智能体时代的新基建 [16] - AIoT平台、具身智能模型、Agent生态形成三位一体共振发展 [18] 产业格局与未来趋势 - AI重心从虚拟世界向物理世界迁移,AIoT成为关键基石 [19] - 智能工厂、智慧城市等领域依赖端到端数据闭环和持续进化 [15] - 未来十年AIoT将主导智能体发展,推动实体经济智能化升级 [19]
理想汽车的VLA“长征”
经济观察网· 2025-08-12 10:04
核心观点 - 公司选择长期主义技术路线 自研VLA司机大模型 通过强化学习实现机器理解决策逻辑 区别于行业主流端到端架构的模仿学习模式 [1][3][11] - VLA模型具备持续进化能力 可实现事故预防率提升至人类驾驶10倍(600万公里/次事故) 并支持个性化驾驶风格学习 [4] - 公司构建数据/算法/算力/工程四位一体护城河 包括43亿公里辅助驾驶数据积累 自研MoE架构模型部署 以及日均30万公里仿真测试能力 [9][12][5] 技术架构优势 - VLA采用CoT思维链技术 实时呈现决策逻辑 解决端到端模型"无脑执行"痛点 [11] - 通过强化学习实现"越开越像用户"个性化体验 未来支持Face ID自动切换驾驶风格 [4] - 模型部署突破: 4B MoE混合专家架构 轨迹生成时延仅15毫秒 32B云端大模型蒸馏至3.2B车端模型 [12][15] - 算力优化实现700TOPS有效算力 采用QAT量化感知训练与底层指令重写技术 [15] 数据与测试体系 - 累计43亿公里辅助驾驶里程数据 12亿公里有效回传数据 经过严格"老司机数据"筛选标准 [9] - 仿真测试替代90%实车路测 2025年上半年累计测试超4000万公里 单日峰值达30万公里 [5][9] - 仿真一致性达99.9%以上 基于150万公里实车测试进行验证校准 [10] - 建立超40万个场景评测体系 形成技术壁垒 [7] 性能目标与进展 - 当前辅助驾驶事故率350-400万公里/次 人类驾驶约60万公里/次 [4] - 目标2025年底将MPI接管里程提升至400-500公里 2026年达1000公里 [8] - 智能驾驶试驾率72.4% 试驾满意度92% 30万以上车型AD Max交付占比75.4% [8] 行业技术痛点 - 端到端+VLM架构训练数据超1000万Clips后性能增长缓慢 [3] - 实车测试无法复现极端场景 接管里程数字存在统计缺陷 [3] - 人工采集数据成本高昂 部分企业雇佣数百人实车路测 [3] 价值观与原则 - 安全绝对优先原则: 拒绝危险指令执行 即便牺牲初期体验保守 [22][25] - 技术发展三原则: 安全优先/有效算力至上/用户共建迭代 [25] - VLA架构被评估为长期技术路线 可持续延续至机器人技术时代 [25]
对话星动纪元陈建宇:人形机器人的通途与征途
环球网资讯· 2025-08-12 10:01
技术路线 - 具身智能领域的技术路线正从争议走向共识,VLA(Vision-Language-Action)范式成为行业智能底座,端到端模型在实践中被证明有效 [1] - VLA是一个覆盖"感知-理解-行动"的完整闭环,近期备受关注的"世界模型"被视为VLA范式下的重要演进方向 [2] 效率提升 - 人形机器人执行效率在部分工业场景已达人类的70%以上,预计明年提升至90%,端到端架构实现实时反馈与控制是关键 [3] - 软硬件深度协同是攻坚重点,自研灵巧手已实现稳定量产且成本大幅下降,VLA模型能端到端直接控制每个手指关节的高频动作 [3] 应用场景 - 人形机器人的杀手级应用路径清晰:先B端后家庭,工业场景是必经阶段,企业级应用能验证技术、积累数据并推动产业飞轮 [3] - 未来五年可能是家用机器人爆发的关键窗口期,简单形态家用机器人将很快普及,高净值家庭或率先尝试通用人形机器人 [4] 生态建设 - 行业倾向于"软件定义硬件"逻辑,模型可适配不同硬件但硬件决定模型能力上限,灵巧手采用直驱设计以利于高质量数据收集 [5] - 开源成为推动生态共建的主动选择,仿人机器人强化学习框架"Humanoid Gym"及生成式大模型"VPP"已在社区获得广泛关注 [5] 公司发展 - 公司坚持"双腿运载双手"理念并深度自研核心零部件如关节电机、减速器,强调软硬一体打磨以尽快形成闭环 [3] - 公司创始人表示世界级成果仍是进行时,实验室理想正熔铸于产业化实践,但尚未达到其个人标准 [6]
商汤王晓刚:世界模型将加快AI从数字空间进入物理世界,「悟能」想做那个桥梁
机器之心· 2025-08-12 07:34
具身智能与世界模型 - 具身智能「大脑」以「世界模型」为内核,成为AI下一阶段竞争焦点 [1] - 世界模型被视为通往「类人智能」的解法,业界形成新共识 [1] - 2025年下半年具身智能「大脑」成为全球AI领域焦点 [1] - 世界模型技术研究曲线与具身智能产业发展路径交汇,引发行业争夺战 [2] 行业动态与厂商布局 - 谷歌推出具身智能RT-2模型,AI教母李飞飞聚焦具身智能创业 [3] - 国内厂商密集发布具身智能平台:智源研究院RoboBrain、华为云CloudRobo、字节跳动GR-3、京东JoyInside、商汤「悟能」、腾讯Tairos [3] - 商汤优势在于计算机视觉起家、多模态大模型打磨经验、智能驾驶沉淀、大装置算力支持 [3] - 商汤通过「悟能」平台将多年积累赋能行业 [3] 技术突破与挑战 - 大模型带来导航、人机交互、VLA端到端操作三方面技术突破 [7][8] - 自动驾驶技术进步使机器人导航功能提升 [9] - 多模态大模型带来全新人机交互方式 [10] - 世界模型通过学习物理规律和交通法则实现更高层次智能 [12] - 硬件质量和数据缺乏是主要挑战,尤其是规模化数据生产困难 [13] - 仿真数据与现实差距大,计算机视觉技术可带来新动能 [14] 商汤的技术布局 - 「开悟」世界模型应用于智能汽车,衍生出「悟能」具身智能平台 [5] - 平台包含10万3D资产,支持多视角学习,保持150秒时空一致性 [5] - 世界模型三大技术优势:时空一致性(11摄像头同步)、内容可编辑、反应速度实时 [21][23][24] - 「悟能」平台提供第一视角和第三视角数据,推动端到端VLA实现 [27][29] - 与机器人厂商合作形式为提供SDK软件功能API调用 [33] 应用场景与未来展望 - 机器狗可实现陪伴守护,家庭机器人建立情感连接 [30] - 具身智能成熟后将形成人机社交网络,机器人可完成多项家庭功能 [36] - 每项功能突破都将带来巨大市场想象空间 [37] - 商汤规划提供包含视觉、交互、导航、操作的「机器人大脑」 [39]
WRC 2025聚焦(2):人形机器人临近“CHATGPT时刻” 模型架构成核心突破口
新浪财经· 2025-08-12 06:33
行业核心观点 - 人形机器人行业正处于ChatGPT时刻前夜 最快1-2年实现关键突破 [1] - 2025H1国内整机及零部件厂商平均增长50-100% [1] - 技术突破与算力升级将驱动市场规模和生态格局全面重塑 [2] 行业发展阶段 - 短期1-2年国内市场在政策补贴与场景拓展推动下保持高速增长 整机厂及核心零部件厂商订单可见度高 [2] - 中期2-5年端到端具身智能模型有望成为主流架构 推动从示范样机向大规模商业化迈进 [2] - 长期5年以上家用与工业市场年出货量或达百万级别 竞争焦点转向成本控制与生态体系建设 [2] 技术瓶颈分析 - 硬件并非最大瓶颈 整机和灵巧手已满足多数应用需求 量产与工程化仍需优化但非根本制约因素 [3] - 具身智能AI模型架构是关键短板 VLA模型存在先天不足 数据不足且结合RL训练后效果有限 [4] - 视频生成/世界模型路径更具潜力 通过模拟任务再映射控制 更易收敛且速度可能优于VLA [4] 技术突破方向 - RL Scaling Law有待突破 当前缺乏迁移性 新任务需从零训练 需实现类似语言模型的Scaling Law [5] - 视频生成路径需降低画质追求以减少GPU算力消耗 重点关注执行效率 [4] - 分布式算力是未来趋势 本体算力仅相当于数个手机(峰值功耗约100W) 需依赖工厂/小区级局域服务器 [6] 产业链投资机会 - 硬件端关注进入量产爬坡阶段的驱动器与传感器厂商 [2] - 软件端关注具备视频生成世界模型研发能力的AI公司 [2] - 基础设施端看好分布式算力中心及边缘云服务商 将与5G/6G形成生态协同 [2] 全球化发展 - 海外特斯拉/Figure AI等龙头企业实现量产将加速全球产业链分工与技术标准统一 [2]