Workflow
世界模型
icon
搜索文档
别盯着GPT-5了!Google这款Genie 3世界模型,才是未来的AI核心战场
老徐抓AI趋势· 2025-08-15 04:00
AI行业焦点转移 - 当前AI行业关注点正从GPT-5转向Google DeepMind发布的Genie 3世界模型,后者被视为更具颠覆性潜力 [5] - 大语言模型(LLM)基于Transformer架构的发展已接近天花板,升级幅度递减且仅能生成语言描述而非可交互环境 [5] - 世界模型处于"人无我有"阶段,掌握该技术的公司极少,突破后将重塑AI产业格局 [5] 世界模型核心技术特征 - 世界模型能生成逻辑一致、可自由探索的虚拟环境,与被动播放的视频有本质区别 [6] - 环境细节动态生成并保持物理常识一致性,例如刷漆后的墙面颜色持久保留 [6][9] - 可实现事件与环境的自然融合,如龙降入水面时产生符合物理规律的水花效果 [11] 行业应用场景 - 游戏/影视行业:单次文本输入即可生成3A级开放世界,成本从数十亿级别大幅降低 [14] - 自动驾驶:通过自然语言描述生成训练场景,覆盖极端工况并支持参数化调整(天气/光线/路况) [15][17] - 元宇宙基建:解决传统3D建模成本过高问题,推动虚拟世界规模化落地 [20] 技术竞争格局 - 世界模型将成为自动驾驶、机器人、沉浸式体验等领域的关键基础设施 [22] - 谷歌/Meta等科技巨头已布局镜像世界(Mirror World)技术,与智能眼镜等硬件形成生态协同 [20] - 该技术可能催生新一代互联网形态,实现现实与虚拟的深度融合 [20] 产业变革影响 - 将顶级3D内容生产能力从专业工作室向大众市场普及 [14] - 彻底改写自动驾驶训练成本结构,解决真实数据采集瓶颈 [15][19] - 为具身智能(Embodied AI)提供物理规则完备的训练环境 [20]
GPT5发布标志:以Tranformer为架构的大语言模型即将走到尽头,下一波浪潮在哪?
老徐抓AI趋势· 2025-08-15 03:00
核心观点 - GPT-5的发布标志着基于Transformer架构的大语言模型时代可能进入尾声 [6][33][37][38] - GPT-5在性能上呈现渐进式提升而非质变,尤其在数学、编程和多模态领域有显著进步 [9][12][16][19][21][24][28][30] - 大模型行业竞争进入价格战阶段,GPT-5的调用成本显著低于竞品 [26][27][43] - 行业未来可能转向算法创新(如分层推理模型)或数据类型升级(如视频、传感器数据) [38][41] 发布会观感 - 发布会形式更豪华但信息密度低,CEO山姆·奥特曼仅开场露面 [6][7][8] - 相比早期发布会,此次更侧重用户体验优化和价格策略 [8] 性能解析 数学能力 - AIME数学邀请赛:GPT-5无工具准确率94.6%,有工具达100%,但o3模型工具辅助下已接近(98.4%) [9][12] - 前沿数学测试:GPT-5从o3的15.8%提升至26.3%,Pro版本达32.1% [12] - HLE人类终极考试:GPT-5 Pro达42%,超越o3(24.3%)和Grok4(41%) [16] - ARC-AGI-2推理测试:GPT-5落后Grok4,显示推理仍是行业短板 [19] 编程能力 - SWE Bench Verified测试:GPT-5以74.9%微弱超越Claude Opus 4.1(74.5%) [21][24] - 调用成本优势:GPT-5输入/输出成本为Claude Opus的1/8到1/13 [26][27] 多模态与医疗 - 视觉识别相对o3提升有限 [28] - 医疗领域高难度问题进步明显,OpenAI将其列为重点方向 [30] 实际体验 - 复杂任务处理更接近“思考”模式,需依赖“GPT-5 Thinking”架构优化 [33] - 工具链能力增强,如直接检索SEC官网IPO招股书PDF [33] 大语言模型的瓶颈 - 数据见顶:高质量训练数据预计2027-2028年耗尽,可能提前 [33][37] - 参数见顶:GPT-5参数接近1万亿,进一步增长受限于数据 [37] - 技术曲线放缓:GPT-4至5的迭代未带来跨越式提升 [38] 行业未来方向 - 算法创新:如清华HRM分层推理模型 [38] - 数据类型升级:视频(YouTube)、传感器数据(特斯拉)构建“世界模型” [41] 商业竞争态势 - 大模型厂商进入“人优我廉”价格战阶段,GPT-5成本优势显著 [43] - 若无颠覆性创新,行业可能快速进入“人廉我走”阶段 [43] 行业趋势总结 - GPT-5是Transformer架构的阶段性高点,下一波浪潮或依赖新架构或数据模态 [56]
ICCV 2025 | HERMES:首个统一3D场景理解与生成的世界模型
机器之心· 2025-08-14 04:57
研究背景与动机 - 自动驾驶技术需要两大核心能力:对当前环境的深刻理解(识别交通参与者、理解交通规则)和未来场景的准确预测(预测行人、车辆运动)[7] - 当前主流方案将"理解"和"生成"分开处理,但实际决策需要两种能力深度融合[8][10] - 构建统一模型面临挑战:高分辨率环视图像输入LLM的token限制、理解与生成任务相互促进机制、世界知识与场景预测的集成[11] HERMES框架设计 - 采用共享LLM同时驱动理解与生成任务,通过BEV(鸟瞰图)作为统一场景表达[13][18] - BEV Tokenizer将六路环视图像编码为紧凑俯视视角表征,保留空间几何关系和语义细节[18] - 引入世界查询机制:通过自适应采样提取场景核心信息Token,实现知识注入与传递[19] - 联合训练优化:语言建模损失(Next Token Prediction)和点云生成损失(L1损失)[21][22] 技术优势与性能 - 未来生成任务:3秒未来点云误差降低32.4%,Chamfer Distance显著优于ViDAR[31] - 场景理解任务:CIDEr指标提升8%,超越OmniDrive等专用模型[31] - 统一建模效果:生成精度显著提升且理解能力无损,验证框架有效性[31] - 无需历史序列即可实现高效推理,展现强泛化能力[31] 应用表现 - 能准确预测未来三秒车辆与环境动态(如货车轨迹),同时深度理解当前场景(识别"星巴克"并描述路况)[4] - 生成时序连贯且几何精确的未来点云,精准描述驾驶场景细节(动态物体移动预测、路边商家识别)[27]
我们距离真正的具身智能大模型还有多远?
2025-08-13 14:56
行业与公司 - 行业涉及**人形机器人产业链**,重点关注**大模型端**和**硬件端**的发展[1] - 公司提及**特斯拉**作为硬件定型的核心推动者[3][4],以及国内企业如**银河通用**、**心动剂元**、**青铜视觉**、**凌云光**、**天奇**等[22][23][24] --- 核心观点与论据 **1 大模型是行业发展的关键卡点** - 当前行业瓶颈在于**模型端**,尤其是多模态大模型的智能水平,而非硬件控制成熟度[1][2] - 大模型为人形机器人提供“智能大脑”,是推动本轮发展的底层逻辑[2] **2 大模型发展的三条主线** - **多模态输入**:从C-CAN(仅语音)到RT1(动作+视频)、RT2(动作整合),再到Helix(200Hz频率)[5][6][11] - **频率提升**:RT2(1-5Hz)→ 派林(50Hz)→ Helix(200Hz,超过人类反应速度)[6][10][11] - **泛化能力**:通过增强推理能力(如PALM-E引入大模型分析)实现任务迁移[6][9] **3 数据飞轮与硬件定型的关系** - **数据不足**是模型停滞的主因,需真机数据形成闭环,但当前硬件未定型导致数据采集风险高[3][15] - **特斯拉的核心作用**:硬件定型后,行业才能规模化采集真机数据,推动模型迭代[3][4][16] **4 模型架构演进** - 从**分层模型**(大脑与小脑分开训练)到**端到端模型**(联合训练,效果更优但难度大)[7][8] - **快慢脑架构**(如Helix):快脑(80兆Transformer)+慢脑(7B BLM),数据回传实现200Hz高频动作[11][12] **5 数据采集的现状与挑战** - **数据类型**:低质量互联网数据(预训练)、仿真数据(成本低但真实性不足)、真机数据(质量高但效率低)[13][14][15] - **动捕设备**: - **光学动捕**(亚毫米精度,成本高,如青铜视觉、凌云光)[19][23] - **惯性动捕**(IMU,灵活低成本,如诺伊腾,特斯拉采购Xs为观察指标)[18][19] - 当前真机数据采集效率极低(每小时3-4条,单条成本超10元)[16] --- 其他重要内容 **1 未来大模型方向** - 融入更多模态(语言、视觉、传感器等)[20] - **世界模型**:用数学符号模拟物理规律,实现仿真数据≈真机数据(英伟达Cosmos目前效果不佳)[21] **2 国内企业布局** - **银河通用**:全仿真数据路线,发布Grasp VLA模型(无序抓取高成功率)[22] - **心动剂元**:ERA大模型采用双系统架构(快慢脑),早于Figure提出[22] - **天奇**:工业数据采集代工+仿真数据训练[24] **3 投资标的建议** - **动捕设备**:凌云光(光学动捕)、青铜视觉[23] - **摄像头**:阿比[26] - **遥操作**:当红科技、景业智能(工厂及协作场景刚需)[25][26] --- 关键数据引用 - 动作频率:RT2(1-5Hz)、派林(50Hz)、Helix(200Hz)[6][11] - 动捕成本:真机数据单条采集成本超10元,100台机器人日采8-10万条[16] - 光学动捕精度:亚毫米级[19]
DeepMind哈萨比斯:智能体可以在Genie实时生成的世界里运行
量子位· 2025-08-13 07:02
世界模型与Genie 3技术进展 - Genie 3能实时生成可交互的虚拟世界并让智能体在其中运行,标志着世界模型技术取得突破[3][5][35] - 世界模型需理解物理规律、材料特性及生物行为,这是实现AGI的必要条件[33][34] - Genie 3已实现720p分辨率、多分钟交互时长及可导航的提示性世界事件生成能力[32] DeepMind发展动态 - 公司研发节奏持续加速,几乎每天都有新成果发布,包括DeepThink、IMO金牌模型等里程碑[9][15][18] - 智能体系统从早期游戏领域扩展到多模态模型,现正通过整合思考规划能力向AGI迈进[24][25] - 强化学习仍是核心技术路径,2010年至今持续投入并验证其可扩展性[27][28] AI能力评估与Game Arena平台 - 现有模型表现参差不齐:IMO金牌级数学能力与高中基础题错误并存[11][29] - 行业亟需新评测基准,需覆盖物理直觉、多目标优化等更复杂维度[13][45][46] - Game Arena平台通过数千款游戏动态测试AI能力,支持模型间对抗与自动难度调整[47][48][53] 工具整合与系统进化 - 工具使用能力成为AI新扩展维度,需平衡内置功能与外部工具调用[63][64][66] - 模型正向系统级进化,能组合调用数学软件、搜索引擎等工具完成复杂任务[68][69] - 产品设计需预测技术发展节奏,保持架构灵活性以适应快速迭代[72] 技术融合与AGI路径 - Genie、VO、Gemini等模型正朝"全能模型"方向融合,形成统一能力体系[75][76] - AGI需具备自主转化人类意图为动态奖励函数的能力,解决多目标优化难题[23][60] - 物理模拟器可能成为关键工具,帮助AI理解并操作现实世界[33][63]
创投月报 | 锡创投:管理20亿低空经济母基金 时隔四年再投3D图形引擎研发商粒界科技
新浪证券· 2025-08-13 04:29
私募股权及创业投资市场动态 - 2025年7月新增登记的私募股权、创业投资基金管理人共16家,较6月激增77.8%,达到2024年7月的四倍 [1] - 新增备案私募股权投资基金、创业投资基金分别为130只、245只,合计同比增长7.1%,环比下降3.4% [1] - 国内一级股权投资市场共发生552起融资事件,同比、环比分别增长5.1%、11.7% [1] - 披露总融资额约717.56亿元,较2024年7月提高142.0%,与2025年6月相比涨幅超100% [1] - 平均单笔融资额接近1.3亿元,创下近7个月内最高点 [1] 锡创投基金设立及管理情况 - 锡创投管理资本总量超2400亿元,自主管理的股权投资基金参投企业超1000家,投资额接近900亿 [3] - 2025年截至7月末,锡创投共登记备案5只新基金,注册出资额合计33.50亿元 [3] - 江苏无锡低空经济和空天产业专项母基金注册出资额高达20亿元,重点聚焦低空经济、商业航天等产业链 [4] - 未来产业(无锡)天使基金合伙企业注册出资额为10亿元,重点培育前瞻性战略新兴产业 [4] 锡创投投资活动分析 - 2025年7月锡创投公开披露股权投资事件共6起,较2024年同期激增200%,环比小幅下降25% [4] - 2025年上半年平均每个季度参投12次,较2024年下半年单季低至7次的表现有所回暖 [4] - 投资阶段以早期为主,天使轮和A轮投资事件数占比超66% [6] - 所关注行业赛道中,一半投向先进制造赛道,覆盖集成电路、航空航天和通信制造细分领域 [6] - 约三分之二参投项目位于江苏无锡市内,另外三分之一获投公司注册在上海 [8] 粒界科技融资及技术发展 - 3D图形引擎技术提供商粒界科技完成千万美元级B3轮融资,由锡创投、无锡滨湖产业集团和比亚迪联合领投 [10] - 融资资金将用于3D图形引擎GritGene的原生AI化升级及具身智能、世界模型模拟训练等研发 [10] - 锡创投早在2021年便参投过粒界科技的A3轮融资 [10] - 粒界科技自研的图形渲染引擎GritGene已发展到第三代,广泛应用于手机、混合现实设备、汽车等消费者终端 [10] - 重要客户包括华为、比亚迪、荣耀、中国联通等 [10]
专访星海图赵行:热闹的Demo不等于泛化能力,具身智能胜负仍在数据量
36氪· 2025-08-13 03:37
核心观点 - 星海图在2025WRC展示具身智能机器人铺床Demo 突出VLA端到端基础模型G0的技术能力 该任务集柔性物体操作、全身控制和场景泛化性于一体[1][2][7] - 公司发布基于500小时真实场景数据集训练的G0模型 在平均指标上超越竞品PI 0约20% 并计划开源数据集推动行业标准化[9][10][28] - 具身智能行业当前处于非共识阶段 公司采取"快慢双系统"技术路线 同时探索世界模型等前沿方向但暂未工业化[34][35][39] - 公司已完成近15亿元人民币A轮系列融资 数据工程成为研发重点 首席科学家亲自参与采集流程标准化[5][19][26] 技术突破 - G0模型采用三阶段VLA训练框架(跨本体预训练/单本体预训练/后训练) 解决复杂全身移动控制任务表现不佳的行业痛点[9][10] - 机器人铺床需协调23个自由度 分三步完成底盘移动、躯干调节和机械臂操作 各步骤存在动态耦合关系[2][7][8] - 模型泛化性面临三大挑战:操作对象差异(纹理/软硬/尺寸)、场景环境多样性、任务动作的非语言可定义性[12][13] - 采用Transformer架构 短期内聚焦视觉-语言-动作模态 暂未引入触觉因传感器标准化程度不足[16][33] 数据战略 - 投入十个月构建五类场景(家庭/酒店/工厂/超市/餐厅)数据集 强调真实性和多样性 拒绝"数据采集厂"式理想环境[27][28] - 开源500小时真机数据集目的:建立行业基准测试标准 缩短用户从购机到部署的开发链条[29][30] - 数据工程包含采集员培训、真机遥操作、清洗标注全流程 目前尚未形成标准化SOP[22][23][26] - 数据质量被视为比模型结构更关键的因素 参考Sora案例证明数据规模的决定性作用[18] 商业模式 - 采用"整机+智能"双轮驱动 通过开源数据降低行业准入门槛 培育开发者生态[30] - 已完成A4、A5轮战略融资 A轮系列累计融资达15亿元人民币[5] - 技术路线选择兼顾学术前沿与工业化可行性 优先推进已成熟的VLA范式[32][34] - 产学协同效应显著 高校研究成果转化与产业数据规模形成良性循环[45][46]
VLA:何时大规模落地
中国汽车报网· 2025-08-13 01:33
VLA技术发展现状 - 理想i8成为首款搭载VLA司机大模型的车型,主打"像家人一样懂你"的辅助驾驶体验 [2] - 博世认为VLA短期难以落地,坚持投入一段式端到端技术,因多模态对齐和数据训练困难 [2] - 行业对VLA落地时间存在分歧,乐观预测2025年为元年,保守估计需3-5年技术成熟 [2][12][13] 技术路线对比 - 模块化端到端保留部分人工设计接口,存在感知与决策衔接难题 [2] - 一段式端到端采用全局优化模型,特斯拉FSD V12代码量从30万行缩减至2000行 [4] - VLA通过思维链实现可解释性决策,在潮汐车道等复杂场景表现优于传统端到端 [4][5] - VLA单日可完成30万公里仿真测试,显著降低实车数据依赖 [5] 技术演进路径 - 行业主流从端到端+VLM双系统转向VLA原生融合架构 [6] - 端到端+VLM需同步处理TB级视频流与百亿参数模型,车载算力紧张 [6] - VLA通过对比学习实现多模态特征对齐,仿真复现率达99.9% [7] - 理想汽车通过端到端+VLM升级至VLA架构,实现空间理解等四大能力 [5] 算力与芯片挑战 - 当前智驾芯片算力不足,英伟达Orin(254TOPS)不支持语言模型直接运行 [9] - 英伟达Thor芯片实际算力缩水,基础版仅300TOPS [9] - VLA低速自动驾驶需10赫兹运行频率,高速需20赫兹 [9] - 车企加速自研芯片:理想马赫100计划2026量产,特斯拉AI 5算力或达2500TOPS [11] 落地时间表 - 短期(2025-2026):特定场景如高速路/封闭园区应用 [14] - 中期(2027-2029):算力达2000TOPS时覆盖城市全场景,接管率或低于0.01次/公里 [14] - 长期(2030年后):光计算架构+脑机接口实现类人直觉决策 [14] - 需突破多模态对齐、训练效率、芯片能效比等关键技术 [14]
热爆了!中国机器人企业近100万家、融资超240亿,但仍有三大具身智能“非共识”争论
钛媒体APP· 2025-08-12 23:25
行业规模与增长 - 中国现存机器人相关企业达95.8万家 其中2024年注册量19.32万家 同比增长4.59% 2025年前7个月注册量15.28万家 同比增长43.81% [2] - 华东地区机器人企业占全国39.64% 人形机器人整机平台超160家 占全球50%以上 核心零部件供应链企业逾600家 [2] - 2025年1-7月具身智能和机器人领域投资事件超200起 融资总额超240亿元 预计2025年中国人形机器人市场规模超82亿元 占全球50%以上 [4] - 花旗预测2050年全球人形机器人市场规模达7万亿美元(约50万亿元人民币) 全球人形机器人数量近6.5亿台 其中超50%来自中国市场 [4] 技术路线争议 - 行业存在VLA模型与世界模型的技术路径分歧 VLA模型通过视觉-语言-动作多模态框架实现端到端闭环 但当前性能尚未达到理想状态 [6][8] - 宇树科技CEO王兴兴认为VLA模型存在泛用性不足问题 训练新动作需从头开始 且强化学习的Scaling Law尚未出现 [6][8] - 世界模型路线(如视频生成模型)可能更快收敛 但存在GPU消耗大、精度要求过高等问题 谷歌DeepMind的Genie3模型展现物理对齐潜力 [8][9] - 星动纪元陈建宇认为世界模型是VLA技术的一种路径 下一代VLA模型需融合语言交互、视觉感知和物理世界操作能力 [9][10] - 国家创新中心江磊指出全参数模型尚未适用 需通过云端与终端算力协同构建"云网一端"架构 [14][15] 数据与模型发展瓶颈 - 王兴兴强调行业过度关注数据而忽视模型架构 当前模型统一性和泛用性不足 具身智能的"ChatGPT时刻"预计在1-5年内实现 [19][22] - 陈建宇认为模型优先级高于数据 需提升数据利用效率 当前工业场景机器人效率达人类70% 预计明年达90% [21] - 自变量机器人CEO王潜指出数据质量控制困难 端到端架构是突破性能上限的关键 需3-5年达到ChatGPT水平 [22][24] - 江磊强调中国拥有全球最大机器人数据集和最多模型从业者 制造业与数据优势是重大历史机遇 [24] 真机数据与合成数据应用 - 超90%企业倾向真机数据训练 仅银河通用、跨维智能等少数企业坚持合成数据路线 [26] - 银河通用99%训练数据为合成数据 通过自研引擎生成百亿级抓取和柔性操作数据集 真实数据仅占1% [26] - 跨维智能自研DexVerse引擎构建仿真到现实的端到端闭环 彻底颠覆传统真实数据采集模式 [27] - 星海图赵行强调真机数据是打破能力天花板的关键 需在真实环境中采集数据 [29] - 卢策吾指出复杂操作(如擦桌子)更依赖真实数据 比例应由模型自动计算而非人为决定 [29] 商业化与应用场景 - 行业分歧在于机器人应侧重娱乐表演(如跳舞)还是实用场景(如进厂打工、家庭服务) [30][32] - 宇树科技终极目标是工业与家务场景 现阶段通过娱乐展示运动能力 [32] - 王兴兴预测行业处于"ChatGPT时刻"前夜 未来2-5年需解决端到端模型、低成本硬件和算力问题 [33] - 王鹤预计人形机器人每三年产值乘10 未来十年市场规模超1000亿元 二十年后达万亿级 [33] - 行业将进入淘汰赛阶段 分析称80%企业可能无法跨越量产门槛 [33]
拐点已现:"人工智能+"的价值70%来自物联网,AI归位物理世界
36氪· 2025-08-12 11:07
AI技术突破与物联网融合 - Google发布Genie 3模型,首次实现实时互动的3D环境生成 [1] - OpenAI推出GPT-5,但部分用户反馈其表现不如前代GPT-4o [5][6] - AI产业化进程中,物联网成为核心驱动力,预计2025年全球物联网终端连接数突破270亿 [1] 物联网在AI进化中的关键作用 - 物联网终端为AI应用提供67%-72%的原始数据来源 [1] - 物联网不仅是数据采集器,更是AI与现实世界交互的桥梁 [2] - 物理世界数据成为AI突破虚拟智能天花板的关键,具备场景泛化性价值 [7][8] AI模型发展的瓶颈与转向 - 大模型依赖参数和算力堆叠的范式遭遇边际效益递减 [5] - 虚拟智能面临推理能力不足、物理常识缺失等瓶颈 [7] - AI转向物理世界感知与交互,Genie 3和具身智能体成为新方向 [7][12] 智能体经济的崛起 - AI竞争焦点从模型能力转向平台化、软硬件一体化和数据闭环 [15] - AIoT重新定义为主动智能体,成为智能体时代的新基建 [16] - AIoT平台、具身智能模型、Agent生态形成三位一体共振发展 [18] 产业格局与未来趋势 - AI重心从虚拟世界向物理世界迁移,AIoT成为关键基石 [19] - 智能工厂、智慧城市等领域依赖端到端数据闭环和持续进化 [15] - 未来十年AIoT将主导智能体发展,推动实体经济智能化升级 [19]