世界模型

搜索文档
ChatGPT见顶后,AI新战场世界模型:中国已经先行一步!
老徐抓AI趋势· 2025-07-31 01:03
AI发展阶段 - AI发展分为三个阶段:感知AI、生成式AI、具身AI [5][7][16] - 感知AI阶段始于2012年,图像识别准确率超越人类,但知识量有限(1400万张图片≈人类10年标注时间)[7][9] - 生成式AI阶段始于2017年,Transformer架构和GPU算力提升推动大语言模型发展,GPT-3训练数据达7500亿Token(≈人类10万年书写量)[12][13] 大语言模型瓶颈 - 互联网训练数据预计2028年枯竭,大语言模型增长面临天花板 [15] - AI需转向新学习方式,通过真实环境交互实现持续进化 [16][18] 世界模型定义与价值 - 世界模型是高精度物理规律模拟器,支持AI虚拟试错训练 [19] - 解决传统AI生成视频的物理错乱问题(如穿车、不合逻辑的物体交互)[20] - 自动驾驶训练成本大幅降低:虚拟场景可定制天气、光线、路况,替代百万小时现实数据采集 [19][22][23] 商汤科技技术突破 - 推出"开悟"世界模型,支持自然语言描述生成多视角物理合规视频 [22] - 发布"悟能"平台,整合世界模型与感知/导航能力,构建机器人虚拟训练环境 [24] - 技术应用覆盖自动驾驶、机器人操作等物理交互场景 [25][26] 行业竞争格局 - 世界模型将重塑AI数据生产方式(自我生成替代互联网采集)、训练效率(秒级仿真)、产业落地(制造业/医疗/教育等)[28] - 类比移动互联网发展:大语言模型类似"智能手机",世界模型类似"App Store",推动AI进入物理世界 [28] - 中国企业在世界模型领域已提前布局,技术升级节奏可能快于大语言模型周期(1-2年内或现突破)[28][30] 经济影响 - 世界模型与具身AI结合将推动机器人从工具向伙伴演进,加速AGI时代到来 [28] - 技术革命有望显著拉动经济增长,类似移动互联网对生产力的提升效应 [29]
端到端/大模型/世界模型秋招怎么准备?我们建了一个求职交流群...
自动驾驶之心· 2025-07-30 23:33
行业人才发展现状 - 学校学习内容与实际工作需求存在明显差距,导致应届生在求职时缺乏竞争力 [1] - 从业者转型需求强烈,方向包括大模型、世界模型、具身智能等前沿领域,但对行业实际动态了解不足 [1] 社群平台定位与功能 - 社群目标为搭建连接学校与企业的桥梁,整合全行业人才资源形成综合型平台 [1] - 社群内容聚焦产业动态、公司研究、产品研发及求职跳槽等实战话题 [1] - 提供行业人脉拓展渠道,帮助成员第一时间获取产业前沿信息 [1]
具身领域LLM结合强化学习与世界模型工作汇总
具身智能之心· 2025-07-30 00:02
具身智能领域最新研究进展 1 UniSim通用现实世界交互模拟器 - 通过生成式建模整合多源数据(图像/机器人/导航数据)实现高层级指令和低层级控制的视觉结果模拟 [3] - 应用场景覆盖游戏/电影内容生成和具身智能体纯模拟训练(零样本迁移至现实)[3] - 实验证明可同时训练视觉语言策略和强化学习策略 [3] 2 因果世界模型与鲁棒智能体 - 首次证实最优智能体必须学习真实因果模型以实现跨领域泛化 [5] - 研究结论对迁移学习和因果推断领域产生深远影响 [5] 3 MAMBA元强化学习框架 - 结合模型方法与元强化学习技术实现15倍样本效率提升 [8] - 在高维任务场景验证有效性,推动现实世界泛化能力突破 [8] 4 EMMA多模态具身智能体 - 通过文本世界LLM指导视觉世界VLM训练(DAgger-DPO算法)[10] - ALFWorld基准测试成功率提升20%-70% [10] 5 Text2Reward自动奖励生成 - 基于LLM生成可执行密集奖励代码(无需真实数据)[13] - 17项操作任务中13项超越专家编写奖励 [14] 6 在线持续学习智能体 - 提出Behavior-IL/Environment-IL框架解决现实场景持续学习问题 [17] - CAMA机制无需任务边界信息即实现参数更新 [18] 7 AMAGO情境强化学习 - 通过并行化Transformer训练解决长期记忆和元学习挑战 [21] - 可攻克开放世界多指令完成难题 [21] 8 LLM世界模型构建 - 创新性采用PDDL构建显式世界模型(支持40+动作生成)[22] - 在Household领域成功求解48项复杂规划任务 [23]
智元机器人首席科学家罗剑岚老师专访!具身智能的数采、仿真、场景与工程化
具身智能之心· 2025-07-30 00:02
具身智能数据讨论 - 公司与多家传感器供应商合作,聚焦视觉触觉与高密度传感器联合研发,并构建跨平台数据采集API实现任务语义统一映射[2] - 机器人应用需达到95%成功率才能满足家庭场景需求,当前性能优化是主要门槛[2] - 仿真数据用于高效迭代但存在扩展性瓶颈,多模态大模型训练100%使用真机真实数据[2][3] - 合成数据仅用于工程迭代与模型调试,大模型训练阶段完全依赖真实数据[3][4] - 真实数据成本核心在于缺乏标准化采集机制,公司正尝试远程遥操、自动部署机器人等方式建立自动化数据工厂[6] 自动驾驶与机器人数据对比 - 自动驾驶要求99.99%安全水平,机器人开放环境操作同样需要高成功率,当前面临数据稀缺与工程伦理双重挑战[7] 具身大模型评估 - 行业缺乏通用benchmark,公司计划搭建统一真机测试场推动标准化评估[8][9] - 评估维度聚焦技术路线与性能表现,从Demo炫技转向全栈一体化产业闭环[9] - 世界模型基于统一平台实现视频生成、模型评测与策略训练,复杂场景处理能力突出[10] 技术路线争议 - VLA路线非最终方案,需结合大模型与优化策略提升成功率至远超ChatGPT的50%-60%水平[11] - 中美差异:美国重算法开源,中国强在工程集成与产业化速度[12] 遥操作与自主决策 - 自主决策需突破多模态信息融合、任务泛化与高成功率执行三大门槛[13][14] - 当前"失控"问题源于软件设计缺陷而非意识觉醒,通过安全兜底机制保障运行[14] - 通用能力需从垂直场景积累数据逐步演化,无法直接实现[15] 应用场景落地 - 部署流程分任务建模、场景迁移、适配与安全验证四步,软硬件协同是关键[17][18] - 工业场景因结构化程度高更易落地,需满足100%性能与节拍一致性[20][21] - 工商业将先于家庭实现规模化落地,长期家庭市场潜力更大[21] 技术路线选择 - 关节驱动与感知能力依赖模块化标准,行业需共建可插拔生态[22] - 家庭环境复杂性需通过垂直场景数据积累逐步攻克[22] - 执行速度慢源于过度依赖模仿学习,需引入专门优化训练提升[23] 未来发展方向 - 追求DeepSeek moment:接近100%成功率+高速执行+泛化能力,超越ChatGPT moment[24] - 数据驱动成为科学正名,通过统计显著性验证建立结论[25] - Transformer架构主流但效率待提升,类脑架构或更适合具身智能[26] 软硬件协同生态 - 构建平台化操作系统(机器人Android)统一硬件接口,与软件厂商开放合作[28][29] - 操作系统是基础设施,真正突破依赖算法与模型创新[30]
对话智元具身业务部总裁姚卯青:下半年密集交卷,今年出货几千台
硬AI· 2025-07-29 15:50
具身智能行业发展阶段 - 行业正从Demo演示转向实战检验阶段 下半年将是"交卷"时刻 [1] - 头部公司需要通过营收和实际效果来证明能力 密集检验阶段即将开始 [2] 智元公司商业进展 - 2023年预计出货量达几千台 已中标中国移动7800万元订单 [2] - 产品应用于营业厅接待讲解等场景 未来将拓展至运营商/酒店/银行等服务领域 [2] - 商业模式选择软硬件全栈优化的"苹果"模式 而非开放接口的"安卓"模式 [2] 技术路线与数据策略 - 采用真实数据与世界模型双轮驱动技术路线 实采数据被视为核心资产 [2] - 合成数据难以完全涵盖物理规律 开放式场景与应用场景双渠道采集数据 [6][7] - 通过环境/光照/物体纹理等参数变化实现数据增广 已收到家电等专业化采集需求 [7] 世界模型技术 - 两条技术路线:泛VLA路线增加动作解码器 神经网络物理建模路线 [8] - Action-Conditioned World Model预测未来画面 World-Action Model生成连续动作指令 [8] 供应链与产能挑战 - 关节/减速器等核心部件供应链存在挑战 目前供应商以中小企业为主 [4] - 特斯拉引入国产供应链将推动行业发展 类似新能源车供应链建设过程 [16] 产品布局与市场策略 - 将推出"灵犀"产品线布局四足机器人 目标家庭陪伴/巡逻看护等场景 [13] - 四足机器人量产有助于关键零部件降本 供应链与人形机器人高度复用 [13] - 海外市场更关注工业领域降本应用 中国员工稳定性优于北美高缺勤率地区 [14] 商业化落地关键 - B端市场注重合理ROI而非绝对低成本 工业场景铺开将降低智造成本 [11] - 已实现1万次0失误的操作性能 通过人机共驾解决初期上线问题 [12] - 应用场景远超新能源车 每个细分市场都可能诞生专业公司 [2][10]
WAIC上的“最强大脑”对话:机器人如何走向真实世界?
南方都市报· 2025-07-29 14:46
大会盛况 - 2025世界人工智能大会汇聚数百家AI领域顶尖企业 展示从工业操作到生活服务的全方位机器人应用 [2] - 具身智能领域全球顶尖学术与产业机构参与"全球视角下的具身智能新机遇"论坛 [4] 智元机器人技术突破 - 公司构建"一体三智"全栈闭环发展体系 实现机器人本体、运动智能、交互智能与作业智能的打通 [7] - 发布世界模型开源平台Genie Envisioner 融合预测控制评测三大核心能力 提供端到端解决方案 [7] - 自建专业数据工厂形成全球最大数据集AgiBot World并开源 解决行业数据不足问题 [7] - 推出行业首个通用具身基座模型"启元大模型" 具备"一脑多形"能力可适配异构机器人本体 [9] - 在工业制造、仓储物流、电力巡检、交互引导四大场景实现突破性落地 [10] - GE-Act搭载机器人完成五项任务成功率远超行业平均值 包括做三明治、倒茶、擦桌面等操作 [10] - 预告精灵G2机器人将在运动精度和场景适配性全面升级 具备原生数据采集能力并覆盖多元场景 [10] 学术与产业进展 - 谷歌科学家分享高性能AI驱动机器人操作的最新进展 [11] - 清华大学学者解析基座模型推动具身智能虚实泛化 助力机器人从虚拟训练走向真实应用 [11] - 英伟达研究院分享机器人通用模型构建路径 Sanctuary AI展示人形机器人Phoenix迭代进展 [11] - UC Berkeley学者阐述机器人基础模型如何使机器自主掌握复杂操作 [11] - 圆桌讨论聚焦自动化到智能化趋势 探讨具身智能产业落地机遇与挑战 [11] 行业生态发展 - WAIC展示具身智能全面爆发 涵盖AI应用融入千行百业、世界模型搭建及国产算力崛起 [12] - 行业形成完整高速运转的生态体系 为硅碳融合文明指明新发展方向 [12]
辅助驾驶有效数据难采集?首个已量产、可交互世界模型来了
南方都市报· 2025-07-29 13:59
端到端自动驾驶的挑战 - 自动驾驶系统需要采集海量数据 特斯拉拥有700万台量产车进行数据回流[2] - 需覆盖各种高风险场景数据 但人类驾驶行为中仅有极少部分数据对训练有价值[2] - 存在概率性问题且特定场景难以复现 导致模型训练存在数据瓶颈[2] 世界模型的技术突破 - 推出行业首个量产可交互的"绝影开悟"世界模型 配合生成式驾驶数据集WorldSim-Drive[4] - 基于单张A100 GPU每日生成数据相当于10台真实车或100台路测车 相当于500台量产车采集能力[4] - 当前20%数据通过世界模型生产 可生成千万级场景数据并打造实时交互训练场[4] 4D重建与场景编辑能力 - 具备1km²真实世界高精度重建能力 提供多视角空间数据[7] - 支持对视频内容进行任意编辑 包括移除/增加车辆 改变车辆类型 控制刹车转向等操作[7] - 通过API开放给客户实现要素自定义 生成多模态摄像头数据并实现精准可控[7] 具身智能的数据挑战 - 头部机器人企业年出货量仅四位数 真实数据采集有限[5] - 99%具身智能训练数据需来源于合成数据[5] - 视觉数据产生速度落后于算力增长 导致模型数据需求出现倒挂现象[5] 智能层次与规则定义 - 智能层次从感知到行为再到规则定义 需在交互中产生新智能[9] - 重要是为机器人定义价值观与文化 在规则允许范围内产生规则[9] - 通过自上而下约束方式确保智能体在既定框架内演进[9]
商汤首度发布“悟能”具身智能平台
证券时报网· 2025-07-29 12:47
产品发布 - 公司正式发布"悟能"具身智能平台 以"开悟"世界模型为核心引擎 依托商汤大装置提供端侧和云侧算力支援 [1] - 平台可为机器人、智能设备赋予感知、视觉导航及多模态交互能力 推动智能终端向更高层次自主化与智能化演进 [1] - 平台可广泛适配包括汽车、机器人在内的各类终端 实现空间层面的现实世界互动 [1] 技术能力 - 感知能力基于商汤方舟在视觉AI领域十余年积累 能为终端硬件赋予万物识别与理解能力 支持端侧芯片实现端侧推理 [2] - 导航能力依托商汤绝影纯视觉端到端智能辅助驾驶方案 可泛化适配至机器人等设备 实现精准路径规划与导航 [2] - 交互能力基于"日日新"大模型技术 赋能机器人具备有温度、有深度、长记忆、超稳定等交互能力亮点 [2] 战略愿景 - 世界模型和具身AI结合将开启AI发展下一阶段 完成由"工具"向"人"的跃迁 加速迈向AGI时代 [1] - 平台旨在帮助各类具身智能企业完成和现实世界交互的梦想 [1] 生态合作 - 公司联合华为、库帕思、海光、寒武纪等十余家国产生态伙伴共同发布"商汤大装置算力Mall" [2] - 算力Mall提供灵活自主的国产算力选择与组合 致力于构建"面向未来的算力超级市场" [3] - 该举措可大幅降低AI应用门槛 加速大模型行业落地 打破国外技术壁垒 推动中国AI产业自主可控生态建设 [3]
LeCun出手,造出视频世界模型,挑战英伟达COSMOS
机器之心· 2025-07-29 09:58
世界模型概念与发展 - 世界模型是一种神经网络,能够根据智能体过去的观察与动作预测环境的未来状态 [2] - 深度学习三巨头之一Yann LeCun将世界模型视为通向人类智能的核心路径 [3] - 训练有效世界模型面临数据获取成本高、任务复杂度高、算力消耗大等挑战 [4][5][6] DINO-world模型创新 - 采用冻结视觉编码器DINOv2在潜在空间预训练视频世界模型,显著降低计算成本 [9][19] - 模型参数量少于10亿,远低于生成式模型COSMOS的120亿参数规模 [19] - 引入残差预归一化交叉注意力块架构,提升预测效率 [20][21] 技术实现细节 - 使用旋转位置编码(RoPE)处理时空关系,支持可变帧率训练增强泛化能力 [23][24][28] - 通过动作条件微调模块将预测与智能体动作结合,缓解数据不足问题 [30][32][33] - 在6000万条未清洗网络视频数据集上训练,获得跨领域迁移能力 [11] 性能验证结果 - 在VSPW分割预测任务中,0.5秒预测mIoU提升6.3% [13] - 密集预测任务表现优于V-JEPA和COSMOS,Cityscapes mIoU达64.7 [37][38] - 直觉物理测试显示与V-JEPA ViT-H相当,验证大规模预训练价值 [40][41] 应用优势 - 解耦视频预训练与动作微调,减少90%标注数据需求 [12] - 潜在空间建模避免像素级计算,推理资源消耗降低80% [10][12] - 规划任务成功率比从头训练模型提高50%以上 [44]
具身领域LLM结合强化学习与世界模型工作汇总
具身智能之心· 2025-07-29 06:15
具身智能领域最新研究进展 通用现实世界交互模拟器 - UniSim通过整合多维度数据集(图像/机器人/导航数据)构建生成式交互模拟器,支持从高层级指令到低层级控制的视觉结果模拟,训练后的策略可零样本迁移至现实场景[3] - 应用场景涵盖游戏/电影内容生成和具身智能体纯模拟训练,视频描述生成等AI任务也能从中获益[3] 因果世界模型与鲁棒智能体 - Google DeepMind证实因果模型是智能体实现跨领域泛化的必要条件,最优智能体的因果模型将收敛至真实因果模型[5] - 该结论对迁移学习和因果推断领域具有深远影响[5] 元强化学习效率突破 - MAMBA框架结合模型方法和元强化学习技术,在基准测试中实现15倍样本效率提升,且无需超参数调优[8] - 成功验证高维任务场景有效性,推动现实世界泛化智能体发展[8] 多模态具身智能体训练 - EMMA通过文本世界LLM指导视觉世界VLM训练,采用DAgger-DPO算法实现跨模态模仿学习,在ALFWorld任务中成功率提升20%-70%[10] - 突破传统VLM在具身视觉世界中的动态对齐障碍[10] 自动化奖励函数生成 - TEXT2REWARD框架基于LLM自动生成密集奖励代码,在17项机器人操作任务中13项超越专家编写代码,运动任务成功率超94%[14] - 支持人类反馈迭代优化,仿真器训练策略可直接部署至现实[14] 持续学习型交互智能体 - 提出Behavior-IL与环境-IL两种持续学习框架,CAMA机制无需任务边界信息,通过滑动平均实现参数更新[18] - 显著超越基于数据先验的传统持续学习方法[18] 可扩展情境强化学习 - AMAGO通过并行化Transformer训练解决记忆容量和规划视野瓶颈,在元强化学习和长期记忆任务中表现优异[21] - 结合多目标hindsight重标注方案可攻克开放世界难题[21] 大语言模型与世界模型构建 - 创新性采用PDDL构建显式世界模型,GPT-4生成含40余个动作的高质量PDDL模型,成功求解48项复杂规划任务[23] - 通过前置修正机制将人工干预需求降低至初始阶段[23]