世界模型

搜索文档
对话星动纪元陈建宇:人形机器人的通途与征途
环球网资讯· 2025-08-12 10:01
技术路线 - 具身智能领域的技术路线正从争议走向共识,VLA(Vision-Language-Action)范式成为行业智能底座,端到端模型在实践中被证明有效 [1] - VLA是一个覆盖"感知-理解-行动"的完整闭环,近期备受关注的"世界模型"被视为VLA范式下的重要演进方向 [2] 效率提升 - 人形机器人执行效率在部分工业场景已达人类的70%以上,预计明年提升至90%,端到端架构实现实时反馈与控制是关键 [3] - 软硬件深度协同是攻坚重点,自研灵巧手已实现稳定量产且成本大幅下降,VLA模型能端到端直接控制每个手指关节的高频动作 [3] 应用场景 - 人形机器人的杀手级应用路径清晰:先B端后家庭,工业场景是必经阶段,企业级应用能验证技术、积累数据并推动产业飞轮 [3] - 未来五年可能是家用机器人爆发的关键窗口期,简单形态家用机器人将很快普及,高净值家庭或率先尝试通用人形机器人 [4] 生态建设 - 行业倾向于"软件定义硬件"逻辑,模型可适配不同硬件但硬件决定模型能力上限,灵巧手采用直驱设计以利于高质量数据收集 [5] - 开源成为推动生态共建的主动选择,仿人机器人强化学习框架"Humanoid Gym"及生成式大模型"VPP"已在社区获得广泛关注 [5] 公司发展 - 公司坚持"双腿运载双手"理念并深度自研核心零部件如关节电机、减速器,强调软硬一体打磨以尽快形成闭环 [3] - 公司创始人表示世界级成果仍是进行时,实验室理想正熔铸于产业化实践,但尚未达到其个人标准 [6]
商汤王晓刚:世界模型将加快AI从数字空间进入物理世界,「悟能」想做那个桥梁
机器之心· 2025-08-12 07:34
具身智能与世界模型 - 具身智能「大脑」以「世界模型」为内核,成为AI下一阶段竞争焦点 [1] - 世界模型被视为通往「类人智能」的解法,业界形成新共识 [1] - 2025年下半年具身智能「大脑」成为全球AI领域焦点 [1] - 世界模型技术研究曲线与具身智能产业发展路径交汇,引发行业争夺战 [2] 行业动态与厂商布局 - 谷歌推出具身智能RT-2模型,AI教母李飞飞聚焦具身智能创业 [3] - 国内厂商密集发布具身智能平台:智源研究院RoboBrain、华为云CloudRobo、字节跳动GR-3、京东JoyInside、商汤「悟能」、腾讯Tairos [3] - 商汤优势在于计算机视觉起家、多模态大模型打磨经验、智能驾驶沉淀、大装置算力支持 [3] - 商汤通过「悟能」平台将多年积累赋能行业 [3] 技术突破与挑战 - 大模型带来导航、人机交互、VLA端到端操作三方面技术突破 [7][8] - 自动驾驶技术进步使机器人导航功能提升 [9] - 多模态大模型带来全新人机交互方式 [10] - 世界模型通过学习物理规律和交通法则实现更高层次智能 [12] - 硬件质量和数据缺乏是主要挑战,尤其是规模化数据生产困难 [13] - 仿真数据与现实差距大,计算机视觉技术可带来新动能 [14] 商汤的技术布局 - 「开悟」世界模型应用于智能汽车,衍生出「悟能」具身智能平台 [5] - 平台包含10万3D资产,支持多视角学习,保持150秒时空一致性 [5] - 世界模型三大技术优势:时空一致性(11摄像头同步)、内容可编辑、反应速度实时 [21][23][24] - 「悟能」平台提供第一视角和第三视角数据,推动端到端VLA实现 [27][29] - 与机器人厂商合作形式为提供SDK软件功能API调用 [33] 应用场景与未来展望 - 机器狗可实现陪伴守护,家庭机器人建立情感连接 [30] - 具身智能成熟后将形成人机社交网络,机器人可完成多项家庭功能 [36] - 每项功能突破都将带来巨大市场想象空间 [37] - 商汤规划提供包含视觉、交互、导航、操作的「机器人大脑」 [39]
WRC 2025聚焦(2):人形机器人临近“CHATGPT时刻” 模型架构成核心突破口
新浪财经· 2025-08-12 06:33
行业核心观点 - 人形机器人行业正处于ChatGPT时刻前夜 最快1-2年实现关键突破 [1] - 2025H1国内整机及零部件厂商平均增长50-100% [1] - 技术突破与算力升级将驱动市场规模和生态格局全面重塑 [2] 行业发展阶段 - 短期1-2年国内市场在政策补贴与场景拓展推动下保持高速增长 整机厂及核心零部件厂商订单可见度高 [2] - 中期2-5年端到端具身智能模型有望成为主流架构 推动从示范样机向大规模商业化迈进 [2] - 长期5年以上家用与工业市场年出货量或达百万级别 竞争焦点转向成本控制与生态体系建设 [2] 技术瓶颈分析 - 硬件并非最大瓶颈 整机和灵巧手已满足多数应用需求 量产与工程化仍需优化但非根本制约因素 [3] - 具身智能AI模型架构是关键短板 VLA模型存在先天不足 数据不足且结合RL训练后效果有限 [4] - 视频生成/世界模型路径更具潜力 通过模拟任务再映射控制 更易收敛且速度可能优于VLA [4] 技术突破方向 - RL Scaling Law有待突破 当前缺乏迁移性 新任务需从零训练 需实现类似语言模型的Scaling Law [5] - 视频生成路径需降低画质追求以减少GPU算力消耗 重点关注执行效率 [4] - 分布式算力是未来趋势 本体算力仅相当于数个手机(峰值功耗约100W) 需依赖工厂/小区级局域服务器 [6] 产业链投资机会 - 硬件端关注进入量产爬坡阶段的驱动器与传感器厂商 [2] - 软件端关注具备视频生成世界模型研发能力的AI公司 [2] - 基础设施端看好分布式算力中心及边缘云服务商 将与5G/6G形成生态协同 [2] 全球化发展 - 海外特斯拉/Figure AI等龙头企业实现量产将加速全球产业链分工与技术标准统一 [2]
昆仑万维:正式发布并开源「Matrix-Game 2.0」模型
证券时报网· 2025-08-12 03:52
公司动态 - 昆仑万维发布自研世界模型Matrix系列升级版本"Matrix-Game2 0" 该版本在通用场景上实现实时长序列交互式生成 并成为业内首个开源方案 [1] - "Matrix-Game2 0"在实时生成和长序列能力上实现突破 能以25FPS速度在复杂场景中生成分钟级连续视频内容 较上一版本显著提升连贯性与实用性 [1] - 模型保持对物理规律与场景语义的精准理解 支持用户通过简单指令自由探索和构建结构清晰、细节丰富的虚拟环境 [1] 技术突破 - "Matrix-Game2 0"侧重低延迟、高帧率的长序列交互性能 打破内容生成与交互之间的技术壁垒 [1] - 该技术为虚拟人、游戏引擎、具身智能等前沿应用提供新可能性 成为构建通用虚拟世界的技术基座 [1] 行业影响 - 世界模型被视为具身智能与高级空间推理的下一前沿课题 [2] - "Matrix-Game2 0"预计对具身智能体训练、虚拟游戏世界搭建、影视与元宇宙内容生产等领域产生变革性影响 [2]
对话星动纪元陈建宇:世界模型是VLA的一个路径,未来5年家庭机器人会爆发
钛媒体APP· 2025-08-12 02:00
行业技术趋势 - 通用人形机器人被视为未来AI技术趋势 具备强大移动和操作能力 将革新生产力和社会服务能力 [2] - 世界模型是VLA技术路径 通过强化学习等技术改进精细化操作 泛化及认知能力 [2][3] - 端到端VLA模型需融合世界模型实现未来预测和认知 并通过强化学习提升通用泛化能力 [7] 技术发展路径 - 构建通用人形机器人的最短路径是直接向人类学习 因人类是唯一通用具身智能体 [2] - 模型优先级高于数据 需提升数据利用效率而非单纯扩大数据量 [4] - 全球首个融合世界模型与生成式模型的工作已实现 相关算法和模型已开源 [7] 产品与研发进展 - 公司提出VLA模型ERA-42 融合理解与生成 统一视觉 理解 预测 行动功能至端到端模型 [5] - 自研人形机器人星动L7采用模块化设计 适配物流分拣等场景 由VLA模型直接控制操作 [6] - 自研人形机器人星动Q5面向服务业 在零售门店等场景推进落地 具备拟人化交互能力 [6] - 自研灵巧手XHand 1具备12个主动自由度和触觉传感器 可完成上千个灵巧动作 [6] 商业化策略 - 优先聚焦B端场景落地 包括工业制造自动化作业和服务业场景化服务 [7] - 当前工业场景中智能机器人效率达人类70% 预计明年达90% [8] - 人形机器人最终杀手级应用在家庭场景 但前期需通过B端积累数据和打磨技术 [9][10] 公司背景与融资 - 公司成立于2023年8月 为清华大学孵化项目 坚持软硬一体技术路线 [5] - 成立不到两年完成3轮融资 今年7月完成近5亿元A轮融资 由鼎晖VGC和海尔资本联合领投 [5] 行业发展阶段 - 家用机器人爆发时间点预计在未来五年 简单形态机器人将进入家庭 高净值家庭或率先试用通用人形机器人 [4] - 具身智能行业尚未出现泡沫 估值未达智能汽车量级 因周期长且未形成规模化商业闭环 [8]
昆仑万维发布并开源Matrix-Game 2.0模型
新浪财经· 2025-08-12 01:22
公司动态 - 昆仑万维于8月12日发布并开源Matrix-Game交互世界模型的升级版本Matrix-Game 2.0 [1] - Matrix-Game 2.0能够生成跨场景的长时视频并保持动作和视觉的时序一致性 [1] - 新版本支持用户在交互过程中进行连续指令输入 [1]
CMU最新!跨实体世界模型助力小样本机器人学习
具身智能之心· 2025-08-12 00:03
研究方法 - 通过模仿学习训练视觉运动策略的有效性已被证实 但性能依赖大量现实世界数据收集[2] - 研究目标是利用现成或低成本数据(如公开机器人数据集和人类摆弄物体数据集)减少数据收集工作量[2] - 采用光流作为具身无关的动作表示 在跨多个具身数据集上预训练世界模型 再用少量目标具身数据进行微调[3] - 提出潜在策略引导(LPS)方法 通过在世界模型潜在空间中搜索更优动作序列改进策略输出[3] 实验成果 - 结合预训练世界模型后 仅用30次示范数据可使策略性能相对提升超过50%[3][9] - 使用50次示范数据时策略性能相对提升超过20%[3][9] - 预训练数据源包括Open X-embodiment数据集(两千个片段)和低成本人类玩耍数据集[3] 技术优势 - 光流能够打破不同机器人实体间的差异[12] - 世界模型比策略模型更适合进行跨实体预训练和新实体微调[12] - 潜在策略引导方法有效利用世界模型提升策略模型性能[12] 行业痛点 - 机器人学习成本高昂 单个任务常需数小时数据采集[11] - 不同机器人实体差异给模型预训练带来挑战[11] - 现有方法可有效利用已有数据减少新数据采集需求[11]
本来决定去具身,现在有点犹豫了。。。
自动驾驶之心· 2025-08-11 12:17
具身智能行业现状 - 具身智能是2025年最热门方向之一 但当前仍处于技术探索阶段 尚未达到生产力转化阶段[1] - 行业经历从沉寂到疯狂再到冷静的周期 初创公司融资活跃但技术成熟度有限[3] - 头部企业对具身智能人才需求集中在端到端、大模型、VLA、强化学习等前沿方向[3] 自动驾驶技术发展趋势 - 主流技术路线正从无图方案向端到端架构迁移 技术栈迭代周期为1-2年[3] - 行业关注重点包括LV融合、BEV感知、3DGS、世界模型等方向[3][20][26] - 传统机器人技术仍是产品主线 但前沿算法研究投入持续加大[3] 自动驾驶人才需求 - 算法岗竞争激烈 学历门槛较高 更倾向招收掌握端到端、大模型等前沿技术的人才[3] - 机器人/具身智能领域存在SLAM、ROS等技术优化与集成类岗位机会[3] - 初创公司提供全面技术培养机会 但工作强度较大[3] 自动驾驶技术社区资源 - 社区覆盖40+技术路线 包含VLA benchmark、综述、学习路线等系统化资源[6][20] - 汇集国内外顶尖高校实验室及头部企业资源 形成产学研闭环[19][20][27][29] - 提供60+数据集、40+开源项目及主流仿真平台资源[20][33][35] 前沿技术研究热点 - 端到端自动驾驶技术涵盖量产方案、VLA算法、世界模型结合等方向[26][37] - 3DGS与NeRF技术在场景重建、闭环仿真领域应用广泛[39] - 视觉语言模型(VLM)在预训练数据集、思维链推理等方向快速发展[43] - BEV感知作为量产基石 覆盖纯视觉与多模态方案[50] - 扩散模型应用于数据生成、场景重建等场景[48] 行业活动与交流 - 社区组织超100场专业技术直播 涵盖VLA、世界模型等前沿主题[82] - 建立头部企业内推机制 实现求职与岗位高效匹配[9][18] - 成员可自由提问工作选择、研究方向等实际问题并获得解答[83]
OpenAI发布最强AI模型GPT-5;英特尔CEO发全员信:回应辞职要求;微信员工回应“改手机日期可恢复过期文件” | Q资讯
搜狐财经· 2025-08-10 02:43
OpenAI发布GPT-5模型 - OpenAI发布新一代AI模型GPT-5,具备智能切换模型版本、更低幻觉率、更强代码能力和支持个性化设定等功能 [1] - GPT-5在SWE-bench Verified测试中得分74.9%,在Aider polyglot测试中得分88%,成为真正的编码协作伙伴 [3] - 该模型在前端Web开发任务中70%的表现优于OpenAI o3,能够生成高质量代码并处理修复漏洞、修改代码等复杂任务 [3] 英特尔CEO回应辞职传闻 - 英特尔CEO陈立武发表员工信,澄清关于他的不实传闻,暗示不会辞职 [4] - 陈立武强调拥有40多年行业经验,遵循最高法律和道德标准,将继续领导英特尔 [4] - 英特尔表示将在美国半导体研发和制造领域投资数十亿美元,包括在亚利桑那州新建晶圆厂 [4] - 知情人士透露,陈立武与部分董事会成员在公司战略和收购计划上存在分歧 [5] 微软裁员动态 - 微软在华盛顿州启动新一轮裁员,裁减约40个岗位,使该州自五月以来的裁员总数达到3160人 [6] - 此次裁员是微软全球裁员超过15000人计划的一部分,此前5月和7月分别裁减1985个和830个岗位 [6] 苹果iPhone17系列发布会 - 苹果iPhone17系列发布会预计于9月9日举行,将推出iPhone17、iPhone17 Air、iPhone17 Pro和iPhone17 ProMax [7] - 同期可能发布Apple Watch SE3、Apple Watch Series11、Apple Watch Ultra3和AirPods Pro 3 [7] 网易游戏服务器故障 - 网易旗下多款游戏突发登录异常,"网易游戏崩了"话题冲上微博热搜 [8] - 故障持续超过2小时,内部人士称宕机面积大导致排查难度大,服务器重启需要较长时间 [8] - 网易内部公告证实故障由机房网络问题引起,影响POPO部分服务 [8] 字节跳动校招计划 - 字节跳动启动2026校园招聘,计划发放超5000个offer,较2025年校招4000+规模显著扩招 [10] - 研发类岗位招聘数量同比增长23%,算法、前端、客户端增幅最大,非研发岗位计划招募1500余人 [10] - 招聘覆盖抖音、电商、火山引擎、飞书、剪映等业务团队,产品经理、数据分析等方向机会更多 [10] AI行业动态 - OpenAI发布两个开放权重AI模型GPT-oss-120b和GPT-oss-20b,支持文本生成和代码编写等任务 [13] - 谷歌DeepMind推出世界模型Genie 3,能根据文本提示生成可互动的3D环境,以720p分辨率24帧/秒实时渲染 [14] - 小红书开源多模态大模型dots.vlm1,基于DeepSeek V3打造,配备自研12亿参数视觉编码器NaViT [17] - dots.vlm1在MMMU、MathVision、OCR Reasoning等基准测试中表现接近Gemini 2.5 Pro等领先模型 [17] IT业界观点 - 英伟达否认其产品含有后门和关闭开关,强调30多年设计经验表明这类功能会带来安全隐患 [19] - GitHub CEO警告开发者必须拥抱AI否则改行,称AI工具已成为编程工作流程中不可或缺的合作伙伴 [20] - Stack Overflow调查显示80%开发者使用AI编程工具,但对准确性的信任度从40%降至29% [22]
腾讯加码空间智能大模型,这一赛道正在成为下一个风口
首席商业评论· 2025-08-09 04:17
腾讯混元3D模型的技术突破 - 腾讯在2025世界人工智能大会上正式发布并开源「混元3D世界模型1.0」,支持通过文本或图像生成完整3D场景,具备360°沉浸式漫游、资产导出为标准mesh格式等功能,实现从"AI能画"到"人能用"的跃迁 [3] - 该模型在Hugging Face平台下载量已超过230万,成为最受欢迎的3D开源模型之一 [3] - 混元3D模型从"重建一个物体"升级到"生成一个场景"再到"理解一个世界",目标是生成创作者可直接使用的可交付资产 [5] - 在生成质量上全面超过SOTA开源模型,包括纹理细节、美学质量、指令遵循等评价维度 [7] - 采用创新的"2D+3D结合"混合路线,既保持空间结构稳定性又丰富交互动态效果,解决了纯3D生成多样性不足和纯2D视频生成空间不稳定的问题 [8] 混元3D模型的应用价值 - 对游戏开发者是生产力革命,可将场景搭建时间从数周/月缩短至一句指令生成原型,极大降低试错成本并提升资产生产效率 [9] - 对普通3D爱好者彻底降低创作门槛,无需专业建模软件即可创造虚拟世界并导入Vision Pro等设备体验 [9] - 支持基于文本/图像输入生成360度沉浸式三维场景,如输入"一个破旧的加油站,夜晚下着雨,远处有霓虹灯"即可构建完整空间环境 [8] - 生成的世界支持自由漫游交互,具有空间连续性,解决了同类模型视角丢失和缺乏连续性的痛点 [8] 空间智能与世界模型的发展 - 空间智能被认为是AI下一个创新重要节点,让机器理解三维物理世界,实现"我看、我动、我思"的融合 [11][12] - 世界模型是通用智能体的必要条件,能进行内部模拟、计划调整和跨模态推理,体现具身智能的高级阶段 [13] - 谷歌DeepMind研究证明,任何能完成复杂任务的通用AI体内部必然编码了世界模型,AI能力上限取决于世界模型的保真度 [13][14] - 行业巨头纷纷布局:英伟达推出Cosmos世界模型,谷歌DeepMind组建专门团队并发布Genie 3,李飞飞创立World Labs等 [14] 腾讯的AI战略布局 - 2024年腾讯AI相关资本开支达767亿元,同比增长221%,计划2025年进一步加大投入占收入十几个百分点 [24] - 混元大模型形成完整梯队,从0.5B-7B小模型到52B大模型和MoE架构模型,覆盖端侧到云端 [24] - 混元TurboS在全球权威评测中排名前八,理科推理提升超10%,代码能力提升24%,竞赛数学成绩提升39% [24] - 在B端升级"腾讯云智能体开发平台",整合RAG技术和Agent能力,帮助企业激活私域知识构建专属智能体 [26] - 通过乐享知识库等产品帮助企业实现知识管理数字化,案例显示科沃斯应用后营销效率显著提升并节省百万运营成本 [27]