Workflow
世界模型
icon
搜索文档
昆仑万维:正式发布并开源「Matrix-Game 2.0」模型
证券时报网· 2025-08-12 03:52
公司动态 - 昆仑万维发布自研世界模型Matrix系列升级版本"Matrix-Game2 0" 该版本在通用场景上实现实时长序列交互式生成 并成为业内首个开源方案 [1] - "Matrix-Game2 0"在实时生成和长序列能力上实现突破 能以25FPS速度在复杂场景中生成分钟级连续视频内容 较上一版本显著提升连贯性与实用性 [1] - 模型保持对物理规律与场景语义的精准理解 支持用户通过简单指令自由探索和构建结构清晰、细节丰富的虚拟环境 [1] 技术突破 - "Matrix-Game2 0"侧重低延迟、高帧率的长序列交互性能 打破内容生成与交互之间的技术壁垒 [1] - 该技术为虚拟人、游戏引擎、具身智能等前沿应用提供新可能性 成为构建通用虚拟世界的技术基座 [1] 行业影响 - 世界模型被视为具身智能与高级空间推理的下一前沿课题 [2] - "Matrix-Game2 0"预计对具身智能体训练、虚拟游戏世界搭建、影视与元宇宙内容生产等领域产生变革性影响 [2]
对话星动纪元陈建宇:世界模型是VLA的一个路径,未来5年家庭机器人会爆发
钛媒体APP· 2025-08-12 02:00
行业技术趋势 - 通用人形机器人被视为未来AI技术趋势 具备强大移动和操作能力 将革新生产力和社会服务能力 [2] - 世界模型是VLA技术路径 通过强化学习等技术改进精细化操作 泛化及认知能力 [2][3] - 端到端VLA模型需融合世界模型实现未来预测和认知 并通过强化学习提升通用泛化能力 [7] 技术发展路径 - 构建通用人形机器人的最短路径是直接向人类学习 因人类是唯一通用具身智能体 [2] - 模型优先级高于数据 需提升数据利用效率而非单纯扩大数据量 [4] - 全球首个融合世界模型与生成式模型的工作已实现 相关算法和模型已开源 [7] 产品与研发进展 - 公司提出VLA模型ERA-42 融合理解与生成 统一视觉 理解 预测 行动功能至端到端模型 [5] - 自研人形机器人星动L7采用模块化设计 适配物流分拣等场景 由VLA模型直接控制操作 [6] - 自研人形机器人星动Q5面向服务业 在零售门店等场景推进落地 具备拟人化交互能力 [6] - 自研灵巧手XHand 1具备12个主动自由度和触觉传感器 可完成上千个灵巧动作 [6] 商业化策略 - 优先聚焦B端场景落地 包括工业制造自动化作业和服务业场景化服务 [7] - 当前工业场景中智能机器人效率达人类70% 预计明年达90% [8] - 人形机器人最终杀手级应用在家庭场景 但前期需通过B端积累数据和打磨技术 [9][10] 公司背景与融资 - 公司成立于2023年8月 为清华大学孵化项目 坚持软硬一体技术路线 [5] - 成立不到两年完成3轮融资 今年7月完成近5亿元A轮融资 由鼎晖VGC和海尔资本联合领投 [5] 行业发展阶段 - 家用机器人爆发时间点预计在未来五年 简单形态机器人将进入家庭 高净值家庭或率先试用通用人形机器人 [4] - 具身智能行业尚未出现泡沫 估值未达智能汽车量级 因周期长且未形成规模化商业闭环 [8]
昆仑万维发布并开源Matrix-Game 2.0模型
新浪财经· 2025-08-12 01:22
公司动态 - 昆仑万维于8月12日发布并开源Matrix-Game交互世界模型的升级版本Matrix-Game 2.0 [1] - Matrix-Game 2.0能够生成跨场景的长时视频并保持动作和视觉的时序一致性 [1] - 新版本支持用户在交互过程中进行连续指令输入 [1]
CMU最新!跨实体世界模型助力小样本机器人学习
具身智能之心· 2025-08-12 00:03
研究方法 - 通过模仿学习训练视觉运动策略的有效性已被证实 但性能依赖大量现实世界数据收集[2] - 研究目标是利用现成或低成本数据(如公开机器人数据集和人类摆弄物体数据集)减少数据收集工作量[2] - 采用光流作为具身无关的动作表示 在跨多个具身数据集上预训练世界模型 再用少量目标具身数据进行微调[3] - 提出潜在策略引导(LPS)方法 通过在世界模型潜在空间中搜索更优动作序列改进策略输出[3] 实验成果 - 结合预训练世界模型后 仅用30次示范数据可使策略性能相对提升超过50%[3][9] - 使用50次示范数据时策略性能相对提升超过20%[3][9] - 预训练数据源包括Open X-embodiment数据集(两千个片段)和低成本人类玩耍数据集[3] 技术优势 - 光流能够打破不同机器人实体间的差异[12] - 世界模型比策略模型更适合进行跨实体预训练和新实体微调[12] - 潜在策略引导方法有效利用世界模型提升策略模型性能[12] 行业痛点 - 机器人学习成本高昂 单个任务常需数小时数据采集[11] - 不同机器人实体差异给模型预训练带来挑战[11] - 现有方法可有效利用已有数据减少新数据采集需求[11]
本来决定去具身,现在有点犹豫了。。。
自动驾驶之心· 2025-08-11 12:17
具身智能行业现状 - 具身智能是2025年最热门方向之一 但当前仍处于技术探索阶段 尚未达到生产力转化阶段[1] - 行业经历从沉寂到疯狂再到冷静的周期 初创公司融资活跃但技术成熟度有限[3] - 头部企业对具身智能人才需求集中在端到端、大模型、VLA、强化学习等前沿方向[3] 自动驾驶技术发展趋势 - 主流技术路线正从无图方案向端到端架构迁移 技术栈迭代周期为1-2年[3] - 行业关注重点包括LV融合、BEV感知、3DGS、世界模型等方向[3][20][26] - 传统机器人技术仍是产品主线 但前沿算法研究投入持续加大[3] 自动驾驶人才需求 - 算法岗竞争激烈 学历门槛较高 更倾向招收掌握端到端、大模型等前沿技术的人才[3] - 机器人/具身智能领域存在SLAM、ROS等技术优化与集成类岗位机会[3] - 初创公司提供全面技术培养机会 但工作强度较大[3] 自动驾驶技术社区资源 - 社区覆盖40+技术路线 包含VLA benchmark、综述、学习路线等系统化资源[6][20] - 汇集国内外顶尖高校实验室及头部企业资源 形成产学研闭环[19][20][27][29] - 提供60+数据集、40+开源项目及主流仿真平台资源[20][33][35] 前沿技术研究热点 - 端到端自动驾驶技术涵盖量产方案、VLA算法、世界模型结合等方向[26][37] - 3DGS与NeRF技术在场景重建、闭环仿真领域应用广泛[39] - 视觉语言模型(VLM)在预训练数据集、思维链推理等方向快速发展[43] - BEV感知作为量产基石 覆盖纯视觉与多模态方案[50] - 扩散模型应用于数据生成、场景重建等场景[48] 行业活动与交流 - 社区组织超100场专业技术直播 涵盖VLA、世界模型等前沿主题[82] - 建立头部企业内推机制 实现求职与岗位高效匹配[9][18] - 成员可自由提问工作选择、研究方向等实际问题并获得解答[83]
OpenAI发布最强AI模型GPT-5;英特尔CEO发全员信:回应辞职要求;微信员工回应“改手机日期可恢复过期文件” | Q资讯
搜狐财经· 2025-08-10 02:43
OpenAI发布GPT-5模型 - OpenAI发布新一代AI模型GPT-5,具备智能切换模型版本、更低幻觉率、更强代码能力和支持个性化设定等功能 [1] - GPT-5在SWE-bench Verified测试中得分74.9%,在Aider polyglot测试中得分88%,成为真正的编码协作伙伴 [3] - 该模型在前端Web开发任务中70%的表现优于OpenAI o3,能够生成高质量代码并处理修复漏洞、修改代码等复杂任务 [3] 英特尔CEO回应辞职传闻 - 英特尔CEO陈立武发表员工信,澄清关于他的不实传闻,暗示不会辞职 [4] - 陈立武强调拥有40多年行业经验,遵循最高法律和道德标准,将继续领导英特尔 [4] - 英特尔表示将在美国半导体研发和制造领域投资数十亿美元,包括在亚利桑那州新建晶圆厂 [4] - 知情人士透露,陈立武与部分董事会成员在公司战略和收购计划上存在分歧 [5] 微软裁员动态 - 微软在华盛顿州启动新一轮裁员,裁减约40个岗位,使该州自五月以来的裁员总数达到3160人 [6] - 此次裁员是微软全球裁员超过15000人计划的一部分,此前5月和7月分别裁减1985个和830个岗位 [6] 苹果iPhone17系列发布会 - 苹果iPhone17系列发布会预计于9月9日举行,将推出iPhone17、iPhone17 Air、iPhone17 Pro和iPhone17 ProMax [7] - 同期可能发布Apple Watch SE3、Apple Watch Series11、Apple Watch Ultra3和AirPods Pro 3 [7] 网易游戏服务器故障 - 网易旗下多款游戏突发登录异常,"网易游戏崩了"话题冲上微博热搜 [8] - 故障持续超过2小时,内部人士称宕机面积大导致排查难度大,服务器重启需要较长时间 [8] - 网易内部公告证实故障由机房网络问题引起,影响POPO部分服务 [8] 字节跳动校招计划 - 字节跳动启动2026校园招聘,计划发放超5000个offer,较2025年校招4000+规模显著扩招 [10] - 研发类岗位招聘数量同比增长23%,算法、前端、客户端增幅最大,非研发岗位计划招募1500余人 [10] - 招聘覆盖抖音、电商、火山引擎、飞书、剪映等业务团队,产品经理、数据分析等方向机会更多 [10] AI行业动态 - OpenAI发布两个开放权重AI模型GPT-oss-120b和GPT-oss-20b,支持文本生成和代码编写等任务 [13] - 谷歌DeepMind推出世界模型Genie 3,能根据文本提示生成可互动的3D环境,以720p分辨率24帧/秒实时渲染 [14] - 小红书开源多模态大模型dots.vlm1,基于DeepSeek V3打造,配备自研12亿参数视觉编码器NaViT [17] - dots.vlm1在MMMU、MathVision、OCR Reasoning等基准测试中表现接近Gemini 2.5 Pro等领先模型 [17] IT业界观点 - 英伟达否认其产品含有后门和关闭开关,强调30多年设计经验表明这类功能会带来安全隐患 [19] - GitHub CEO警告开发者必须拥抱AI否则改行,称AI工具已成为编程工作流程中不可或缺的合作伙伴 [20] - Stack Overflow调查显示80%开发者使用AI编程工具,但对准确性的信任度从40%降至29% [22]
腾讯加码空间智能大模型,这一赛道正在成为下一个风口
首席商业评论· 2025-08-09 04:17
腾讯混元3D模型的技术突破 - 腾讯在2025世界人工智能大会上正式发布并开源「混元3D世界模型1.0」,支持通过文本或图像生成完整3D场景,具备360°沉浸式漫游、资产导出为标准mesh格式等功能,实现从"AI能画"到"人能用"的跃迁 [3] - 该模型在Hugging Face平台下载量已超过230万,成为最受欢迎的3D开源模型之一 [3] - 混元3D模型从"重建一个物体"升级到"生成一个场景"再到"理解一个世界",目标是生成创作者可直接使用的可交付资产 [5] - 在生成质量上全面超过SOTA开源模型,包括纹理细节、美学质量、指令遵循等评价维度 [7] - 采用创新的"2D+3D结合"混合路线,既保持空间结构稳定性又丰富交互动态效果,解决了纯3D生成多样性不足和纯2D视频生成空间不稳定的问题 [8] 混元3D模型的应用价值 - 对游戏开发者是生产力革命,可将场景搭建时间从数周/月缩短至一句指令生成原型,极大降低试错成本并提升资产生产效率 [9] - 对普通3D爱好者彻底降低创作门槛,无需专业建模软件即可创造虚拟世界并导入Vision Pro等设备体验 [9] - 支持基于文本/图像输入生成360度沉浸式三维场景,如输入"一个破旧的加油站,夜晚下着雨,远处有霓虹灯"即可构建完整空间环境 [8] - 生成的世界支持自由漫游交互,具有空间连续性,解决了同类模型视角丢失和缺乏连续性的痛点 [8] 空间智能与世界模型的发展 - 空间智能被认为是AI下一个创新重要节点,让机器理解三维物理世界,实现"我看、我动、我思"的融合 [11][12] - 世界模型是通用智能体的必要条件,能进行内部模拟、计划调整和跨模态推理,体现具身智能的高级阶段 [13] - 谷歌DeepMind研究证明,任何能完成复杂任务的通用AI体内部必然编码了世界模型,AI能力上限取决于世界模型的保真度 [13][14] - 行业巨头纷纷布局:英伟达推出Cosmos世界模型,谷歌DeepMind组建专门团队并发布Genie 3,李飞飞创立World Labs等 [14] 腾讯的AI战略布局 - 2024年腾讯AI相关资本开支达767亿元,同比增长221%,计划2025年进一步加大投入占收入十几个百分点 [24] - 混元大模型形成完整梯队,从0.5B-7B小模型到52B大模型和MoE架构模型,覆盖端侧到云端 [24] - 混元TurboS在全球权威评测中排名前八,理科推理提升超10%,代码能力提升24%,竞赛数学成绩提升39% [24] - 在B端升级"腾讯云智能体开发平台",整合RAG技术和Agent能力,帮助企业激活私域知识构建专属智能体 [26] - 通过乐享知识库等产品帮助企业实现知识管理数字化,案例显示科沃斯应用后营销效率显著提升并节省百万运营成本 [27]
对话千寻智能高阳:科学家创业不太「靠谱」,但创业就像一场游戏
36氪· 2025-08-08 09:28
具身智能行业趋势 - 具身智能领域正经历技术范式转变,ChatGPT的出现推动了学习范式的革新,使得具身智能成为必然发展方向[13] - 行业现阶段普遍采用Transformer做预训练,但工程化后期效果将出现显著分化[34] - 预计四年后将进入Robot GPT3.5阶段,机器人能完成70%的家庭场景任务[41] 千寻智能商业模式 - 坚持软硬一体化路径,定位为"具身智能领域的苹果"而非安卓[10][11] - 成立19个月累计融资超10亿人民币,资方包括华为哈勃、京东、宁德时代等[7] - 技术路线强调VLA(视觉语言动作)模型创新,独创快慢系统提升动作流畅度[37][46] 技术研发重点 - VLA模型采用95%互联网人类视频数据预训练,显著提升泛化能力[58][61] - 算法创新包括任务分解能力(one two VLA)和动作tokenizer优化[40][45] - 现阶段世界模型仅小规模应用,分层技术路径将被端到端方案淘汰[49][50] 行业竞争格局 - 头部机器人公司仍聚焦硬件和教育市场,忽视"大脑"开发[14] - 同质化Demo现象普遍,叠衣服等复杂任务成为技术能力试金石[56] - "伯克利四子"分别专注不同技术方向:运动控制、操作交互、3D感知等[63][65] 数据策略差异 - 反对现阶段大规模建设数采工厂,认为跨本体数据迁移效率低[53] - 互联网数据价值在于提供多样性,遥操作数据确保物理世界精确性[59] - 数据清洗和配比直接影响模型性能,当前泛化能力提升率达60-80%[61] 人才战略 - 偏好年轻科研人才(硕士/博士),要求具备前沿技术敏感度[71][72] - 算法岗更看重近期学术成果而非工作经验,因技术迭代速度过快[72] - 团队构建强调"少而精",需同时具备研究能力和工程化思维[70]
对话千寻智能高阳:科学家创业不太“靠谱”,但创业就像一场游戏
36氪· 2025-08-08 01:49
公司战略与定位 - 千寻智能采用软硬一体模式,定位为具身智能领域的"苹果"而非"安卓",强调技术初期必须整合硬件与软件能力[5][6] - 公司成立19个月累计融资超10亿人民币,资方包括华为哈勃、京东、宁德时代等头部机构[4] - 创始团队为学术与产业组合:高阳为AI科学家,韩峰涛为硬件专家,曾操盘数万台机器人量产[3][7] 技术路径与创新 - 核心VLA模型采用快慢系统技术,实现动作流畅性(如叠衣服甩动动作),4个月前完成开发[35][36] - 独创one two VLA架构,支持复杂任务自主分解(如"手机放抽屉"需3步骤)[31] - 95%训练数据来自互联网人类视频,提升跨品类泛化能力(如折叠机识别无需额外训练)[46][47] - 现阶段暂未大规模投入世界模型研发,认为强化学习环节成本过高[37] 行业竞争格局 - 判断市场难以容纳第二家软硬一体公司,头部企业倾向固守教育细分市场[9][11] - 反对大规模数采工厂模式,认为机器人形态未定型导致数据迁移价值打折[41][42] - 叠衣服成为行业标准测试场景,因其需应对千变万化的物体形态[44] 技术发展阶段 - 预测4年后进入Robot GPT3.5阶段,任务完成率达70%(如家庭场景取水)[32] - 当前VLA存在语言模块过载问题,需优化数据利用(人类视频预训练)与架构设计[33][34] - 泛化能力仍处初级阶段,但互联网数据可使新物体识别提升60%-80%[48] 人才与研发管理 - 招聘偏好顶尖院校硕士/博士,需发表过机器人领域论文但无需工作经验,因技术迭代过快[52] - 自动驾驶与机器人技术本质相似,差异在于本体成熟度与安全容错标准[53] 产品验证标准 - 提出机器人性能评估方法论:观察跨品类操作(衣物品类切换)、动作流畅度(卡顿检测)、抗干扰能力(衣物团扔测试)[3][25][29]
当AI“看见”世界,商业的未来正在被彻底重塑 | 两说
第一财经资讯· 2025-08-07 11:15
文章核心观点 - 人工智能技术正从数字领域向物理世界扩展 驱动多行业变革 涵盖劳动力市场 航天基础设施 机器人产业 内容创作和全球治理体系[1][5][7][9][11][13] - AI发展重点从提升智能水平转向构建空间感知与物理交互能力 世界模型成为关键方向[9] - 内容产业面临效率革命 AIGC使创作效率提升10倍 三万亿美元市场规模将重构[11] AI对劳动力市场影响 - AI从接管重复性工作转向协作创造性脑力劳动 电视脚本编写等岗位可能在5年内被替代[5] - 不具备AI应用能力的从业人员将首先被淘汰 影响范围从基层快递员延伸至金融分析师等专业岗位[5] 航天基础设施智能化 - 北斗系统通过AI赋能实现定位导航授时功能升级 精度和响应速度提升[7] - 卫星系统应用场景从导航扩展至洪水救援调度 城市交通信号优化和车道级路径规划 形成千亿级产业规模[7] 机器人与空间智能发展 - 世界模型技术推动AI从数字语言处理转向物理空间感知 成为机器人产业核心基础[9] - 应用场景覆盖森林火灾预警和集装箱智能装卸等复杂环境任务[9] 内容产业变革 - 多模态AI实现电影级画面生成 扩散模型技术降低视频制作门槛[11] - AIGC使创作者效率达到传统方法的10倍 电影制作周期缩短至数月[11] 技术治理体系构建 - AI治理核心挑战从技术能力建设转向伦理控制 防止系统自主性风险[13] - 全球协作治理机制正在形成 中国开始参与国际规则制定[13]