Workflow
世界模型
icon
搜索文档
一周六连发!昆仑万维将多模态AI卷到了新高度
量子位· 2025-08-17 09:00
技术发布概览 - 一周内连续发布六款多模态AI模型,覆盖视频生成、世界模型、统一多模态、智能体及AI音乐创作等核心场景 [2][3] - 绝大部分模型已开源,包括音频驱动视频生成模型SkyReels-A3、交互世界模型Matrix-Game 2.0、3D场景生成模型Matrix-3D等 [3][19][25] - 技术周前公司入选"中国AI开源16强",与腾讯、阿里等并列 [5] 核心模型与技术突破 视频生成领域 - **SkyReels-A3**:支持音频驱动人像视频生成,预设8种运镜参数,可生成60秒单分镜视频,唇形同步指标Sync-C达8.66,超越OmniHuman(8.15)和Hydra(7.70) [8][10][12][14] - 技术原理:基于DiT视频扩散模型+插帧延展+强化学习动作优化,支持文本提示词输入画面变化及商品交互 [14][15] 世界模型领域 - **Matrix-Game 2.0**:国内首个对标谷歌Genie 3的开源模型,支持25 FPS实时生成分钟级交互视频,数据管线基于Unreal Engine和GTA 5构建1350小时高质量交互视频 [19][20][22][24] - **Matrix-3D**:单图像生成全景视频并还原三维空间,对标李飞飞World Labs,适用于游戏引擎、元宇宙等领域 [25][27] 统一多模态领域 - **Skywork UniPic 2.0**:2B参数模型在图像生成/编辑任务中超越7B的BAGEL和12B的Flux-Kontext,联合训练后模型UniPic2-Metaquery刷新多项SOTA [29][31][33] - 训练策略:采用渐进式双任务强化策略优化SD3.5-Medium架构,降低硬件门槛 [30][31] 智能体领域 - **Skywork Deep Research Agent v2**:多模态深度调研智能体整合图片检索与生成,自动插入图文混合文档;浏览器智能体支持社媒多模态分析(如小红书、Instagram) [37][38][44] - 技术手段:端到端强化学习(GRPO算法)、并行推理机制、多智能体协同框架 [48][49][50][51] AI音乐与语音 - **Mureka V7.5**:中文音乐生成模型在音色、情感表现上超越Suno v4.5,优化ASR技术提升人声真实度 [53][54][57] - **MoE-TTS**:基于MoE的语音合成框架,通过自然语言描述精准控制声音特征,域外描述贴合度领先闭源产品 [60][61] 战略与行业布局 - **战略定力**:2023年确立"All in AGI与AIGC"战略,2024年研发费用15.4亿元(同比+59.5%),研发团队占比73.41% [66][67][73] - **垂直领域聚焦**:CEO方汉强调垂直Agent与高频应用场景的价值,如数字人直播(国内市场规模近十万亿)、游戏引擎、具身智能等 [70][76] - **开源生态**:通过开源建立技术话语权,推动"技术-社区-应用"正向循环,强化行业地位 [78]
谷歌内部揭秘Genie 3:Sora后最强AI爆款,开启世界模型新时代
36氪· 2025-08-17 08:44
Genie 3技术突破 - Genie 3是谷歌DeepMind开发的最先进世界模型,能够通过文本实时生成互动且高度一致的世界,分辨率为720p,帧率高达每秒24帧[1][6] - 该模型由Veo 2和Genie 2两个项目合作完成,具备长达一分钟的空间记忆能力,物理规律会随训练数据规模和深度提升[4][10][11] - 在生成视频时长、世界一致性、内容多样性和特殊记忆等方面实现突破,支持实时交互并提升真实感[6][8][12] 技术特性与比较 - 相比前代产品,Genie 3在分辨率(720p)、交互延迟(实时)、交互时长(多分钟)等关键指标上显著提升[7] - 特殊记忆功能表现突出,能保持场景元素的一致性,如角色刷墙后痕迹保留等超出预期的效果[10][11] - 采用逐帧生成方式而非显式表示法,增强了模型泛化能力和对多样世界的适应性[12][13] 应用前景 - 可用于创建游戏世界、训练强化学习智能体、机器人研究等领域[9] - 为机器人领域提供近乎无限的训练场景,突破现实数据采集限制[33] - 是世界模型通向通用人工智能(AGI)的关键一步,能让AI在丰富模拟环境中训练[6][25] 未来发展 - 未来将重点关注真实感和交互性的提升,计划开放Genie 3模型[26][31] - 当前与完全准确模拟现实世界仍有差距,特别是在场景自由度和真实感方面[27][28][29] - 量子计算机可能成为未来运行高级世界模拟的硬件平台[36]
从1.0到2.0时代:锦秋基金臧天宇剖析智能机器人行业投资逻辑
锦秋集· 2025-08-15 14:50
行业概况 - 2025世界机器人大会(WRC)在北京亦庄举办,主题为"让机器人更智慧,让具身体更智能",吸引200余家国内外企业参展,展出1500余件前沿产品,其中人形机器人整机企业数量创全球同类展会之最 [1] 投资人与企业关注重点 - 机器人行业1.0时代关注业务发展、订单情况和财务健康,2.0时代关注端到端学习范式和通用智能发展 [6] - 早期投资人关注技术领先性和商业可落地性,后期关注销售额、毛利等财务数据 [7] - 企业更关注产品周期前端如技术落地和验证测试,投资人同时关注中后端如行业天花板和退出方式 [7] - 成熟企业关注增长可预见性、竞争格局、利润改善和出海状态 [8] 商业化挑战 - To B企业需避免"零毛利"和"长账期"陷阱,优选订单并提升交付效率 [11] - 出海面临市场教育投入大、本地化服务能力建设等挑战,需依据目的国实际情况调整策略 [12] - 产品竞争力持续提升、人才获取和组织流程优化是长期挑战 [13] - 市场教育是核心挑战,需针对不同国家进行差异化用户教育 [14][15] 出海策略 - 出海需"一地一策"深度耕耘,建立国际化能力而非简单复制粘贴 [16] - 产品需根据目标市场劳动力价格、用户习惯和文化差异进行调整 [16][18] - 发达国家对售后服务要求高,需建立本地化服务体系 [17] - 需重视数据安全、隐私保护和专利问题,各国法规差异大 [21] - 日本市场对品质要求极高,但客户忠诚度高,需关注全生命周期价值 [22] 产业链发展 - 期待中国机器人创业环境改善,具身智能领域的世界模型发展能推动行业进步 [24] - AI和大模型发展将解决无序拣选等技术难题,推动全场无人化 [25] - 关键零部件如电机、电池需性能提升且成本下降 [26] - 供应链标准化和健全化将支撑更大规模增长,人形机器人供应链建设是重点 [26] 未来预测 - 2027年人形机器人出货量或达10万台,智能化进展是关键 [27] - 工业或商业服务场景的人形机器人专职工作有望在2-3年内规模化落地 [27] - 大规模应用可能在2030年,届时人们将普遍接受机器人 [28] - 仓储和制造业细分场景可能最先实现具身智能落地 [28] 行业展望 - 期待具身智能模型在未来18个月有重大跨越,中国创业者发挥更大价值 [30] - 持续为客户创造商业闭环价值,共建机器人生态 [31] - 未来人类将感叹"没有机器人世界将会怎样" [32] - 具身智能将给人类社会带来巨大变化,需保持耐心 [33]
别盯着GPT-5了!Google这款Genie 3世界模型,才是未来的AI核心战场
老徐抓AI趋势· 2025-08-15 04:00
AI行业焦点转移 - 当前AI行业关注点正从GPT-5转向Google DeepMind发布的Genie 3世界模型,后者被视为更具颠覆性潜力 [5] - 大语言模型(LLM)基于Transformer架构的发展已接近天花板,升级幅度递减且仅能生成语言描述而非可交互环境 [5] - 世界模型处于"人无我有"阶段,掌握该技术的公司极少,突破后将重塑AI产业格局 [5] 世界模型核心技术特征 - 世界模型能生成逻辑一致、可自由探索的虚拟环境,与被动播放的视频有本质区别 [6] - 环境细节动态生成并保持物理常识一致性,例如刷漆后的墙面颜色持久保留 [6][9] - 可实现事件与环境的自然融合,如龙降入水面时产生符合物理规律的水花效果 [11] 行业应用场景 - 游戏/影视行业:单次文本输入即可生成3A级开放世界,成本从数十亿级别大幅降低 [14] - 自动驾驶:通过自然语言描述生成训练场景,覆盖极端工况并支持参数化调整(天气/光线/路况) [15][17] - 元宇宙基建:解决传统3D建模成本过高问题,推动虚拟世界规模化落地 [20] 技术竞争格局 - 世界模型将成为自动驾驶、机器人、沉浸式体验等领域的关键基础设施 [22] - 谷歌/Meta等科技巨头已布局镜像世界(Mirror World)技术,与智能眼镜等硬件形成生态协同 [20] - 该技术可能催生新一代互联网形态,实现现实与虚拟的深度融合 [20] 产业变革影响 - 将顶级3D内容生产能力从专业工作室向大众市场普及 [14] - 彻底改写自动驾驶训练成本结构,解决真实数据采集瓶颈 [15][19] - 为具身智能(Embodied AI)提供物理规则完备的训练环境 [20]
GPT5发布标志:以Tranformer为架构的大语言模型即将走到尽头,下一波浪潮在哪?
老徐抓AI趋势· 2025-08-15 03:00
核心观点 - GPT-5的发布标志着基于Transformer架构的大语言模型时代可能进入尾声 [6][33][37][38] - GPT-5在性能上呈现渐进式提升而非质变,尤其在数学、编程和多模态领域有显著进步 [9][12][16][19][21][24][28][30] - 大模型行业竞争进入价格战阶段,GPT-5的调用成本显著低于竞品 [26][27][43] - 行业未来可能转向算法创新(如分层推理模型)或数据类型升级(如视频、传感器数据) [38][41] 发布会观感 - 发布会形式更豪华但信息密度低,CEO山姆·奥特曼仅开场露面 [6][7][8] - 相比早期发布会,此次更侧重用户体验优化和价格策略 [8] 性能解析 数学能力 - AIME数学邀请赛:GPT-5无工具准确率94.6%,有工具达100%,但o3模型工具辅助下已接近(98.4%) [9][12] - 前沿数学测试:GPT-5从o3的15.8%提升至26.3%,Pro版本达32.1% [12] - HLE人类终极考试:GPT-5 Pro达42%,超越o3(24.3%)和Grok4(41%) [16] - ARC-AGI-2推理测试:GPT-5落后Grok4,显示推理仍是行业短板 [19] 编程能力 - SWE Bench Verified测试:GPT-5以74.9%微弱超越Claude Opus 4.1(74.5%) [21][24] - 调用成本优势:GPT-5输入/输出成本为Claude Opus的1/8到1/13 [26][27] 多模态与医疗 - 视觉识别相对o3提升有限 [28] - 医疗领域高难度问题进步明显,OpenAI将其列为重点方向 [30] 实际体验 - 复杂任务处理更接近“思考”模式,需依赖“GPT-5 Thinking”架构优化 [33] - 工具链能力增强,如直接检索SEC官网IPO招股书PDF [33] 大语言模型的瓶颈 - 数据见顶:高质量训练数据预计2027-2028年耗尽,可能提前 [33][37] - 参数见顶:GPT-5参数接近1万亿,进一步增长受限于数据 [37] - 技术曲线放缓:GPT-4至5的迭代未带来跨越式提升 [38] 行业未来方向 - 算法创新:如清华HRM分层推理模型 [38] - 数据类型升级:视频(YouTube)、传感器数据(特斯拉)构建“世界模型” [41] 商业竞争态势 - 大模型厂商进入“人优我廉”价格战阶段,GPT-5成本优势显著 [43] - 若无颠覆性创新,行业可能快速进入“人廉我走”阶段 [43] 行业趋势总结 - GPT-5是Transformer架构的阶段性高点,下一波浪潮或依赖新架构或数据模态 [56]
ICCV 2025 | HERMES:首个统一3D场景理解与生成的世界模型
机器之心· 2025-08-14 04:57
研究背景与动机 - 自动驾驶技术需要两大核心能力:对当前环境的深刻理解(识别交通参与者、理解交通规则)和未来场景的准确预测(预测行人、车辆运动)[7] - 当前主流方案将"理解"和"生成"分开处理,但实际决策需要两种能力深度融合[8][10] - 构建统一模型面临挑战:高分辨率环视图像输入LLM的token限制、理解与生成任务相互促进机制、世界知识与场景预测的集成[11] HERMES框架设计 - 采用共享LLM同时驱动理解与生成任务,通过BEV(鸟瞰图)作为统一场景表达[13][18] - BEV Tokenizer将六路环视图像编码为紧凑俯视视角表征,保留空间几何关系和语义细节[18] - 引入世界查询机制:通过自适应采样提取场景核心信息Token,实现知识注入与传递[19] - 联合训练优化:语言建模损失(Next Token Prediction)和点云生成损失(L1损失)[21][22] 技术优势与性能 - 未来生成任务:3秒未来点云误差降低32.4%,Chamfer Distance显著优于ViDAR[31] - 场景理解任务:CIDEr指标提升8%,超越OmniDrive等专用模型[31] - 统一建模效果:生成精度显著提升且理解能力无损,验证框架有效性[31] - 无需历史序列即可实现高效推理,展现强泛化能力[31] 应用表现 - 能准确预测未来三秒车辆与环境动态(如货车轨迹),同时深度理解当前场景(识别"星巴克"并描述路况)[4] - 生成时序连贯且几何精确的未来点云,精准描述驾驶场景细节(动态物体移动预测、路边商家识别)[27]
我们距离真正的具身智能大模型还有多远?
2025-08-13 14:56
行业与公司 - 行业涉及**人形机器人产业链**,重点关注**大模型端**和**硬件端**的发展[1] - 公司提及**特斯拉**作为硬件定型的核心推动者[3][4],以及国内企业如**银河通用**、**心动剂元**、**青铜视觉**、**凌云光**、**天奇**等[22][23][24] --- 核心观点与论据 **1 大模型是行业发展的关键卡点** - 当前行业瓶颈在于**模型端**,尤其是多模态大模型的智能水平,而非硬件控制成熟度[1][2] - 大模型为人形机器人提供“智能大脑”,是推动本轮发展的底层逻辑[2] **2 大模型发展的三条主线** - **多模态输入**:从C-CAN(仅语音)到RT1(动作+视频)、RT2(动作整合),再到Helix(200Hz频率)[5][6][11] - **频率提升**:RT2(1-5Hz)→ 派林(50Hz)→ Helix(200Hz,超过人类反应速度)[6][10][11] - **泛化能力**:通过增强推理能力(如PALM-E引入大模型分析)实现任务迁移[6][9] **3 数据飞轮与硬件定型的关系** - **数据不足**是模型停滞的主因,需真机数据形成闭环,但当前硬件未定型导致数据采集风险高[3][15] - **特斯拉的核心作用**:硬件定型后,行业才能规模化采集真机数据,推动模型迭代[3][4][16] **4 模型架构演进** - 从**分层模型**(大脑与小脑分开训练)到**端到端模型**(联合训练,效果更优但难度大)[7][8] - **快慢脑架构**(如Helix):快脑(80兆Transformer)+慢脑(7B BLM),数据回传实现200Hz高频动作[11][12] **5 数据采集的现状与挑战** - **数据类型**:低质量互联网数据(预训练)、仿真数据(成本低但真实性不足)、真机数据(质量高但效率低)[13][14][15] - **动捕设备**: - **光学动捕**(亚毫米精度,成本高,如青铜视觉、凌云光)[19][23] - **惯性动捕**(IMU,灵活低成本,如诺伊腾,特斯拉采购Xs为观察指标)[18][19] - 当前真机数据采集效率极低(每小时3-4条,单条成本超10元)[16] --- 其他重要内容 **1 未来大模型方向** - 融入更多模态(语言、视觉、传感器等)[20] - **世界模型**:用数学符号模拟物理规律,实现仿真数据≈真机数据(英伟达Cosmos目前效果不佳)[21] **2 国内企业布局** - **银河通用**:全仿真数据路线,发布Grasp VLA模型(无序抓取高成功率)[22] - **心动剂元**:ERA大模型采用双系统架构(快慢脑),早于Figure提出[22] - **天奇**:工业数据采集代工+仿真数据训练[24] **3 投资标的建议** - **动捕设备**:凌云光(光学动捕)、青铜视觉[23] - **摄像头**:阿比[26] - **遥操作**:当红科技、景业智能(工厂及协作场景刚需)[25][26] --- 关键数据引用 - 动作频率:RT2(1-5Hz)、派林(50Hz)、Helix(200Hz)[6][11] - 动捕成本:真机数据单条采集成本超10元,100台机器人日采8-10万条[16] - 光学动捕精度:亚毫米级[19]
DeepMind哈萨比斯:智能体可以在Genie实时生成的世界里运行
量子位· 2025-08-13 07:02
世界模型与Genie 3技术进展 - Genie 3能实时生成可交互的虚拟世界并让智能体在其中运行,标志着世界模型技术取得突破[3][5][35] - 世界模型需理解物理规律、材料特性及生物行为,这是实现AGI的必要条件[33][34] - Genie 3已实现720p分辨率、多分钟交互时长及可导航的提示性世界事件生成能力[32] DeepMind发展动态 - 公司研发节奏持续加速,几乎每天都有新成果发布,包括DeepThink、IMO金牌模型等里程碑[9][15][18] - 智能体系统从早期游戏领域扩展到多模态模型,现正通过整合思考规划能力向AGI迈进[24][25] - 强化学习仍是核心技术路径,2010年至今持续投入并验证其可扩展性[27][28] AI能力评估与Game Arena平台 - 现有模型表现参差不齐:IMO金牌级数学能力与高中基础题错误并存[11][29] - 行业亟需新评测基准,需覆盖物理直觉、多目标优化等更复杂维度[13][45][46] - Game Arena平台通过数千款游戏动态测试AI能力,支持模型间对抗与自动难度调整[47][48][53] 工具整合与系统进化 - 工具使用能力成为AI新扩展维度,需平衡内置功能与外部工具调用[63][64][66] - 模型正向系统级进化,能组合调用数学软件、搜索引擎等工具完成复杂任务[68][69] - 产品设计需预测技术发展节奏,保持架构灵活性以适应快速迭代[72] 技术融合与AGI路径 - Genie、VO、Gemini等模型正朝"全能模型"方向融合,形成统一能力体系[75][76] - AGI需具备自主转化人类意图为动态奖励函数的能力,解决多目标优化难题[23][60] - 物理模拟器可能成为关键工具,帮助AI理解并操作现实世界[33][63]
创投月报 | 锡创投:管理20亿低空经济母基金 时隔四年再投3D图形引擎研发商粒界科技
新浪证券· 2025-08-13 04:29
私募股权及创业投资市场动态 - 2025年7月新增登记的私募股权、创业投资基金管理人共16家,较6月激增77.8%,达到2024年7月的四倍 [1] - 新增备案私募股权投资基金、创业投资基金分别为130只、245只,合计同比增长7.1%,环比下降3.4% [1] - 国内一级股权投资市场共发生552起融资事件,同比、环比分别增长5.1%、11.7% [1] - 披露总融资额约717.56亿元,较2024年7月提高142.0%,与2025年6月相比涨幅超100% [1] - 平均单笔融资额接近1.3亿元,创下近7个月内最高点 [1] 锡创投基金设立及管理情况 - 锡创投管理资本总量超2400亿元,自主管理的股权投资基金参投企业超1000家,投资额接近900亿 [3] - 2025年截至7月末,锡创投共登记备案5只新基金,注册出资额合计33.50亿元 [3] - 江苏无锡低空经济和空天产业专项母基金注册出资额高达20亿元,重点聚焦低空经济、商业航天等产业链 [4] - 未来产业(无锡)天使基金合伙企业注册出资额为10亿元,重点培育前瞻性战略新兴产业 [4] 锡创投投资活动分析 - 2025年7月锡创投公开披露股权投资事件共6起,较2024年同期激增200%,环比小幅下降25% [4] - 2025年上半年平均每个季度参投12次,较2024年下半年单季低至7次的表现有所回暖 [4] - 投资阶段以早期为主,天使轮和A轮投资事件数占比超66% [6] - 所关注行业赛道中,一半投向先进制造赛道,覆盖集成电路、航空航天和通信制造细分领域 [6] - 约三分之二参投项目位于江苏无锡市内,另外三分之一获投公司注册在上海 [8] 粒界科技融资及技术发展 - 3D图形引擎技术提供商粒界科技完成千万美元级B3轮融资,由锡创投、无锡滨湖产业集团和比亚迪联合领投 [10] - 融资资金将用于3D图形引擎GritGene的原生AI化升级及具身智能、世界模型模拟训练等研发 [10] - 锡创投早在2021年便参投过粒界科技的A3轮融资 [10] - 粒界科技自研的图形渲染引擎GritGene已发展到第三代,广泛应用于手机、混合现实设备、汽车等消费者终端 [10] - 重要客户包括华为、比亚迪、荣耀、中国联通等 [10]
专访星海图赵行:热闹的Demo不等于泛化能力,具身智能胜负仍在数据量
36氪· 2025-08-13 03:37
核心观点 - 星海图在2025WRC展示具身智能机器人铺床Demo 突出VLA端到端基础模型G0的技术能力 该任务集柔性物体操作、全身控制和场景泛化性于一体[1][2][7] - 公司发布基于500小时真实场景数据集训练的G0模型 在平均指标上超越竞品PI 0约20% 并计划开源数据集推动行业标准化[9][10][28] - 具身智能行业当前处于非共识阶段 公司采取"快慢双系统"技术路线 同时探索世界模型等前沿方向但暂未工业化[34][35][39] - 公司已完成近15亿元人民币A轮系列融资 数据工程成为研发重点 首席科学家亲自参与采集流程标准化[5][19][26] 技术突破 - G0模型采用三阶段VLA训练框架(跨本体预训练/单本体预训练/后训练) 解决复杂全身移动控制任务表现不佳的行业痛点[9][10] - 机器人铺床需协调23个自由度 分三步完成底盘移动、躯干调节和机械臂操作 各步骤存在动态耦合关系[2][7][8] - 模型泛化性面临三大挑战:操作对象差异(纹理/软硬/尺寸)、场景环境多样性、任务动作的非语言可定义性[12][13] - 采用Transformer架构 短期内聚焦视觉-语言-动作模态 暂未引入触觉因传感器标准化程度不足[16][33] 数据战略 - 投入十个月构建五类场景(家庭/酒店/工厂/超市/餐厅)数据集 强调真实性和多样性 拒绝"数据采集厂"式理想环境[27][28] - 开源500小时真机数据集目的:建立行业基准测试标准 缩短用户从购机到部署的开发链条[29][30] - 数据工程包含采集员培训、真机遥操作、清洗标注全流程 目前尚未形成标准化SOP[22][23][26] - 数据质量被视为比模型结构更关键的因素 参考Sora案例证明数据规模的决定性作用[18] 商业模式 - 采用"整机+智能"双轮驱动 通过开源数据降低行业准入门槛 培育开发者生态[30] - 已完成A4、A5轮战略融资 A轮系列累计融资达15亿元人民币[5] - 技术路线选择兼顾学术前沿与工业化可行性 优先推进已成熟的VLA范式[32][34] - 产学协同效应显著 高校研究成果转化与产业数据规模形成良性循环[45][46]