Cosmos
搜索文档
深度解析世界模型:新范式的路线之争,实时交互与物理仿真
海外独角兽· 2025-12-17 07:53
文章核心观点 - 2026年将是多模态技术大年,视频生成将快速进步并推动应用大规模落地,世界模型将在研究上取得科学突破并开始从研究走向生产 [2] - 世界模型领域正分化为两条主要路线:一条以实时视频生成为核心,服务文娱、游戏等面向人类的消费者场景;另一条以显式3D结构为中心,服务机器人、自动驾驶等面向AI的领域 [2] - 世界模型相比视频生成模型,需要在交互性、实时性、长时记忆和物理合理性四个方面更进一步 [2] 世界模型定义与重要性 - 世界模型被定义为能理解时间和空间规律,并能根据当前环境和动作模拟未来世界演化的模型 [5] - 其重要性提升源于三大趋势:语言作为有损压缩的智能进步遇到局限,空间成为下一个重要智能来源;自回归Transformer与扩散模型的算法进步及融合,使生成模型具备智能层面的扩展定律;具身智能的需求倒逼,机器人行业需要高保真虚拟世界来满足指数级的数据需求 [5] 世界模型相比视频生成的关键进步方向 - **长时记忆**:需生成持续、连贯的长时间世界,保持全局一致性,当前视频模型通常只能生成十秒级片段 [6] - **交互性**:需支持在任意帧动态注入动作指令以影响后续画面,训练数据需同时包含视频帧序列和对应动作 [7][8] - **实时性**:交互式应用要求低延迟,游戏需低于0.1秒,VR理想情况应低于0.01秒,当前扩散模型推理难达30FPS以上,业界通过蒸馏和架构改进(如DMD将50步扩散压缩为4步)来提升实时性 [12] - **物理合理性**:对自动驾驶、机器人等高风险领域,模拟结果必须符合真实物理规律,当前模型在极端物理条件下易出现幻觉,研究者通过引入物理约束后处理或结合可微物理引擎进行校正 [16] 世界模型的两种发展路线 - **路线一:实时视频世界模型**:以实时性为核心优化目标,适用于文娱、游戏等to C场景,包括互动内容创作与新型“引擎”、直播和虚拟形象、AR/VR三大应用场景 [18][19][20] - **路线二:3D/4D结构化世界模型**:以物理准确性为核心,采用NeRF、3D高斯散点等显式3D表示,优势在于3D一致性强,适用于机器人、自动驾驶等for AI的领域,劣势在于数据获取和计算成本高 [18][21][22] 市场玩家四象限格局与代表公司分析 - 横轴表示表示形式(左侧Video-based,右侧3D/物理结构),纵轴表示服务对象(上部分面向人类,下部分面向AI与机器人) [24] - **World Labs**:位于右下象限,强调3D一致性与持久性,估值超10亿美元,融资总额约2.3亿美元,核心产品Marble是基于浏览器的交互式3D世界生成平台 [24][26][30][32] - **General Intuition**:位于左上象限,作为公益性公司,专注于利用游戏数据训练能进行时空推理的agent,其关联平台Medal每年可获得约20亿个游戏视频片段,拥有1000万MAU,公司已完成1.34亿美元种子轮融资 [24][33][35][38] - **Decart**:位于左下象限,推出可交互“开放世界”AI模型Oasis,该模型以Minecraft游戏视频训练,可实现端到端实时闭环,生成速度约25帧/秒,公司已完成3200万美元A轮融资,投后估值超5亿美元 [24][39][41][44] - **Odyssey**:位于右下象限,追求极致真实感与可编辑性,采用重装备采集数据和3D高斯泼溅技术,其Explorer模型可将单图像转化为高保真3D场景资产,公司已完成1800万美元A轮融资 [24][45][47][48]
Technicals Could Point to Upside for This New Crypto ETF
Etftrends· 2025-12-12 20:28
文章核心观点 - 当前比特币的波动与回调已持续两个多月 导致许多山寨币表现更差 市场情绪极度悲观 但这可能为投资者提供了买入机会[1] - 市场普遍看跌山寨币 这可能是一个逆向投资信号 预示着山寨币市场可能即将迎来反弹 特别是对于CoinShares Altcoins ETF (DIME)而言[3][5] 市场情绪与技术指标 - 市场情绪指标极度负面 CoinMarketCap的恐惧与贪婪指数目前为22 如此低的读数表明市场普遍存在犹豫情绪 投资者不愿建立新头寸[6] - 更广泛的市场情绪也已减弱 CMC山寨币季节指数仅为20 表明整个市场仍处于有利于比特币的阶段[4] - 链上数据检测到一个关键信号 表明这可能是在市场状况最终转变之前 积累强势山寨币头寸的罕见时机[4] CoinShares Altcoins ETF (DIME) 投资机会 - DIME是一只新推出的主动管理型ETF 专注于更高层级的山寨币 其成分包括Polkadot, Near Protocol, Cosmos, Aptos, SUI, Toncoin和SEI等[2] - 从技术分析角度看 各种非比特币数字货币的技术状况可能预示着反弹临近[2] - 一个支持DIME短期看涨的技术条件是 多种山寨币的30日交易均线已跌破其12个月趋势线 在过去周期中 这种模式出现后往往预示着市场即将启动上涨行情[7][8]
NVIDIA’s Strategic Partnership With Synopsys Aims to Accelerate AI-First R&D
Yahoo Finance· 2025-12-08 16:08
公司与战略合作 - 英伟达与新思科技于2025年12月1日宣布达成一项多年期战略合作伙伴关系,其中包括英伟达向新思科技普通股投资20亿美元 [1] - 合作旨在将英伟达的加速计算和人工智能技术与新思科技的设计和仿真堆栈相集成,以帮助研发团队以更快的速度、更高的精度和更低的成本进行产品设计、仿真和验证 [2] - 合作计划将新思科技的AgentEngineer与英伟达的智能体堆栈(包括NIM微服务、NeMo Agent Toolkit和Nemotron模型)连接,以实现EDA和仿真工作流程中的自主设计能力 [2] 技术整合与产品开发 - 新思科技的应用程序将广泛使用英伟达的CUDA-X库和AI物理技术进行加速 [2] - 双方将利用英伟达Omniverse和新思科技Cosmos平台,为半导体、航空航天、汽车、能源、工业和医疗保健等多个行业构建下一代数字孪生 [3] - 合作将提供云就绪的产品,并利用新思科技的全球销售网络进行联合市场推广计划 [3] 交易细节与公司背景 - 英伟达此次投资的股票购买价格为每股414.79美元 [3] - 官方新闻稿指出,此次合作是非排他性的 [3] - 英伟达是人工智能和加速计算领域的领导者,提供从数据中心到边缘设备的GPU平台和软件 [4]
英伟达与新思科技宣布战略合作 共同推动跨行业设计与工程创新
证券时报网· 2025-12-02 11:15
合作背景与核心目标 - 英伟达与新思科技扩大战略合作伙伴关系,共同应对研发团队面临的工作流程复杂度提升、开发成本攀升以及上市周期压力等挑战 [1] - 合作旨在融合英伟达在AI与加速计算方面的优势以及新思科技在工程解决方案领域的领先地位,为研发团队提供更高精度、更快速度、更低成本的设计、仿真与验证能力 [1] - 英伟达以每股414.79美元的价格投资20亿美元认购新思科技普通股,占后者已发行股票的2.6% [1] 合作具体举措 - 全面加速新思科技的产品应用,利用英伟达CUDA-X库与AI-Physics技术优化其计算密集型应用组合,涵盖芯片设计、物理验证、分子仿真、电磁分析、光学仿真等领域 [3] - 推进智能体AI工程,整合新思科技AgentEngineer技术与英伟达Agentic AI技术栈,实现EDA及仿真分析工作流程的自主设计能力 [3] - 以数字孪生技术紧密连接物理与数字世界,合作推动下一代虚拟设计、测试与验证,采用英伟达Omniverse、英伟达Cosmos等技术服务于半导体、机器人、汽车、能源、工业、医疗等行业 [3] - 联合市场拓展,共同制定市场推广计划,依托新思科技全球数千名直销人员及渠道合作伙伴,面向多行业工程团队推广本地部署及云端解决方案 [3] 合作性质与展望 - 英伟达首席执行官黄仁勋表示,CUDA GPU加速计算正在重塑芯片设计方式,合作将重新定义工程与设计 [1] - 新思科技首席执行官Sassine Ghazi认为,双方合作将提供AI驱动的整体系统设计解决方案,帮助全球创新者更高效地实现技术创新 [2] - 此次合作并非排他性协议,两家公司将继续与更广泛的半导体及电子设计自动化生态系统合作 [4]
英伟达20亿美元入股新思科技,无排他协议,也不要求购买芯片
国际金融报· 2025-12-02 10:02
投资与战略合作 - 英伟达以每股414.79美元的价格收购新思科技4,821,717股普通股,总收购价为20亿美元 [1] - 此次交易为私募发行,依据1933年《证券法》豁免条款进行 [1] - 两家公司宣布扩大战略合作,将共同开发用于跨行业产品设计的新人工智能工具 [1] 合作目标与领域 - 合作旨在应对工程挑战,包括工作流程复杂性增加、开发成本上升和上市时间压力 [1] - 结合英伟达人工智能和加速计算优势与新思科技领先的工程解决方案,以提升设计精度、速度并降低成本 [1] - 合作将彻底改变设计流程,利用CUDA GPU加速计算在计算机内部创建功能齐全的数字孪生 [2] 合作具体内容 - 广泛加速新思科技应用:使用NVIDIA CUDA-X库和AI-Physics技术,加速其芯片设计、物理验证、分子模拟等计算密集型应用 [2] - 推进agentic AI工程:整合新思科技AgentEngineer™与英伟达AI技术堆栈,实现EDA及仿真分析工作流程的自主设计能力 [2] - 通过数字孪生连接物理和数字世界:为半导体、机器人、汽车等多个行业提供下一代虚拟设计、测试和验证解决方案,利用NVIDIA Omniverse、NVIDIA Cosmos等技术 [3] - 提供云端解决方案:通过云访问让各种规模的工程团队都能使用GPU加速工程解决方案 [3] - 制定联合市场推广计划:利用新思科技由数千名直销商和渠道合作伙伴组成的全球网络,推广本地部署和云端解决方案 [3] 公司关系与市场背景 - 英伟达近期进行了一系列重磅投资,包括对OpenAI高达1000亿美元的意向投资,与微软共同向Anthropic投资150亿美元,50亿美元入股英特尔,10亿美元投资诺基亚等 [4] - 英伟达与新思科技互为客户关系 [4] - 新思科技总裁兼首席执行官表示,20亿美元投资并非用于购买英伟达GPU,而是公司正常的商业运作方式 [4] - 两家公司首席执行官均表示此项交易并非排他性,双方将继续与更广泛的半导体和EDA生态系统合作 [5]
英伟达砸20亿入股EDA巨头新思科技,黄仁勋盛赞“巨大扩展机遇”、否认类似OpenAI交易闭环
华尔街见闻· 2025-12-01 19:25
合作概述 - 英伟达宣布与新思科技达成战略合作,斥资20亿美元入股新思科技,双方将进行多年合作,将英伟达AI计算技术深度整合到工业设计与工程领域,重塑从芯片到系统的整个设计流程 [1] - 合作公布后,新思科技股价盘初一度大涨6.9%,午盘涨幅收窄至5%以内,英伟达股价盘初曾跌近1.9%,但随后转涨,午盘刷新日高时日内涨近1.9% [1] - 此次合作并非排他性协议,也不涉及采购英伟达芯片的条款,性质不同于英伟达对OpenAI的投资 [3] 股权投资细节 - 英伟达以每股414.79美元的价格购买新思科技约480万股股票,较上周五收盘价折让约0.8%,通过私募配售方式发行 [4] - 投资将使英伟达成为新思科技的第七大股东,持股比例为2.6% [3] 技术合作内容 - 新思科技将使用英伟达的开发者工具套件和代码库,在芯片设计、物理验证和其他EDA流程的应用上展开合作 [4] - 合作包括使用英伟达CUDA-X库和AI物理技术,加速和优化新思科技的计算密集型应用组合,涵盖芯片设计、物理验证、分子模拟、电磁分析、光学仿真等 [6] - 双方将整合新思科技AgentEngineer技术与英伟达代理AI技术栈,实现EDA以及仿真和分析工作流程的自主设计能力 [6] - 在数字孪生领域,两家公司将合作为半导体、机器人、航空航天、汽车、能源、工业、医疗等行业实现下一代虚拟设计、测试和验证,利用英伟达Omniverse、英伟达Cosmos等技术 [6] 市场推广与生态系统 - 双方同意开发联合市场推广计划,利用新思科技数千名直销人员和渠道合作伙伴的全球网络,推广基于GPU加速的工程解决方案 [6] - 合作并非排他性,英伟达和新思科技继续与更广泛的半导体和EDA生态系统合作 [6] - 新思科技的技术被Alphabet和特斯拉等广泛的半导体和系统公司使用,交易将使新思科技能够在汽车、航空航天、工业和能源领域的设计和仿真工具中使用更先进的芯片 [5] 战略意义与市场机遇 - 英伟达CEO黄仁勋强调合作将使其技术覆盖规模达万亿美元的工业领域,远超消费端AI应用的市场空间 [3] - 黄仁勋指出工业公司在工程软件工具上的支出可能是数亿美元或非常低的数十亿美元,但在产品原型制作上的支出轻易就是10到20倍,通过数字孪生技术在虚拟环境中完成原型设计,市场机会增长了10到100倍 [7] - 黄仁勋提供关键数据点说明平台转变:2016年世界科学超级计算机90%是CPU,10%是GPU,今年90%是GPU,10%是CPU,平台转变已经发生,现在正为工程设计行业进行这一转变 [8] - 新思科技CEO表示通过合作可将需要运行两三周的工作负载缩短到几小时,向客户交付价值 [8] 与OpenAI投资的区别 - 黄仁勋明确表示与新思科技的合作并非排他性协议,也不涉及采购英伟达芯片的条款,性质不同于英伟达对OpenAI的投资 [3][8] - 合作被描述为“技术升级”,旨在加速AI和加速计算在自动设计行业的采用,而非封闭的商业闭环 [8][10] - 新思科技客户包括AMD,而英伟达也与新思科技的竞争对手Cadence Design合作,非排他性安排表明合作更多是技术生态系统的扩展 [10]
空间智能系列之三:物理AI:数字孪生、具身智能实现基石
申万宏源证券· 2025-11-14 12:45
报告行业投资评级 - 行业评级:看好 [1] 报告核心观点 - 物理AI是让AI走向现实世界的系统性工程,融合空间智能及世界模型,将引领下一个AI浪潮 [3][5][11] - 物理AI的实现依赖于世界模型、物理仿真引擎与具身智能控制器三大技术协同 [3][16] - 英伟达凭借“芯片-算法-平台”全栈布局,在物理AI领域具备先发优势 [3][25] - 数字孪生是物理AI目前最成熟的应用,智能驾驶与具身智能是未来最具想象空间的两大应用 [3][5][47] - 物理AI产业链已形成清晰的价值分布,各环节均出现重要变化和投资机会 [3][4][72] 物理AI概念与技术框架 - 物理AI核心结构可简化为“空间智能(感知基座)——世界模型(认知及决策中枢)——物理AI(系统整合载体)” [3][5][12] - 空间智能是AI感知、理解和推理三维空间及其内部物体关系的能力,当前先进的多模态大语言模型在空间推理任务上仍逊于人类 [13] - 世界模型为AI系统提供内部物理世界模拟器,使其能够预测行动结果而无需现实试错,学习方式多为无监督学习 [16] - 物理AI与传统AI在处理对象、核心能力、训练数据、技术基础和应用场景上存在显著差异 [24] - 物理AI的实现依赖于三大技术支柱协同:世界模型负责构建三维空间完整理解,物理仿真引擎负责实时计算物理交互,具身智能控制器连接虚拟推理和物理执行 [3][16] 英伟达的生态布局与优势 - 英伟达2019年提出Omniverse作为3D实时协作平台,已构建起较为完整的产业生态护城河 [3][25] - 2025年1月英伟达推出世界基础模型Cosmos并开源,能理解世界语言、物理特性、空间位置等要素,并合成物理数据 [30] - Cosmos模型获得重大更新,包括开源可定制的70亿参数推理视觉语言模型Cosmos Reason和专注于合成数据生成的Cosmos Transfer-2模型 [33][35] - 英伟达已建立完整的物理AI使用流程:构建虚拟3D环境(Omniverse)、生成合成数据(Cosmos)、训练验证(DGX平台)、部署(Jetson Thor等下一代机器人设备) [38][41][42] - Cosmos首批用户包括1X、Agile Robots、Figure AI、小鹏汽车等十余个国内外机器人和汽车厂商 [37] 世界模型进展与商业化应用 - 谷歌DeepMind推出通用世界模型Genie 3,基于文本提示以每秒24帧、720p分辨率生成长达数分钟的交互式3D环境 [43] - 主流世界模型(如Meta V-JEPA、英伟达Cosmos、谷歌Genie3)在核心共性、技术侧重和优劣势上各有特点 [45] - 世界模型在训练端可生成符合物理规律的高质量合成数据,解决真实数据稀缺与长尾场景覆盖问题;在推理端通过物理推理模型实现感知-决策-执行闭环控制 [59][60][65] 物理AI核心应用场景 数字孪生 - 数字孪生是实体资产和流程的虚拟映射,企业借助其优化设计、仿真与运营效率,成为工业数字化转型的核心工具 [48] - 数字孪生通过集成多维数据源构建虚拟模型,并依赖物联网实现数字与物理世界的动态同步 [49] - 该技术为企业带来显著效益,宝马集团通过工厂数字孪生将规划效率提升近30%,纬创实现气流仿真速度提高15000倍 [52] - 数字孪生已渗透至制造业、能源、医疗与城市管理等广泛行业,如富士康通过虚拟工厂优化机器人部署 [54][57] 智能驾驶与具身智能 - 智能驾驶及具身智能目前主流方案包括端到端、VLA(视觉-语言-动作模型)、世界模型 [3][69] - 端到端模型是目前最成熟的前期方案,但因其“黑箱”输出遇到稳定性瓶颈;VLA模型凭借可解释性及LLM模型能力基础表现优异,但对边缘侧算力要求过高;世界模型可实现更前瞻推理,支持复杂思维实验,可能成为未来重要商业化路线 [3][69] - 智能驾驶领域代表厂商:特斯拉(端到端)、小鹏/理想/元戎(VLA)、英伟达/华为/蔚来/Momenta(世界模型) [69] - 具身智能领域代表:Google RT-2(端到端)、Figure(VLA)、DeepMind/Meta(世界模型) [69] 物理AI产业链梳理 芯片及控制器 - 芯片与控制器是物理AI的硬件中枢,承担环境感知、实时计算与运动控制的核心功能 [73] - 英伟达基于Blackwell架构推出Jetson AGX Thor和DRIVE Thor计算平台,Jetson Thor的AI计算能力是上一代Orin的7.5倍,最高达2070 TFLOPS(FP4),能效是上一代的3.5倍 [73][75] - 主控芯片领域呈现多元化竞争格局,除英伟达外,高通、地平线以及小鹏、蔚来等自研芯片厂商均在特定场景实现差异化竞争 [75][76] - 控制器厂商价值量提升,智微智能推出完整的机器人“大脑-小脑”分层方案,天准科技发布新一代千TOPS级高算力具身智能大脑产品星智007 [77][80][81] 数据供应 - 符合物理规律的高质量数据是训练物理AI模型的前提,获取成本与规模构成核心壁垒 [85] - CAE仿真与合成数据生成成为物理AI的“数据工厂”,索辰科技利用多物理场仿真技术生成高保真合成数据 [85][86] - CAD厂商积累大量细分场景下具备物理属性的空间信息,群核科技发布高质量3D高斯语义数据集InteriorGS,包含1000个3D高斯语义场景 [88] - 3D视觉厂商(思看科技、奥比中光、凌云光)负责现实世界感知与数字化,为仿真提供初始模型并进行数据采集校准 [91] 模型和算法 - 模型与算法构成物理AI产业的“智能核心”,产业格局呈现四类主要参与者:全球科技巨头(英伟达、谷歌)、专注于空间智能与世界模型的第三方平台、第三方算法解决方案提供商(如Momenta)、整机厂自研(小鹏、理想、优必选) [95][96][97][101] 落地和应用 - 落地应用是物理AI价值的最终体现,系统集成商与行业解决方案提供商是推动技术赋能千行百业的关键 [102] - 该环节核心竞争壁垒体现在对垂直行业的深度理解、与底层技术平台的深度合作关系以及提供端到端解决方案建立的客户粘性 [102][103] - 亚信科技将自研数字孪生平台、MaaS平台、智能体平台与NVIDIA Omniverse集成融合,为网络、工业制造、城市治理等场景提供一站式数字孪生解决方案 [104] 产业链核心标的 - 控制器:智微智能、天准科技、德赛西威 [3][109] - 数据供应:索辰科技、群核科技(拟上市)、思看科技、奥比中光-UW、凌云光 [3][112] - 模型和算法:索辰科技 [3][112] - 落地和应用:亚信科技 [3][112] - 整机厂商:小鹏汽车-W、极智嘉-W [3][112]
最火VLA,看这一篇综述就够了
量子位· 2025-10-31 04:09
文章核心观点 - VLA(视觉-语言-动作)领域在ICLR 2026会议上呈现爆发式增长,相关投稿量从去年的个位数飙升至164篇,增长18倍 [5] - 该领域旨在让机器人具备“听懂人话、看懂世界、动手干活”的能力,是AI领域极具吸引力的前沿阵地 [6] - 尽管研究繁荣,但需明确VLA定义并关注其与LBM(大型行为模型)的区别,同时主流评测存在“性能天花板”问题,模型高分难以转化为现实能力 [7][10][11][12][13][43][44] VLA概念定义与区分 - VLA模型必须使用经过大规模、互联网级别视觉-语言数据预训练的骨干,以继承语言理解、视觉泛化和任务迁移能力 [7][8] - 代表模型包括Google的PaLI-X以及开源项目Llava、Florence-2等 [9] - 仅将独立视觉与文本编码器拼接的模型应称为“多模态策略”,而LBM强调必须用海量机器人操作数据训练 [10][11] - 在机器人数据上微调的VLA可视为LBM,但LBM不一定是VLA,这区分了不同技术路线的侧重 [12][13] ICLR 2026 VLA八大技术趋势 - **趋势一:高效架构新范式**:离散扩散模型成为新风向,可并行生成整个动作序列,在LIBERO评测中表现近乎饱和 [14][15][16] - **趋势二:具身思维链(ECoT)**:让机器人生成动作前先产生中间推理步骤,提升计划与解释能力,在复杂场景中泛化能力显著提升 [17][18][19] - **趋势三:动作分词器**:核心难点是将连续高频的机器人动作转换为VLM能理解的离散词汇,新进展如FASTer Tokenizer和OmniSAT提升了精度与稳定性 [21][24][30] - **趋势四:强化学习(RL)**:作为VLA策略的微调利器,代表技术残差RL和阶段感知RL在LIBERO和SIMPLER上分别取得99%和98%的成功率 [25][26][31] - **趋势五:效率优化**:通过推理效率优化(如HyperVLA)和显存占用优化(如AutoQVLA)降低硬件门槛,使VLA研究走向平民化 [27][28][32] - **趋势六:视频预测**:利用视频生成模型对时序动态和物理规律的理解,赋予VLA物理直觉,例如《COSMOS POLICY》将视频基础模型微调用于机器人控制 [29][34][35] - **趋势七:更真实的评测基准**:社区正开发新评测方式以打破对现有测试集的过拟合,如《RoboCasa365》和《WorldGym》 [36][39][46] - **趋势八:跨体态学习**:通过《X-VLA》、《XR-1》、《HIMOE-VLA》等架构创新,让模型能驱动不同结构的机器人,是构建通用机器人策略的关键 [40][42][47] 行业现状与关键问题 - 主流仿真评测(如LIBERO、CALVIN)存在“性能天花板”,开源模型仿真得分高但真实世界表现难匹敌头部公司产品 [43][44] - 工业界与学术界评测维度存在差异,工业界更看重开放环境、泛化能力和失败恢复能力 [48] - 未来两大关键问题包括数据质量(噪声、歧义、次优行为限制模型上限)和上下文学习机制向机器人领域的迁移 [49]
TeraSim World:用开源方式重建「特斯拉式」世界模型
自动驾驶之心· 2025-10-28 00:03
特斯拉世界模型技术特点 - 神经网络驱动的虚拟世界生成器,根据车辆状态和控制输入实时合成八个摄像头视角的高分辨率视频[2] - 在没有真实相机的情况下预测环境变化,重建连续且空间一致的驾驶画面,支持闭环验证和强化学习[2] - 学习通用的"感知—动作—世界变化"映射,可迁移到机器人等其他平台,成为通用物理智能的基础组件[2] TeraSim World开源框架核心能力 - 在开源条件下实现与特斯拉世界模型同级的生成与评测能力,无需真实地图或传感器背景即可自动生成整个城市环境与交通行为[5] - 基于NeuralNDE和NADE两项奠基性研究,既能再现自然交通行为,又能主动生成突发风险与环境干扰[6] - 模块化全自动数据合成流水线,专为生成端到端自动驾驶所需的真实且安全关键数据而设计[7] 真实地图与交通环境构建 - 用户输入位置或路线后,系统自动从公开地图数据获取当地道路结构和交通情况,识别道路类型并生成数字地图[11] - 从实时交通数据服务自动获取实际车流速度与拥堵状况,模拟符合当地节奏的早晚高峰和拥堵点[13] - 自动检索真实世界道路地图并转换为仿真可用格式,与智能体行为建模后端集成[10] 智能体仿真技术 - 通过学习大量真实驾驶数据生成自然的多车交互行为,如红绿灯前减速、狭窄道路错车、环岛礼让等[16] - 根据真实世界事故概率和强化学习机制自动引入安全关键情境,如前车急停、行人闯红灯等罕见但高风险事件[17] - 输出每个参与者的详细轨迹,描述其在道路上的移动和互动[17] 传感器仿真技术 - 依托NVIDIA开源世界模型Cosmos系列,生成真实感摄像头输入并可扩展到其他传感器类别[18][19] - 使用Google Street View API抓取六个方向街景图像,通过多模态语言模型自动生成语义描述[20] - 生成六个摄像头视角的高分辨率视频,最高分辨率达1280×704,帧率为24 fps,确保跨视角几何对齐和光照一致[25][26] 自动化压力测试框架 - 基于NADE研究成果复现动态风险,并扩展到静态风险和环境风险,如交通锥、施工区域、天气变化等[30] - 系统评估自动驾驶系统在多种复杂环境下的稳定性和安全边界[30] - 支持自动生成和验证不同类型的风险场景[30] 系统应用前景与愿景 - 为自动驾驶安全验证提供可扩展、成本更低的替代方案,减少实车采集和路测需求[31] - 采用开放技术路线,希望成为全球研究者与开发者共享的自动驾驶虚拟试验场[32] - 长期愿景是打造开放的端到端自动驾驶仿真与评测体系,让虚拟道路测试成为实车路测的可靠替代[32]
锦秋基金领投企业Manifold AI流形空间连获两轮共亿元融资,打造下一代具身智能世界模型|Jinqiu Spotlight
锦秋集· 2025-10-20 12:18
投资事件 - 锦秋基金已完成对Manifold AI(流形空间)的投资 [2] - 锦秋基金是一家12年期的AI Fund,以长期主义为核心投资理念,专注于寻找具有突破性技术和创新商业模式的通用人工智能初创企业 [3] - Manifold AI近期的天使轮融资由锦秋基金领投,同创伟业、英诺天使基金跟投,种子轮由英诺天使基金领投、水木清华校友种子基金跟投,两轮融资共亿元,资金将用于下一代具身世界模型的训练与场景落地 [4] 公司技术与定位 - Manifold AI聚焦世界模型与具身智能,原创的具身世界模型技术旨在推动机器人大脑的规模化落地 [6] - 公司提出WorldScape具身基座世界模型方案,具备Reasoning-Dreaming-Acting三位一体能力,利用海量第一人称视角视频数据进行预训练,有望实现物理空间智能涌现 [10] - 预训练模型能力的提升使得绑定本体的动作映射只需极少量In Context Learning数据即可实现,大幅降低部署成本 [10] - 其技术孵化自清华大学电子系未来智能实验室,是世界范围内首个全域布局室外、室内、空域具身世界模型的团队,相关工作DriveScape、RoboScape、AirScape已发表于CVPR2025、NeurIPS2025、ACM MM2025等顶级会议 [10] - Manifold AI已率先接入NVIDIA Jetson Thor开发者套件用于具身世界模型的本体部署 [12] 行业背景与趋势 - 通用机器人面临本体多、数据少、应用分散的落地困局,基于视觉-语言-动作模型的方案存在预训练精度低、需大量本体数据进行模仿学习的问题 [6] - 海外如Tesla Optimus、Figure AI团队已转向使用海量第一人称视角视频数据的技术路线,从第一性原理出发模拟人类学习过程 [6] - 世界模型技术被视为本质解法,可使互联网上所有第一人称视角视频数据成为机器人学习素材,达到类GPT预训练范式所需规模 [7] - 近期行业进展包括OpenAI发布Sora2视频生成模型周活跃用户达8亿,Google发布Genie3世界模型将物理一致上下文视频窗口拉长至分钟级别,李飞飞World Labs发布RTFM世界模型实现单图实时生成可持久化交互3D空间,NVIDIA Cosmos和Meta V-JEPA2世界模型也在具身场景取得突破 [7] - 世界模型路线能撬动更多网络视频和人类训练数据,具有更大规模化潜力,其时空预测能力驱动交互更符合人类物理直觉 [16] 团队背景 - 创始人兼CEO武伟博士为前商汤科技高管,2015年加入商汤初创,有数百人团队管理经验,曾主导商汤开悟世界模型的研发和落地 [13] - 联合发起人包括清华大学教授、教育部长江学者,在AI模拟和世界模型方向早期整体布局,发表过包括十余篇Nature子刊在内的数百篇学术论文 [15] - 另一位联合发起人为清华大学信息学院助理教授,15岁考入清华,多次入选全球前2%顶尖科学家 [15] - 核心团队成员毕业于清华、北大、上交、港中大、UCLA等高校,曾在快手、Momenta、商汤等企业构建过超千万级用户的AI产品,具备机器人与大模型双重背景 [12] - 团队融合智驾产业落地经验和清华前沿实验室技术资源,是国内探索世界模型方向的先锋 [16]