SpatialLM
搜索文档
潮声丨人工智能有时比人还“蠢”,AI版图缺的这块拼图是什么
搜狐财经· 2025-12-03 00:35
文章核心观点 - 当前以大语言模型和图像分类器为主导的人工智能发展已达到极限,缺乏对物理世界的深度理解,导致生成内容常出现不合常理的问题[2][6][7][10] - 空间智能被视为人工智能突破当前瓶颈、实现下一个飞跃的关键前沿,其核心是让机器像人一样理解并交互于三维物理世界[2][11][12] - 实现空间智能的根本路径在于构建“世界模型”,该模型能赋予AI对物理规则进行推理和预测的能力,已成为学术界和产业界新的重点投入方向[19][20][23] 人工智能当前发展的局限性 - 现有大语言模型和多模态模型在生成可靠文本方面强大,但在处理与物理世界相关的任务时表现不佳,常被调侃为“人工智障”[6][7] - 具体案例显示AI缺乏物理常识:豆包模型在图像生成中将骆驼比例严重失调,并添加了不符合生物特征的动物[7];OpenAI的Sora模型生成的蚂蚁视频中蚂蚁只有四条腿,且升级版Sora2在视频细节衔接上仍存在不符合常识的瑕疵[10] - 根本原因在于语言是人造信号,处理过程有信息损耗,而AI缺乏对真实物理世界体系的经验和根基[10] 空间智能的定义与重要性 - 空间智能概念源于教育心理学,指对空间信息进行感知、理解与操作的综合智能,涉及三维思维和空间想象,是人类从婴儿期发展的本能[12] - 在人类文明进步中,空间智能是关键驱动力,例如用于计算地球周长、发明珍妮纺纱机(使单人工效提升八倍)以及发现DNA双螺旋结构[12] - 将空间智能迁移至科技领域,旨在让机器获得理解并交互于三维世界的能力,这是AI发展的终极愿景之一,例如响应“去买杯咖啡”这类需要自主任务拆解与规划的高层指令[11][12] 空间智能的技术发展与产业应用现状 - 空间智能研究历史悠久,早在1970年代,大卫·马尔在《视觉》一书中就系统提出了从图像恢复三维世界的框架[15] - 技术已在部分产业中应用,例如手机AR测量、VR眼镜、扫地机器人、服务型机器人和机器狗,但这些应用或需人为操控,或对环境适应能力不强,容易因识别不清等问题导致故障[16] - 自动驾驶被视为目前规模最大、最成熟的空间智能应用,但其系统仍难以在复杂城市街道上进行安全推理,例如无法从突然出现的小球推测出可能有儿童跑上马路的潜在危险[17] - 当前技术的瓶颈在于“感知-推理-行动”链条中的“推理”环节,即缺乏能够理解物理规则并进行因果预测的内部模型[17] 实现突破的关键:世界模型 - 在数据(高质量语言数据可能在2026年左右耗尽)和算力(训练GPT-4成本可能超过1亿美元)存在限制的背景下,模型成为推动AI发展的关键[19] - “世界模型”于2018年提出,灵感来自人脑构建并运用“内部世界”的机制,旨在让AI能够整合感官信息,对物理世界进行直觉式推理和预测,例如预判咖啡杯滑落轨迹并接住[19] - 世界模型被视为实现空间智能的根本路径,因此成为产业界竞相投入的新焦点[20][23] 产业界的最新动态与投入 - 2025年1月,英伟达在CES上宣布推出可预测和生成“物理感知”视频的Cosmos世界模型[22] - 2025年3月,拥有全球最大室内场景空间数据集的空间智能企业群核科技,开源了空间语言模型SpatialLM,该模型登上HuggingFace模型趋势榜第二位[22] - 2025年8月,谷歌DeepMind发布了支持“实时交互”的世界模型Genie 3,为智能体训练及游戏开发等领域带来新可能性[22] - 近期,李飞飞参与创建的公司World Lab发布了首款多模态世界模型产品Marble,支持通过多种输入生成可编辑的3D环境[22] 未来展望与挑战 - 大语言模型的成功验证了“基础模型”技术路线的潜力,促使业界瞄准下一个前沿——赋予AI对物理世界的理解与交互能力[23] - 世界模型的搭建仍面临诸多难点:真实世界的复杂性与不确定性难以用现有数学模型全面处理;某些领域(如地球内部构造)数据获取有限;物理学本身对暗物质等现象的认知局限也限制了模型的完整性[23] - 尽管挑战巨大,但发展空间智能和世界模型代表了AI技术演进的重要方向[24]
“六小龙”乌镇共探AI发展,为构建网络空间命运共同体注入中国科创动能
华夏时报· 2025-11-09 04:55
世界互联网大会乌镇峰会主题与参与情况 - 2025年10月7日世界互联网大会乌镇峰会主题为“共筑开放合作、安全普惠的数智未来——携手构建网络空间命运共同体” [1] - 来自130多个国家和地区的1600多名嘉宾参会 [4] - 杭州“六小龙”(宇树科技、群核科技、云深处科技、强脑科技、游戏科学、深度求索)企业核心人物首次公开同框 [4] 开放合作与开源战略 - 深度求索通过技术开源推动技术普惠,相继推出DeepSeek-V3与DeepSeek-R1,构成覆盖“通用场景+复杂决策”的双引擎架构 [5] - 深度求索开源打破了训练千亿参数模型需投入数亿美元算力成本的壁垒 [5] - 群核科技开源的高质量数据集InteriorGS和空间语言模型SpatialLM均登上全球最大AI开源社区HuggingFace全球趋势榜前三 [6] - 群核科技在2021年开源空间数据集为之后在空间智能领域的发展打开新空间 [6] - 宇树科技认为机器人行业最近几年实现快速发展的最大原因在于全球共创 [8] AI技术应用与产业赋能 - “互联网之光”博览会有来自54个国家和地区的670家中外企业与机构参展,全景呈现人工智能赋能千行百业的创新实践 [8] - 浙江省技创中心组建“未来工厂推广中心”智能制造公共服务平台,目前已助力打造浙江省未来工厂93家、智能工厂(数字化车间)989家 [8] - 云深处科技公司产品聚焦行业应用,在电力巡检、应急消防等场景中打磨产品 [12] - 网易灵动矿山挖掘机器人实现了人机协作远程控制及半自动化作业突破 [13] - 中国科技生态正加速从云端迈向实体,与产业深度融合 [13] 从AI到AGI的技术挑战与路径 - 当前AI不具备像人那样稳定的、可跨领域泛化的智力,训练完成后参数固定,无法实现自主迭代 [9] - 破解AI瓶颈之道在于构建稳定可泛化的学习算法,通过多模态融合、具身智能等技术路径实现终身学习与自主进化 [9] - 人形机器人被认为是AGI的理想载体,为通用智能提供与物理世界交互的最佳接口 [9] - 机器人领域目前面临模型结构不统一、数据规模不足、数据采集标准不统一等挑战 [10] - 具身智能或机器人领域的通用模型被认为是最有可能达到AGI效果的路径 [11] 科技向善与社会价值 - 强脑科技明确技术服务于特殊群体,其研发的神经控制假肢已实现“意念”写字、弹琴等精细操作,助力截肢者恢复自然步态 [11] - 强脑科技技术延伸至孤独症儿童辅助交流、失眠改善等场景,未来还将推出通过神经调控实现体重管理的民用产品 [11] - 应对AI替代工作岗位挑战的核心是让AI成为人类的“协作伙伴”,放大人类的创造力与判断力 [12] - 中国科创企业以“科技向善”为价值锚点,技术向破解产业痛点、创造真实社会价值的务实创新深水区扎根 [11][13]
具身空间数据技术的路线之争:合成重建VS全端生成
量子位· 2025-04-20 13:24
具身智能数据挑战 - 高质量数据是具身智能突破的关键[1] - 现实数据采集成本过高,合成数据技术成为重要解决方案[2] - 当前具身智能数据存在数量少、场景单一、语义标签粗略等问题[16][17] - 自动驾驶已建立城市级仿真数据闭环,但室内环境缺乏3D合成平台[4][18] 技术路线之争 - 两条主流技术路径:"视频合成+3D重建"与"端到端3D生成"[3] - 视频合成路线存在模态转换链路过长、误差累积、精度瓶颈等问题[24][39] - 端到端3D生成路线理论效率高但面临常识欠缺、现实合理性不足等挑战[67][69][70] - 视频合成路线代表案例:群核科技SpatialLM+SpatialVerse[28][31]、Hillbot Cosmos+Sapien[35][37] - 端到端3D生成代表方法:GNNs[49]、自回归Transformer[53][54]、扩散模型[60]、程序化生成[62] 模态编码创新方案 - 提出"模态编码"技术,将空间设计规则转化为可学习的数学结构[5][75][77] - Sengine SimHub通过强化学习嵌入行业知识,生成兼具功能性与合理性的3D场景[76][78] - 模态编码支持从户型图/功能需求到结构化3D数据的自动转译,提升语义理解能力[81] 行业现状与趋势 - 机器人运动控制能力已成熟,但环境感知与推理能力仍是短板[98] - 现有合成数据技术难以满足家庭场景的多样性与交互真实性需求[18][40] - 未来需构建支持规则嵌入、偏好吸纳、交互可控的空间数据生成体系[90][94] - 合成数据将成为具身智能迈向通用能力的关键推动力[100] 代表性研究进展 - 李飞飞团队BEHAVIOR基准基于mesh网格生成,缺乏语义标注[25][30] - ATISS利用自回归Transformer生成合理室内布局[54][57] - DiffuScene通过扩散模型生成物理合理的完整场景[60][62] - Infinigen Indoors通过程序化生成实现高可控性3D场景[62][80] - SceneTeller展示语言到3D场景的强映射能力[65][67]
深度|具身合成数据的路线之争,谁将率先走出困境?
Z Potentials· 2025-04-08 12:30
具身智能技术路线之争 - 核心观点:具身智能领域存在两条主要技术路线——"视频合成+3D重建"与"端到端3D生成",前者存在模态转换误差累积问题,后者理论效率更高但面临常识欠缺挑战 [1] - 当前机器人高难度动作主要依赖遥控/预设编程,环境感知与推理能力仍是短板 [1] - 合成数据被视为具身智能突破关键,英伟达指出机器人领域缺乏互联网规模数据,室内环境3D合成平台尤为稀缺 [1][6] 具身智能现实挑战 - 智能困境:机器人运动控制能力成熟,但空间理解力不足,难以处理陌生环境中的语义推理 [3][4] - 数据困境:现有数据来源(真实扫描/游戏引擎/开源数据集)存在场景单一、效率低、语义粗糙等问题,缺乏物理一致性(如可承重桌面、可开启门) [6] - 家庭环境多样性导致传统数据采集方式不经济,需依赖合成数据覆盖变体 [8] 技术路线一:视频合成+3D重建 - 代表方案:李飞飞团队BEHAVIOR基准生成mesh壳体但缺乏结构语义 [13],群核科技SpatialLM+SpatialVerse通过LLM理解3D语义但仍存物理精度问题 [16] - Hillbot采用NVIDIA Cosmos生成视频片段,通过Sapien/ManiSkill重建3D场景并赋予物理属性 [21] - 核心缺陷:路径长导致误差累积,生成结果结构精度有限 [11][16] 技术路线二:端到端3D生成 - 主要方法: - 图神经网络(GNN):MIT超图模型优化空间关系,HAISOR结合强化学习优化人机交互布局 [27][29] - 自回归Transformer:ATISS基于房间平面图生成多样化布局,InstructScene实现文本指令到结构图转化 [30][33] - 扩散模型:LEGO-NET迭代优化布局,DiffuScene生成物理合理场景 [31][37] - 程序化生成:Infinigen/ProcTHOR通过规则合成高可控性场景 [35][38] - LLM应用:FlairGPT分解设计任务,SceneTeller实现文本到3D场景直接生成 [36][41] - 核心挑战:生成质量低、常识欠缺(物体重叠/通道阻塞)、程序化生成缺乏设计弹性 [39][40][42] 生境科技模态编码解决方案 - 提出"模态编码"技术,将设计知识(如餐桌靠近厨房)转化为可学习的数学结构 [44] - Sengine SimHub引擎通过空间模态编码+强化学习,实现户型图到3D场景的自动转译,考虑功能/动线/家具逻辑等实际因素 [44][48] - 系统内嵌训练流程提升生成稳定性,使合成数据更贴近真实空间逻辑 [45] 行业技术对比 - 视频合成路线:依赖真实视频的先天常识优势,但信息效率低 [1][39] - 端到端生成路线:理论效率高但需解决常识嵌入问题,代表模型包括ATISS/LEGO-NET/DiffuScene等 [11][31][33] - 未来方向:需构建可嵌入规则的空间数据生成体系,模态编码或成关键突破点 [49][50] 代表性研究 - GNN:HAISOR优化人机交互布局 [29],PlanIT实现高层语义规划 [52] - 扩散模型:DiffuScene生成物理合理场景 [37],LEGO-NET学习人类布局偏好 [52] - 程序化生成:Infinigen提供无限变体高质量数据 [46][52],ProcTHOR支持大规模交互环境 [38][52] - LLM应用:FlairGPT分步骤拆解设计约束 [52],SceneTeller实现语言到空间映射 [41][52]
陆家嘴财经早餐2025年3月29日星期六
Wind万得· 2025-03-28 22:36
热点聚焦 - 中国领导人强调对外开放政策不变,重申中国是外商理想投资目的地[3] - 证监会修改IPO配售规则,新增银行理财、保险资管产品为优先配售对象,禁止战略投资者限售期内出借股份[3] - 美国2月核心PCE同比上涨2.8%超预期,个人支出环比仅增0.1%引发滞胀担忧[3] - 市场监管总局将审查长和向贝莱德出售巴拿马港口交易[3] 环球市场 - 美股三大指数全线下跌:道指跌1.69%,纳指跌2.7%,科技七巨头指数跌3.29%[5] - 欧洲股指普遍下跌:德国DAX跌0.96%,法国CAC40跌0.93%[5] - 亚太股指多数下跌:日经225跌1.8%,韩国综指跌1.89%[5] - COMEX黄金期货涨0.88%至3118美元/盎司创历史新高[6] - LME期锡涨3.5%领涨基本金属,期锌跌3.4%表现最差[6] 宏观政策 - 国务院部署跨境电商综试区扩围及口岸便利化措施[11] - 国资委将推央企稳增长举措,深化"AI+"专项行动[11] - 税收征管法修订拟加强打击高收入者偷逃税行为[11] - 央行单日净回笼145亿元,本周全口径净投放3036亿元[13] 国内股市 - 证监会对东旭集团欺诈发行拟罚款17亿元,19人遭市场禁入[15] - A股三大指数集体下跌:上证跌0.67%,两市超4300股下跌[15] - 六大行2024年合计净利润1.4万亿元,日均盈利38亿元[16] - 美的集团拟50-100亿元回购股份,净利润同比增长14.3%[19] 金融监管 - 央行探索拓展宏观审慎功能,充实存款保险基金等化险资源[20] - 金融监管总局拟提高货币经纪公司注册资本门槛[20] - 中国人寿原总裁杨超涉嫌严重违纪被调查[21] 楼市动态 - 上海土拍现新地王:静安大宁地块楼板价92659元/平方米[23] - 杭州西湖区宅地溢价115.39%,楼面价超8.8万元/平方米[23] - 安徽全面取消住房限购,推行"房票"货币化安置[23] 产业政策 - 四部门将整治App违规收集个人信息问题[25] - 工信部将出台生物制造、量子科技等细分产业政策[25] - "中国环流三号"实现电子温度突破1亿摄氏度[26] 商品市场 - 上金所上调黄金合约保证金至12%,涨跌幅限制至11%[40] - 碳酸锂价格跌至7.41万元/吨,近5日累计跌150元[42] - 十部门推动铝产业发展,目标2027年再生铝产量1500万吨[40] 债券外汇 - 2月地方政府债发行1.3万亿元,专项债占比91%[45] - 人民币中间价报7.1752,在岸夜盘收报7.2630[48] - 我国2月国际收支货物贸易顺差482亿美元[49]