空间智能
搜索文档
世界第一「空间智能」引擎!苹果没做成的,95后博士拿下了
具身智能之心· 2025-11-20 00:03
行业背景与市场机遇 - 2024年以来,AI驱动的体感交互被视为下一个技术浪潮,但现有解决方案价格高昂或受限于专用硬件,将大众用户拒之门外[2] - 当前居家娱乐体验存在割裂,游戏主机使用率低且内容同质化严重,用户渴望互动但被硬件成本和内容贫瘠所束缚[4][6] - 市场呼唤更轻量、普惠的解决方案,无需专用硬件即可实现专业级体感交互[3] 公司核心解决方案与价值主张 - 公司主张仅凭一部智能手机即可实现专业级高精度、零延迟的全身3D动作实时反馈,无需任何专用硬件[8] - 技术方案旨在对传统主机外设进行降维打击,目标是将空间智能引擎植入全球50亿部智能手机中[9] - 公司的终极目标是成为AI时代的“任天堂”,重新定义体感互动标准[10] 技术优势与创新 - 公司空间智能引擎可捕捉133个全身关键点,并实现厘米级3D姿态估计,远超传统方案约18-23个2D关键点的能力[13] - 技术方案将单目3D姿态估计误差压至5厘米以内,这是体感体验从“能玩”到“好玩、准、爽”的分水岭[39][42] - 在手机端实现真3D动捕的实时运行,速度高达100fps,是谷歌Mediapipe方案(15fps)的6倍以上[46] - 技术具备极致轻量化,可在iPhone 12及约2000元人民币的安卓手机上流畅运行[48] - 技术优势建立在全球最大的运动数据库之上,该数据库覆盖50多种运动,包含千万级多模态动作数据[49] 产品体验与功能特点 - 技术支持最多4人同时同屏互动,将客厅转变为家庭中心或派对游乐场,实现从“独乐乐”到“众乐乐”的场景延伸[17] - 产品可将手机变为“AI私教”,在用户进行拳击、高尔夫等运动时提供实时动作捕捉与纠错指导,实现从“跟练”到“陪练”的质变[25][27] - 具备自动剪辑游戏高光时刻的功能,增强用户的分享欲与社交粘性[28] - 未来可进化为健康生活管家,通过餐食照片智能分析卡路里及营养成分[30] 团队构成与战略路径 - 创始团队由顶尖AI科学家和游戏行业资深人士组成,具备技术理想与市场嗅觉的复合能力[53][54] - 创始人兼CEO王佳泽拥有8年AI研究与工程积累,其创业动机源于自身作为体感游戏迷所遭遇的体验痛点[56][57] - 公司战略强调将“技术可行”转化为“情感共鸣”,通过内容节奏把控触发玩家的价值共鸣与社交分享欲[63][64] - 商业模式以订阅制为主轴,提供全量游戏库、进阶模式、云端回放等核心权益,并辅以可选的硬件协同,坚持“无硬件可玩,有硬件更爽”的原则[72][73] 市场进入策略与愿景 - 公司计划于2026年Q2率先在海外上线产品,因欧美市场用户教育更充分、付费意愿更高,利于验证产品市场匹配度[72] - 目标用户定位为客厅娱乐与轻运动的泛人群、短视频内容消费者及AI玩法早期采纳者,旨在从Switch和健身App中吸引增量用户[74] - 长期愿景是打造一个“运动-分享-健康管理”闭环,通过社交分享降低用户流失率,将产品从游戏App推向有长期粘性的健康生活方式平台[68][71]
如视发布空间大模型Argus1.0,支持全景图等多元输入,行业首创!
机器之心· 2025-11-19 04:07
文章核心观点 - 公司正式发布全球首个支持全景图输入、推测空间深度的空间大模型Argus 1.0,其核心路径是“真实复刻”而非“虚构”世界 [2] - 该模型基于公司构建的“数字空间-算法-行业应用”飞轮驱动,其决定性优势在于海量、高精度、高一致性的真实世界数据 [6][41] - Argus 1.0实现了兼容性、实时性与生成质量三大突破,标志着空间智能领域从底层重建走向顶层AIGC应用的新纪元开始 [16][42] Argus 1.0的技术特性 - **兼容性突破**:是业界首个且唯一支持全景图作为输入的深度推测大模型,并广泛兼容单张/多张普通照片及AI生成图片 [17][19] - **实时性突破**:推理效率达毫秒级,是首个实时的全景图全局重建系统,通过将深度推测和位姿计算融合到一个算法模块,实现全流程无感知响应 [23] - **生成质量突破**:得益于独有的高精度、带尺度、像素级对齐的真实数据库,在处理玻璃、镜面等传统难题时表现稳健,生成质量显著优于其他方案 [11][24][29] 公司的技术积累与战略布局 - **核心数据资产**:拥有全球最大的三维空间数据库,截至2025年9月,累计数字空间数据突破5300万套,覆盖面积超过44亿平方米 [7][8] - **高质量数据特色**:通过自研硬件(如伽罗华系列3D激光扫描仪)确保数据在源头实现像素级精度的对齐,图像与点云平均匹配误差小于2个像素 [10][11] - **持续研发投入**:公司坚持应用导向的底层创新,平均每年研发投入在2亿人民币以上,已积累600余项国内外授权专利 [13] 空间智能版图与未来规划 - **四层理论框架**:公司提出空间智能四层理论,包括物理数据重建、潜藏数据感知推理、融合数据业务及AIGC生成交互,Argus 1.0是第一层的集大成者 [31][34][36] - **未来技术路线**:团队下一个重点难题是攻克第四层AIGC,预计明年初发布的Argus 2.0将用于实时渲染的3DGS模型和精细Mesh模型,赋能高阶应用 [36][38] - **开放行业生态**:为加速空间智能领域研究,公司计划于今年年底开放10000套室内房屋数据集,是目前最大规模的空间三维数据集 [39]
凯文·凯利最新演讲:这个能力,下一个10年最具竞争力
创业邦· 2025-11-18 10:39
AI发展的核心不确定性 - 通用人工智能(AGI)能否实现仍不确定,未来可能由数百种专用“弱人工智能”组成[10] - AI计算架构存在中心化与去中心化之争,当前70%计算发生在边缘端,未来可能形成混合格局[14][15] - AI对就业的影响表现为任务替代而非工作消失,使用AI的员工效率平均提升约25%[16][17] AI前沿技术发展方向 - 符号推理方向将结合神经网络与逻辑推导,构建具备推理能力的结构化智能[22][23] - 空间智能让AI理解物理世界,通过数字孪生体和AR/MR技术实现与现实交互[25][27] - 情感智能使AI具备共情能力,未来在教育、心理健康等领域形成情感联结[29][30] - 智能体经济将形成新生态系统,数万亿智能体通过稳定币进行自动交易[30][31] AI对产业与组织的影响 - AI应用呈现渐进式渗透,未来十年是人机协作的关键适应期[36][37] - 知识密集型行业如软件开发、金融、医疗将率先被AI改造[39] - 企业引入AI遵循“三次试验”规律,第三次尝试时应用才真正成熟[42] - 工作结构重组形成“人机协作团队”模式,人类专注创造性与责任性工作[43] 中国在AI时代的发展机遇 - 中国具备成为“酷国家”的潜力,通过卓越产品、文化输出和魅力城市展现吸引力[60][61] - 工程师文化赋予中国在AI落地方面的独特优势,可能率先产出顶尖AI芯片[62][65] - 中国有机会构建AI赋能的公正社会,在智慧城市和社会治理方面引领创新[69][70]
李飞飞发文:空间智能将成AI攀登的下一座高峰
科技日报· 2025-11-18 05:17
文章核心观点 - 人工智能(AI)的发展正从“理解语言”迈向“理解世界”的新阶段,空间智能被认为是AI的下一个前沿,其目标是让AI具备在现实世界中感知、推理和行动的能力 [1][4][9] 当前AI的局限与空间智能的定义 - 当前以大型语言模型和多模态大模型为代表的AI系统,虽然在文本和图像生成上表现出色,但在物理世界的表征与交互上存在根本局限,例如在估算距离、方向、大小时的表现往往不及随机水平,且生成的视频在几秒内会失去连贯性 [4] - 这些局限使得AI难以真正赋能需要理解物理空间和因果关系的创造性工作,如教育、建筑设计、影视游戏创作等 [4] - 空间智能是人类认知的核心能力,它融合了想象、感知与行动,驱动着创造与推理,其核心在于实现从“知道”到“理解”的跨越 [4] - 具备空间智能的AI将能理解事物之间的关联与意义,从而真正拓展人类的创造力与理解力,带来从医疗健康到艺术创作等各领域的变革 [4] 实现空间智能的路径:构建世界模型 - 实现真正的空间智能需要突破现有大型语言模型的范式,转向构建一种能理解语义、几何、物理和动态规则的“世界模型” [6] - 这种世界模型应能感知多模态输入,预测场景变化,并与环境进行交互 [6] - 当前相关研究方向包括生成三维物体与场景的3D生成模型、模拟动态过程的物理引擎,以及通过交互学习的具身智能系统,但能整合全部能力的通用世界模型仍处于起步阶段 [6] - World Labs团队正在研发的世界模型可在语义与几何层面理解复杂3D场景,推理物理属性与交互关系,并生成连贯、可探索且遵守物理规律的虚拟空间 [6] - 其开发的Marble平台已应用此能力,使创作者无需传统3D建模工具即可快速创建和编辑完整的虚拟世界,标志着AI从生成图像迈向生成世界 [6] 空间智能的应用前景与影响 - 在创意与叙事领域,空间智能将重新定义创造方式,使导演、游戏设计师、建筑师及个人创作者能在三维空间中自由构建和可视化虚拟世界 [8] - 在机器人领域,空间智能是实现具身智能的关键,能让机器人在虚拟环境中高效训练、理解空间关系与人类意图,从而在从实验室到家庭的各类场景中安全协作 [8] - 在科学、医疗与教育领域,空间智能将成为人类探索的倍增器,AI可模拟实验、加速药物研发与影像诊断,并让学生“走进”分子或历史现场,使抽象知识具象化 [8] - 空间智能将重新定义AI的功能和行为方式,使机器从被动分析转向主动规划和适应,例如仓库机器人可动态规划路径,自动驾驶汽车可预测行人移动 [8] - 空间智能的目标是增强人类的专业判断力、创造力与共情力,让技术更深地服务于人性,帮助人类理解疾病、重塑叙事、陪伴脆弱群体并加速科学发现 [9] - 空间智能不仅将改变AI的能力,更将重塑人类“如何与世界共处”,标志着AI正迈向一个真正能理解现实的新时代 [9]
李飞飞给AGI泼了盆冷水
36氪· 2025-11-18 00:17
AI发展路径与当前局限 - 现代AI的黄金配方是神经网络、大数据与GPU的结合,ChatGPT的成功仍基于此配方[4][5] - 单纯依靠扩大数据规模和算力的Scaling Law不足以实现智能突破,当前AI仍难以完成精确计数物体、推导物理定律等对人类简单的任务[1][8] - 距离具备创造力、抽象能力和情感智能的AI系统还有很长的路,需要根本性的技术创新而非简单堆叠算力[1][9] 对AGI概念的看法 - AGI定义模糊,更像营销话术而非严谨科学术语,科学家应关注解决根本性技术挑战而非概念争论[1][7] - AI与AGI的区别不明确,该领域核心问题始终是机器能否像人一样思考和行动[7] 空间智能与世界模型的前景 - 语言智能不足,人类在关键场景依赖空间智能,研究空间智能对机器人、具身智能发展有极大作用[3][9] - 世界模型是推动AI下一阶段发展的关键,能生成完整虚拟世界并让智能体互动推理,是机器人规划操作的基础[9][10] - 空间智能可增强人类在空间理解、物体操作和现实世界任务中的能力,并影响设计、工程和科学发现[10] 机器人技术与创业挑战 - 机器人领域数据极难获取,缺乏结构化动作标注,且涉及物理系统、硬件等复杂因素,"苦涩的教训"不完全适用[15][16] - 自动驾驶发展近20年仍未完全成熟,而三维空间操控物体的机器人技术面临更大挑战[3][16] - AI创业竞争空前激烈,涉及模型技术之争和顶尖人才争夺,World Labs团队拥有约30人[12][14] 历史项目与核心理念 - ImageNet项目收集了1500万张图片、2.2万个物体类别,为现代AI发展奠定基础[5] - AI进步是几代研究者共同积累的成果,而非个人奇迹[6] - World Labs产品Marble能通过一句话或一张图像生成可探索的三维世界,核心关注空间智能而非仅生成视频[11]
AI为啥不懂物理世界?李飞飞、杨立昆:缺个「世界模型」,得学大脑新皮质工作
量子位· 2025-11-17 13:23
文章核心观点 - AI领域顶尖专家杨立昆和李飞飞均指出当前大语言模型的局限性,并强调发展“世界模型”是通往通用人工智能的关键路径[1][3][4] - “世界模型”的核心在于让AI系统具备理解物理世界、进行预测和规划的能力,其灵感来源于动物和人类大脑的智能行为学习机制[5][6][8] - 人类大脑新皮质的生成模型特性(如填补性、逐一性、无法忽视性)是实现模拟、想象和预测的基础,这为构建AI“世界模型”提供了神经科学依据[11][12][13][15][16][20][27][29][31][32] AI专家动态与研究转向 - 杨立昆计划离开Meta,筹备以“世界模型”为核心的AI公司[1] - 李飞飞提出AI未来应聚焦“空间智能”,而非单纯扩大语言模型规模[3] - 两位专家共同认为“世界模型”能弥补当前AI系统在物理理解、行为预测等方面的不足[4][6] 当前AI系统的局限性 - AI无法产出完全接近现实的视频,也未发明出能完成家务的实用机器人[5] - 系统缺乏对物理世界的理解,如距离、大小、远近等基本概念[5][6] - 过度依赖语言和符号,忽视了动物所展现的更基础、更早进化的智能行为[6] 人类感知特性与生成模型 - 人类感知具有三大属性:填补性(自动补全缺失信息)[12][13]、逐一性(一次只能选择一种解释)[15][17]、无法忽视性(一旦形成解读便难以推翻)[16][20] - 亥姆霍兹提出感知是“推断”过程,即大脑模拟现实而非直接感知输入[20][27] - 杰弗里·辛顿的“亥姆霍兹机器”通过生成与识别模式切换,实现了无监督学习手写数字识别与生成[21][22][25][26] - 生成模型能解释人类幻觉、做梦、睡眠及想象等机制,新皮质在生成模式下可模拟现实[27][28][29] “世界模型”的智能行为基础 - 大脑新皮质支持规划、情景记忆和因果推理等高级智能行为[33] - 想象力与感知共享同一系统,想象时瞳孔扩张,实际视觉处理暂停[30] - 预测能力依赖持续对比模拟数据与实际感觉,异常触发即时反应(如踩空警觉)[31][32] 行业应用与前沿探索 - 麦克斯·班尼特通过研究大脑进化史,著书《智能简史》架起神经科学与AI的桥梁[10][35] - 其创立的AI公司Alby致力于整合大语言模型至企业网站,提升智能化导购与搜索体验[37] - 班尼特曾联合创立的Bluecore估值突破10亿美元,为全球顶尖公司提供AI技术服务[37]
李飞飞站队LeCun,AGI全是炒作,80分钟重磅爆料出炉
36氪· 2025-11-17 09:52
AI发展历程与驱动力 - 21世纪初AI领域处于漫长寒冬,更常被称为机器学习,公众关注度低且资金投入少[10][14] - 2006-2007年启动ImageNet项目,从互联网搜集1500万张图像并打上22000个类别的精准标签,该项目开源并启动年度挑战赛[21][23] - 2012年多伦多大学研究团队使用2块英伟达GPU和ImageNet数据训练出AlexNet,标志着深度学习与现代AI起步的关键时刻[23][24] - 大数据、神经网络和GPU构成现代AI发展的黄金三件套[6][26] - 2015年中至2016年中,硅谷大厂刻意避谈AI一词,一年后AI拐点出现,众多公司开始将自己定位为AI公司[26] 世界模型与空间智能 - AI未来十年的下一个前沿是空间智能与世界模型,其核心在于将语言之外的智能、具身AI机器人和视觉智能串联起来[28][33] - 世界模型被定义为一个基础层,通过输入一张图或一句话即可生成一个可无限探索的3D世界,人们可在此基础上进行推理、交互和创造[37][38] - 人类作为具身智能体同样能从世界模型和空间智能中获益,例如科学家通过2D X射线衍射照片在脑海中构建3D模型从而发现DNA双螺旋结构[39] - 2024年通过TED演讲系统化阐述空间智能和世界模型理念,并创办World Labs公司以推动该领域发展[34][36] 技术应用与行业影响 - World Labs推出的Marble平台应用于电影虚拟制片、游戏互动内容及机器人模拟训练等领域[41] - 在电影拍摄中,Marble平台通过描述生成可导航的3D世界,使虚拟摄像机自由走位且场景可反复修改,艺术家团队称制作时间缩短40倍[43] - 游戏开发者可将Marble生成的世界导出至游戏引擎用作关卡原型,助力小团队打造大片级场景而不受美术资源限制[43] - 机器人领域面临数据困境,其输出为真实三维世界中的动作,训练数据极难获取,需通过遥操作、合成环境等方式收集[44][45] - 机器人是物理系统,更像自动驾驶汽车而非大语言模型,需同时解决算法模型、硬件本体和应用场景问题,发展路径漫长且挑战多维[45][46] 研究理念与未来方向 - 智能通过大数据学习获得,关键是为机器人提供足够多且多样的世界经验,Marble平台通过提示词生成各种场景供机器人在虚拟世界练习[46] - 在AI与AGI之间没有清晰科学界限,AGI更像营销用语而非严谨科学术语,其定义未统一[26] - 研究者应关注最令人兴奋且难以入眠的科学问题,而非仅聚焦盈利最多的领域,同时不过度放大失败可能性,并重视团队协作价值[47]
投资新风口:物理AI+空间智能,极智嘉-W(02590)成物理AI产业链核心标的
智通财经网· 2025-11-17 09:04
行业趋势与核心观点 - 斯坦福大学教授李飞飞将空间智能定位为“AI的下一个前沿”,是推动AI从“语言智能”向“物理智能”跨越的核心引擎 [1] - 物理AI是融合世界模型、物理仿真引擎与具身智能的系统性工程,正成为数字孪生、具身智能落地的核心基石 [1] - 智能驾驶与具身智能是物理AI最具想象空间的两大应用,而智能仓储凭借商业化落地成熟度高、场景需求刚性强、价值兑现路径清晰,已成为具身智能和物理AI技术规模化应用的核心突破口 [1] 物理AI技术架构与公司技术突破 - 物理AI的实现依赖“世界模型-物理仿真引擎-具身智能控制器”三大技术协同,其中具身智能控制器是连接虚拟推理与物理执行的关键 [2] - 公司全球首发的具身智能“无人拣选工作站”及全流程无人拣选方案,借助物理AI推动智能仓储迈入“真无人”新纪元 [2] - 无人拣选工作站由自主研发的具身智能基座模型Geek+ Brain驱动,采用“感知-策略”分层架构,实现“虚拟决策-物理执行”全链路闭环 [2] - 该模型基于千万级仓储真实数据预训练,具备三大核心优势:覆盖数万级SKU且无需后训练,48小时快速部署;百毫秒级推理支持7×24小时作业,拣选效率较人工倍增,1-2年即可实现优异ROI;本地数据处理模式满足医药、零售等行业的安全合规需求 [2] 公司市场地位与商业化实力 - 公司被认定为物理AI产业链“整机厂商”核心标的,整机厂商需要理解行业knowhow以及物理处理逻辑,实现落地应用和最终的价值变现 [1] - 公司已服务全球超850家大客户,业务覆盖40余个国家,连续6年稳居“全球最大仓储履约机器人企业”领导地位 [2] - 公司在欧洲、美洲、亚太等关键市场建立本土团队,设有超52个服务站点与12个备件中心,提供7x24小时技术支持 [3] - 公司2024年实现收入24.1亿元,稳居港股机器人板块收入体量首位;2025年上半年录得营收10.25亿元,同比增幅达31.0% [3] - 公司2025年上半年经调整EBITDA首次实现转正,金额达1162.1万元,成为港股机器人赛道中首家达成该盈利指标的企业 [3] - 公司客户黏性突出:2024年整体复购比例达74.6%,其中关键客户复购率高达84.3%;2025年上半年整体复购率进一步攀升至80%以上 [3] 公司未来战略与行业展望 - 随着拣选环节已实现全流程无人化,公司下一步将攻克机械手打包环节技术,向彻底实现“全流程无人仓”的战略目标迈进 [4] - 行业趋势清晰指向“技术落地+场景深耕”,公司以具身智能技术为核心、全流程方案为载体、全球化服务为支撑,走出了物理AI商业化的“仓储路径” [5] - 随着技术持续迭代,“全流程无人仓”的全面实现将进一步释放物理AI产业价值 [5]
投资新风口:物理AI+空间智能,极智嘉-W成物理AI产业链核心标的
智通财经· 2025-11-17 09:04
行业趋势与定位 - 空间智能被定位为人工智能的下一个前沿,是推动人工智能从语言智能向物理智能跨越的核心引擎 [1] - 物理人工智能作为融合世界模型、物理仿真引擎与具身智能的系统性工程,正成为数字孪生、具身智能落地的核心基石 [1] - 智能驾驶与具身智能是物理人工智能最具想象空间的两大应用领域 [1] - 智能仓储凭借商业化落地成熟度高、场景需求刚性强、价值兑现路径清晰的核心优势,成为具身智能和物理人工智能技术走向规模化应用的核心突破口 [1] 公司技术核心与产品 - 公司被认定为物理人工智能产业链中需要理解行业知识及物理处理逻辑以实现价值变现的整机厂商核心标的 [1] - 物理人工智能的实现依赖世界模型、物理仿真引擎、具身智能控制器三大技术协同 [2] - 公司全球首发的具身智能无人拣选工作站及全流程无人拣选方案,由自主研发的具身智能基座模型驱动,采用感知-策略分层架构,实现虚拟决策到物理执行的全链路闭环 [2] - 该基座模型基于千万级仓储真实数据预训练,具备覆盖数万级库存单位且无需后训练、48小时快速部署、百毫秒级推理支持7×24小时作业等核心优势 [2] - 拣选效率较人工实现倍增,投资回报周期为1至2年 [2] 公司市场地位与商业化实力 - 公司已服务全球超过850家大客户,业务覆盖40余个国家,连续6年稳居全球最大仓储履约机器人企业领导地位 [2] - 研发团队汇聚高校博硕士人才,核心专利覆盖机器人软硬件、人工智能算法等关键领域 [3] - 公司在欧洲、美洲、亚太等关键市场建立本土团队,设有超过52个服务站点与12个备件中心,提供7x24小时技术支持 [3] - 2024年公司实现收入24.1亿元,稳居港股机器人板块收入体量首位 [3] - 2025年上半年公司录得营收10.25亿元,同比增长31.0%,经调整税息折旧及摊销前利润首次转正,达1162.1万元,成为港股机器人赛道首家达成该盈利指标的企业 [3] - 2024年整体客户复购比例达74.6%,关键客户复购率高达84.3%,2025年上半年整体复购率进一步攀升至80%以上 [3] 未来战略方向 - 随着拣选环节已实现全流程无人化,公司下一步将攻克机械手打包环节技术,向彻底实现全流程无人仓的战略目标迈进 [4] - 公司以具身智能技术为核心、全流程方案为载体、全球化服务为支撑,走出了物理人工智能商业化的仓储路径 [5] - 全流程无人仓的全面实现将进一步释放物理人工智能产业价值 [5]
李飞飞最新播客:从洞穴实验理解世界模型|Jinqiu Select
锦秋集· 2025-11-17 08:43
文章核心观点 - AI的本质是“智能”的延伸,而非“人工”,是人类理解世界能力的拓展[3][10] - 推动AI发展的核心三要素始终是数据、神经网络和GPU算力,这一组合构成了现代AI的基石[6][24][26] - 当前AI发展的关键瓶颈和未来机遇在于“世界模型”,其旨在解决机器在空间、视觉和行动上理解世界的难题,是连接语言智能与具身智能的桥梁[3][34][40] - 单纯依靠大数据和算力扩展的“苦涩教训”路径在机器人等具身智能领域可能行不通,因为面临数据难以获取、物理系统复杂性等独特挑战[4][47][48] - 公司World Labs发布的全球首个大规模世界模型Marble,展示了生成可导航、可交互三维世界的技术能力,并在影视制作、游戏开发、机器人模拟等领域展现出应用潜力[39][53][59][60] AI发展历程与驱动要素 - AI学科诞生于20世纪50年代,经历了从早期逻辑系统、专家系统到机器学习、神经网络的发展阶段[16][17] - 2006至2007年启动的ImageNet项目,通过整理1500万张网络图片和22000个概念分类,为AI提供了关键的大规模数据集[23] - 2012年成为深度学习与现代AI的开端,多伦多团队利用ImageNet数据、NVIDIA的两块GPU,成功训练出在物体识别上取得突破的神经网络[23][24] - 在2016年前后,科技公司曾因市场接受度问题而避免使用“AI”一词,这一情况在约2017年后发生根本性逆转[28][29][30] - ChatGPT的成功本质仍是数据、神经网络和GPU三要素共同作用的结果,而非技术路径的根本改变[25][26] 世界模型的概念与重要性 - 世界模型是一种基础能力,旨在让机器能够推理、互动并创造世界,其核心是从二维信息理解三维甚至四维世界的能力[3][34][41] - 与大型语言模型不同,世界模型关注的是空间智能,对于机器人、自动驾驶、科学发现(如从二维X射线衍射图推理三维DNA结构)等领域至关重要[40][44] - 公司World Labs于2022年开始布局世界模型研究,认为其与语言模型同等重要甚至互补,是AI未来的关键方向[3][39][53] - 世界模型的应用可显著提升效率,例如在影视虚拟制作领域,有案例显示其能将制作时间缩短40倍[59] 机器人与具身智能的挑战 - 在机器人领域应用“苦涩教训”(即简单模型+大数据)面临两大挑战:训练数据与输出动作难以完美对齐,以及机器人作为物理系统的复杂性[4][47][48] - 机器人训练数据稀缺,尤其缺乏体现真实三维动作的数据,网络视频虽有价值但存在对齐问题,需补充遥操作或合成数据[47][48] - 机器人更接近自动驾驶汽车,不仅需要“大脑”(算法模型),还需要“身体”(硬件)和具体的应用场景,其产品化涉及供应链、硬件成熟度等多方面因素[4][49] - 与在二维平面上运动的自动驾驶汽车相比,在三维世界中行动并操控物体的机器人面临更长的技术发展路径[49] World Labs与Marble产品进展 - World Labs由四位深耕技术研究的联合创始人资助,团队约30人,主要为研究员和研究工程师,致力于将前沿模型与产品结合[53][65] - 公司推出的产品Marble是全球首款允许通过文本或图像提示生成可导航、可交互三维世界的模型[53][54] - Marble采用点状可视化设计,旨在帮助用户理解模型运行并提升体验愉悦感,该特性受到用户积极反馈[55] - 目前Marble已应用于电影虚拟制作、游戏开发、机器人模拟训练及心理学研究等多个领域,展现出横向应用潜力[59][60] - World Labs的技术路线强调空间智能超越二维视频生成,专注于在深度空间中创造、推理和互动[63] 对AGI与未来技术发展的看法 - AGI(人工通用智能)更像一个营销词汇而非严谨科学概念,AI本身即是追求机器像人一样思考和行动的“北极星”目标[32][33] - 当前技术路径(扩展数据、算力、模型)虽能继续推进,但仍需重大创新以解决AI在抽象推理、情感智能、科学发现(如推导物理定律)等方面的不足[34][35][36] - 人类智能以极低功耗(约20瓦)完成复杂任务,这凸显了生物智能的高效性与当前AI技术的差距[52] 人才与行业生态观察 - AI领域竞争激烈,主要体现在模型、技术和高成本人才的争夺上[67][68] - 对于职业发展,建议关注自身热情、团队使命和所能产生的影响,而非过度纠结细节或盲目追逐热点[71][72] - 斯坦福以人为本AI研究所(HAI)的建立,旨在推动AI在科研、教育、政策等领域的负责任发展,并加强科技界与政策制定者(如华盛顿、布鲁塞尔)的沟通[73][74]