Workflow
世界模型
icon
搜索文档
星尘智能来杰:具身智能 “超级助理” 如何走进真实世界? | Deep Talk
锦秋集· 2025-06-11 12:22
具身智能行业与星尘智能的核心观点 - 具身智能的核心价值在于创造"增量市场",而非简单替代人类岗位,通过机器人放大人类智慧与创造力[2][66] - 星尘智能定位为"超级助理",致力于将AI与机器人技术结合,打造服务于真实世界的产品[2][20] - 技术路径选择"非共识"方向:以力控为第一性原理,采用绳驱传动方案,强调纠错能力而非单次成功率[4][31][32] 技术架构创新 硬件设计 - 首创"为AI设计"的绳驱人形机器人,传动效率达0.03毫米重复定位精度,类比生物肌腱结构[30][33][40] - 硬件性能对标人类动态表现,调酒场景验证其超越传统协作机械臂的运动能力[58][59] - 下半身采用四自由度仿生设计(踝/膝/髋/腰扭转),平衡移动稳定性与商业化落地效率[60][61] 算法模型 - "快慢脑"协同架构:快脑处理实时动作(如追移动物体),慢脑负责策略重构(如抽屉关闭后重新规划)[26][49][50] - VLA(视觉-语言-动作)框架解决"同观测多行为"问题,通过语言标签实现长序列任务规划[51][53] - 数据策略强调迁移学习,新任务数据需求从1000条降至20条,结合模仿学习与强化学习提升泛化能力[45][56][57] 商业化路径 产品理念 - 对标早期苹果公司,追求软硬件一体化产品,而非单纯技术展示[18][20] - 分阶段推进能力进化:1-2年实现基础功能,3-5年扩展家务场景,最终发展为"智能管家"[25] 落地场景 - 首选养老院等非结构化环境,验证交互能力并采集真实物理世界数据[63][65] - 聚焦商业服务与家庭场景,避开工业领域以积累人类生活相关数据[44] 成本控制 - 供应链分两阶段优化:上游厂商参与零部件标准化,设计端根据实际需求调整性能指标[23][62] - 中国供应链优势有望率先催生消费级机器人产品[24] 行业趋势判断 - 具身智能与世界模型形成共生关系:机器人提供物理世界数据反哺AI,AI增强机器人决策能力[67][68] - 未来应用场景包括科学家实验助手(并行执行千次实验)和厨艺数字化(云端复现五星级菜品)[1][66]
Z Potentials|专访陈羽北,Aizip打破效率瓶颈,让AI进入真实产品,推动On-Device AI的未来革命
Z Potentials· 2025-06-11 02:21
行业背景与公司定位 - AI行业面临能耗高、模型庞大、学习机制复杂等效率瓶颈问题,创新型公司正致力于突破这些难题 [1] - Aizip专注于On-Device AI模型研发,推动AI技术在硬件设备上的广泛应用,在多模态感知、语言推理及行为控制等领域取得突破 [1] - 公司定位为不具备全栈AI能力企业的后盾支持方,帮助客户实现AI技术落地 [32] 创始人背景与创业历程 - 创始人陈羽北本科毕业于清华大学电子系,博士阶段在伯克利从事AI理论研究,后在Meta从事博士后研究 [4][5] - 2020年疫情期间创立Aizip,联合创始人包括斯坦福和CMU背景的技术专家,团队注重"高能力、低ego"的人才 [16][17][18] - 创业动因包括:实现AI技术落地、把握数据入口迁移机遇、提升AI效率 [8][9] 技术理念与研究方向 - 核心研究聚焦AI三大效率问题:能量效率(人脑20瓦 vs 大模型数千瓦)、模型效率(跳蛛几百万神经元 vs 自动驾驶数十亿参数)、学习效率(人类100亿token vs LLaMA 3 15T tokens) [10] - 研究方向包括:白盒模型(探索AI内部机制)、世界模型(模拟现实世界)、小语言模型开发 [15] - 不盲目追求模型规模,而是开发"全球最小、最高效"的AI系统 [14] 产品与技术架构 - 产品围绕三类感知模态(声音、视觉、时序)和语言模型展开 [22][23] - 视觉模态包括物体识别、人脸识别、OCR等;时序模态专注于高精度"下一步预测"能力 [23] - 开发voice-AI agent,融合语音识别、小语言模型、local RAG等能力 [24] - 已实现3B参数小模型在手机端部署,可完成本地路线推荐等任务 [27] 市场前景与商业化 - 预测未来50%的AI推理将在设备端完成,拐点将在2-3年内到来 [26][31] - 商业化路径分三阶段:技术优势→规模优势→品牌优势 [34] - 已与Renesas、ADI、Qualcomm、Bosch等头部硬件厂商合作,模型年出货量达数千万级别 [36][38] - 获得"Best Sensor of the World"、"Best AI Product of the Year"等国际奖项 [38] 行业趋势判断 - On-Device AI将迎来"质价比跃迁",由市场准备、硬件演进(如苹果芯片从0.6 TOPS发展到35 TOPS)、软件突破三股力量推动 [29][30] - 云端AI与设备端AI将共存,但设备端在隐私、延迟、成本方面具优势 [26][27][28] - 看好learning与search融合的技术趋势,关注OpenAI的Operator概念 [41]
一个md文件收获超400 star,这份综述分四大范式全面解析了3D场景生成
机器之心· 2025-06-10 08:41
3D场景生成技术综述 核心观点 - 南洋理工大学S-Lab系统梳理300+篇论文,将3D场景生成方法划分为四大技术范式:程序化生成、基于神经网络的3D表示生成、图像驱动生成、视频驱动生成 [2] - 领域自2021年起进入爆发期,主要驱动力为扩散模型、NeRF、3D Gaussians等新技术涌现 [4] - 当前技术面临生成能力不均衡、3D表征缺陷、数据瓶颈、评估标准缺失四大挑战 [16] - 未来发展方向聚焦高保真生成、物理约束引入、交互式场景、感知-生成一体化四大方向 [12][18] 技术路线分类 程序化生成 - 通过预定义规则/LLM先验自动构建复杂环境(如城市、地形),具备空间一致性优势 [8] - 细分方法包括基于规则生成(地形)、约束优化生成(室内)、LLM辅助生成(布局控制) [8] 神经网络3D表示生成 - 直接生成场景图/参数或3D表征(点云/NeRF/3D高斯),具备强三维理解能力 [8] 图像驱动生成 - 基于2D图像生成模型重建3D结构,包括整体生成(全景图)和迭代生成(图像序列) [9][14] 视频驱动生成 - 融合时空一致性,分为一阶段(端到端)和两阶段(时空分离控制)方法 [9][15] 性能评估维度 - 七大关键指标:真实感、多样性、视角一致性、语义一致性、效率、可控性、物理真实性 [7] - 不同方法在可控性/真实性/效率/一致性之间存在显著权衡关系 [7] 下游应用领域 - 覆盖3D场景编辑、人-场景交互、具身智能、机器人、自动驾驶等关键场景 [2] 未来技术突破方向 - 高保真生成需协调几何/纹理/光照/多视角一致性,提升材质建模与细节捕捉能力 [12] - 物理约束引入需结合可微分物理模拟器,保障物体移动/摆放符合真实规律 [18] - 交互式场景需实现动态响应能力,理解物体可用性/因果关系/多智能体逻辑 [18] - 感知-生成一体化需构建统一架构,双向增强场景理解与生成准确性 [18]
让你的公司像大脑一样思考、连接与成长
36氪· 2025-06-09 11:51
企业预测与适应机制 - 公司成功关键在于建立准确"世界模型"并快速适应变化 而非依赖僵化流程和KPI管控 [2] - 大脑通过持续修正认知最小化意外 企业需模仿神经网络特性实现联通性、适应性和实时反馈 [2][3] - 领导者需训练组织像"超级大脑"一样减少意外、快速反应、持续进化 [4] 组织设计方法论对比 - "笨办法"依赖规章制度和KPI审批 导致组织迟钝脆弱 [5] - "聪明办法"采用神经自适应方式 拥抱变化、实时学习、持续修正 提升灵活性 [5] - 零售案例通过每日销售复盘会议发现需求下降20% 快速调整策略避免损失 [11] 共同认知构建 - 部门间"世界模型"不统一会导致决策矛盾 如市场/销售/产品部对客户需求理解分歧 [6] - 需通过领导团队协作统一客户理解、竞争格局判断和内部摩擦认知 [7] - 谷歌AlphaZero案例显示统一且可更新的世界模型对复杂环境应对至关重要 [7] 神经网络式组织设计 - 打破部门孤岛 采用四象限模型整合客户前线/运营/研发/支持 某案例转化率提升15% [10] - 分散决策权至区域层面 快消公司价格策略反应时间从30天缩至3天 市场份额增10% [12] - 医疗连锁通过单点试验将候诊时间缩短30% 推广后全国客户投诉率下降50% [13] - 电商自动化价格调整流程在供应链混乱时保持60%毛利率 优于被迫降价的竞争对手 [14] 学习型组织建设 - 建立每周战略微调机制 替代传统季度调整节奏 [11] - 将失败视为训练机会 测试广告投入产出比达5:1即快速推广至全品牌 [13] - 动态调整机制优于固定结构 通过灵活流程应对变化而非依赖审批表格 [14]
李飞飞自曝详细创业经历:五年前因眼睛受伤,坚定要做世界模型
量子位· 2025-06-09 09:27
文章核心观点 - 李飞飞因角膜损伤暂时失去立体视觉的经历,促使她认识到空间智能对AI系统的重要性,并坚定了构建世界模型(LWM)的决心 [1][2][3] - 世界模型是AI发展的下一里程碑,其核心在于让AI获得类似生物的空间认知能力,真正理解三维物理世界 [15][23][24] - 当前AI系统在语言处理方面取得突破,但在空间智能方面仍存在明显不足,这是未来需要重点攻克的方向 [10][20][29] 构建能真正理解物理世界的AI模型 - 李飞飞早在大语言模型(LLM)兴起前就意识到构建世界模型的重要性,这与她的学术经历和生病经历有关 [6][7] - 她创建的ImageNet收录超过1000万张精确标注图片,彻底改变了计算机视觉和深度学习的研究格局 [8] - 数据驱动范式所爆发的能量远超李飞飞最初想象,但当前AI仍缺乏对物理世界的理解 [9][10] - 语言对三维物理世界的表征存在天然缺陷,真正的通用智能必须建立在对物理空间结构和物体组合关系的理解上 [12][14][15] 创立World Labs的契机 - 李飞飞与a16z合伙人Martin Casado在关于LLM的学术聚会上达成共识,认为世界模型是当前AI缺失的关键部分 [17][19][21] - Martin指出语言对物理空间的转译低效且失真,自动驾驶行业投入上千亿美元仍未能完美解决二维导航问题 [20] - 李飞飞表示世界模型才是智能的下一里程碑,一旦取得突破将创造无限虚拟宇宙,应用于建筑设计、材料合成等领域 [22][24] 技术突破与团队优势 - 实现世界模型需要集结产业级的算力、数据和人才密度,World Labs组建了全球顶尖的跨学科团队 [25][34][35] - 技术突破点在于让AI从单目视觉输入中重建完整三维场景理解,这是机器人精准抓取和虚拟宇宙生成的基础 [39][40] - World Labs团队在计算机视觉领域有深厚积累,包括神经辐射场(NeRF)技术和高斯泼溅表示法等创新成果 [31][32][33]
对话智源研究院院长王仲远:AI正加速从数字世界走向物理世界
21世纪经济报道· 2025-06-08 11:49
AI技术发展趋势 - AI技术从数字世界加速向物理世界转化,重点应用于人形机器人训练和落地[1] - 大语言模型性能提升遇到瓶颈,强化学习优化推理能力、合成高质量数据替代人类标注、激活海量多模态数据成为三大解法[1] - 多模态数据规模可达文本数据的"百倍乃至万倍",将成为未来技术突破的关键[1] 世界模型技术路线 - 大模型技术路线从大语言模型转向原生多模态世界模型,以实现对物理世界的感知和理解[2] - 智源研究院推出"悟界"系列大模型,包括Emu3、见微Brainμ、RoboOS 2.0、RoboBrain 2.0和OpenComplex2[2] - Emu3的核心突破在于建立对物理因果关系的理解,而非简单的多模态信息拼接[2] 具身智能发展现状 - 人形机器人长期价值显著,因其更易融入社会基础设施且利于模型训练,但短期内四足、轮式等形态将共存[3] - 具身智能面临"硬件能力不足限制数据采集,数据稀缺制约模型进化"的循环困局,可通过互联网视频数据训练基础能力再微调解决[3] - 工厂场景成为具身智能优先落地领域,因其封闭环境可规避安全风险且存在重复任务刚需[3] 大小脑融合与泛化性 - 当前具身智能数据量不足以支持大小脑融合模型训练,预计5-10年内可能成熟[3][4] - 具身智能VLA模型泛化性不足,未来需突破专有任务达到跨领域泛化性[4] - 具身大模型发展处于早期阶段,类似GPT-3前的探索期,面临技术路线分歧和产业落地挑战[5][6] Agent与产业应用 - Agent成为产业界发力领域,类比移动互联网APP,基于可用基础大模型开发[4][5] - 基础大模型竞争已收敛至少数玩家,未来可能出现基于基座模型+垂类数据的"千模大战"[5] - 具身智能需解决"感知-决策-行动"协同、多模态数据融合等基础问题才能实现大规模商用[6] AGI发展里程碑 - 物理AGI的重要标志是机器人能真正理解物理因果关系,如"咖啡杯放桌沿会摔碎"[7] - 当前AGI刚过起跑线,具身智能仍需突破技术路线共识和产业落地障碍[5][6]
模型持续进步,世界模型概念逐步成型
国联证券· 2025-06-08 10:25
报告行业投资评级 - 强于大市(维持)[8] 报告的核心观点 - AI正从“人类数据时代”迈入“体验时代”,未来或进入以智能体为代表、通过与世界直接交互获取经验的阶段 [5][9] - 大模型从大语言模型 - 原生态模型 - 世界模型演变,AGI分为数字世界与物理世界,未来物理世界或出现更多细分垂类模型 [10] - 现阶段大模型能力持续提升,但AI应用未产生大量实际生产应用,AI技术与现实世界应用结合是重点,Agent + 物理世界模型或成趋势主导 [11] - AI技术进步带动模型平权,有望带来算力基础设施建设、端侧AI软件开发、生产力工具革新、行业信息化创新四方面投资机遇 [12] 根据相关目录分别进行总结 图灵奖得主分享 - 2024ACM图灵奖得主Richard Sutton称当前AI大模型训练依赖互联网与人类生成数据,通过人类微调优化,ChatGPT是成功产物,但高质量人类数据几乎耗尽,AI进入“体验时代”,未来或从第一人称经验中学习 [5][9] 大模型演变 - 智源研究院认为大模型从大语言模型 - 原生态模型 - 世界模型演变,AGI分为数字世界与物理世界,传统语言、推理等模型属数字世界,原生多模态、具身智能等属物理世界 [10] 大模型能力与趋势 - 现阶段大模型能力持续提升,在多项测试中展现超越人类的推理能力,但AI应用未大量落地,随着高质量数据枯竭,Agent + 物理世界模型或成趋势主导 [11] 投资建议 - 建议关注AI技术进步带动的产业链机会,包括算力基础设施建设(中科曙光、紫光股份、浪潮信息等)、端侧AI软件开发(中科创达等)、生产力工具革新(金山办公、用友网络、泛微网络等)、行业信息化创新(恒生电子、宇信科技、中控技术、卫宁健康等) [12]
从预训练到世界模型,智源借具身智能重构AI进化路径
第一财经· 2025-06-07 12:41
AI发展趋势 - AI发展速度被低估 技术进步呈现非线性特征 大模型作为基础设施未来将更关注上层应用 [1] - AI重点从大语言模型预训练转向世界模型培育 智源研究院宣布进入"具身智能"探索阶段 [1][3] - 大模型与机器本体深度耦合 推动机器人从1.0时代迈向2.0时代 加速数字与物理世界融合 [3] 世界模型技术 - 世界模型尚无统一定义 智源通过"悟界"系列产品体现技术理解 包括Emu3/Brainμ/RoboOS 2.0等 [3][4] - Emu3实现多模态技术突破 通过视觉tokenizer统一处理图像/视频/文本 简化跨模态知识迁移 [4] - 大模型需突破时空感知隔阂 才能实现数字世界向物理世界的跨越 [4] 底座大模型发展 - 大语言模型性能提升放缓 突破路径包括强化学习/数据合成/多模态数据 [5] - 多模态数据规模可达文字数据百倍至万倍 但利用率低下 成为技术突破重点 [5] - 原生多模态世界模型本质是让AI感知物理世界 通过与硬件结合解决实际问题 [5] 具身智能挑战 - 存在"数据-能力"循环悖论:具身能力不足限制数据采集 数据稀缺又制约模型发展 [6] - 技术路线尚未收敛 不同厂商采用差异化探索方式 智源方案仅为"一家之言" [6] - 跨本体小脑技能未达共识 需通过产业迭代实现硬件标准化 [8] 机器人行业痛点 - 场景泛化能力差 单一机器人难以适应多场景工作需求 [9] - 任务泛化能力差 需搭载不同程序完成同类场景不同任务 [9] - 本体泛化能力差 机器人设计高度依赖特定工作场景 [9] 控制技术现状 - MPC控制技术存在三大局限:仅适用结构化环境/固定流程/预编程任务 [10] - 具身大模型处于GPT-3前探索期 技术路径未统一 产业落地需突破多模态融合等基础问题 [10]
李飞飞的世界模型,大厂在反向操作?
虎嗅APP· 2025-06-06 13:56
公司概况 - 李飞飞创办的World Labs专注于开发具备"空间智能"的下一代AI系统,探索AI对三维世界的理解与重建能力[2] - 公司在短短三个月内完成两轮融资,累计筹集资金约2.3亿美元,估值突破10亿美元,成为AI领域新晋独角兽[2] - 投资方包括a16z、Radical Ventures、NEA、英伟达NVentures、AMD Ventures和Intel Capital等科技与风投界重量级机构[2] 技术方向 - 公司致力于从语言模型向世界建模转变,认为真正的智能需要能理解和构建三维世界[5][8] - 核心技术包括NeRF(从二维图像到三维重建)、高斯平面表示法(快速描绘三维场景)、扩散模型(提升三维内容精细度)以及多视角数据融合技术[17][19][20][21] - 物理仿真与动态建模是另一关键技术方向,使AI能预测物体运动变化[23] - 这些技术组合旨在让AI获得类似人类的空间感知能力[24] 应用场景 - 游戏行业:AI可根据照片或视频自动生成逼真三维世界,替代传统手工建模[25] - 建筑行业:几分钟内生成完整空间立体结构,模拟不同光照效果[26] - 机器人领域:赋予机器人三维视觉,解决二维视觉下的空间判断问题[26] - 数字孪生:为工厂、建筑或城市建立虚拟世界进行预测测试[27] - 创意产业:辅助艺术家、设计师进行空间理解和创作[28][29] 行业挑战 - 数据问题:获取足够多包含深度信息、空间结构的真实场景数据成本高[31] - 算力限制:NeRF等技术计算资源需求大,难以大规模落地应用[32] - 泛化能力:现有模型在陌生场景中表现不佳,需要更强适应性[33] - 需要硬件、软件、数据、应用场景的全链路打通,非单一公司能完成[33] 团队优势 - 团队汇聚计算机视觉、图形学、扩散模型、物理仿真和机器人控制等多领域专家[34] - 采用多学科融合的研究范式,探索AI理解三维世界的新路径[35] - 团队背景多元,能从技术、人文、社会等多角度思考AI发展[37] 未来愿景 - AI终极目标是成为人类在物理世界中的智能延伸,而非替代人类[43] - 医疗、建筑、教育等领域将受益于AI的空间理解和操作能力[44] - 世界模型被视为实现通用人工智能(AGI)的第一步,需具备空间感知、动态推理等能力[46] - 代表AI从语言到世界、从二维到三维的演进方向,重新定义人机关系[47]
“AI教母”李飞飞揭秘“世界模型”:要让AI像人类一样理解三维空间
36氪· 2025-06-06 12:31
公司概况 - World Labs由李飞飞创办,专注于研究前所未有的深度技术,目标是构建能够理解和推理三维物理世界的AI系统[4] - 公司寻找的投资者需具备计算机科学、人工智能、市场和产品等多方面专业知识,并能与创始人展开深度知识对话[4] - 李飞飞认为当前是集结行业资源(计算能力、数据、人才)实现"世界模型"理想的最佳时机[9] 技术方向 - World Labs致力于解决"空间智能"挑战,这是AI理解三维物理世界和虚拟数字宇宙的核心能力[2] - "世界模型"指能全面理解三维世界结构、形态和组成的AI系统,超越语言局限[4][6] - 技术突破点在于让AI具备类人的空间感知能力,这是实现"具身智能"的关键[11] 行业应用 - 创造力领域:将改变设计、电影、建筑和工业产品设计等视觉化和空间化的工作方式[12] - 机器人领域:赋能各类"具身智能机器"在三维环境中与人类协作[12] - 虚拟宇宙:结合生成模型和重建模型,创造"无限宇宙"的新体验[12][13] 技术比较 - 大语言模型存在局限性,无法完美捕捉三维世界的复杂性[6][7] - 3D计算机视觉相比2D具有显著优势,能解决机器人空间操作等实际问题[14] - 空间感知系统在进化史上早于语言系统出现,是更基础的智能组成部分[11] 发展前景 - "世界模型"将重新定义机器人、创意产业和计算本身[2] - 技术成熟后将推动人类突破二维思维框架,进入三维智能新时代[13] - 应用场景涵盖生产力、制造业、工程、社交、旅行等多个领域[12][13]