具身人工智能

搜索文档
CoRL 2025|隐空间扩散世界模型LaDi-WM大幅提升机器人操作策略的成功率和跨场景泛化能力
机器之心· 2025-08-17 04:28
技术方案 - 提出LaDi-WM(Latent Diffusion-based World Models)隐空间扩散世界模型 解决机器人操作任务中预测精确未来状态的挑战 通过预训练视觉基础模型构建包含几何特征(基于DINOv2)和语义特征(基于Siglip)的通用隐空间表示 [2][5][10] - 设计扩散策略 通过整合世界模型生成的预测状态迭代优化输出动作 生成更一致准确的动作结果 实验显示该方案可降低策略模型输出分布熵 [6][12][21] - 技术框架分为世界模型学习(隐空间表示与交互扩散)和策略模型训练与迭代优化推理两阶段 其中交互扩散过程促进几何与语义表征的依赖关系学习 [9][10][12] 性能表现 - 在LIBERO-LONG数据集上达到68.7%的平均成功率 较其他方法提升显著 其中DreamerV3为33.5% TDMPC2为37.0% ATM为44.0% Seer为53.6% [15][16] - 在CALVIN D-D数据集上展示强大长时任务性能 平均连续完成任务数达3.63 优于Vanilla BC(2.44) DreamerV3(2.51) ATM(2.98)和Seer(3.60) [17] - 真实场景实验将原始模仿学习策略成功率提升20% 从Vanilla BC的40%提升至60% 在叠碗 开抽屉等具体任务中表现优异 [24][25] 泛化能力 - 跨场景实验显示世界模型泛化能力优于策略模型 使用LIBERO-LONG训练的世界模型引导CALVIN环境策略学习 性能达3.05平均连续任务数 显著高于直接应用策略模型的0 [20][21] - 可扩展性实验表明 随着世界模型训练数据增加 预测误差降低且策略性能提升 随着策略模型训练数据和参数量增加 抓取操作成功率逐渐提升 [18] 创新点 - 基于隐空间扩散的世界模型 利用视觉基础模型构建隐空间通用表示 学习可泛化动态建模能力 [5][28] - 基于世界模型预测迭代优化的扩散策略 将未来预测状态反馈给策略模型实现迭代式优化 [6][12][28]
"杭州六小龙"之一的群核科技招股书正式失效
金融界· 2025-08-14 09:48
上市状态 - 群核科技港交所上市申请文件于2025年8月14日因满六个月期限自动失效[1] - 公司需重新递交更新后的招股书文件以维持上市意向[2] - 此前曾于2021年6月申请美股上市 2023年2月终止计划转战港股[2] 公司概况 - 成立于2011年 专注空间设计软件领域 以AI技术和专用GPU集群为核心构建物理模拟器[1] - 按2023年平均月活跃用户数量计算为全球最大空间设计平台[1] - 在中国市场以22.2%的收入份额位居行业首位[1] - 旗下产品包括酷家乐、海外版Coohom及群核空间智能平台[1] 财务表现 - 2023年收入6.64亿元 较2022年6.01亿元增长10.5%[1] - 2024年前九个月收入达5.53亿元 较2023年同期增长13.8%[1] - 毛利率从2022年72.7%提升至2023年76.8%[1] - 年度亏损从2022年7.04亿元收窄至2023年6.46亿元 降幅8.2%[1] 业务模式与技术 - 采用订阅模式运营[1] - 为AIGC、具身人工智能、AR/VR、机器人等领域提供虚拟环境训练平台[1] - 与游戏科学、宇树科技等五家公司并称"杭州六小龙" 均来自浙江杭州[2]
辛顿敷衍走场,是对科学的败坏
观察者网· 2025-08-04 06:24
【文/观察者网专栏作者 谢耘】 今年七月初,在上海一所著名高校任教的一位资深软件工程学者收到我新出版的《工具的苏醒——智 能,理解与人工智能的本质》书后,我们有了下面这样一段在微信上的对话。 教授:"感谢您的大作,很多观点我认同。我属于AI悲观派,只认为AI做了简单重复劳动, 复杂的话还是要人来解决,虽然可以做软件编程,但是对于它没见过的问题编码错误极 大。" 我:"总有人出于其它目的去神话它。" 教授:"计算机界研究偏理论的乐观派多,偏 工程的较现实。" 我:"但是偏理论的人也拿不出什么科学理论依据。都是他们个人的信 念、猜测而已。我在书中对AI的'理解'能力做了比较深入系统的剖析,至少我没有见到他们 做过什么类似的理论分析来支撑他们的观点。" 看了辛顿讲演的材料后,我与这个朋友交流了感想。 我:"他这里经不起推敲的内容有点多。首先'智能本质在于推理'就是有问题的。这是典型 的西方文化唯理性论的思维,以偏概全。而且人工智能靠统计方法和暴力计算在工匠技艺上 有再大的突破,也不等于科学原理的突破。" 朋友:"辛顿现在是走场专家,他的讲稿与刚 刚前几天在英国讲的内容一模一样,内容不重要;同时,邀请他来的机构/组织 ...
谢耘:诺奖得主辛顿敷衍走场,是对科学的败坏
虎嗅· 2025-08-04 05:57
人工智能理论争议 - 乐观派认为人工智能本质在于推理,但这一观点被批评为西方文化唯理性论的思维局限[4][11] - 悲观派指出大语言模型仅懂概率计算而非概念推理,缺乏真正理解能力[5] - 中间立场认为大语言模型具有文字符号层面的统计性理解能力,但与人类理解存在本质差异[7][8] 人工智能技术现状 - 当前人工智能主要依赖统计方法和暴力计算,属于应用层面的工匠技艺而非理论突破[14] - 2024年OpenAI发布的Sora视频生成模型被过度解读为"世界模拟器",实际未突破物理定律发现[15] - 计算机在特定智能活动(如计算)上已超越人类,但整体仍无法替代人类意识活动[20] 行业发展阶段 - 人工智能领域缺乏符合现代科学规范的基础理论,仍处于技术积累阶段[10][11] - 2024年诺贝尔物理学奖授予AI学者被视为基础科学进入停滞期的标志[12] - 信息技术应用应超越单纯替代人类劳动,聚焦拓展人类活动深度与广度[19][21] 历史发展规律 - 现代科学经过400年发展已遇到"止境",进入"后科学"时代面临理论突破瓶颈[24] - 传统工匠技艺发展缓慢且不可预测,现代信息工匠技艺可能更灵活但同样受限[22] - 制造具有人类意识的机器在可预见未来仍不可实现,因缺乏相关科学理论支持[23]
硬蛋创新(00400):以边缘AI算力“Nvidia Jetson”为基石,赋能人形机器人赛道
智通财经网· 2025-07-28 11:55
Nvidia与硬蛋创新的合作 - Nvidia与硬蛋创新下属核心平台科通技术联合举办《物理AI和NVIDIA机器人技术在线研讨会》,特邀Nvidia资深解决方案架构师和科通技术现场应用工程师做专业分享 [1] - 研讨会深度解析人形机器人在"训练、仿真优化、部署"全链路中涉及的软硬件一体化解决方案,并推介即将于8月份上市销售的Jetson Thor平台 [1] - Nvidia构建"DGX+Jetson+Omniverse"三大计算平台,重新定义具身机器人公司从训练到仿真优化、再到端侧部署时所需要的全套协同解决方案 [1] - Jetson是人形机器人的算力引擎和基石,置于边缘侧(即人形机器人体内) [1] - Nvidia Jetson是适用于机器人和嵌入式边缘AI应用的先进平台,其硬件通过专为机器人、计算机视觉和自主系统设计的高性能节能模块为边缘AI提供动力支持 [1] 人形机器人行业前景 - 人形机器人是具身人工智能向物理人工智能突破的核心硬件节点 [2] - 2025年被视为具身智能机器人量产元年 [2] - 据IDC预测,到2028年全球用户在机器人领域的支出将接近3,700亿美元,复合增长率为13.2%,中国市场占比近半 [2] - 以智元机器人(Agibot)、宇树科技(Unitree)、傅利叶智能(Fourier)等为代表的中国明星企业推动着该领域的跨越式发展 [2] 硬蛋创新的业务布局 - 硬蛋创新是AI算力供应链核心供应商及应用技术方案服务商,覆盖"AI基础设施+AI智能终端"领域 [2] - 代理覆盖Nvidia、Xilinx、Intel、AMD、Microsoft等国际知名原厂以及众多国内知名芯片原厂 [2] - Nvidia Jetson已成为硬蛋创新核心代理线,并持续展现强劲增长势头 [2] - 硬蛋创新以Jetson系列产品为基石,向边缘AI领域(特别是人形机器人赛道)输出机器人产业应用技术解决方案 [2] 硬蛋创新的未来展望 - 硬蛋创新的经营业绩将受益于Nvidia Jetson产品家族在边缘AI领域的"产品+技术+生态"领导力 [3] - 有利于公司继续巩固自身在AI算力供应链中的核心地位 [3] - 支撑国内具身智能机器人赛道玩家参与全球科技竞赛 [3]
VLN-PE:一个具备物理真实性的VLN平台,同时支持人形、四足和轮式机器人(ICCV'25)
具身智能之心· 2025-07-21 08:42
视觉-语言导航平台VLN-PE的核心创新 - 推出首个支持人形、四足和轮式机器人的物理真实VLN平台VLN-PE,基于GRUTopia构建,可无缝集成MP3D之外的新场景[3][10] - 平台采用基于RL的控制器API,支持Unitree H1人形机器人、Aliengo四足机器人和Jetbot轮式机器人的物理仿真[13] - 引入90个MP3D场景并手动修复地面间隙,新增10个GRScenes合成家庭场景和3D高斯溅射扫描场景以增强环境多样性[14] 跨具身导航的关键发现 - 现有VLN-CE模型迁移到物理环境时成功率下降34%,暴露伪运动训练与物理部署的差距[15] - 模型性能因机器人类型差异显著,人形机器人表现最佳而四足机器人最差(相机高度0.5米时几乎失效)[36][37] - 联合训练三种机器人数据的模型实现最佳性能,验证跨具身训练的"一劳永逸"潜力[37][39] 多模态与光照条件影响 - 仅依赖RGB的NaVid模型在低光照下成功率下降12.47%,而RGB+深度模型的CMA和RDP表现更稳定[38] - 相机光源(CL)条件下模型性能普遍低于圆盘光(DL),反光问题导致导航误差增加[38] - 深度信息融合使CMA模型在DL300光照条件下保持85%的基础性能,显著优于纯RGB模型[38] 模型性能对比 - 70亿参数的NaVid模型零样本迁移表现最佳,但存在70%任务片段中过度旋转的问题[29][30] - 扩散模型RDP在3DGS-Lab-VLN数据集上达到30.63%成功率,较NaVid的5.81%提升5倍[31] - 基于地图的VLMaps方法在未见验证集取得20%成功率,证明非端到端方案的可行性[27][24] 数据收集与训练策略 - 使用物理控制器收集的训练数据使模型跌倒率降低8.36%,卡住率减少2.01%[33][34] - 在VLN-PE域内数据微调的Seq2Seq模型性能超越Habitat增强训练的模型,显示仿真过拟合风险[29] - 3DGS场景微调的600万参数小型模型超越NaVid,验证多样化训练分布的价值[30]
港大强化学习驱动连续环境具身导航方法:VLN-R1
具身智能之心· 2025-07-04 09:48
研究背景 - 视觉语言导航(VLN)是具身人工智能的核心挑战,要求智能体理解自然语言指令并在三维环境中导航,需要实时决策能力以适应变化的环境 [5] - 现有方法通常依赖离散拓扑图进行路径规划,限制了智能体在未见或连续环境中的泛化能力,且需要额外传感器信息如深度图和导航图 [5] - 部分方法使用大型语言模型(LLM)但仍受限于预定义导航图,无法实现真正的具身导航 [6] VLN-R1框架创新 - 提出VLN-R1框架利用大型视觉语言模型(LVLM)处理第一视角视频流,实现连续环境中的视觉语言导航,相比基于离散导航图的方法更接近真实世界场景 [5] - 构建VLN-Ego数据集基于Habitat模拟器生成,包含第一视角视频流及对应未来动作预测,为LVLM训练提供丰富视觉和语言信息 [5] - 采用两阶段训练方法:先通过监督微调(SFT)使模型动作序列预测与专家演示对齐,再利用强化微调(RFT)进一步优化模型 [5] 数据集构建 - 数据来源于Habitat模拟器中的Matterport3D场景(90个场景分训练/验证/测试集) [6] - 每条样本包含三部分:自然语言导航指令、历史帧(Long-Short Memory采样)+当前帧、未来6步动作序列 [6] - 采用长短期记忆采样策略平衡近期细节与长期上下文,短期部分高密度采样,长期部分低密度采样 [6] 训练方法 - 监督微调将导航任务形式化为序列预测问题,使用交叉熵损失对预测动作编号与描述进行监督训练 [8] - 强化学习微调引入GRPO策略优化通过相对奖励对生成结果排序,提升高质量策略 [9] - 设计TDR机制在奖励函数中优先强化前期正确决策,提升整体导航成功率 [9] 实验结果 - R2R任务中VLN-R1在无深度图、地图等条件下实现SR=30.2(7B模型),显著超过传统模型 [11] - RxR任务中仅使用10K样本RFT即优于完全监督模型,体现强跨域适应能力 [12] - 2B模型经RFT后可达7B模型的SFT性能,说明RFT能有效提升小模型性能 [12] 消融实验 - 预测未来6个动作的设置能取得最佳性能,仅预测单个动作会导致性能显著下降 [14] - 长短期记忆采样策略在帧选择方面表现最佳,能有效平衡当前观察与历史上下文 [16] - RFT阶段8次生成能使模型达到收敛,TDR机制在奖励函数中表现最为有效 [16] 未来方向 - 需验证VLN-R1在现实世界中的泛化能力 [16] - 可探索在更复杂现实环境中评估及扩展动作空间实现更精细导航控制 [16] - 可研究将该方法应用于其他具身AI任务如具身问答(EQA)等 [16]
“未来文旅2.0”拥抱AI点亮经济“夜动力” 撬动“八小时外”消费新活力
央视网· 2025-06-29 03:21
杭州奇妙夜活动 - 2025年杭州奇妙夜活动聚焦科技与文旅融合创新 重点打造"未来文旅2 0"体验场景 这是该活动举办的第6年 [1] - 活动设置裸眼3D区 无需佩戴设备即可体验钱江潮涌的立体视觉效果 [4][6] - 推出"时空对话舱"功能 游客可与苏东坡数字人互动 并通过AI大模型获取西湖景点深度游玩建议 [9] - 现场展示格斗机器人等2025年杭州最新科技产品 增强市民互动体验 [10][12] - 光影艺术汇运用数字技术将游客身影转化为水墨动画 打造沉浸式江南意境体验 [14] 科技旅游发展 - 杭州市文旅部门发布"杭州科技旅游十景名单" 涵盖科技企业街区 创意小镇等新型夜游地标 [18] - 钱江新城通过建筑灯光秀和IMAX巨幕展示 成为城市夜间旅游核心区域 [4][16] - 科技元素融入传统景点 如西湖夜游可同步体验科技夜市 形成"历史+未来"的复合旅游模式 [18] 机器人足球赛事 - 国内首场机器人足球3V3 AI赛总决赛6月28日在北京亦庄举行 采用14米×9米专用小型场地 比赛时长20分钟 [20][22] - 赛事完全由AI自主决策 无人工手柄操控 保留基础足球规则但对机器人碰撞包容度更高 [24] - 4支参赛队伍使用同款机器人 比拼重点在于各团队开发的AI算法优劣 体现具身智能技术水平 [25][27] - 机器人具备跌倒自主爬起功能 支持"一键重启"快速恢复比赛 单块电池可完成全场赛事 [28][30] - 赛事推动AI开发从模拟环境转向实体机器人测试 加速具身智能应用生态构建 [33]
机器人视觉语言导航进入R1时代!港大联合上海AI Lab提出全新具身智能框架
量子位· 2025-06-25 00:33
技术突破 - VLN-R1实现了将自然语言指令直接转化为第一人称视角下的连续导航动作,无需依赖离散地图,能在复杂环境中灵活感知、决策与行动,实现类人级别的具身智能导航[1] - 该技术打破了"视觉输入→文本描述→离散决策"的传统链条,直接让LVLM以第一人称视频流为"眼睛",输出连续导航动作(前进、左转、右转、停止)[5] - 在VLN-CE基准测试中,仅用20亿参数模型就超越了70亿参数模型的SFT结果,在长距离导航中仅用1万RxR样本进行RFT就超过了使用完整RxR数据训练的模型[2] 技术创新 - 采用两阶段训练框架:先通过监督微调学习正确动作序列的文本表达,再通过强化微调引入奖励机制优化决策[7] - 提出分组对比优化(GRPO)方法,通过比较多个动作方案的相对优劣来学习最优路径,不需要提前设定固定奖励规则[7] - 引入时间衰减奖励(TDR)机制,对近期动作赋予更高权重,让模型优先确保眼前动作的精准执行[8][9] 数据集与训练 - 构建了全新的VLN-Ego数据集,包含63万R2R和120万RxR训练样本,完全基于第一人称视角,摒弃全局地图等"作弊"信息[12] - 提出长短时记忆采样策略,平衡近期信息与长期记忆,确保Agent在复杂环境中既不迷失方向又能对突发情况做出反应[14] 性能表现 - 2B模型通过RFT优化后性能直逼7B模型,为资源受限场景(如家用机器人)的落地提供了可能[15] - 展现出极强的数据效率,在跨域迁移任务中仅用少量样本就超越了完整数据集训练的效果[2] 应用前景 - 该框架正在促进AI从"数字智能"向"具身认知"跨越,可应用于工厂物流机器人和家庭服务助手等领域[16] - 研究证明LVLM完全有能力成为"感知-决策-行动"闭环的控制中枢,为具身智能发展提供了新思路[16]
博原资本携手银河通用成立“博银合创”,加速具身人工智能赋能工业自动化
投中网· 2025-06-18 02:21
合作成立新公司 - 博原资本与银河通用共同成立合资公司"博银合创",专注于复杂装配、智能质检等核心制造场景,研发灵巧型机器人,推进具身人工智能在工业端的规模化落地 [1] - 三方签署战略合作备忘录,未来将通过博银合创在具身智能机器人领域开展联合研发和商业化探索,逐步推动其融资拓展与全球布局 [1] - 该合作是具身人工智能技术从技术验证走向产业落地的重要里程碑 [1] 行业前景与技术趋势 - 据IFR预测,2025年全球工业机器人市场将突破800亿美元,具身智能驱动的协作型机器人有望占据超过一半份额 [5] - 具身人工智能融合感知、认知与动作能力,使机器人能够在动态复杂环境中实现自主决策和精准执行,正在成为推动制造业柔性化、智能化的关键技术引擎 [5] - 智能制造正从"流程驱动"迈向"认知驱动"的关键转折点 [12] 博银合创定位与规划 - 公司专注于高复杂度制造工序,聚焦复杂零部件处理、精密装配、柔性质检等传统自动化难以覆盖的关键环节,研发灵巧机械手、单臂机器人等柔性、高精度解决方案 [9] - 将引入银河通用自研的仿真训练与合成数据技术管线,构建标准化、模块化、可复制的训练与部署体系 [9] - 旨在构建从早期孵化、独立融资到商业化拓展的完整成长路径,打造具备全球视野和商业穿透力的智能制造企业 [9] 技术能力与商业化路径 - 银河通用自研全球领先的端到端具身大模型体系,具备感知到执行的完整链路能力 [12] - 积累了丰富的产品工程与真实场景落地经验,能将先进算法转化为可部署、可规模复制的实际解决方案 [12] - 博原启世将协助构建从技术孵化到产品落地的全流程支持体系,推动公司前沿技术从实验室走向产业实践 [14] 产业合作与全球布局 - 已与联合汽车电子有限公司(UAES)签署战略合作备忘录,共同设立具身智能机器人联合实验室"RoboFab" [19] - 博世集团开放式创新平台OpenBosch将成为博原启世全球协作体系的关键一环,深度参与其"合作孵化"模式 [20] - 未来将推动具身机器人在欧美、东南亚等重点制造市场的本地化部署,探索"全球设计、本地制造"的智能制造新范式 [22]