具身智能之心
搜索文档
Meta AI大裁600人,亚历山大王操刀重点砍向LeCun团队
具身智能之心· 2025-10-24 00:40
Meta AI部门重组与裁员 - Meta AI部门进行大规模重组,裁员约600人,旨在解决官僚化问题并创建更敏捷的运营模式[6][8] - 重组由新任首席AI官亚历山大王主导,其认为缩减团队可减少决策流程,提升个人责任与影响力[8] - 裁员涉及FAIR实验室(LeCun负责)、AI产品部门和基础设施部门,而新成立的TBD实验室未受影响且持续招聘[2][3] 战略调整与内部冲突 - 公司CEO对AI进展感到焦虑,认为近期缺乏突破或性能改进,但管理层对现有模型、计算计划及产品路径充满信心[9] - FAIR实验室论文发表需经TBD实验室审核,若价值重大则优先内部产品落地,此举引发LeCun对学术自由的质疑[10][11] - LeCun澄清与Llama项目无关,并可能辞去FAIR首席科学家职务,反映内部战略与学术研究间的矛盾[10][12] 人才流动与组织重点转移 - TBD实验室积极扩张,从Thinking Machines挖走联合创始人Andrew Tulloch,并从OpenAI招募研究科学家Ananya Kumar[3] - 被裁员工技能将被转移至公司其他部门,强调人才复用而非完全流失[9] - 裁员决策于太平洋时间周三早7点前通知受影响员工,凸显重组执行的紧迫性[7]
你的第一套具身科研平台来了,高性价比+代码开发方便
具身智能之心· 2025-10-24 00:40
产品定位与目标客群 - 产品是专为具身智能科研领域设计的轻量级高性价比机械臂Imeta-Y1 [2] - 主要目标用户为学生、教育工作者及机器人领域初学者,旨在帮助其低成本、高效率地完成算法验证与项目开发 [2] 核心产品优势 - 提供全流程开源工具链与代码示例,覆盖从数据采集到模型部署的全过程,对新手友好 [3][17] - 支持Python与C++双语言接口,并兼容ROS1与ROS2,提供URDF模型以实现仿真与真机无缝切换 [3][18][19] - 提供快速响应的售后服务,承诺24小时内响应 [3][19] - 采用开放软硬件架构,支持与Gazebo等主流仿真环境实时联动,降低开发风险与调试成本 [5][17][22] - 支持视觉、力控等多模态数据融合,并兼容TensorFlow、PyTorch等主流AI框架 [17][32] 关键性能参数 - 机械臂本体重量为4.2千克,额定负载为3千克,具备6个自由度 [8][19] - 工作半径为612.5毫米,重复定位精度达到±0.1毫米 [8][19] - 供电电压为24V,通过CAN总线通信,控制方式支持轨迹跟踪、示教及API [8][19] - 各关节运动最大速度在180°/秒至220°/秒之间 [8][19] 配套工具与生态支持 - 提供完整的开源软件开发工具包(SDK),包含驱动程序、API接口及示例代码 [26] - 目前已开源适配ALOHA ACT等算法,并计划逐步适配更多开源模型如robotwin、pi0 [46] - 在硬件适配方面,已支持Intel RealSense D435系列及奥比中光DCW2等相机 [46] - 对于模型训练与推理的硬件需求,公司表示其适配的算法在NVIDIA GeForce RTX 4060显卡上即可运行 [46] 交付与售后政策 - 产品交付周期为1至2周 [44] - 提供半年质保服务(非人为损坏),质保期后售后服务按市场价收费 [45] - 销售政策为单臂出售,且不支持无理由退货或测试 [46]
宇树之外,这个狗子勇夺IROS 2025四足机器人挑战赛冠军
具身智能之心· 2025-10-24 00:40
赛事与产品表现 - 智身科技钢镚L1机器狗平台在IROS 2025四足机器人挑战赛中首次参赛即夺得冠军 [1] - 钢镚L1是本次比赛中唯一一款非宇树品牌的比赛用机 [3][8] - 比赛包含楼梯、阶梯场地、K型护栏、托盘堆、坡道等多种复杂地形,全面考验机器人的运动稳定性和环境适应性 [8] 产品硬件与技术优势 - 钢镚L1自研关节模组峰值扭矩高达48N·m,为同级别产品最高水平 [3][11] - 机器狗搭载智航EDU高性能套件,集成Intel RealSense深度感知摄像头、Livox Mid360激光雷达及NVIDIA Orin NX计算单元,形成多模态感知与边缘计算能力结合 [11] - 平台AI计算性能高达100TOPS,能实时处理多传感器数据流以应对复杂地形 [11] 软件与仿真平台 - 公司自研RoamerX导航平台提供高效导航框架rmx_lite,可实现快速训练部署后自主运行 [11] - 自研开源高保真科研仿真环境MATRiX提供物理精确虚拟实验环境,支持运动控制、导航算法等多种研究任务的仿真验证 [13] - 完整仿真-部署工具链将算法迭代周期缩短了70%,助力赛前充分准备 [13] 行业意义与竞争力 - 此次夺冠创造了挑战赛冠军比赛用机新纪录,彰显中国具身智能和机器人技术实力 [8] - 赛事被誉为机器狗领域的“奥运会”,历年吸引麻省理工学院、苏黎世联邦理工学院等世界顶尖实验室参与 [4][6] - 产品标志着结合强大本体性能与高度智能、能快速赋能科研的创新机器人平台正展现出竞争力 [15]
港科大最新!超越人类示范:基于扩散的强化学习为VLA训练生成 “高质量、低方差“ 数据
具身智能之心· 2025-10-23 04:00
文章核心观点 - 提出一种改进的扩散策略优化算法,用于为视觉-语言-动作模型生成高质量、低方差的训练轨迹数据,以替代对大规模人类示范数据的依赖 [2] - 该方法在包含130项长时程操作任务的基准测试上,仅使用扩散强化学习生成的数据训练VLA模型,平均成功率可达81.9%,相比基于人类数据训练的模型提升5.3个百分点 [2] - 该扩散强化学习方法被证实可作为一种高效替代方案,为VLA模型生成数量充足、质量优异且方差较低的演示数据 [2] 技术方法与优势 - 该方法构建了一套以扩散强化学习为核心的VLA训练流程,其优势在于借助扩散模型的高表达能力探索复杂行为,并依托迭代去噪过程的隐式正则化生成平滑一致的演示数据 [2] - 所生成轨迹不仅比人类演示数据更平滑、一致性更强,也优于标准高斯强化学习策略生成的轨迹 [2] - 该方法是一个通用强化学习框架,可适配任意VLA架构 [6] 性能成果 - 在LIBERO基准测试集上评估,基于扩散强化学习生成数据训练的VLA模型平均成功率为81.9% [2] - 该成绩相比基于人类数据训练的模型提升5.3个百分点,相比基于高斯强化学习生成数据训练的模型提升12.6个百分点 [2] - 该方法实现了超越人类示范的性能突破 [6]
人形机器人被干到万元以下,还有的同学不知道怎么入门......
具身智能之心· 2025-10-23 04:00
人形机器人价格突破 - 松延动力推出全球首款万元以内高性能人形机器人Bumi,售价为9998元[1] - 机器人价格低于某些高端手机,表明供应链和技术方案成熟使本体价格大幅降低[1][2] 消费级市场影响 - 低价策略使产品面向消费级市场,科研机构和个人均可负担,批量复购压力小[2] - 销量提升有望吸引更多研究者贡献新思路,推动社区发展[2] 技术社区资源 - 具身智能之心知识星球社区已搭建近一年,覆盖近2000名成员和200家相关公司与机构[12][79] - 社区提供技术路线分享、直播、问答、求职、赛事等多版块内容,形成产业、学术、求职闭环[2][12] 学习与研发支持 - 社区汇总40+开源项目、60+具身智能数据集及主流仿真平台,涵盖感知、交互、强化学习等技术路线[14] - 提供国内外高校实验室和公司汇总,助力学术深造和职业发展[13][16][18] 行业活动与竞赛 - 社区推广2025中关村具身智能大赛等赛事,提供学生直通研究院等福利[78] - 通过直播和圆桌论坛分享行业动态与待解决问题[3][4]
我们开始招募具身领域相关的产品经理了~
具身智能之心· 2025-10-23 04:00
公司业务发展 - 公司正在面向全领域招募具身智能和机器人领域的产品经理 [1] - 公司计划在课程开发、企业咨询与培训等多个业务方向上展开合作 [1] - 合作待遇与模式需通过指定联系方式进行详细沟通 [1]
正式开课啦!具身智能目标导航算法与实战教程来了~
具身智能之心· 2025-10-23 00:03
文章核心观点 - 目标驱动导航是具身智能的核心领域,通过赋予机器人自主决策能力,使其能在陌生三维环境中仅凭目标描述自主完成探索与路径规划 [2] - 该技术正经历从依赖显式指令到自主感知决策的跃迁,并已在多个垂直领域实现产业化落地 [2][4] - 技术发展经历了三代迭代:端到端方法、模块化方法、LLM/VLM融合方法,当前研究重点在于解决开放词汇和动态环境等挑战 [6][8][10] 具身导航技术定义与价值 - 具身导航涉及语言理解、环境感知、路径规划三大技术支柱,目标驱动导航是其最具代表性的方向 [2] - 与传统视觉语言导航不同,目标驱动导航系统需实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁 [2] - 技术背后凝聚着计算机视觉、强化学习与3D语义理解的交叉突破 [2] 产业化落地现状 - 在终端配送场景,美团无人配送车通过动态路径重规划在复杂城市环境中执行任务,Starship Technologies的机器人已在欧美高校和社区部署 [4] - 在医疗、酒店及餐饮场景,嘉楠科技、云迹科技、擎朗智能及美国Aethon公司的机器人已实现药品、文件和餐食的自主配送 [4] - 随着人形机器人发展,宇树科技Unitree系列、智元机器人、特斯拉Optimus均已集成目标驱动导航模块,加速向家庭服务、护理及工业物流领域渗透 [4] 技术演进与评测体系 - 基于Habitat仿真的生态完整记录了技术迭代轨迹,评测体系从点导航扩展至图像导航、目标导航及移动抓取任务 [5] - 视觉预训练模型提升特征泛化能力,分布式强化学习框架使PointNav任务SPL指标显著提升,大语言模型通过跨模态对齐解决部分开放词汇导航难题 [5] - 当前PointNav和闭集ObjectNav接近人类表现,但开放词汇物体导航和动态障碍物场景仍面临重大挑战 [5] 三代技术路线迭代 - 第一代端到端方法基于强化学习与模仿学习,在点导航与闭集图片导航任务中取得突破,部分方法SPL指标逼近人类表现 [6] - 第二代模块化方法通过显式构建语义地图分解任务,在零样本目标导航任务中展现显著优势,尤其在未见物体场景下成功率提升明显 [8] - 第三代LLM/VLM融合方法引入大语言模型的知识推理能力,重点在于设计场景表征接口,以在开放词汇目标导航任务中实现对未知类别的有效识别 [10]
直击IROS现场:宇树禾赛自变量杭州论剑,美团C位攒局
具身智能之心· 2025-10-23 00:03
美团战略与场景落地 - 公司战略已从"零售"升级为"零售 + 科技",零售是场景,科技是赋能 [9][10] - 具身智能是未来5到10年核心技术范式,公司关键词是autonomy(无人化),旨在构建真正的"具身智能网络" [13][14][17] - 公司是全国唯一获得民航局许可在所有城市合法飞行且夜间也能飞的无人机运营商 [16] - 无人机可送汉堡披萨,无人配送车能从北京到深圳,机场酒店园区场景有小黄蜂承担闪购配送 [15][20] 技术理论框架与创新 - 港大席宁教授提出GAT模型,即生成对抗转导,让机器学习模型和解析模型彼此纠错循环迭代,实现生成性博弈 [25][26][28] - 提出非向量空间控制理论,在感知空间中直接控制,机器人行动不再依赖精确轨迹规划,而是从视觉听觉中直接感知下一步 [29][32] - 提出感知控制框架,感知信息实时介入控制指令,实现"Planning and control in perceptive frame" [33][34] - 基于香农采样定理探讨在采样不足时如何有效控制,为算力受限数据不完备场景提供思路 [35][36] 硬件基础设施与产业逻辑 - 禾赛创始人李一帆强调专注基础设施是支撑行业发展的关键,硬件开发存在质量性能成本的不可能三角 [38][39][42] - 降本关键是自己掌握关键部件并优化设计,而非压榨供应商,公司自2017年起每年投入数亿元自研核心技术 [45][46] - 在软硬不解耦环境下,中国创业者凭借强大供应链和制造能力有望快速抢占市场,这可能是未来20年最好的机会 [48][49] 具身智能的本质与模型构建 - 自变量机器人CEO王潜认为具身智能不是把大模型塞进机器人,也不是AI应用,而是平行于虚拟世界的物理世界基础模型 [50][52] - 物理世界基础模型需要端到端训练和统一模型应对多样任务,核心是数据为中心,强调高质量真实数据而非单纯增加数据量 [54][55][57] - 通才模型是未来通用机器人核心,可通过学习物理规律实现few-shot learning,真正人工智能基点是物理基点 [58] 圆桌讨论:第一性原理与软硬件协同 - 具身智能第一性原理尚未收敛,有观点提出"牛顿加辛顿"模型,结合物理规律约束与神经网络学习能力 [60][63][64] - 另一观点提出"三原论"智能闭环,由欲望(目标驱动)—先验(内在结构)—经验(现实反馈)共同组成 [65][66][72] - 软件需要硬件别太脆别太热别太容易坏,硬件认为AI越强对硬件要求越低,但当前AI不够强仍需高稳定性硬件 [82][84][86] - 软硬件关系是螺旋式迭代,未来关键在于实现软硬一体融合设计,而非谁先行 [88][90] 数据驱动与模型驱动路径 - 模型驱动方式可解释可控但覆盖面有限,数据驱动覆盖面更广且可能催生新理论,但需要"好数据"而非"多数据" [92][93] - 当前机器人研究学生更多转向数据驱动,因其成果更可见,智能自动化需机器能自己"挖数据矿"实现采集训练闭环 [95][96] - 纯粹依赖数据拟合动力学系统不现实,需结合物理规律如流体力学多体动力学,才能让具身智能具备稳健性 [100] 理想机器人形态与未来展望 - 理想机器人形态包括能踢足球进行综合考场训练,计划205年机器人足球队与人类世界杯冠军对抗 [102][103] - 其他理想形态包括拥有好奇心能自我制造,与人类完美共生实现绿色智能节能高效,以及最终实现AGI用于生产消费娱乐和星际探索 [105][108][109] - 当前是年轻人最幸运时代,有机会定义智能,再早无算力再晚市场已被占据 [110]
刚刚,ICCV最佳论文出炉,朱俊彦团队用砖块积木摘得桂冠
具身智能之心· 2025-10-23 00:03
ICCV 2025会议概况 - 国际计算机视觉大会ICCV于10月22日揭晓年度奖项,该会议是全球计算机视觉三大顶会之一,每两年举办一次[2][5] - 本届会议共收到11,239份有效投稿,最终录用2,699篇论文,录用率为24%,论文数量相比上一届有大幅增长[5] 最佳论文奖:BrickGPT - 最佳论文奖由卡耐基梅隆大学获得,论文标题为《Generating Physically Stable and Buildable Brick Structures from Text》,由知名学者朱俊彦带领团队完成[3][7][9] - 该论文提出了BrickGPT,是首个能够根据文本提示生成物理稳定的相互连接积木装配模型的方法[11] - 研究团队构建了包含47,000多个积木结构的大规模数据集StableText2Brick,并训练了自回归大型语言模型来预测下一块积木[13] - 方法引入了有效性检查和基于物理约束的回滚机制,实验结果显示其有效性达100%,稳定性达98.8%,平均积木稳定性为0.996,全面优于基线模型[20][22] 最佳论文提名奖 - 同样来自卡耐基梅隆大学的论文《Spatially-Varying Autofocus》获得最佳论文提名奖,该研究突破了传统镜头成像规律,能够构建可任意调整景深的计算镜头[24][26] 最佳学生论文奖 - 最佳学生论文奖由以色列理工学院的《FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models》获得,该论文提出了一种无需反演的新型图像编辑方法[27][28][30] - FlowEdit通过构建常微分方程直接在源图像分布与目标图像分布间建立映射路径,实现了更低的传输成本和更高保真度的编辑,在Stable Diffusion 3和FLUX模型上取得SOTA效果[32][34] 最佳学生论文提名奖 - 德州大学奥斯汀分校的《RayZer: A Self-supervised Large View Synthesis Model》获得最佳学生论文提名奖,该模型在训练时无需任何3D监督信息即可学习3D感知能力[36][38] Helmholtz Prize(测试方法奖) - 该奖项表彰在计算机视觉基准测试中的贡献,获奖论文包括Ross Girshick的《Fast R-CNN》和何恺明等人的《Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification》[39][41] - 《Fast R-CNN》提出了用于目标检测的快速区域卷积网络,显著提升了训练和测试速度[39] - 何恺明等人的论文引入了PReLU激活函数和He初始化方法,并首次在ImageNet上达到超越人类水平的分类性能[41] Everingham Prize(严谨评估奖) - 该奖项表彰对社区有重大贡献的研究者,获奖团队包括人体3D模型SMPL的团队和VQA数据集团队[44][46] - SMPL模型以参数化方式精准表示人体姿态与形状,被广泛应用于动画、虚拟人及生成式AI中[44] - VQA数据集结合了图像理解与自然语言问答,推动了多模态AI在视觉理解和语言推理方向的研究[46] 研究者个人奖项 - Significant Researcher Award授予David Forsyth和Michal Irani,表彰其研究显著推动了计算机视觉领域进展[48][53] - Azriel Rosenfeld终身成就奖授予Rama Chellappa,表彰其在人脸识别、运动分析、3D建模等领域的奠基性贡献[54][57]
星际硅途发布FoldPlanet-500数据集,开启智能叠衣机器人新纪元
具身智能之心· 2025-10-23 00:03
公司产品发布 - 星际硅途推出Fold Planet-500折叠星球衣物折叠数据集 专为训练和评估下一代智能叠衣机器人、衣物折叠算法及计算机视觉模型而打造的核心资源库 [3][4] - 数据集包含500+小时高质量、多样化的叠衣任务实例 覆盖不同衣物和不同折叠阶段 [7] - 数据集发布即包含500小时以上高质量叠衣任务实例 数据采集过程标准化以降低数据处理成本 [7] 数据集核心价值 - 数据集价值在于真实场景与专业动作 包含绝大部分常见衣物类型的专业级折叠流程 由专业人员在真实场景执行验证以确保动作合理性和真实性 [5] - 提供多模态数据并实现精准对齐 包括多角度高分辨率视觉感知数据、全身31节点动作捕捉数据以及步骤化自然语言语义标注 [6] - 多模态数据适配预训练、微调和评测多环节 是训练模型理解动作意图和执行步骤的黄金数据 [6] 产品应用场景 - 应用于智能家居机器人 为家用服务机器人提供核心衣物折叠技能学习数据 加速实现洗衣-烘干-折叠-收纳全流程自动化 [9] - 应用于商业自动化场景 如大型洗衣工厂和酒店布草处理中心 以提升衣物后处理效率和标准化程度 [9] - 推动计算机视觉研究 包括衣物状态识别、精细动作理解和多步骤任务规划等前沿技术发展 [10] - 为机器人学习与模仿提供宝贵真实世界演示数据 支持模仿学习和强化学习等算法 [11] - 服务于AI助手与虚拟教学 为开发衣物整理教学APP或AR/VR应用提供标准化动作分解指导 [12] 公司背景与定位 - 上海星际硅途技术有限公司成立于2025年4月 2025年9月入驻上海人形机器人孵化器 [14] - 公司是具身智能数据解决方案服务商 致力于通过动作捕捉+视觉感知+语义标注的多模态技术进行真实场景下的人类数据采集 [14] - 公司目标是建立通专融合、覆盖千行百业的数据生态 推动具身智能数据行业宽度和深度的发展 促进具身智能大模型的快速迭代 [14]