Workflow
具身智能之心
icon
搜索文档
两院院士增选结果揭晓:周志华、刘云浩当选科学院院士
具身智能之心· 2025-11-21 16:03
2025年两院院士增选总体情况 - 中国科学院选举产生73名院士和27名外籍院士,中国工程院选举产生71名院士和24名外籍院士 [1][5][24] - 增选后中国科学院院士总数达908人,中国工程院院士总数达1002人 [2] - 新当选中国科学院院士平均年龄57.2岁,最小年龄44岁,60岁及以下占比67.1% [1] 人工智能及相关领域院士增选亮点 - 计算机与人工智能领域多位顶尖学者入选,显示国家对前沿科技的重视 [3][6] - 清华大学刘云浩教授当选,研究方向包括物联网、工业互联网、具身智能导航,谷歌学术引用48000余次,H-index达105 [7][9][10] - 南京大学周志华教授当选,长期从事机器学习理论与方法研究,相关技术已应用于大型企业和国家重大工程 [11][13][14] 信息技术科学领域新当选院士 - 信息技术科学部共增选11名院士,涵盖计算机系统结构、机器学习、信号处理、脑认知模式识别等方向 [15] - 具体包括清华大学刘云浩(计算机系统结构)、南京大学周志华(机器学习理论与方法)、国防科技大学胡德文(脑认知模式识别)等 [15] 中国工程院信息与电子工程学部增选 - 信息与电子工程学部增选9名院士,来自北京邮电大学、中国科学技术大学、中国移动等高校和企业 [26] - 研究方向涵盖通信、网络安全、人工智能等,如中国科学技术大学吴枫 [26] 外籍院士中的科技领域专家 - 中国科学院外籍院士包括多位人工智能和信息技术专家,如迈克尔·乔丹(信息技术科学)、阿洛基亚·那桑(信息技术科学)等 [20][21] - 中国工程院外籍院士包括郭毅可(数据科学、人工智能)、申作军(人工智能与供应链优化)等人工智能领域专家 [36]
VLA-Pruner:面向高效VLA推理的时序感知视觉token剪枝
具身智能之心· 2025-11-21 16:03
研究背景与核心挑战 - 视觉-语言-动作模型是具身智能的核心方向,能整合视觉感知、语言理解和动作执行,但处理连续视觉流时计算开销巨大,视觉Token数量通常是文本Token的一个数量级,严重限制实时部署 [2] - 现有视觉Token剪枝方法仅依赖预填充阶段的语义显著性指标筛选Token,但VLA模型存在双系统本质,高层语义理解与底层动作执行对视觉信息需求截然不同,导致现有方法过度偏向保留语义相关Token,却剪掉动作执行必需的局部细节Token [3] - 实验显示预填充与动作解码的Top-k Token重叠率仅约50%,甚至低于30%,直接证明单一语义准则无法适配VLA模型 [4] - 机器人操作具有天然的时间连续性,连续时序的动作解码注意力高度重叠,这为解决动作解码注意力在预填充阶段不可得的核心矛盾提供了突破口 [5] 方法设计:VLA-Pruner的核心逻辑 - VLA-Pruner采用双级重要性准则,兼顾语义与动作需求,语义级相关性采用视觉-语言预填充阶段的注意力分数量化语义重要性,动作级重要性则利用时间连续性通过历史数据估计动作解码注意力 [7][9] - 采用双级Token选择策略,遵循最小冗余-最大相关性原则,先进行双级Top-k筛选得到语义候选集和动作候选集,再通过最大化Token特征多样性去除冗余 [9][11] - 动作解码注意力的时序平滑估计采用衰减窗口平均机制,窗口大小设为3,衰减率设为0.8,既捕捉时序趋势又避免陈旧数据干扰 [13] - 实现细节显示该方法在50%、25%和12.5%的Token保留率下,最大内存占用和CUDA时间均优于或接近基线方法 [14] 实验验证:性能与效率的双重突破 - 在50%剪枝率下,VLA-Pruner不仅无性能损失,还能提升成功率,OpenVLA平均提升2.45%,OpenVLA-OFT提升1.05%,原因是精准过滤了语义冗余且不影响动作的噪声Token [16] - 在87.5%的高剪枝率下,VLA-Pruner仍保持88.9%和88.27%的相对性能,远超基线最高34.39% [16] - 在SIMPLER环境中75%剪枝率下,整体成功率达96.8%,显著高于FastV的73.1%和VLA-Cache的77.2%,证明在分布偏移场景下的鲁棒性 [19] - 在π₀模型上,50%剪枝率下平均成功率达100.89%,87.5%剪枝率仍保持87.97%,验证跨架构适配性 [20] - 效率方面,50%剪枝率下FLOPs降至原生模型的60%左右,87.5%剪枝率降至30%左右,最高实现1.8倍推理加速 [26] 消融实验与关键设计验证 - 消融实验证明双级准则的必要性,仅语义准则导致动作操控精度下降,仅动作准则牺牲任务规划能力,两者性能均远低于双级准则 [23] - 时序平滑价值分析显示窗口大小w=3最优,w=1性能下降,证明短期时序连续性的重要性 [27] - 剪枝层位置分析表明第3层剪枝能平衡性能与效率,层数过浅导致特征提取不充分,过深则计算量节省有限 [25][27] 核心贡献与未来方向 - 首次揭示VLA模型的双系统注意力特性,提出语义加动作双级剪枝准则,解决现有方法的本质缺陷 [31] - 利用机器人操作的时间连续性,通过时序平滑桥接预填充阶段无法获取动作注意力的矛盾 [31] - 设计无训练、即插即用的剪枝框架,在不修改模型架构的前提下实现高效推理 [31] - 未来优化方向包括用自适应预测模块替代固定窗口平滑,结合量化、层剪枝等技术提升部署效率,扩展至多模态视觉输入的Token剪枝 [31]
每家具身公司都在重复造轮子,数据孤岛问题怎么解决?
具身智能之心· 2025-11-21 16:03
智源Open Day行业合作与数据开源 - 智源作为非营利第三方组织,召集星海图、银河通用、原力灵机、智元、自变量、加速进化、北京人形等多家头部具身公司CEO或联合创始人,共同探讨打破数据孤岛、共建生态 [1] - 平台正逐渐开源移动操作、机械臂等多个本体数据,并宣布开源百万级高质量真机具身数据,这些数据经过清洗、标注和对齐 [1] - 发布全流程开发平台RoboXstudio和数据软件框架CoRobot,打通从数据采集、标注管理、训练到评测部署的整套流程,帮助创业公司降低平台搭建成本 [1] 行业统一评测标准与生态优化 - 引入“统一评测”机制,旨在通过统一标准区分机器人产品优劣,改变以往各自宣称最佳的局面 [2] - 对于本体公司,向开源平台贡献更多数据将获得更好的优化效果,统一评测促进整个行业从各自为战转向有组织发展 [2] 具身智能之心知识星球社区资源 - 社区已搭建近一年,形成技术路线分享、直播、问答、求职、赛事等多个版块,实现产业、学术、求职、问答交流的闭环 [2] - 社区成员近3000名,来自国内外200多家具身公司与机构,包括斯坦福大学、清华大学、智元机器人、优必选等知名高校和企业 [12][13][81] - 社区汇总了40+开源项目、60+具身智能相关数据集以及行业主流具身仿真平台 [14] 社区技术学习路线与内容体系 - 提供完整的技术学习路线,涵盖具身智能感知、交互、强化学习、多模态大模型、机械臂抓取、机器人导航等近20个方向 [14] - 社区内容包含持续直播分享、产业项目方案、内推求职服务,并与多家具身公司建立岗位内推机制 [4][9][10][11][12] - 汇总国内外具身智能高校实验室和公司信息,涉及教育、宠物、工业、救援、物流、交互、医疗等多个方向 [16][17][19] 行业研究资料与开发工具汇总 - 社区内部汇总大模型、人形机器人等行业研报,以及机器人导航、概率机器人等方向的PDF书籍 [21][24][25] - 提供机器人零部件品牌汇总,包括芯片、激光雷达、相机、IMU、底盘等知名制造厂商 [27] - 针对机器人仿真、抓取、控制、感知等领域汇总开源项目,并详细整理各类开源数据集,方便开发者快速上手 [30][34][36]
第一家人形机器人公司,被量产拖死了......
具身智能之心· 2025-11-21 09:59
公司概况与事件 - 公司为K-Scale Labs,成立仅一年,曾获种子轮融资,估值达5000万美元 [2] - 公司近期正式宣布解散,倒闭直接原因为现金流枯竭及无法继续融资 [2] - 公司曾对标机器人公司宇树 [2] 战略失误分析 - 公司战略失误之一为放弃低端市场产品Z-Bot,该小型机器人价格不到1000美元,是一款易于验证市场并可能带来现金流的产品 [2] - 公司转而将所有精力投入高端市场产品K-bot的开发 [2] 量产与供应链问题 - 高端产品K-bot成本极高,近一年仅生产出10台原型机,每台成本高达10万美元 [2] - 公司缺乏完整的本土供应链,导致成本无法降低,与国内许多公司已实现低成本形成对比 [2] - 尽管从5月初至今获得100台订单,总金额超过200万美元,但因量产成本过高,公司最终选择向客户全额退款并解散 [3]
实力出圈,43秒搞定工业任务!拎桶分拣惊艳全场。
具身智能之心· 2025-11-21 04:01
赛事与获奖情况 - 公司携自主研发的TeleAvatar机器人参加2025年第二届中关村具身智能机器人应用大赛,在遥操作模式下的7个细分赛项中全部斩获一等奖[2] - 本届大赛由中关村科学城管委会主办,旨在推动具身智能技术从算法突破走向场景落地,赛事设置三大赛道,构建总额200万元的差异化奖励体系[4] - 大赛汇聚全球157支顶尖团队同台竞技,公司参与的第二赛道为具身智能场景应用赛[2][4] 技术应用与场景表现 - 公司报名参与了遥操作模式下的家庭服务、工业制造、安全处置三大场景的7个细分赛项,覆盖物料搬运、零件装配、桌面清洁、危险物品识别与抓取等实用任务[4] - 在工业制造场景中,TeleAvatar机器人完成物料搬运任务耗时43秒,完成零件装配任务耗时1分22秒[6] - 在家庭服务场景中,完成桌面清洁任务耗时45秒,完成衣物晾晒任务耗时55秒,并在垃圾拣选任务中展示了创新的操作方式[7] - 在安全处置场景中,完成表数读取任务耗时1分27秒,并在危险物品识别与抓取环节反应迅速[10] 技术实力与公司背景 - 公司由清华大学自动化系顶尖运动控制团队创立,核心成员多来自清华优势学科,依托创始人莫一林教授的科研资源构建技术根基[17] - 公司成立于今年2月,专注高性能遥操作技术,参赛的TeleAvatar机器人搭载自研TeleDroid控制平台,集成七轴机械臂与双目视觉系统,实现低延迟传输与高精度动作复刻[17] - 赛事中,机器人展现了“快、准、稳”的核心优势,各项任务耗时均远超赛事均值时间标准,并以“零失误”完成比赛[6][17] 行业认可与市场反馈 - 海淀区委书记张革一行现场视察了TeleAvatar机器人的实操演示,并与公司CEO金戈进行交谈,对公司的创新方向给予肯定,鼓励公司持续深耕技术,加快成果转化[11] - 现场观众、媒体记者及大赛工作人员对机器人的操作流畅度、实用性和技术落地性给予了高度评价[14] - 公司联合创始人李章晶表示,参与此次大赛提升了项目的行业知名度与关注度,为后续推广与融资奠定了基础[17] 未来发展方向 - 公司未来将持续以场景需求为导向,迭代优化TeleAvatar机器人的核心性能,推动“真干活、能落地”的具身智能技术走进产业生产与日常生活[23] - 公司旨在通过技术赋能,为产业升级与民生改善贡献科技力量[23]
GEN-0 以及后续的 VLA 发展的看法
具身智能之心· 2025-11-21 00:04
GEN-0模型的技术突破 - GEN-0通过数据工厂采集了270,000小时(约31年)的真实机器人操作数据,目前每周新增10,000小时采集能力[2] - 数据规模相当于每周采集三个当前最大数据集(如OXE或AgiBot-World)的总和[2] - 模型经过半年预训练后展现出比Pi系列更强的性能增益,为后训练提供了更好基础[2] 具身智能领域数据技术演进 - 真实数据采集(UMI)相比仿真数据在长时序任务中具有显著效率优势,成功率接近100%而仿真数据为子任务成功率的乘积[8] - 仿真数据面临sim2real差距挑战,包括视觉差距和物理差距,对布料和软体等物理现象仿真仍不完善[8] - 数据工厂方案在数据多样性方面超越仿真方案,GEN-0通过规模化人力投入实现了数据问题的解决[7] 视觉语言动作模型发展趋势 - 模型参数规模必须增大才能有效利用海量数据,小模型在数据过载时会出现“僵化”现象而大模型持续提升[11] - VLA基础设施(Infra)存在巨大发展空间,需要专门针对时序因果性的研究而非简单套用上游领域方法[11] - 预训练主要学习动作空间的探索能力而非概念泛化能力,模型在VL(视觉语言)能力上的泛化表现有限[12] 预训练科学发现 - 数据质量与多样性比单纯数据量更关键,不同数据混合策略会产生不同模型特性[13] - 低MSE+低reverse-KL模型适合监督后训练,高MSE+低reverse-KL模型更具分布多峰性适合强化学习后训练[13] - 预训练科学将逐渐成熟,国内数据工厂预计会跟进为行业带来预训练环境[14] 合成数据技术的现状与前景 - 仿真平台仍具有价值,特别是在强化学习、提供丰富标注和作为基准测试平台方面[9] - GenManip平台可在14K Objaverse资产上生成数万量级跨具身长时序数据,支持快速构建Manipulation基准[6] - InternData A1合成数据集展现出与Pi Dataset相当的预训练效果,证明合成数据技术的潜力[6]
分割一切并不够,还要3D重建一切,SAM 3D来了
具身智能之心· 2025-11-21 00:04
Meta SAM系列技术更新核心观点 - Meta发布SAM 3D和SAM 3两项重大更新,将图像3D理解与概念分割能力提升至新水平[1] - 两项新技术均具备业界领先的SOTA性能,并同步开放模型权重与推理代码[2][7] - 公司推出Segment Anything Playground平台,方便用户体验新模型能力[8] SAM 3D技术细节 - SAM 3D包含两个模型:SAM 3D Objects支持物体与场景重建,SAM 3D Body专注于人体形状与姿态估计[4] - SAM 3D Objects能从单张自然图像实现稳健、真实感强的3D重建与物体姿态估计,生成带姿态信息的3D模型[11][15] - 技术核心创新在于构建可扩展的数据引擎,通过标注近100万张图像生成约314万个3D网格,突破真实世界3D数据获取瓶颈[20][26] - SAM 3D Body基于全新开源3D网格格式MHR,构建于Transformer架构,使用包含约800万张图像的数据集训练,能处理遮挡、罕见姿态等复杂情况[30][31][33] SAM 3技术细节 - SAM 3引入可提示概念分割能力,能根据文本或图像提示找到并分割某个概念的所有实例,克服现有模型在细致请求下的困难[38][40] - 模型架构建立在Meta Perception Encoder等多项AI进展之上,检测模块基于DETR,跟踪模块基于SAM 2的memory bank技术[42] - 性能取得跨越式提升,将cgF1分数提升两倍,优于Gemini 2.5 Pro等基础模型和专业模型[44] - 推理效率极高,在H200 GPU上对单张含超100个检测目标的图像仅需30毫秒,视频中多目标情况下仍可保持近实时表现[44]
VLA+RL方向的同学可以看过来了~
具身智能之心· 2025-11-21 00:04
招聘背景 - 公司收到大量关于视觉语言动作与强化学习方向的咨询 希望进行更深入的内容讲解 [1] - 公司向全平台粉丝招募该方向的课程和项目辅导老师 旨在共同输出高质量内容 [1] 职位要求 - 应聘者需专注于视觉语言动作与强化学习的研究方向 [2] - 学术界应聘者需为博士及以上学历 拥有相关方向的顶级会议成果 [2] - 工业界应聘者需具备实战经验和真机调试经验 [2] 平台优势与待遇 - 公司是国内首个具身全栈技术交流社区 聚集了大量视觉语言动作与强化学习方向的学习者 [3] - 公司将提供高于行业平均水平的薪酬 [4] - 公司将提供丰富的行业资源 [4] 联系方式 - 详细内容可通过添加指定微信账号进行咨询 [5]
南洋理工大学提出NORA-1.5:一种基于世界模型与动作奖励的VLA模型
具身智能之心· 2025-11-21 00:04
文章核心观点 - 南洋理工大学等研究单位提出的NORA-1.5模型通过集成流匹配动作专家与奖励驱动的直接偏好优化后训练 解决了现有视觉-语言-动作模型在泛化性和可靠性方面的不足 [1][3] - 该模型在仿真与真实机器人场景中均实现了当前最优性能 持续超越现有SOTA模型 [1][3] 核心定位与解决的关键问题 - 聚焦视觉-语言-动作模型在跨载体部署和真实环境中可靠性与泛化性不足的痛点 [3] - 核心方案是在预训练NORA backbone基础上 新增流匹配动作专家 并搭配双组件奖励模型与DPO后训练 [3] - 核心成果体现在SimplerEnv LIBERO模拟基准和Galaxea A1真实机器人上的卓越表现 [3] 架构设计与技术方案 - 采用独立动作专家直接回归长度为的动作序列 输入为视觉-语言编码键值对 损失函数为流匹配损失 [5] - 动作专家与VLA backbone协同优化 专家利用VLA的场景与指令表征 VLA通过专家反馈优化轨迹规划连贯性 [5] - 基于Qwen-2.5-VL-3B视觉语言模型 经Open X-Embodiment数据集模仿学习预训练 采用FAST+动作分词器高效离散化多类型动作序列 [8] 奖励机制设计 - 采用双组件奖励模型设计 平衡目标导向与稳定性 核心奖励包括世界模型引导的目标奖励和真实动作偏差奖励 [5][6] - 总奖励为两者的加权组合 旨在平衡目标探索与轨迹稳定性 避免单一奖励的缺陷 [6] - 子目标奖励比终目标奖励平均性能高1.7% 在复杂环境中鲁棒性更强 [9][19] 训练流程 - 训练分为两阶段 第一阶段为动作专家联合训练 第二阶段为DPO后训练 [7][10] - 构建偏好数据集时基于总奖励生成胜败动作对 应用DPO目标函数对齐动作专家与VLA解码器输出 [10] 实验性能表现 - 在SimplerEnv零样本场景下 拾取可乐罐任务成功率超越基线4.6% 物体靠近任务成功率超越基线10.7% DPO后整体平均提升4.9% [11] - 在LIBERO长周期任务中 DPO后成功率提升1.0% 综合平均达95.0% 超越SOTA模型 [11] - 在Galaxea A1真实机器人9类拾取-放置任务中 成功率比NORA等模型提升13%-46% 在未见物体或指令场景下提升更显著 [15] - DPO后抓取准确率提升11% 干扰物误抓率下降4% 动作序列长度从9.7缩减至7.0 机器人抓手轨迹更平滑 [15][16]
坚持“具身大脑”与“人形本体”软硬⼀体!这家具身公司再获10亿融资
具身智能之心· 2025-11-20 10:52
融资与战略合作 - 公司于2025年11月20日完成近10亿元A+轮融资,由吉利资本领投,北汽产投战略投资,北京市人工智能产业投资基金及北京机器人产业发展投资基金联合注资 [1] - 融资将用于支持端到端VLA具身大模型ERA-42的技术迭代及落地应用,吉利资本和北汽产投的加入为产业应用打开战略协同空间 [1] - 公司坚持“具身大脑”与“人形本体”软硬一体全栈自研,致力于打造通用大脑及通用机器人 [1] 商业化进展与市场布局 - 公司2025年商业化高速增长,总订单额突破5亿元,物流行业最大单笔订单金额近5000万元 [2][3] - 业务形成“国内深耕+海外拓展”格局,海外业务收入占比达50% [3] - 全球TOP10市值科技巨头中有9家是公司客户,并与吉利、雷诺、顺丰、TCL、海尔、联想、世纪金源等企业达成深度合作 [3] - 海外业务覆盖北美、欧洲、中东、日韩,并成为SKILD AI、字节跳动、MIT、Stanford、清华、北大等全球顶尖机构的首选 [3] 核心技术:具身大脑ERA-42 - ERA-42是实现全尺寸人形机器人全身及五指灵巧手精准控制的具身大模型,全球仅四家机构掌握该技术,公司是中国唯一代表 [6] - 2024年9月公司全球首提分频VLA,推出HiRT快慢分层架构,通过latent向量连接70亿参数世界模型与4000万参数执行模型 [6] - 2024年12月发布全球首个融合世界模型的VLA算法框架VPP,将可用数据扩展至海量互联网视频数据 [6] - 2025年10月,清华与斯坦福团队联合提出可控生成世界模型“Ctrl-World”,将机器人在陌生场景的任务平均成功率提升44.7% [6] 应用场景与落地成效 - ERA-42已在物流、制造、商业服务等领域落地,形成“场景越丰富,模型越智能”的正向循环 [7] - 在物流领域可完成药品、日化品、包裹的分拣及扫码;在制造领域突破零部件抓取、高精度装配、质量检测等场景;在商业服务领域可完成客座清洁、物品递送、导游导览等任务 [7] - 部分应用场景效率当前达到70% [7] 硬件产品与研发能力 - 公司硬件自研比例超过95%,全栈自研关节模组、灵巧手、电机、减速器、控制器等,实现供应链垂直整合 [12] - 产品开发可像搭建乐高一样按月迭代,已推出覆盖科研、工业、服务领域的多款产品 [12] - 公司灵巧手以全直驱、利好强化学习的开发模式成为全球顶尖具身实验室论文标配,在2025年CoRL上多篇依托该灵巧手的学术成果被收录,并可操控100种工具 [13] - 全尺寸双足人形机器人星动L7是国内首个实现“大运动+巧操作”的机器人,在首届世界人形机器人运动大会夺得原地跳高冠军并创造跳远世界纪录,可担任供件员、分拣员、装配员及搬运工 [13] - 轮式服务机器人星动Q5已在海尔、卡萨帝、联想集团、世纪金源、大熊猫基地等企业及活动中投入应用,提供导览讲解、门店引流、商品介绍、快递等服务 [13]