Workflow
具身智能之心
icon
搜索文档
光会“看”和“说”还不够,还得会“算”!Tool-Use+强化学习:TIGeR让机器人实现精准操作
具身智能之心· 2025-10-11 16:02
文章核心观点 - 公司提出TIGeR框架 旨在解决当前视觉语言模型在机器人操作中缺乏精确几何量化能力的关键痛点 通过工具调用和强化学习使AI模型能从定性感知转向定量计算 [2] - TIGeR框架的技术路线具有前瞻性 与最新发布的Gemini Robotics 1.5所强调的Agentic Tool Use方向一致 [3] - 在多项空间理解基准测试中 TIGeR的表现超越了包括Gemini-2.5-Pro和GPT-4o在内的主流模型 并在真机测试中完成了其他模型无法胜任的高精度操作任务 [11][16] TIGeR框架的技术优势 - 实现精确定位 通过集成深度信息和相机参数 能将如“上方10厘米”的指令精确转换为三维坐标 达到普通视觉语言模型无法实现的操作精度 [7] - 支持多视角统一推理 在多镜头场景下可将各视角信息合并 并在统一的世界坐标系中进行场景构建和推理 [7] - 具备透明可解释性 模型的每一步推理过程清晰可见 包括工具调用 参数输入和结果输出 便于调试优化并增强操作可信度 [7] TIGeR的训练方法与数据 - 采用两阶段训练流程 第一阶段通过监督学习使用大规模数据集教授基础工具使用方法和推理链 第二阶段通过创新的分层奖励机制进行强化学习 精细打磨模型使用工具的准确性和过程完美度 [8] - 为训练构建了TIGeR-300K大规模高质量数据集 包含30万个样本 覆盖各类核心任务 其构建结合了模板化生成以保证规模和基础问题解决能力 以及利用大模型改写以增强泛化性和应对真实世界复杂指令 [10][13] 性能表现与基准测试 - 在CV-Bench基准的2D-Rel 3D-Depth 3D-Dist任务上分别达到93.85% 96.33% 95.17%的准确率 均超过对比模型 [10][14] - 在BLINK基准的Depth和Spatial任务上分别达到91.94%和86.01%的准确率 [10][14] - 在RoboSpatial基准的M.V. Conf. Comp. Cont.任务上分别达到60.15% 82.11% 82.86% 32.79%的准确率 在EmbSpatial和Q-Spatial++任务上分别达到80.82%和70.30%的准确率 [10][14]
对刚入门具身的同学来说,试错成本确实有点高......
具身智能之心· 2025-10-11 16:02
社区定位与价值主张 - 社区定位为国内首个具身全栈社区,旨在打造超大的具身与机器人社区,满足初学者学习和进阶需求[13] - 核心价值在于降低行业进入门槛,解决学习者缺乏完整知识体系和试错成本高的问题[1] - 社区致力于在成员求职时提供职位内推和辅导,升学时提供信息和选择建议[1] 社区资源与内容体系 - 汇总近30+技术路线,覆盖从benchmark、综述到学习入门路线,旨在缩短用户检索时间[4] - 整理近40+开源项目、近60+具身智能相关数据集以及行业主流仿真平台[14] - 提供超过15个专项学习路线,包括具身智能感知、交互、强化学习全栈、VLN、VLA/VLA、Diffusion Policy等[14][15][43][63] - 汇总机器人导航、概率机器人、动力学与运动学、路径规划、视觉控制等多个方向的PDF书籍供基础学习[27] - 针对具身感知、触觉感知、导航、大模型、机械臂抓取等领域的开源数据集进行了汇总[37] 行业覆盖与产学研链接 - 社区成员来自斯坦福大学、加州大学、清华大学、ETH等国内外知名高校实验室,以及智元机器人、优必选、小米等具身机器人头部公司[14] - 汇总了国内外具身智能高校实验室,供成员读研、申博、博后参考[18][19] - 汇总了国内外各类具身相关机器人公司,涉及教育、宠物、工业、救援、物流、交互、医疗等方向[22] - 汇总了大模型、人形机器人等行业相关研报,帮助成员了解行业发展与工业落地情况[24] - 汇总了机器人行业知名零部件制造厂商,涉及芯片、激光雷达、相机、IMU、底盘等品牌[29] 专家网络与互动机制 - 邀请了数十位活跃在一线产业界和工业界的具身领域嘉宾,成员可随时提问并获得答疑解惑[4] - 社区提供圆桌论坛、直播等活动,分享从本体、数据到算法的行业动态与问题[4] - 成员可在社区内自由提问,无论是工作选择还是研究方向选择都能得到解答[75] - 社区与近2000名同学、200家具身公司与机构共同交流产业、学术、工程落地等话题[78] 职业发展支持 - 与多家具身公司建立岗位内推机制,可第一时间将成员简历送至心仪公司[6] - 分享多家头部具身机器人公司的招聘岗位信息[7] - 为入门者整理技术栈和路线,为从业者提供产业体系和项目方案[8][10]
港中文(深圳)冀晓强教授实验室全奖招收博士/博士后
具身智能之心· 2025-10-11 16:02
研究内容与方向 - 实验室聚焦人工智能控制理论、具身智能控制及强化学习控制等核心研究方向[11] - 致力于深度融合控制论、人工智能、机器人学、高性能计算及大数据等基础科学[13] - 开展人工智能与智能系统领域的基础理论与原创性研究[13] 任职要求与候选人背景 - 博士后需已获得或即将获得控制科学与工程、人工智能、机器人、计算机科学等相关专业博士学位[2] - 博士研究生需已获得或即将获得计算机科学、数据科学、自动化等相关专业硕士学位或优秀学士学位[3] - 硕士研究生需已获得或即将获得计算机科学、数据科学、自动化等相关专业本科学位[5] - 候选人需对控制理论、人工智能、机器人学有浓厚科研兴趣并具备扎实数学和编程基础[4] 通用技能与加分项 - 熟悉CLIP、BLIP、LLaVA等多模态大模型及其应用[6] - 熟悉VAE、Transformer、BERT等经典模型并具备实现与调试能力[7] - 具备出色算法设计与编程能力,熟悉Linux,掌握C++/Rust等高性能语言者更佳[8] - 了解LLaMA、Qwen等大语言模型架构,具有无监督预训练、SFT、RLHF等实践经验者优先[9] - 曾在IJRR、ICRA、IROS、RSS等机器人顶会或ICML、NeurIPS、ICLR等AI顶会发表论文者优先[12] - 拥有顶尖竞赛经历或知名企业核心AI项目主导经验者优先[12] 导师与实验室资源 - 实验室导师冀晓强教授为香港中文大学(深圳)理工学院助理教授,主持多项国家级及省市级科研项目[13] - 实验室在IEEE Transactions on Automatic Control、Automatica等顶尖期刊及会议发表论文五十余篇[13] - 实验室提供国际化科研氛围、丰富算力资源及行业合作机会[2] 福利待遇 - 博士后可获得省市生活补助每人每年税前21万元,总额不超过42万元,大学另提供每人每年5万元专项补贴[14] - 博士后符合条件者可申请广东省海外博士后人才支持项目,享受在站补贴税前60万元/2年,出站留粤补贴税前40万元/3年[14] - 博士后可申请各级科研课题资助,出站后深圳市给予30万元科研或创业资助[14] - 博士生可获全奖/半奖,学费全覆盖并额外提供生活津贴,优秀者可申请校长奖学金税后18万/年[15] - 研究型硕士优秀者可额外提供生活津贴,毕业后有转PhD机会[16] 申请流程 - 申请材料需包括个人完整中英文简历、已发表代表作论文及其他证明个人科研能力的材料[19] - 申请邮件需以“姓名-当前所在单位/机构-博士后/博士/研究型硕士申请”为题发送至指定邮箱[17]
具身智能迎来数据革命!它石智航发布WIYH数据集,比特斯拉Optimus领先半年
具身智能之心· 2025-10-11 10:00
行业核心问题与解决方案 - 主流大模型预训练依赖的互联网数据和仿真数据存在质量参差不齐、缺少动作信息、真实性有限及场景泛化难等不足,导致模型难以丝滑迁移到现实世界 [1] - 对人形机器人而言,实现“具身智能”的最大难关并非算法,而是如何获得规模化、真实、可泛化的高质量训练数据,这已成为行业公认的“卡脖子”难题 [1] - 公司发布的全球首个大规模真实世界具身VLTA多模态数据集World In Your Hands,旨在解决上述数据短缺与质量问题,标志着以人为中心的具身数据引擎新范式正式确立 [1] WIYH数据集的核心特征 - 数据集具备四大核心特征:真实(采集源于真实具身任务)、丰富(横跨多个行业与操作技能)、全面(囊括视觉、语言、触觉、动作多模态全真值)及海量(量级上限堪比大语言模型) [3] - 数据采集覆盖酒店洗衣、超市装配、物流作业等多种真实工作场景的人类标准操作流程,解决了“数据量少、质量低、成本高”的问题 [3] - 通过深入真实生活操作场景采集数据,对比业内高成本自建数采工厂,显著提升了数据的真实性、多样性和泛化能力,同时降低数采成本一个数量级以上 [4] WIYH数据集的独特优势 - 在模态完整性上,通过自研采集套件同步获取视觉、力触觉和动作数据,确保多源数据在时间和空间上的精准对齐 [4] - 在数据标注链路上,依托云端基础大模型完成高精度标注,覆盖2D语义、场景深度、操作任务分解等多粒度真值标签,为模型预训练提供全面多维的监督信号 [4] - 该数据集是行业首次将视觉、语言、触觉与动作多模态数据在真实世界大规模跨行业跨任务采集,为未来实现具身基座模型的规模定律奠定了基础 [1] 行业影响与未来展望 - WIYH数据集的发布标志着以人为中心的具身数据新范式确立,让面向真实世界的具身AI World Engine预训练成为可能 [6] - 数据集立足“千行百业”,有望实现“一模千任”,成为通用具身基座模型训练的关键语料和基础设施,推动行业应用从单一任务迈向具备通用操作能力的新阶段 [6] - 公司计划于2025年12月面向行业共享开放该数据集,致力于为行业提供最优质的本体、数据和模型解决方案,以推动开放繁荣的具身智能生态 [6]
今晚分享!首篇智能体自进化综述:如何迈向超级人工智能之路?
具身智能之心· 2025-10-11 04:00
自进化智能体领域现状 - 人工智能领域正经历范式变革,从提升静态模型规模转向构建能实时学习和适应的动态智能体,自进化智能体是引领变革的全新范式[1] - 尽管学术界与工业界对自进化智能体的兴趣与日俱增,但整个领域仍缺乏系统性的梳理与顶层设计[1][6] - 多数研究将演化作为智能体整体框架的子集,未能深入回答该领域三个根本问题:智能体的哪些部分应该演化、演化何时发生以及演化如何实现[1][6] 行业核心研究问题 - 行业关注智能体自进化在哪些部分发生[5][6] - 行业关注智能体自进化在何时发生[5][6] - 行业关注智能体自进化如何实现[5][6] 行业研究资源 - 普林斯顿/清华/上交等机构联合发布了首篇智能体自进化综述论文《A Survey of Self-Evolving Agents: On Path to Artificial Super Intelligence》[5][11] - 论文链接为https://arxiv.org/pdf/2507.21046,汇总仓库为https://github.com/CharlesQ9/Self-Evolving-Agents[5] - 清华大学计算机系&智能产业研究院博士生高焕昂将进行专题分享,深入探讨该领域[2][6]
Being-VL的视觉BPE路线:把「看」和「说」真正统一起来
具身智能之心· 2025-10-11 00:02
文章核心观点 - 提出一种名为Being-VL的新方法,旨在解决多模态模型中视觉表征过早对齐文本空间导致细节丢失和幻觉的问题 [1] - 该方法的核心是将图像先进行离散化并“分词”,再与文本在同一词表和序列中由同一Transformer统一建模,从源头缩短跨模态链路并保留视觉结构先验 [1] - 通过视觉版BPE(Byte Pair Encoding)技术,在合并token时不仅考虑共现频次,还显式度量空间一致性,以优先合并既常见又在不同图像中相对位置稳定的token对 [2][7] - 采用三阶段渐进解冻训练策略,从基础对齐逐步过渡到全量微调,能在不扰动语言能力的前提下稳步提升跨模态理解 [9][12][15] 技术实现路径 - 实现分为三步:首先用VQ(如VQ-GAN)把图像量化为离散VQ tokens;随后训练一个视觉版BPE,得到更具语义与结构的BPE tokens;最后把视觉tokens与文本tokens串成同一序列,进入同一个自回归LLM统一建模 [2] - 视觉BPE tokenizer采用Priority-Guided Encoding,基于score P(a,b)=F(a,b)+α・S(a,b)进行词表构建,其中F为邻接频次,S衡量在不同图像中的相对位置一致性 [7] - 三阶段训练策略具体为:Stage-1只训练新扩展的视觉token embeddings;Stage-2解冻LLM前约25%的层;Stage-3全量解冻,在更复杂的推理/指令数据上收尾 [15] 实验效果与分析 - 相较于传统“先拉到文本空间”的做法,统一的离散表示更少丢失原生视觉信息,在细节敏感的问答与抗幻觉上更可靠 [12] - 移除BPE后,性能与稳健性会整体下降,说明增益主要来自于把“常见且空间关系稳定”的视觉模式合成更有语义的tokens [12] - 在训练资源受限情形下,与VQ等规模的码本在表达能力与训练效率之间取得更佳平衡,处于“甜点区”;词表增大至≥16K时会出现大量低利用率token [19] - 嵌入权重可视化显示,引入visual BPE后,文本与视觉token的权重分布趋于均衡与同构,降低了模态间的分布漂移与共现偏差 [16] 项目发展历程 - Being-VL-0 (ICLR 2025) 给出了视觉离散化+BPE的可行性与动机,并初步探索了两阶段训练策略 [23] - Being-VL-0.5 (ICCV 2025 highlight) 将这一路线进一步优化为统一建模框架,包含Priority-Guided Encoding、三阶段渐进解冻及配套的课程数据策略 [23]
为「具身智能」打造专属眼睛:思岚科技Aurora S全集成AI空间感知系统破晓而来!
具身智能之心· 2025-10-11 00:02
产品发布与定位 - 思岚科技正式发布新一代全集成AI空间感知系统Aurora S [1] - Aurora S是一个集成了AI算法和配套算力的空间智能感知系统,旨在为具身智能机器人提供开箱即用的强大空间感知能力 [1] - 该系统标志着机器人感知技术从功能机时代迈向智能机时代,通过全集成、AI驱动、多模态融合的设计解决行业痛点 [29] 技术革新与核心优势 - Aurora S最大的革新在于高度集成化,将自研的深度学习AI-VSLAM算法、双目深度估计和语义识别能力所需的算力硬件集成于仅238克的紧凑机身内 [3] - 系统提供从稀疏点云到带有真实色彩纹理的稠密3D地图的跨越,结合实时语义标注,使机器人能理解环境的具体物体 [7][8] - 新一代AI-VSLAM基于自研深度学习模型,在传统方案易失效的苛刻场景下表现卓越,例如能在新加坡体育馆75,000平方米的室外环境稳定建图 [11][15] - 系统具备实时闭环修正与图优化引擎,可自动修正建图累积误差,确保长期运行的可靠性 [17] - 采用120°超广角双目视觉提供高质量深度点云,并具备像素级语义理解能力,可实时识别超过18类室外场景和80类室内物体 [19][20][22] 对开发者的价值 - 极大降低开发门槛,无需额外配置算力或从头开发复杂视觉算法 [4] - 加速产品上市时间,提供开箱即用的高精度3D感知、建图与语义理解能力,让开发者聚焦于上层应用创新 [4] - 简化机器人系统设计,一体化设计极大简化了结构设计与电源管理 [4] - 配备完善工具链,包括Aurora Remote UI可视化工具和支持C++、ROS1/ROS2、Python的SDK,简化调试与集成流程 [26] 应用场景 - 赋能具身智能,为人形机器人、四足机器人提供核心视觉感知 [24] - 应用于数字孪生,高效进行3D场景重建和采集VLN/VLA训练数据 [24] - 服务于低速无人驾驶领域,如园区物流和安防巡检机器人 [24] - 赋能户外机器人,如割草机、智慧农业机器人,应对复杂非结构化环境 [24] - 提升工业自动化水平,增强AGV/AMR在动态车间环境下的智能 [24] 生态系统与扩展能力 - 可快速接入各类3DGS框架,实现前沿3D重建能力 [28] - 生成的地图和数据可一键导出用于3DGS等框架的输入数据集,支持SOTA模型评估和研究 [28] - 生成的模型文件可轻松导入Nvidia Omniverse等框架,用于VLA/VLN真值数据生成或sim-to-real训练 [28]
具身机器人赋予了强化学习许多新的应用场景!
具身智能之心· 2025-10-11 00:02
强化学习在具身智能领域的应用 - 强化学习是具身智能机器人(包括人形和四足机器人)实现步态控制等复杂任务的核心技术,赋予产品适应救援、测量、危险环境的能力 [3] - 机械臂的视觉语言动作模型与强化学习结合方案在学术领域越来越受欢迎,使机器人执行任务更高效、丝滑与顺畅 [4][9] - 行业领先公司如宇树、智元的人形机器人已通过强化学习完成爬楼梯、爬山、跑步、跳舞、翻跟头等高难度动作的学习 [3] 强化学习论文辅导课程核心内容 - 课程周期为14周在线集中辅导加8周论文维护答疑,采用6人小班制,每周1次直播授课并配有专属助教答疑 [8][10][18] - 课程提供四足机器人、人形机器人、机械臂、视觉语言动作模型与强化学习四个大方向,每个方向提供6个以上可创新的研究想法 [10][19][30] - 课程基于最新的IsaacLab仿真环境,提供可复现的基线代码,涵盖仿真到真实的完整流程 [18][19][23] 课程产出与学习目标 - 目标产出是帮助学员完成一篇符合机器人顶会或顶刊(如RAL/ICRA/IROS/CoRL)投稿要求的论文初稿 [8][10][29] - 学员将掌握从科研选题、数据与基线、方法与工程到评测标准、写作与投稿的全流程,即使没有成熟想法也能在提供的基线上迭代出论文初稿 [17][19][23] - 课程结束后有8周维护期,提供补实验、改图、润色与审稿回复支持,确保论文达到投稿质量 [10][25][34] 课程师资与特色 - 授课老师Jack来自美国顶尖高校,是具身智能与机器人领域的博士后研究员,拥有深厚的理论沉淀与实战经验,并在顶级会议期刊发表过多篇论文 [27] - 课程特色包括三轨并跑(四足、人形、机械臂三选一)、工程到科研一体化、以及每周明确的里程碑与量化指标 [18][19][36] - 课程强调科研闭环,提供方法论证、实验结果、写作方式等模块的全程陪跑,与普通训练营形成差异化 [18][36]
具身智能之心1v1论文辅导来啦~
具身智能之心· 2025-10-10 03:14
核心业务与服务 - 公司提供一站式论文辅导服务,专注于具身智能等前沿研究领域,包括多模态大模型、视觉语言动作、机器人抓取导航等方向 [1] - 服务覆盖从选题创新点挖掘、实验设计、代码调试到论文写作和投稿策略的全流程闭环辅导 [2] - 辅导服务涵盖CCF-A到CCF-C各类会议以及SCI一区到四区期刊,支持EI、中文核心、毕业论文和申博等多种需求 [1] 目标市场与专业领域 - 目标客户为研究具身智能前沿领域的学生和学者,具体研究方向包括3D高斯泼溅的实时渲染与动态场景建模、具身智能体的跨任务迁移与零样本适应等 [1] - 公司专注于顶级学术会议和期刊的产出,涉及领域包括ICML、ICLR、CoRL、ICRA、NeurIPS、CVPR等 [1] 竞争优势与团队构成 - 导师团队来自CMU、Stanford、MIT等国内外名校的PhD及大厂研究员,拥有顶级会议审稿经验 [1] - 公司提供工业界与学术界双视角辅导,不仅关注论文发表,更注重技术落地价值,如机器人抓取鲁棒性和导航实时性优化 [3] - 公司为前10名咨询者提供免费专属导师匹配和深度Meeting服务,进行一对一研究方向分析和选投建议 [4]
Figure AI正式发布新款人形机器人,都带来了哪些令人眼前一亮的设计?
具身智能之心· 2025-10-10 03:14
以下文章来源于机器觉醒时代 ,作者机械偃甲 机器觉醒时代 . 聚焦具身智能机器人赛道,专注追踪和洞察下一个时代风口 —— 硅基智能!从技术突破到产品落地, 从行业动态到未来图景,这里有你想了解的所有前沿干货。 点击下方 卡片 ,关注" 具身智能之心 "公众号 编辑丨机器觉醒时代 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 2022年5月,连续创业者 Brett Adcock 在硅谷创立人形机器人公司Figure。 2025年9月16日,Figure宣布完成C轮融资,本轮融资规模超10亿美元,企业投后估值同步攀升至 390 亿美元,此轮融资将主要用于加速通用人形机器人在现实场景中的大规模落地应用。 从成立到完成 C轮融资仅用三年时间,完成C轮融资后,企业估值达到390亿美元,使其成为当前全 球估值最高的人形机器人独角兽公司。 2025年10月9日,Figure发布第三代人形机器人Figure 03。该机器人身高约1.68米,体重60kg,最长 续航时间为5小时,有效负载20kg,移动速度达1.2米/ ...