具身智能之心

搜索文档
果然!秋招会惩罚每一个本末倒置的研究生!
具身智能之心· 2025-07-17 00:53
就业与科研辅导需求 - 当前就业形势变化快,毕业生普遍存在焦虑和内耗,建议校招社招两手抓并注重资源整合[1] - 在读学生需主动积累科研成果以提升就业或深造竞争力,避免被动等待[1] - 具身智能之心提供系统性科研辅导课程,针对不同阶段学生需求设计服务[1][3] 公司背景与资源 - 具身智能之心为国内最大具身类技术自媒体平台,旗下拥有自动驾驶之心/3D视觉之心等IP[3] - 拥有300+专职导师团队,均来自全球QS前100高校,发表过顶会/子刊论文[3] - 近3年辅导学员超400名,中稿率达96%,覆盖自动驾驶/具身智能/机器人等交叉学科[3] 服务内容与流程 - 12周标准化论文产出流程:从选题到投稿分阶段完成,含文献综述/实验设计/润色等环节[5] - 解决导师放养/知识碎片化问题,帮助建立科研思维体系及掌握经典与前沿算法[6] - 提供1v1在线授课+微信群答疑,含个性化指导/录播回看/24小时督学服务[12][16] 目标用户群体 - 计算机专业硕博生(尤其导师放养群体)及人工智能领域从业者[11] - 需提升职称/竞争力者,或考研申博留学需提升简历含金量者[11] - 目标产出CCF-A/B/C、SCI1-4区或EI会议论文的科研人员[12] 附加价值与保障 - 优秀学员可获清北/MIT推荐信或阿里达摩院/华为诺亚方舟内推机会[15] - 提供精准导师匹配系统,预收定金可试听,不满意可更换或退款[14][17] - 零基础学员通过6个月基础课程+文献带读可完成小论文产出[14]
小模型逆袭!复旦&创智邱锡鹏团队造出「世界感知」具身智能体,代码数据完全开源!
具身智能之心· 2025-07-16 09:12
核心观点 - 复旦大学与上海创新研究院提出的WAP框架通过四维认知叙事和三阶段课程学习,显著提升了视觉-语言大模型在具身规划任务中的表现 [2][5][6] - WAP框架使7B级开源Qwen2.5-VL模型在EB-ALFRED基准上的成功率从2提升至62.7(+60.7pp),超越GPT-4o和Claude-3.5-Sonnet等商业模型 [2][14] - 该方法仅依赖视觉闭环(RGB+指令),无需特权信息或外部模块,更贴近真实机器人应用场景 [4][6] 技术方法 - 四维认知叙事增强:在数据层注入视觉、空间、功能和句法四个维度的环境上下文信息 [9] - 三阶段课程学习:从基础感知到环境理解再到高阶语义的渐进式训练策略 [12] - 闭环观察机制:仅使用RGB观测和自然语言指令,不依赖动作成功信号等特权信息 [6] 性能表现 - Qwen2.5-VL-7B模型在完整WAP框架下达到62.7的平均成功率,长程任务成功率从0提升至70 [14][15] - InternVL3-8B模型同样实现显著提升,从6提升至61.0,长程任务成功率增长17.5倍 [14] - 消融实验显示完整框架(62.7)优于仅视觉/空间增强(46.7)或部分推理(54.0)的配置 [15][20] 应用案例 - 在"冰镇苹果切块后丢弃"任务中,WAP-Qwen成功拆解18个步骤并正确处理隐式条件,而基线模型直接失败 [16] - 模型展现出对复杂指令中隐式条件和因果顺序的准确理解能力 [16] 未来方向 - 计划拓展至连续控制和动态场景应用 [21] - 探索自监督叙事自进化机制,实现数据-模型闭环迭代 [21] - 框架已开源代码和数据集,促进社区发展 [19]
一周年啦,心酸历程!从野路子到一个专业的具身教育平台
具身智能之心· 2025-07-16 09:12
具身智能之心平台发展 - 平台成立一周年 从自动驾驶领域孵化而来 具身智能业务筹备历时1年 [1] - 产品、融资、技术层面均实现快速扩张 2家明星公司即将上市提振行业信心 [1] - 已研发VLA、VLN、DP、Sim2Real、强化学习等课程 技术路线沉淀至知识星球 吸引1500+成员加入 [1] - 业务从线上教育拓展至硬件研发 提供教具与配套教育方案 [1] 知识星球升级与福利 - 7月20日起价格上调至279元 转型为付费知识社区 [2] - 会员福利包括:自研平台购买优惠(最高7折)、课程优惠、内推求职、内部直播、产业学术进度追踪 [2] - 提供30+技术路线梳理 涵盖Benchmark检索、综述学习等 缩短用户研究时间 [2] - 邀请数十位产业界/学术界嘉宾入驻 来自顶级会议和访谈专家 [2] - 建立与多家具身公司的内推机制 可直接对接企业招聘 [8] 社区资源与内容体系 - 覆盖40+开源项目、60+数据集、主流仿真平台及技术学习路线 [13] - 技术路线包括:具身感知/交互、强化学习、多模态大模型、机械臂控制等13个方向 [13] - 汇总国内外30+高校实验室(如斯坦福、清华等)及头部公司(智元机器人、优必选等) [13][18] - 提供行业研报、机器人书籍、零部件品牌、开源项目等10类资源库 [21][24][26][28] - 专项内容涵盖ToF相机、3D视觉感知、触觉感知、Diffusion Policy等前沿领域 [30][38][44][54] 用户支持与互动 - 组织圆桌论坛和直播 分享本体/数据/算法等实战经验 [2] - 成员可自由提问工作选择、研究方向等问题 获得专家解答 [72] - 案例:指导研一学生优化实习项目 建议聚焦问题解决过程与仿真框架应用 [73] 行业定位与愿景 - 定位国内首个具身全栈社区 连接高校实验室与头部企业资源 [13] - 目标成为未来5-10年技术输出与行业关注的核心平台 [75]
ICCV 2025满分论文:一个模型实现空间理解与主动探索大统一
具身智能之心· 2025-07-16 09:12
具身智能导航技术突破 - 清华大学联合团队提出统一空间理解与主动探索的新型模型MTU3D,实现动态环境中的高效空间感知与自主导航,被ICCV 2025接收并获满分评价[3] - 模型突破传统静态观察局限,通过探索-理解闭环协同机制,使智能体在移动中逐步构建环境认知,成功率最高提升20%[3][29] - 技术核心将强化学习的探索能力与3D视觉语言模型的语义理解融合,形成端到端协同训练框架[13][14] 模型架构与数据策略 - 采用双模块设计:在线空间记忆构建模块实时处理RGB-D流数据,空间推理模块通过Cross-Attention实现指令匹配[16][17][22] - 创新性使用物体查询(Object Queries)和边界查询(Frontier Queries)结构化表征空间,支持动态记忆更新[19][20][21] - 虚实结合数据策略整合ScanNet和HM3D的90万条导航轨迹,覆盖视觉指引/探索行为/目标定位等多元任务[25][26] 性能表现与行业影响 - 在GOAT-Bench多模态长期导航测试中,MTU3D成功率达52.2%,较基线提升20%以上,展现卓越任务规划能力[29][30] - SG3D-Nav多步骤任务中关键指标s-SR提升至23.8,显著优于强化学习方法[31] - 真机实验验证技术落地性,A-EQA任务中GPT-4V成功率从41.8%提升至44.2%,推动具身问答发展[32][37] 技术演进方向 - 研究团队来自北京通用人工智能研究院,负责人李庆博士专注多模态智能体与具身智能领域[2] - 行业正经历从虚拟空间向物理世界的范式迁移,MTU3D为AI实体化提供关键空间认知解决方案[3][40] - 方法论突破体现为:语义地图实时构建、探索-理解联合优化、低成本虚实数据融合三大创新点[18]
BeDAViN:大规模音频-视觉数据集与多声源架构研究
具身智能之心· 2025-07-16 09:12
作者丨 视觉语言导航 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 主要贡献 研究背景 具身导航的重要性 :具身导航是具身智能(Embodied AI)的一个基本且关键的组成部分,要求自主智能体 通过与未见过的环境交互来解决复杂的导航任务。近年来,具身导航技术被广泛应用于家庭服务、仓储和物 流等领域。 | Dataset | Total number Total duration | | --- | --- | | | of audio of samples | | SAVi-dataset (Chen, Al-Halah, and | 1.157 144 seconds | | Grauman 2021) | | | BeDAViN (Ours) | 2.258 | 现有研究的局限性 : 数据集限制 :现有的音频-视觉导航数据集样本有限,难以模拟多样化的多声源场景。 框架限制 :大多数现有的导航框架是为单声源场景设计的,在多声源场景下的性能大幅下 ...
让 VLMs 更适配机器人:小型VLMs也能展现出强大的视觉规划能力
具身智能之心· 2025-07-15 13:49
研究背景 - 大语言模型(LLMs)在机器人程序规划中展现出潜力,能生成符合人类直觉的分步动作序列,但缺乏机器人执行所需的精确感官或物理世界细节[3] - 视觉语言模型(VLMs)为生成更具感知接地性的计划提供可能,但现有方法存在仿真环境过度专门化或训练成本高的局限[3] - 小型VLMs若训练得当,可在教育、机器人技术等资源受限场景中展现出强大的视觉规划能力[3] 核心方法 - 提出SelfReVision框架,通过迭代自我批判和自我改进提升小型VLMs(3B-72B参数)的视觉语言程序规划能力[4] - 框架基于自蒸馏原则,无需外部监督或教师模型,通过三阶段循环(批判-修订-验证)优化计划[6][10] - 最终计划可直接用于推理或作为自监督数据微调模型,在灵活性与性能间实现权衡[9] 实验设置 - 评估数据集包括基于图像的PLACES数据集(100个真实场景)和修改后的MFE-ETP仿真数据集(100个虚拟场景)[14] - 新增Image Groundedness指标评估计划与视觉上下文的契合度,采用GPT-4o作为自动评估器,与人类标注一致性达0.52[12] - 基线对比包括初始计划、GPT-4o、PaliGemma领域特定模型和best-of-N算法[12] 主要结果 - SelfReVision在PLACES和SIMULATION数据集平均胜率分别达68%和72%,完整性和覆盖度提升常超80%[13] - 12B以上模型整体增益达74%,优化轮次增加使胜率从75-78%升至81%,多数改进出现在前2-3轮[16] - 相较best-of-N方法,SelfReVision在多数设置中提升60%,12B以上模型胜率比GPT-4o高25%[17] 实体代理任务应用 - 在仿真拾取放置任务中,Gemma 12B和27B模型分别提升26%和17%的成功率[21] - 真实世界场景中,SelfReVision计划使HAMSTER动作模型生成的成功轨迹达70%,高于基础模型的61%[21] - 通过新增必要步骤和移除错误步骤显著提升复杂任务的执行可靠性[21] 方法优势与局限 - 完整CRV流程性能最强,消融实验中Verify步骤被证明对过滤次优修订至关重要(PLACES数据集胜率差9 3%)[18][19] - 推理成本较高,平均每个样本需8个推理步骤,可能影响实时应用[22] - 当前仅整合视觉输入,未利用机器人本体感受等多模态信息,限制场景适应性[22]
物理模拟器与世界模型驱动的机器人具身智能综述
具身智能之心· 2025-07-15 13:49
具身智能技术综述 - 具身智能成为机器人与人工智能领域的前沿课题,关注智能体在物理世界中的感知、推理与行动能力[3] - 物理模拟器与世界模型是两大关键技术:前者提供高保真虚拟训练环境,后者实现内部环境预测与策略规划[3][5] - 论文整合25张图、6张表格、超400篇文献,系统梳理技术协同路径[3] 技术框架与能力分级 - 提出五级机器人能力标准(IR-L0至IR-L4):从基础执行到完全自主决策[8][15] - 物理模拟器核心指标包括物理引擎精度(ODE/DART/MuJoCo等)、渲染能力(OpenGL/Vulkan)及传感器支持[13][18][19] - 世界模型架构涵盖预测网络、生成式模型及多任务复合模型,应用于自动驾驶与关节机器人[14] 主流技术平台对比 - 物理仿真平台横评:MuJoCo在刚体动力学领先,Isaac系列支持GPU加速物理(PhysX/FleX),CoppeliaSim兼容多引擎[18] - 渲染能力差异显著:Isaac Sim/Isaac Lab采用Omniverse RTX实现光线追踪,Webots/Gazebo依赖基础OpenGL[19] - 自动驾驶领域世界模型密集涌现,如GAIA-1、DriveDreamer等基于扩散模型与Transformer架构[20] 应用场景与突破方向 - 运动控制技术从模型预测控制(MPC)演进至深度强化学习端到端策略[15] - 操作控制结合VLM/LLM实现视觉-语言-动作一体化,双臂协作精度提升[15] - 交互能力突破包括社会嵌入认知与物理安全机制[15]
重磅直播!RoboTwin2.0:强域随机化双臂操作数据生成器与评测基准集
具身智能之心· 2025-07-15 13:49
双臂机器人训练瓶颈 - 真实示教数据规模化获取成本高耗时长 难以覆盖足够多任务物体形态与硬件差异 [2] - 现有仿真缺乏针对新任务的高效可扩展专家数据生成方法 [2] - 域随机化设计过于表层 无法模拟真实环境中的复杂性 [2] - 未考虑不同双臂平台在运动学与抓取策略上的行为差异 导致数据合成方案难以在新环境或新硬件上泛化 [2] 技术资源与竞赛 - RoboTwin平台提供代码库论文及使用文档 涉及双臂机器人仿真与训练 [3] - CVPR RoboTwin竞赛技术报告展示真实场景机器人导航与运动控制方案 [3][4] - BridgeVLA方案实现真机性能提升32% [4] 行业技术进展 - VR-Robo技术通过real2sim2real框架助力真实场景机器人导航与运动控制 [4] - UniVLA方案高效利用多源异构数据构建通用可扩展机器人动作空间 [5] - 行业关注遥操技术流畅度对机器人操作性能的影响 [5] 深度内容获取 - 具身智能之心知识星球提供完整技术细节QA及未公开彩蛋 涵盖双臂机器人训练仿真等专题 [1][4]
为什么纯人形VLA方案很少?这些公司的方案是哪些?
具身智能之心· 2025-07-15 09:39
机械臂VLA与人形VLA的应用现状 - 机械臂VLA当前主要应用于移动抓取和放置任务 这些任务相对单一且依赖视觉 辅以触觉或力觉传感器 落地难度较低[1] - 人形机器人面临数据采集困难和控制复杂度高的挑战 例如单只灵巧手可能包含20个自由度 全身自由度接近百个 需采用强化学习训练动作[1] - 人形VLA在复杂环境中的泛化性和灵活性不足 难以像机械臂VLA在结构化环境中稳定工作[1] 技术融合发展趋势 - 行业探索VLA与强化学习(RL)结合的混合架构 RL擅长底层运动优化 VLA擅长高层任务规划[1] - 未来可能形成"VLA规划+RL执行"模式 该方向已吸引多家独角兽公司投入人力资源并开放相关岗位[1] 商业化落地差异 - 机械臂VLA因任务标准化程度高 在工业场景中已实现规模化应用[1] - 人形VLA受限于多自由度协同控制难题 商业化进程明显滞后于机械臂品类[1]
TACTILE-VLA:激活VLA模型的物理知识以实现触觉泛化(清华大学最新)
具身智能之心· 2025-07-15 07:55
核心观点 - 视觉-语言-动作模型(VLA)在接触密集型场景中存在触觉感知缺失的短板,难以实现精准力控制与物理交互 [2] - Tactile-VLA框架通过深度融合视觉、语言、动作与触觉感知,激活VLA模型中隐含的物理知识,解决接触密集型任务中的力控制难题 [2] - 研究发现视觉-语言模型(VLM)的先验知识中已包含物理交互的语义理解,通过触觉传感器连接可激活该知识实现零样本泛化 [6] 核心创新与研究目标 关键发现 - VLM的先验知识包含物理交互语义理解,触觉传感器连接可激活该知识实现零样本泛化 [6] 主要创新点 - Tactile-VLA框架首次将触觉作为原生模态引入VLA模型,构建多模态深度融合架构 [7] - 混合位置-力控制器创新性地将力目标转化为位置调整指令,解决位置与力控制协同难题 [7] - Tactile-VLA-CoT变体引入思维链推理机制,基于触觉反馈分析失败原因并自主调整策略 [7] 主要解决问题 - 实现触觉感知的指令遵循、触觉相关常识运用和触觉参与的自适应推理三大能力 [9] 框架设计 整体架构 - 包含多模态编码器、Transformer backbone网络、触觉感知动作专家和混合位置-力控制器四大模块 [13] - 采用token级融合机制,通过非因果注意力实现视觉、语言和触觉token的自由交互 [14] 混合位置-力控制机制 - 以位置控制为主,力误差超阈值时引入力反馈调整,公式ΔF为目标力与实测力差值 [14] - 双通道分离设计:外部净力通过机械臂笛卡尔位置控制,内部抓取力通过夹爪宽度控制 [14] 思维链推理机制 - 按固定间隔评估任务进展,检测失败时启动"判定-分析-生成"三阶段推理流程 [14] - 使用含失败案例和语言注释的小型数据集微调模型,保留通用推理能力 [14] 实验验证 触觉感知的指令遵循 - USB任务中Tactile-VLA成功率35%,充电器任务达90%,显著高于基线模型(最高40%)[21] - 力控制精度:USB任务中"轻柔地"0.51N vs "用力地"2.57N,充电器任务保持区分度(4.68N vs 9.13N)[21] 触觉相关常识运用 - 域内物体抓取成功率90%-100%,域外物体80%-100%,显著高于基线(易碎物体基线接近0)[27] - 能根据物体属性自主调整力度:坚硬沉重物体用大力,易碎物体用轻力 [27] 触觉参与的自适应推理 - Tactile-VLA-CoT黑板任务成功率80%,基线模型和Tactile-VLA(无推理)分别为0和15% [33] - 首次尝试3.5N力失败后,通过推理将力增加到6.7N并成功完成任务 [33]