具身智能之心

搜索文档
助力收割offer,这个具身领域的黄埔军校不简单......
具身智能之心· 2025-08-28 08:36
社区发展现状 - 具身智能社区目前拥有近2000名成员 目标在未来2年内扩大到近万人规模[1] - 社区提供视频 图文 学习路线 问答和求职交流等综合服务[1] - 社区已与多家具身机器人公司合作开发教程 促进本体功能拓展[1] 社区核心价值 - 社区提供实用问题解答 包括设备使用 数据采集和模型部署等技术支持[1] - 社区完成产业 学术 求职和问答等多领域闭环 提供前沿研究解决方案[2] - 社区梳理近30+技术路线 缩短用户检索时间 并邀请数十位一线产业界和工业界嘉宾答疑[2] 技术内容覆盖 - 社区涵盖数据采集 灵巧手 VLA模型 VLN模型 多传感器融合 机器人操作系统等13个技术目录[5] - 具体技术点包括RoboTwin 2.0数据生成器 BridgeVLA模型真机性能提升32% 以及Spec-VLA推测解码框架等[5] - 社区汇总40+开源项目 60+数据集 以及行业主流仿真平台[13] 学习资源体系 - 社区提供16个技术学习路线 包括具身感知 强化学习 VLN VLA 多模态大模型等方向[13] - 学习资源覆盖机器人导航 动力学 路径规划 视觉控制等多个基础领域的PDF书籍[23] - 社区汇总触觉感知最新综述 传感器应用 多模态算法集成和数据集等前沿内容[47] 行业生态连接 - 社区连接国内外知名高校实验室和头部公司 包括斯坦福 清华 智元机器人 优必选等机构[13] - 汇总国内外具身智能公司 涉及教育 宠物 工业 救援 物流 交互和医疗等多个方向[18] - 提供机器人零部件品牌汇总 包括芯片 激光雷达 相机 IMU和底盘等制造商信息[25] 就业与商业机会 - 社区建立岗位内推机制 与多家具身公司合作 第一时间对接求职者简历[5] - 社区提供行业研报汇总 帮助了解大模型和人形机器人行业发展与工业落地情况[20] - 社区提供投资与项目对接服务 挖掘行业商业机会[15]
具身智能之心B端和C端培训老师招募来啦~
具身智能之心· 2025-08-28 01:20
业务模式 - 公司开展B端和C端培训业务 B端主要面向企业和高校及研究院所 C端面向学生和求职人群[1][3] - 业务内容包括制定课程大纲和制作课程材料[3] 技术方向 - 培训内容涵盖VLA VLN 遥操作 Diffusion Policy 强化学习 VLA+RL sim2real 多模态大模型 仿真 运动控制 目标导航等前沿技术领域[2] 人才要求 - 要求博士及以上学历(包含在读)[3] - 需具备2篇A会或一区以上期刊/会议发表或2年及以上工业界经验[3] 合作方式 - 通过微信平台进行业务咨询(微信号:oooops-life)[4] - 提供高于行业水平的酬金待遇[1]
斯坦福大学提出RTR框架,让机械臂助力人形机器人真机训练
具身智能之心· 2025-08-28 01:20
编辑丨机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 人形机器人的运动控制,正成为强化学习(RL)算法应用的下一个热点研究领域。当前,主流方案大多遵循 "仿真到现实"(Sim-to-Real)的范式。研究者们通过 域随机化(Domain Randomization)技术,在成千上万个具有不同物理参数的仿真环境中训练通用控制模型,期望它能凭借强大的泛化能力,直接适应动力学特性 未知的真实世界。尽管这类 "零样本迁移"(Zero-Shot Transfer)方案在多种运动任务上取得了卓越表现,但其本质目标是训练一种在任何环境下都 "能用" 的保守 策略。这种策略牺牲了机器人在特定真实环境中的性能上限,因为对于最终落地而言,真实世界的表现才是唯一重要的标准。 为了突破这一瓶颈,近期一些工作开始探索在仿真预训练后,利用少量真实数据对模型进行微调。例如,来自英伟达和 CMU 等机构的研究者提出的 ASAP [1], 通过训练一个残差网络来快速补偿仿真与 ...
EgoTwin :世界模型首次实现具身「视频+动作」同框生成,时间与空间上精确对齐
具身智能之心· 2025-08-28 01:20
技术框架创新 - 提出EgoTwin框架,首次实现第一视角视频与人体动作的联合生成,两者在时间与空间上精确对齐 [2][5] - 采用三通道网络架构,各通道配备独立tokenizer与Transformer模块,跨通道共享权重以减少冗余计算 [11][13] - 基于Head-centric的动作表示将头部设为根节点,直接输出头部6D位姿,使头-相机轨迹一一对应,无需正向运动学推导 [12] 性能突破 - 轨迹对齐误差(TransErr)从1.28米降至0.67米,降幅达48% [7][18][19] - 手部可见性F-score从0.36提升至0.81,增幅达125% [7][18][19] - 在9项评测指标中全面领先基线,包括I-FID从157.86降至98.17,FVD从1547.28降至1033.52 [18][19] 多模态交互机制 - 建立文本-视频-动作双向因果注意力交互机制,实现动作token与视频token的因果循环闭环 [12][14] - 采用异步扩散机制,视频与动作在各自时间轴独立加噪去噪后再交叉通信,保证同步性 [12][16] - 支持T2VM(文本生成视频+动作)、TM2V(文本+动作生成视频)、TV2M(文本+视频生成动作)三种生成模式 [8][16][24] 数据与训练 - 基于Nymeria数据集使用17万段5秒剪辑视频训练,涵盖百余种日常动作 [8][17] - 训练分三阶段:先训练动作VAE,再冻结文本/视频分支训练动作对齐,最后三模态联合微调 [21] - 使用T5-XXL编码文本(226 token)、3D因果VAE处理视频(41帧480×480压缩至9900 token)、自研1D因果VAE处理动作(81帧23关节骨骼压缩至21 token) [20] 应用场景 - 适用于AR/VR、具身智能与可穿戴设备领域,实现视角一致且因果连贯的生成效果 [2][5] - 消融实验证实移除Head-centric标注、双向注意力或异步扩散任一组件均导致一致性指标急剧恶化 [22][23]
启动招募!外滩大会机器人职业技能表演赛等你来战
具身智能之心· 2025-08-28 01:20
当山火吞噬森林,当地震撕裂公路 当深矿弥漫瓦斯 人类需要被保护的地方 就是AI前行的方向 我们期待机器人 走进深矿、危楼、火海 走进山区、工地、医院 为人类解决困难、抵御风险 我们希望有一天 巡检员不必亲临苦寒之地 矿工不必以健康换取生计 消防员不必以血肉对抗高温 作者丨 探索具身智能的 编辑丨蚂蚁数科 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 "这里是技术理想的试验场,更是产业目光的聚焦点。" 我们深知 具身智能产业还在路上 也许不够完美 但我们坚定的探索 值得被看见、被记录 被世界鼓励 外滩大会「人工智能硬件科创赛」 特设现场机器人职业技能表演赛 由蚂蚁数科承办 诚邀具身智能行业伙伴 加入产业应用比拼 你将有机会获得顶级媒体曝光 百万流量赋能 与科技同行切磋技艺 与教授专家、产业领袖面对面交流 成为蚂蚁数科具身智能产业链合作伙伴 有较为清晰的产业应用案例,不限两足、四足、轮式机器人,具备灵巧手、机械臂 优先,不限遥操。 报名条件 赛道设置 ( ...
英伟达通用机器人芯片来了:AI算力提升7.5倍,宇树、银河通用已搭载
具身智能之心· 2025-08-27 00:04
产品发布与性能参数 - 英伟达正式发布新一代机器人专用芯片Jetson Thor 旨在适配具身智能新算法并支持人形机器人等多种形态[3] - Jetson Thor搭载Blackwell架构GPU AI计算能力达2070 FP4 TFLOPS 是上一代Jetson Orin的7.5倍 功耗130W 能效提升3.5倍[3] - 内存容量提升两倍至128GB 显存带宽273GB/s 支持多实例GPU和14核Arm Neoverse-V3AE 64位CPU[7] - 提供两种配置版本:Jetson T5000(AI性能2070 TFLOPS)和Jetson T4000(AI性能1200 TFLOPS)[7] 技术特性与应用场景 - 专为生成式AI模型推理打造 支持大型transformer模型、视觉语言模型(VLM)及视觉语言动作模型(VLA)的端侧实时运行[7] - 通过FP4精度与推测解码优化可进一步提升性能 支持完整NVIDIA AI软件栈包括Isaac、Metropolis和Holoscan平台[10] - 配套工具支持低延迟与高性能需求 兼容主流生成式AI框架如Cosmos Reason、DeepSeek、Llama、Gemini、Qwen及机器人专用模型Isaac GR00T[8] - 旨在解锁基于端侧的高速传感器数据和视觉推理 帮助人形机器人实现自主观察、移动和决策[5] 产品生态与市场合作 - 开发套件NVIDIA Jetson AGX Thor起售价3499美元(约合2.5万元人民币) 量产模组T5000千片以上单价2999美元(约合2.14万元)[11] - 国内机器人公司宇树科技、银河通用机器人宣布首发搭载Jetson Thor芯片 银河通用机器人Galbot已展示工业场景应用[13] - 联影医疗、万集科技、优必选、众擎机器人和智元机器人等公司宣布首批使用新一代端侧算力[14] - 硬件合作伙伴研华科技、米文动力、天准科技等正在打造成套系统 传感器企业亚德诺半导体、英飞凌等构建相应组件[14] 战略布局与行业愿景 - Jetson Thor补全英伟达端侧AI算力版图 与云端训练平台DGX、仿真平台Omniverse构成完整计算机解决方案[11] - 公司押注机器人、自动驾驶等未来万亿美元级市场 认为自动驾驶汽车和机器人技术结合代表"数万亿美元增长机会"[18] - 面向自动驾驶汽车的Nvidia Drive AGX Thor即将上市 现已开放预订 预计9月开始交付[15] - 英伟达研究人员提出新型混合架构语言模型Jet-Nemotron 在H100 GPU上生成吞吐量较先进开源模型提高53.6倍[15]
转行,拿到了具身岗位的offer!
具身智能之心· 2025-08-27 00:04
社区发展现状与规模 - 具身智能之心知识星球社区已发展成为集视频、图文、学习路线、问答、求职交流为一体的综合类具身社区,目前拥有近2000名成员 [1] - 社区计划在未来2年内将规模扩大到近万人,致力于打造技术分享与交流的聚集地 [1] - 社区与多家具身机器人公司合作开发教程与功能,并计划将相关内容公布到社区以促进行业发展 [1] 社区资源与技术内容 - 社区内部梳理了近30+技术路线,涵盖benchmark、综述和学习入门路线,显著缩短检索时间 [2] - 汇总了40+开源项目、60+具身智能相关数据集及行业主流仿真平台 [18] - 提供多领域技术学习路线,包括具身感知、强化学习、VLA模型、多模态大模型等18个方向 [18] - 社区定期举办圆桌论坛和直播,覆盖本体、数据、算法等领域,分享行业动态 [4] 行业合作与就业服务 - 社区与多家具身公司建立岗位内推机制,为成员提供简历直推服务 [10] - 发布具身智能相关职位招聘信息,如多模态大模型方向月薪40k-80k,强化学习方向月薪40k-80k [11][13] - 汇总国内外具身智能高校和公司信息,为成员提供学术和职业发展参考 [21][23] 技术研讨与创新 - 社区探讨前沿技术问题,包括机器人仿真、VLA模型应用、sim2real泛化等 [2][4] - 分享多项创新研究成果,如Interleave-VLA框架提升跨域泛化2-3倍,BridgeVLA方案提升真机性能32% [4][5] - 覆盖多传感器融合、机器人操作系统、世界模型等多个技术领域 [6][7][9] 成员互动与支持 - 社区为成员提供实用问题解答,包括设备使用、数据采集、模型部署等 [1] - 成员可自由提问工作选择或研究方向问题,并获得行业大佬解答 [77] - 社区内部交流案例显示,成员从自动驾驶转向具身智能领域的技术过渡路径 [78][80]
速度提升3倍,CoT推理助力VLA!ECoT-Lite:融合具身机器人推理改善策略的几种机制
具身智能之心· 2025-08-27 00:04
具身思维链推理(ECoT)方法 - 具身思维链推理(ECoT)通过将机器人动作预测分解为中间推理步骤(如物体位置识别、子任务规划或可操作性预测)来提升策略泛化能力,无需额外收集机器人演示数据 [3] - ECoT方法显著提高策略对新场景、新物体和新任务指令的泛化能力,但伴随训练数据需附带详细推理指令以及推理速度较慢的成本(单次动作预测需几秒钟) [3] ECoT-Lite优化方案 - 提出ECoT-Lite轻量替代方法,包括推理预训练、推理丢弃和推理支架等变体,避免常规链式思维推理的缺点同时保留大部分泛化好处 [6][8] - ECoT-Lite在LIBERO模拟基准上取得最先进性能(准确率约90%),在BridgeData V2评估中超越最先进传统VLA模型10-19%,推理速度从1-1.2Hz提升至3.5Hz以上 [8][54] 性能机制假设与验证 - 假设1(表征学习):推理步骤改善模型内部表征,使策略关注推理要求预测的特征;推理预训练和推理丢弃方法显著提升性能(LIBERO上推理丢弃达89.4%准确率) [24][54][63] - 假设2(学习进程):推理作为隐式学习课程,帮助模型从简单任务逐步过渡到完整动作预测;推理支架方法对基线性能有小幅提升(+2.9%) [26][87] - 假设3(表达能力):增加token序列长度增强模型表达能力;但思考标记(thinking tokens)方法反而降低性能(平均下降3.8%),表明主要好处来自语义推理而非计算资源扩展 [28][88] 实验环境与结果 - 在LIBERO-90和BridgeData V2环境中评估,要求策略超越训练数据泛化;LIBERO-90包含90个任务,BridgeData V2评估包括任务分布内泛化、运动泛化、空间关系和未见物体 [41][42] - 完整ECoT在LIBERO-90上达90.8%准确率,推理丢弃达89.4%,推理预训练达87.1%;在BridgeData V2上,ECoT仍是最优但ECoT-Lite速度提升约3倍 [54][58][61] 方法选择建议 - 完整ECoT最大化性能但推理速度慢(1-1.2Hz);推理丢弃在少任务领域表现优异且支持测试时灵活开启推理;推理预训练在多样化任务领域更有效且不需要成对推理-动作数据 [90][92] - 推荐使用完整ECoT追求最高性能,推理丢弃用于少任务领域或需测试时推理,推理预训练用于多样化任务领域或有无配对数据场景 [92] 局限性 - ECoT-Lite仍需机器人推理训练数据,其提取可能困难且昂贵;策略表达能力可能不是VLA瓶颈,思考标记方法未改善性能 [93] - 实验保持策略架构、训练超参数和推理语料库不变,未来可优化推理预训练以支持跨本体推理迁移,减少对成对数据依赖 [93]
3个月!搞透具身大脑+小脑算法
具身智能之心· 2025-08-27 00:04
具身智能行业概述 - 具身智能成为通用人工智能(AGI)关键方向 强调智能体与物理环境的交互与适应能力 聚焦感知环境、理解任务、执行动作及反馈学习[1] - 具身智能核心模块分为大脑(语义理解与任务规划)和小脑(高精度运动执行) 类比人类神经系统的分工协作[1] 产业生态与竞争格局 - 近2年星海图、银河通用、逐际动力等明星团队从实验室走向商业化 推动本体及大小脑技术进步[3] - 华为2024年底启动全球具身智能产业创新中心 与乐聚机器人、大族机器人合作建设大脑与小脑关键技术[5] - 京东自2025年5月连续投资智元机器人、千寻智能、逐际动力 强化物流科技与家庭服务场景能力[5] - 腾讯、蚂蚁集团、小米等科技巨头通过战略投资与合作加速构建产业生态[5] - 国外Tesla/Figure AI聚焦工业与物流机器人应用 Wayve和Apptronik获投资机构支持落地自动驾驶与仓储机器人[5] - 国内企业以产业链投资与综合平台驱动落地 国外巨头侧重基础模型、模拟环境及类人机器人原型研发[5] 技术演进路径 - 第一阶段抓取位姿检测(Grasp Pose Detection)通过点云/图像预测执行器姿态 但缺乏任务上下文建模能力[6] - 第二阶段行为克隆(Behavior Cloning)通过专家数据学习端到端映射 存在泛化能力弱与误差累积问题[6] - 第三阶段Diffusion Policy(2023年)通过扩散模型生成动作轨迹 提升策略稳定性与泛化能力[6] - Vision-Language-Action(VLA)模型(2024年)融合视觉感知、语言理解与动作生成 支持零样本/小样本快速泛化[7] - 2025年进入第四阶段 VLA与强化学习、世界模型、触觉感知融合 弥补"只能理解不能反馈"等局限[8] - VLA+强化学习提升长时任务试错与自我改进能力 VLA+世界模型引入环境动态预测 VLA+触觉拓展多模态融合感知[8] - 技术从低层感知向高层理解演进 推动人形机器人、机械臂、四足机器人在工业、家居、餐饮、医疗等领域落地[9] 人才与工程需求 - 岗位呈现爆发式增长 大量人员转入具身智能领域研究[9] - 产业界从论文走向部署 对Mujoco/IsaacGym/Pybullet等平台仿真测试能力需求激增[12] - 需掌握Diffusion Policy/VLA模型训练部署、强化学习反馈微调、世界建模到物理执行的一体化架构实现[12] - 从业人员需具备Python/Pytorch基础及3090ti以上算力设备 目标达到1-2年经验水平[18]
研二多发几篇论文,也不至于到现在这个地步……
具身智能之心· 2025-08-26 04:45
核心观点 - 公司提供专业论文辅导服务 帮助硕博生在自动驾驶 具身智能 机器人等AI交叉学科领域快速产出高质量科研论文 解决导师放养导致的科研困境 [1][3][8] - 通过系统化12周论文辅导流程 实现从选题到投稿的全流程覆盖 中稿率高达96% [4][5] - 依托300+全球QS前100高校导师资源 提供个性化1v1指导 并延伸至名校推荐信及名企内推等职业发展机会 [5][14][15] 服务模式 - 采用腾讯会议在线1v1授课结合微信群答疑的服务形式 配备班主任全程督学 [12][13] - 提供精准导师匹配系统 从300+导师中筛选3-5位方向契合者供学员选择 [14] - 支持零基础学员通过6个月周期完成论文 包含基础课程自主学习环节 [14] 目标客群 - 主要面向计算机专业硕博生 尤其导师放养 需论文创新思路或科研经验积累者 [9] - 覆盖人工智能领域从业者的升职加薪需求 以及考研申博留学的简历提升需求 [9] - 适用于CCF-A/B/C类会议 SCI1-4区期刊 EI会议等不同发文目标群体 [10] 差异化优势 - 背靠国内最大AI类技术自媒体平台 拥有顶尖学术资源 深耕自动驾驶等领域多年 [3] - 近3年辅导学员超400名 中稿率96% 导师均具备顶会/子刊论文发表经验 [5] - 除论文辅导外 提供清北/MIT名校推荐信及阿里达摩院 华为诺亚方舟等企业内推机会 [15]