Workflow
具身智能之心
icon
搜索文档
具身智能之心求职与内推服务正式对外啦!
具身智能之心· 2025-12-11 09:33
具身智能之心的职位内推服务正式对外啦!近50家主流具身公司,校招&社招&实习均可。第一时间拿到靠谱 和高薪的岗位,欢迎简历砸来~ 这些问题,我们将逐个答复~~~ 各家公司的薪资结构 √ 技术路线和上升通道 √ 未来行业发展的前景 √ 工作到底适不适合自己的性格 √ ...... ...
只用SO-100可以完成π0和π0.5的效果吗?
具身智能之心· 2025-12-11 09:33
文章核心观点 - 文章指出视觉语言动作模型在从理论到实际部署的落地过程中存在显著障碍 包括开源模型难以复现效果、训练与部署脱节、以及缺乏系统性的实战指导 [2][4][10] - 文章旨在推广一门名为《面向实战与求职的VLA小班课》的课程 该课程宣称是国内首个系统性解决VLA落地难题的实战课程 提供从硬件、数据采集、算法训练到真机部署的全栈教学 [10][12][15] VLA模型落地的主要挑战 - **开源模型复现困难**:GR00T、π0等模型虽已开源 但依据开源代码难以展示出良好的演示效果 [2] - **训练与部署脱节**:训练过程像炼丹 损失函数虽已降低 但部署到实体机器人进行推理时任务常失败 且原因难以定位 [2] - **世界模型应用模糊**:业界讨论世界模型已一年多 但学习者不清楚如何在训练和推理中实际应用 [2] - **全流程打通门槛高**:将数据、VLA模型、训练优化、部署整套流程打通对初学者非常困难 有人踩坑半年仍无法入门或取得好效果 [4] - **模型训练存在大量“技巧”**:特别是π0、π0.5、GR00T这类模型 在数据采集和模型训练环节存在许多未公开的细节与技巧 [4] VLA落地的关键模块与难点 - **数据采集**:主要方法包括基于模仿学习的遥操作、VR、全身动捕捉 在机械臂+VLA领域更多采用前两种 如何采集高质量数据及实现仿真到现实的转换是关键难点 [5][6] - **模型训练**:真机部署前需进行仿真调试 在真机数据不足时 使用Mujoco、Isaac Gym等框架进行仿真与Sim2Real尤为重要 [7] - **训练技巧至关重要**:如何微调模型、如何在小数据量下取得好结果是核心 许多学习者训练的模型存在机械臂运动不准、夹爪控制不好或运动误差大的问题 [7] - **算法选择影响效果**:ACT等算法相对简单易出效果 而π0和π0.5则非常难训练 对细节和技巧要求高 强化学习优化模型也极具挑战性 [7] - **模型部署与轻量化**:具身模型参数量大 即使是2B规模的模型 对边缘芯片部署挑战也很大 需通过量化、蒸馏等轻量化操作在保证性能的同时最小化参数量 [9] 课程解决方案与内容 - **课程定位**:该课程由具身智能之心平台联合业内VLA专家开发 是国内首个面向实战与求职的VLA小班课 旨在解决技术更新快、学习困难的问题 [10] - **课程内容全面**:课程涵盖机械臂硬件、数据采集、VLA算法、评测、仿真、主流VLA模型部署、VLA+世界模型、各类真机实验以及具身产业讲解 [12] - **课程硬件配套**:购买课程即赠送一套SO-100机械臂 包含示教臂和执行臂 [17] - **讲师背景**:讲师为某机器人公司VLA高级研究员 拥有5年以上机器人行业实战经验 精通具身智能全栈技术 并在顶级期刊发表学术论文10余篇 [20] 课程面向人群与要求 - **目标学员**:包括正在具身领域求职需要实战项目的同学、VLA领域需要进阶的学习者、从事具身智能研究的各学历层次学生、希望从传统CV、机器人或自动驾驶转行的人员 以及对领域感兴趣的其他人员 [22] - **硬件与基础要求**:建议推理使用RTX 3060及以上显卡 训练建议2张以上RTX 3090 Ti 也可自租云服务器 学员需具备一定的Python和PyTorch基础 [22] 课程学习收获与安排 - **学后收获**:学员将掌握真机调试与数据采集、各类VLA算法在真机上的部署、对VLA模型量化有深入了解、对具身产业落地有清晰认识 简历可获得足够项目支撑 学完可达1-2年以上算法工程师经验水平 [25] - **开课时间**:课程于2025年12月30日正式开课 共分九章 持续至2026年2月25日 [23][26]
全球首个!灵巧手真实世界具身数采引擎Psi-SynEngine来了
具身智能之心· 2025-12-11 04:02
公司核心业务与战略定位 - 公司专注于通用具身智能、视觉语言动作大模型以及灵巧操作算法等前沿技术,致力于打造业界领先的通用操作智能体 [2][16] - 公司的战略选择是做通用灵巧操作,认为灵巧手与人手形态差异最小,数据迁移效率最高 [6] - 公司已成功推出行业内首个端到端强化学习具身模型 Psi R0、R0.5 及 R1,成为行业内率先实现长程任务的具身模型研发企业 [16] 数据采集方案 Psi-SynEngine 的发布与意义 - 公司发布全球首个具身原生人类数据采集方案 Psi-SynEngine,标志着其全自研的真实世界具身数据引擎正式启动 [3] - 该方案从根本上突破了行业数据采集的困境,直接采集一线作业人员在真实工作中的操作数据,覆盖物流、工厂、商超、酒店和家庭等真实场景,无需二次迁移 [5] - 该方案的发布标志着公司基于人类真实操作数据的具身智能新范式正式确立,意味着向真实世界的具身 AI 大模型预训练拥有了可规模化的可能 [14] Psi-SynEngine 的技术构成与优势 - 方案包含便携式外骨骼触觉手套数采套装、大规模 in the wild 数采数据管线、基于世界模型和强化学习的跨本体数据迁移模型 [3] - 相比传统方案具有三大优势:1) 成本低,数据获取成本仅为真机遥操方案的 10%;2) 多模态高自由度,能完整采集触觉、视觉、动作、语言的操作数据;3) 便携性强,可大规模并行采集,效率极高 [7][11] - 自主研发的外骨骼触觉手套定位精度最高能达到亚毫米级别,可完整采集手部和手臂的全部自由度及全手触觉信息,同时不影响正常操作 [9] - 核心技术护城河在于解决了人手与灵巧手之间的跨本体差异,通过基于世界模型、强化学习和触觉模态对齐的解决方案,有效弥合 embodiment gap,提升模型泛化性和成功率 [10] 数据集 Psi-SynNet-v0 的特征与规划 - 同步发布覆盖视觉、语言、触觉、动作的大规模真实世界多模态数据集 Psi-SynNet-v0 [3] - 该数据集具备四大核心特征:1) 数据多样性强,覆盖多行业、多场景、多物体与多技能;2) 模态覆盖全面;3) 数据规模海量,量级达到大语言模型同级水平;4) 自闭环已验证,已在多个落地产业中完成闭环验证 [12] - 公司已迅速构建出上万小时规模的 Psi-SynNet-v0 数据集,并计划于明年突破百万小时量级,这将是全球最大的灵巧操作数据集 [14] 行业痛点与现有方案局限 - 数据问题是困扰整个具身智能领域的痛点 [5] - 行业现有数据采集方案存在三大局限:1) 仿真环境数采存在 Sim-to-Real 差距,调参与场景搭建成本高;2) 机器人遥操数采难以规模化,成本高效率低;3) UMI设备数采(双夹爪)存在本质局限,无法满足精细操作需求,根据美国劳工部数据,工厂内 98.7% 以上的工序都需要双手多指协同完成 [11] 硬件、平台与数据闭环体系 - 公司构建了完整的硬件与平台体系,包括专为数采设计的外骨骼触觉手套、支持大规模数据处理的自建管线与平台,并配合自研大模型完成高精度数据标注和后处理,形成完整的数据生产闭环 [9] - 数据体系已在公司多个落地产业中完成闭环验证,确保所采集数据能够高度匹配算法需求,并持续推动模型迭代 [12]
连场景都做?这家给智元机器人造大脑的公司4个月融了3个亿
具身智能之心· 2025-12-11 04:02
公司概况与融资 - 公司为星源智机器人,成立不到半年,已完成超亿元人民币天使+轮融资,天使轮融资额达2亿元 [1] - 公司由北京智源研究院孵化,在北京亦庄注册,目标是让机器人理解物理世界并自主行动 [2] - 本轮融资资金将用于具身大脑专业版RoboBrain Pro的研发、垂直行业解决方案拓展及高端人才引进 [1] 核心团队背景 - CEO刘东曾任京东智能驾驶总经理,牵头京东无人配送车全国落地 [2] - 联合创始人穆亚东为北京大学研究员、智源学者,近五年发表具身智能顶会论文30余篇 [2] 核心产品与技术 - 产品体系为“通用大脑”加“算力炸弹” [3] - 推出跨本体具身大脑RoboBrain,同一套AI系统可在机械臂、AGV、人形机器人之间即插即用,无需重复训练 [3] - 该产品已搭载于智元机器人发布的工业级交互式具身作业机器人“精灵G2”上 [3] - 推出T5算力平台,基于NVIDIA Jetson Thor处理器开发,具备2070 TOPS端侧算力,拥有强大的Transformer模型加速能力 [5] - 该算力平台可满足复杂场景下的实时感知、智能决策与精准控制需求,使边缘端能实时推理,成本降低60% [5] 商业化进展与订单 - 与北京亦庄机器人科技园签署三年5亿元战略协议,公司将作为“大脑”供应商入驻园区所有机器人项目 [5] - 与全球最大电动叉车厂商中力机械联合发布“具身装卸”方案,首批交付预计在明年第二季度完成 [5] - 智元机器人作为合作伙伴,在公司天使轮融资中就已参与 [3] 投资逻辑与行业价值 - 公司在短时间内完成了将具身大脑加载到算力平台的工作,覆盖了算法、算力、场景,这体现了其商业化价值 [6]
从视频生成到机器人操控:VideoVLA 开启通用机器人新范式
具身智能之心· 2025-12-11 04:02
文章核心观点 - 由西安交通大学、微软亚洲研究院等机构联合提出的VideoVLA框架,创新性地将大规模视频生成模型转化为端到端的视觉-语言-动作系统,通过“动作预测+视觉想象”的双目标策略,首次实现了机器人在未知场景下的稳健泛化,为通用机器人操控提供了全新技术路径 [2][3][26] 传统VLA模型的局限性 - **泛化能力受限**:传统VLA模型依赖预训练视觉语言理解模型,对未知物体、未学习技能的适配能力差,难以应对真实世界的多样性 [5] - **缺乏物理推理能力**:现有模型多专注于动作映射,缺乏对动作物理后果(如抓取受力、放置稳定性)的建模 [6] - **规划能力不足**:复杂任务需预判动作序列的视觉反馈,传统模型缺乏“视觉想象-动作规划”的联动机制 [7][9] VideoVLA技术方案 - **核心思路**:利用视频生成模型从海量真实世界视频中学到的物理合理性与场景动态规律,改造视频扩散Transformer,新增动作输出模态,实现“语言指令+当前视觉→动作序列+未来视觉”的端到端预测 [12] - **三层技术架构**: - 输入编码层:语言指令用T5编码器转为226维令牌序列;视觉输入用CogVideoX的3D因果VAE编码器转为latent表征 [14] - 核心建模层:采用Diffusion Transformer统一建模视频、语言、动作三模态;动作用7维向量表征(3维旋转+3维平移+1维夹爪状态) [14] - 输出层:协同预测K步动作序列和N帧未来视觉latent,通过VAE解码器可还原为视频 [14] - **训练与推理**: - 预训练基于Open X-Embodiment数据集(含超过100万机器人轨迹、22种机器人形态),迭代10万次 [14] - 真实世界微调使用Realman 7自由度机械臂数据集,迭代1.5万次 [14] - 推理采用DDIM采样(50步去噪),仿真场景预测49帧未来视觉,真实场景预测13帧 [14] 性能验证:域内任务 - **WidowX机器人**:在4项任务(如放置、堆叠)上平均成功率达到53.1%,远超基线模型RT-1-X(1.1%)和Octo-Base(17.0%) [15] - **Google机器人**:在VA协议下平均成功率达到62.8%,优于CogACT(61.4%)和π₀(43.4%)等先进模型 [15] - **Realman机器人**:在真实世界“放置”任务中平均成功率达到56.3%,显著高于OpenVLA(14.6%)和SpatialVLA(10.4%) [15] 性能验证:泛化能力 - **未知物体操控**:在YCB和GSO数据集的10种未训练物体上,平均成功率达到65.2%,在8种物体上排名第一,远超OpenVLA(6.4%)和SpatialVLA(50.8%) [16] - **跨机器人技能迁移**:将WidowX机器人的8种未训练技能迁移到Google机器人,平均成功率达到48.6%,比第二名CogACT(20.4%)高出28.2个百分点 [18] 关键发现与消融实验 - **视觉想象与执行强相关**:未知物体场景中,视觉想象成功率84.0%,实际执行成功率65.2%;新技能场景中,视觉想象成功率63.4%,实际执行成功率48.6% [19][23] - **运动轨迹相似度分析**:当视觉想象与实际执行的keypoint轨迹相似度高于0.6时,任务成功率超过80% [21] - **预训练骨干网络价值**:使用CogVideoX-5B预训练模型性能达80.4%,比从零训练(12.6%)提升6倍 [22][25] - **预测帧数影响**:预测49帧(80.4%)优于25帧(77.4%)和13帧(75.2%),更长时间视野提升规划准确性 [24][25] - **双预测策略核心作用**:仅预测动作时平均性能降至25.5%,无视频损失时降至27.0%,验证双目标协同的必要性 [25] 当前局限与未来方向 - **当前局限**: - 推理速度:单H100 GPU推理约1.1秒/步,控制频率3Hz,难以满足高速操控 [28] - 长序列任务:复杂多步骤任务的规划能力仍需提升 [28] - 小物体处理:微小物体在遮挡场景下的抓取成功率较低 [28] - **未来方向**: - 模型轻量化,优化视频生成骨干网络以降低计算开销 [28] - 采用单步去噪等技术减少扩散步骤,提升推理速度 [28] - 引入触觉、力反馈等多模态传感器信息,增强物理交互精度 [28]
告别专家依赖,让机器人学会自我参考,仅需200步性能飙升至99.2%
具身智能之心· 2025-12-11 02:01
文章核心观点 - 复旦大学、同济大学与上海创智学院的联合研究团队提出了一种名为“自参考策略优化(SRPO)”的新框架,旨在解决视觉语言动作(VLA)模型在机器人操作任务中面临的奖励稀疏和依赖专家数据等瓶颈问题 [3] - SRPO框架通过构建内生的自参照评估机制,利用模型自身生成的成功轨迹作为参照来评估和引导失败尝试,从而实现了无需外部专家数据注入、免除任务特定奖励工程的自适应策略优化 [3][9] - 该方法在多个基准测试中取得了突破性成果,包括在LIBERO榜单上以99.2%的成功率刷新SOTA,在LIBERO-Plus的泛化任务上性能提升167%,并能显著提升开源模型在真实机器人上的表现 [3][12] 动机与贡献 - 当前VLA模型性能严重依赖成本高昂的专家示范数据,且存在“示范偏差”,而强化学习又常因“奖励稀疏”问题导致训练效率低下 [3][6] - 基于组优化的方法(如GRPO)是VLA-RL的重要技术路径,但仍面临多轮轨迹推理计算成本高、对失败轨迹信息利用低效的挑战 [6] - 研究团队提出自我参考学习范式,将监督问题的核心从“如何获取专家标签”转变为“如何从自身成功经验中提取渐进式奖励” [9] - 核心贡献包括:1)提出SRPO框架,缓解奖励稀疏性问题并消除对专家示范的依赖 [10];2)提出基于潜在世界表征的渐进式奖励方法,克服传统像素级世界模型的泛化局限 [11];3)实验验证了该方法在基准测试中的SOTA性能、强大泛化能力及真机可迁移性 [12] 技术方案 - SRPO采用“向成功者学习”的方式,核心环节包括:同策略轨迹收集、世界表征提取与聚类、渐进式奖励计算及策略更新 [14][17] - 框架将机器人决策过程形式化为部分可观察马尔可夫决策过程(POMDP),并引入世界模型驱动的任务无关奖励建模机制,为失败轨迹提供渐进式奖励信号 [18][19] - 奖励建模方法分为三步:1)将轨迹观察序列编码为世界模型潜空间表征 [20];2)对成功轨迹的潜在表征进行聚类,获得代表性中心以捕捉关键行为模式 [21];3)计算失败轨迹表征到最近成功中心的距离,并通过批次归一化将其转化为0到1之间的渐进式奖励 [22][23] - 策略优化使用PPO风格的裁剪目标函数,并添加KL散度正则项以保持策略稳定性,利用世界进展奖励替代传统任务特定奖励来计算优势估计 [24][26] 实验结果 - 在LIBERO基准测试中,仅使用第三视角图像和语言指令的SRPO模型取得了99.2%的平均成功率,超越了众多依赖腕部视角、本体感知、3D输入等更复杂输入的模型 [29][30] - 具体而言,仅用200步强化学习,模型成功率从初始的48.9%飙升至99.2% [29] - 在更具挑战性的LIBERO-Plus泛化测试中,SRPO带来的性能提升高达167%,即便未使用任何泛化场景数据进行训练,其性能也超越了经过15万步监督学习的基线模型 [31][32] - 在训练效率方面,对于LIBERO长时序任务,初始模型One-shot SFT成功率仅17.3%,SRPO仅用219步即提升至98.6%,相比同期GRPO性能提升15.3%,相较15万步的full-shot SFT模型性能提升12.9% [36] - 在真实机器人测试中,将SRPO的奖励建模应用于开源模型,在五个真机任务上,模型成功率相对SFT基线分别提升了66.8%和86.7% [39] - 此外,SRPO训练后的模型能够自主探索出专家轨迹中不存在的新路径与抓取姿态,展现了超越示范的创造性 [42] 潜在价值与行业意义 - 研究发现,SRPO可以作为Physical Intelligence公司提出的RECAP方法的零成本替代方案,后者需要针对每个任务收集数据并微调价值模型,而SRPO无需任何任务微调即可实现相似的价值曲线趋势 [45][46][54] - 该方法标志着机器人学习从依赖外部专家数据的“模仿”阶段,向利用自身成功经验和物理世界常识进行“创造”和“自主”学习的范式转变 [56] - SRPO为VLA强化学习开辟了一条无需昂贵数据标注、复杂奖励设计或密集专家示范的新路径,有望降低机器人智能化的开发门槛和成本 [56]
深大团队让机器人精准导航!成功率可达72.5%,推理效率+40%
具身智能之心· 2025-12-11 02:01
编辑丨 量子位 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 让机器人听懂指令,精准导航再升级! 深圳大学李坚强教授团队最近联合北京理工莫斯科大学等机构,提出视觉-语言导航 ( VLN ) 新框架—— UNeMo 。 通过 多模态世界模型 与 分层预测反馈机制 ,能够让导航智能体不仅可以看到当前环境,还能预测接下来可能看到的内容,并据此做出更聪 明的决策。 相比主流方法,UNeMo可大幅度降低资源消耗,在未见过的环境中导航成功率可达72.5%,尤其是在 长轨迹导航 中表现突出。 目前,该论文已入选AAAI2026。 以下是更多详细内容。 语言推理与视觉导航的"脱节困境" 作为Embodied AI的核心任务之一,视觉-语言导航要求智能体仅凭 视觉图像 和 自然语言 指令,在未知环境中自主完成目标导航。 而随着大语言模型 ( LLM ) 的兴起,基于LLM的导航方法虽取得进展,但仍面临两大关键瓶颈: 双模块协同打造"预判+决策"闭环 推理模态单一:现有方法仅 ...
全部超越了π0、π0.5!端到端全身VLA模型Lumo-1:迈进推理-行动闭环时代
具身智能之心· 2025-12-11 02:01
文章核心观点 - 星尘智能公司推出的端到端全身视觉-语言-动作模型Lumo-1,通过创新的三阶段训练架构,显著提升了机器人在复杂物理环境中的推理与操作能力,使其能够处理多步骤长时序任务、理解抽象模糊指令并泛化至未见过的场景,在多项基准测试和真实任务中超越了当前主流先进模型[7][9][11] 技术方案:Lumo-1模型架构与训练 - 模型采用三阶段训练架构:第一阶段为具身化视觉语言模型预训练,在7个经典具身推理基准中大部分超过RoboBrain-7B、Robix-7B等专用模型[15];第二阶段为跨本体联合训练,融合多机器人、多视角轨迹与VLM数据,强化指令跟随与空间推理能力[16];第三阶段为基于绳驱机器人Astribot S1高质量真机轨迹的推理-动作训练,学习真实世界的可执行动作模式[16] - 训练最后加入强化学习推理-行动对齐,通过多维度的奖励信号校准高级推理与低级动作之间的误差,使模型在任务成功率、动作合理性与泛化能力上显著超越仅模仿专家示范的原始表现[18][27] - 训练策略验证了数据多样性(场景、物体、指令的覆盖面)对泛化能力的影响远超数据重复次数,为行业指明了注重数据质量的方向[28] 核心技术创新 - 引入动作空间建模,将连续动作轨迹压缩并聚类成紧凑的“动作单词”token,能像组合句子一样复用和组合动作,比FAST与分桶方法更紧凑稳定,减少了数据收集引入的无关噪音[19] - 采用结构化推理,将推理拆解为文字推理与视觉推理两个维度,形成解释动作的结构化推理链,使“为什么这样做”先于“怎么做”,并将2D视觉理解映射为3D控制路径点[22][23] - 模型展现出强大的抽象概念推理与实时决策能力,例如理解“代表爱情的花”指代玫瑰,或当左臂遇障时实时推理并切换为右臂执行任务[23][25] 性能表现与成果 - 在多步骤长时序、精细灵巧操作、可泛化抓取放置三大类核心机器人操作任务中,Lumo-1全部超越了π0、π0.5等先进模型[9][11] - 在未见过的物体、场景和指令等分布外情况,以及抽象、模糊、需扩展推理的指令中,模型优势更为明显[9][11] - 在7个多模态基准测试中的6个优于骨干模型Qwen2.5-VL-7B,并超越了专门的具身模型RoboBrain-7B和Robix-7B,且融入动作学习后未损害核心多模态感知与推理能力[29] - 在真实环境部署中,机器人S1展现出强大的泛化能力,如面对不同高度容器自动调整手臂姿态,或准确识别从印刷体换成手写体的菜单并进行食材配对[29] 行业意义与影响 - 该研究标志着机器人从依赖“轨迹记忆”和“动作库”模仿,向具备“理解烹饪原理”般的多层次推理能力演进,使机器人能理解任务意图、拆解子任务并规划运动路径[6][10] - 技术方案解决了当前主流视觉-语言-动作模型在开放环境中的三大缺陷:抽象概念失效、环境泛化困难以及长时序任务易崩溃[6] - 通过将大模型“心智”与高质量真机训练结合,实现了“心手合一”,让推理能直接转化为丝滑的全身操作,推动了具身智能向更通用、更智能的方向发展[7]
某机器人具身团队VLA算法专家/RL专家招募!薪资open~
具身智能之心· 2025-12-10 10:00
公司概况与市场地位 - 公司成立于2016年,专注于家用机器人领域,连续三年入选中国科技机器人企业50强,连续五年登上胡润全球独角兽企业榜 [2] - 国内市场已覆盖全国超20个省份、70个城市,授权零售网点超500个 [2] - 全球化进程加速,产品已进入全球50多个国家和地区,包括北美、欧洲、日韩、澳大利亚、东南亚等市场 [2] - 在欧洲已合作进入超5000家线下门店,在北美已进入Best Buy、Costco等大型KA近300家线下门店 [2] - 全球用户突破400万 [2] - 2025年第二季度,公司扫地机器人全球出货量达52.42万台,以8.5%的市场份额首次位居全球第五 [2] 业务发展与技术布局 - 公司正在积极招募具身智能算法与机械臂规划算法专家,表明其正致力于研发面向真实环境的复杂物理任务解决方案 [2][4] - 技术研发聚焦于双臂机器人完成复杂物理任务的多模态决策模型,特别是视觉-语言-动作基础大模型的落地 [5] - 研发工作涵盖从数据采集、算法设计、模型训练到工程部署的端到端系统级解决方案 [5] - 持续探索多模态大模型在具身智能领域的创新应用,并推动前沿技术从实验室到实际场景的转化 [5] - 机械臂规划算法开发面向规模化量产需求,旨在打造高可靠、高适配的解决方案 [7] - 规划算法开发重点覆盖机械臂操作规划、动态避障规划、QP规划、轨迹平滑及奇异规避等关键技术 [8] - 通过仿真环境进行算法验证,并解决从仿真到真实机械臂部署中的迁移问题 [8] - 注重感知-规划全技术栈协同,融合多模态感知数据优化规划精度,并确保算法从研发到量产的顺利落地 [12] 人才与研发要求 - 寻求具身VLA/多模态大模型算法专家,要求硕士及以上学历,具备机器人学习、深度学习、模仿学习等核心算法基础 [7] - 候选人需精通Python,熟悉PyTorch/TensorFlow等框架,并有多模态大模型在机器人感知、操作、导航等方向的研发落地经验 [7] - 具备在机器人、机器学习、计算机视觉等相关顶级会议期刊发表论文或开源项目贡献为加分项 [7] - 寻求机械臂规划算法专家,要求控制相关方向硕士及以上学历,社招需3年以上相关经验,校招需博士学历 [13] - 候选人需熟悉机器人技术栈,精通机械臂运动学与正逆解,具备MoveIt、Pinocchio等工具使用经验 [13] - 要求熟练使用C++/Python,具备ROS/ROS2开发经验,并有Isaac Sim、MuJoCo等仿真工具使用经验 [13] - 社招需具备量产功能交付经验,校招需有算法创新与复现能力 [13]
担心买得起机械臂,不会用?小白+科研友好型的臂来啦~
具身智能之心· 2025-12-10 10:00
产品定位与目标客群 - 产品是一款面向具身智能科研领域的轻量级高性价比机械臂,旨在解决该领域硬件选择中“太贵买不起,太便宜难用难上手”的痛点 [5] - 产品专为新手和科研初学者设计,目标客群包括学生、教育工作者以及刚踏入机器人领域的开发者,旨在帮助他们低成本、高效率地完成算法验证与项目开发 [5][6] 核心价值主张与工作流优化 - 传统具身科研实战中,约70%的时间耗费在调试硬件通信、校准传感器以及在仿真与真机间手动移植代码,算法迭代一次需数天才能看到真实效果 [1] - 该产品通过提供全流程工具链,将工作流优化为:在Gazebo中快速仿真验证算法逻辑,一键将程序部署至真机进行调优,从而实现从“灵感”到“物理动作”的高效多次迭代 [2] - 产品重新定义了“轻量级”,不仅指物理结构轻巧(本体重量4.2KG),更指研发负担的“轻盈” [3][11] 产品关键性能参数 - **机械臂本体**:重量4.2KG,额定负载3KG,6个自由度,工作半径612.5mm,重复定位精度±0.1mm [11][22] - **运动性能**:关节运动最大速度在180°/s至220°/s之间,关节运动范围覆盖各轴特定角度区间 [11][24] - **电气与接口**:供电电压24V,通讯方式为CAN,外部接口为电源+CAN XT30 2+2,控制方式支持轨迹跟踪、示教和API [11][22] - **安装与材质**:底座安装尺寸为90mm*90mm*M5*4,主要材质为铝合金和树脂 [11][22] 核心产品优势与功能 - **全流程开源工具链**:提供从数据采集、模型训练到推理部署的全流程工具链和代码示例(目前开放ACT算法示例),支持视觉、力控等多模态数据融合,兼容TensorFlow、PyTorch等主流框架 [7][20][39] - **仿真与真机无缝联调**:提供URDF模型,支持Gazebo等主流仿真环境与真机实时联动,可一键将仿真验证后的程序部署至物理设备 [7][20][25] - **多语言与开发框架支持**:提供Python和C++双语言开发接口,同时兼容ROS1和ROS2开发框架 [7][21][22] - **完善的SDK与生态**:提供完整的开源软件开发工具包(SDK),包含驱动程序、API接口、示例代码与文档 [32][33] - **持续升级与售后支持**:承诺后期将陆续升级更新VLA、VA相关源码,新老客户均可享受升级,并提供24小时快速响应的售后和生态服务 [7][22] 适配与兼容性信息 - **计算配置**:机械臂的SDK和MoveIt等对电脑配置要求不高,但其适配的ALOHA ACT算法在NVIDIA 4060显卡上即可完成训练和推理 [53] - **视觉传感器**:目前已适配的相机包括Intel RealSense D435系列和奥比中光DCW2 [53] - **开源模型**:用户可自行微调所有开源模型,产品目前已开源适配LeRobot和ACT,并计划逐步适配并开源RobotWin、Pi0等模型 [53]