具身智能之心

搜索文档
推荐几个具身智能与机器人私房菜!
具身智能之心· 2025-08-10 06:54
行业动态与人才竞争 - 具身与自动驾驶行业进入规模化量产阶段,融资和招聘活动显著增长 [1] - 可落地技术成为竞争焦点,具备相关能力的人才供不应求 [1] - 行业门槛高导致岗位竞争激烈,系统性学习方法是脱颖而出的关键 [1] 学术与技术资源平台 - **arXiv每日学术速递**:覆盖AI、计算机视觉、机器人等领域的实时论文更新,提供摘要翻译和机构信息 [1] - **自动驾驶专栏**:聚焦行业资讯与技术研究,促进从业者交流 [1] - **北京市高级别自动驾驶示范区**:政策创新与技术突破的前沿阵地,提供商业化落地动态 [1] 专业社区与开发者平台 - **自动驾驶之心**:国内最大开发者社区,覆盖感知、规划、SLAM等方向,吸引300+企业关注并提供学习网站 [2] - **智驾最前沿**:技术资讯全媒体平台,提供免费专业资料 [4] - **计算机视觉研究院**:专注AI研究与落地,分享论文算法和实战项目 [5] 具身智能领域资源 - **视觉语言导航**:聚焦机器人导航领域的技术梳理与行业资讯 [6] - **具身智能研究室**:强化学习、多智能体协同等核心领域的研究与产业案例,拥有2000+开发者社区 [7] - **具身智能之心**:全栈技术交流社区,覆盖多模态大模型、运动控制等方向 [8]
Astribot Suite:面向多样化真实环境、聚焦全身操作的框架
具身智能之心· 2025-08-09 00:48
具身智能技术发展 - 构建通用智能机器人的核心目标是模仿人类进化轨迹,通过环境互动和模仿人类行为加速技能学习与迁移 [3] - 实现目标面临三大挑战:类人操作硬件设计、全身遥操作系统开发、全身视觉-运动策略算法构建 [3] - 星尘智能提出Astribot Suite解决方案,在全身协调任务中验证平均成功率80%,最高达100% [4] 机器人平台设计 - 采用绳驱设计模拟人体肌肉组织,实现柔顺运动和精准施力 [7] - 相比传统刚性连杆机器人,具有更高有效载荷、更低反冲和惯性、更紧凑结构及更高安全性 [7] - 通过刚柔混合动力学建模实现最小控制延迟和高精度轨迹跟踪 [7] 遥操作系统 - 系统由VR头显和手持操纵杆组成,支持第一人称和第三人称两种控制模式 [9] - 第一人称模式优化精确复杂操控任务,第三人称模式适合大范围全身运动 [9] - 操纵杆捕捉手部姿势映射到机器人末端执行器位置和方向 [9] 学习算法设计 - DuoCore-WB算法使用RGB图像输入,与视觉-语言-动作预训练模型无缝衔接 [10][13] - 在末端执行器笛卡尔空间中使用SO(3)方向表示进行全身策略控制 [10] - 采用实时轨迹生成模块(RTG)通过二次规划优化生成平滑连续的执行轨迹 [10] 任务性能评估 - 在六个代表性任务中测试,包括送饮料、收纳猫粮、扔垃圾等 [12][23] - 递送饮品任务测试长时序移动操作能力,开门子任务成功率14/15 [23] - 收纳猫粮任务测试受限空间双手协调操作,整体成功率19/20 [23] - 扔垃圾任务测试多阶段双手协调性,整体成功率13/30 [23] 技术优势验证 - 末端执行器空间动作表示相比关节空间显著提升任务成功率,地面物体分类任务从25%提升至90% [25] - 增量动作表示提高轨迹平滑度,桌面清理任务中动作片段切换处变化从0.0196降低至0.0032 [25] - 末端执行器自我坐标系增强视觉-动作对齐,精细抓取任务成功率19/20 [27][28]
AI眼镜“隔空取物”,戴上即可随心选中现实世界任意物体
具身智能之心· 2025-08-09 00:48
核心观点 - Reality Proxy是一种新型混合现实交互技术,通过数字替身实现现实物体的抽象操控,突破传统XR设备在物体选择上的物理限制[10][13][14] - 该技术采用三级流程(激活/生成/交互代理)实现自然交互,支持7种创新功能如多对象刷选、语义分组等,显著提升操作效率[17][19][30][31][32][33][36][38] - 在办公、建筑导航、无人机控制等场景验证中,系统展现出解决远距离/密集物体交互痛点的能力,用户评估显示其易用性和实用性突出[41][45][47][51][53][54] 技术原理 - 通过头戴设备捕获场景层级结构,将真实物体抽象为固定大小的3D矩形代理,保留空间关系[14][17][19][20][22] - 采用"延迟跟随"机制将代理锚定在手部附近,减少视觉搜索负担,通过双重高亮反馈保持现实世界关注[24][25][26][28][29] - 代理选择精度不受物体实际尺寸影响,支持标准手势操作(捏合/缩放/滑动等)实现精准控制[21][22][31][34] 交互功能 - 浏览预览:滑动代理快速查看多物体信息(如书籍内容)[30] - 批量操作:双手划定区域选中多个代理对应物体[31] - 属性筛选:长按代理调出属性面板实现分类选择(如红色杯子)[32] - 物理交互:利用桌面等表面转换为自然触摸板实现拖动/缩放选择[33][34] - 智能分组:双击代理语义归类或自定义立方体容器进行整体操作[36][38] 应用场景 - 办公场景:快速检索书籍并计算总价[41] - 建筑导航:在大型空间中实现层级结构浏览(整栋楼→单层房间)[38][45] - 无人机控制:通过嵌入跟踪器实现多无人机动态操控[47][48] - 厨房交互:支持不同粒度物体操作(如微波炉部件)[43] 团队背景 - Xiaoan Liu:Fusion Reality创始人,清华大学研究助理,谷歌前员工,专注XR设备与交互技术研究[57][58][62] - Mar Gonzalez-Franco:微软EPIC团队前首席研究员,创立沉浸式技术实验室,Traity公司A轮融资470万美元[64] - Xianhao Carton Liu:明尼苏达大学计算机博士,斯坦福/哈佛研究实习生,图灵班人工智能荣誉学士[66] - Chen Zhu-Tian:明尼苏达大学助理教授,香港科技大学博士,研究方向为人机交互[68]
具身智能之心运营实习生招募来啦!合伙人1v1培养
具身智能之心· 2025-08-09 00:48
公司业务定位 - 公司致力于通过技术内容连接学术界和工业界,成为企业和学校沟通的桥梁[1] - 业务聚焦于自动驾驶、具身智能、大模型等AI前沿技术领域[1] - 内容涵盖学术论文解读、量产方案分析、大模型评测、商业动态及开源项目等[1] 内容分发渠道 - 通过公众号、社群、视频号、知乎、小红书、B站等多平台进行内容分享与粉丝互动[1] - 已与业内主流公司及高校建立深度合作(自动驾驶/具身智能方向)[1] - 大模型方向合作体系正在快速搭建中[1] 人才招聘需求 - 招聘内容运营实习生,需负责学术论文选题解读、知识星球搭建及原创视频制作[2][3] - 岗位要求自动驾驶/大模型/具身智能研究方向本科及以上学历(硕士优先)[3] - 需具备技术热情、执行力、文字功底及学习能力[3] - 加分项包括技术背景(论文解读/代码demo)、产品背景(AI产品拆解)或运营背景(科技自媒体)[3] 工作安排与待遇 - 工作地点为杭州市余杭区(支持线下办公或远程)[4][5] - 每周工作4天及以上,实习期3个月以上者优先[4] - 待遇包含实习工资、合伙人1v1培养、行业资源推荐及岗位内推机会[5]
近2000人了,这个具身领域的黄埔军校有哪些料?
具身智能之心· 2025-08-08 16:02
具身智能社区服务内容 - 提供机器人仿真、数据采集、模型部署等技术问题解决方案 [1][3] - 汇总30+技术路线、40+开源项目、60+数据集及各类学习路线 [5][17] - 建立与头部具身公司的内推机制 提供岗位对接服务 [11][18] 社区成员构成与资源 - 成员来自斯坦福、清华等高校及智元、优必选等50+企业 [17] - 邀请数十位产业界与学术界嘉宾进行答疑和分享 [5][78] - 覆盖感知、交互、导航、控制等20+技术方向 [17][45][47][49] 行业研究支持 - 汇总国内外30家具身机器人公司 涉及教育、工业、医疗等领域 [22] - 整理大模型、人形机器人等行业研报 跟踪技术发展动态 [24] - 提供零部件品牌、开源数据集及仿真平台等基础设施信息 [29][37][39] 技术发展趋势 - 自动驾驶技术向具身智能迁移 视觉语言导航成为过渡方向 [82][84] - 大模型与强化学习结合(VLA+RL)成为主流技术路线 [41][43] - 端到端系统逐步替代传统模块化方案 [84] 人才发展与就业 - 具身智能行业处于早期阶段 对标自动驾驶2017-2018年窗口期 [84] - 行业平均薪资较高 初创公司1-2年经验可达70-80万总包 [84] - 技术转型建议从仿真项目入手 聚焦DL/Transformer基础 [81][82]
NavA3框架:理解任何指令,导航到任何地方找任何目标(清华大学)
具身智能之心· 2025-08-08 00:08
研究背景与动机 - 具身导航(Embodied navigation)现有研究多聚焦于预定义物体导航或指令跟随,与现实中人类复杂、开放场景的需求存在显著差距 [3] - 现有视觉-语言导航(VLN)依赖过于具体的分步指令,物体导航(ObjectNav)仅能处理预定义类别物体,无法应对"我想喝杯咖啡"等需要高级推理和空间感知的指令 [3] - 长视野导航任务要求智能体理解高级人类指令,在真实环境中完成空间感知的物体导航 [4] 核心贡献 - 提出长视野导航任务,要求智能体在复杂室内环境中理解高级人类指令,定位具有复杂空间关系的开放词汇物体 [6] - 设计NavA³分层框架,通过全局策略和局部策略结合实现对多样高级指令的理解、跨区域导航及任意物体定位 [11] - 构建包含100万样本的空间感知物体affordance数据集,用于训练NaviAfford模型 [11] - 实验表明该方法在导航性能上达到SOTA,平均成功率达66.4%,较最佳基线提升41.2个百分点 [7][23] 方法框架:NavA³分层设计 - 采用"全局到局部"的分层策略,融合语义推理与精确空间定位 [9] - 全局策略依赖Reasoning-VLM,将高级人类指令转化为可执行的导航目标 [12] - 局部策略聚焦目标区域内的探索和精确物体定位,核心是NaviAfford模型 [17] - NaviAfford模型基于100万样本训练,能处理物体affordance和空间affordance两类标注 [17][18] 实验验证 - 在5个场景(会议室A、会议室B、茶水间、工作站、阳台)的50个任务上展开实验 [22] - 会议室A成功率72.0%,工作站成功率76.0%,阳台成功率60.0% [23] - 通用VLMs(如GPT-4o、Claude-3.5-Sonnet)在该任务中成功率接近零 [25] - 完整标注使茶水间和工作站的成功率分别提升28.0%和36.0% [26] - GPT-4o作为Reasoning-VLM时平均成功率达68.0%,显著高于开源模型 [27] - NaviAfford的平均affordance准确率达63.2%,较RoboPoint提升13.0% [28][29] 定性分析 - 能准确理解"笔记本左侧的沙发""衣柜内的空位"等空间关系 [34] - 长视野导航中,从"想喝咖啡"到找到咖啡机的推理过程清晰 [34] - 在轮式机器人和四足机器人上均能稳定运行,体现跨载体适应性 [34]
万字长文聊具身智能“成长史”:具身智能跨越了哪些山海,又将奔向哪里
具身智能之心· 2025-08-08 00:08
具身智能发展现状 - 机器人技术进入闭环系统时代,融合感知、行动及软件与物理世界的紧密连接,强调物理定律的重要性[5] - 技术就绪水平(TRL)成为工业应用关键指标,汽车等行业要求达到8-9级成熟度才能获得信任[6] - 过去5-10年机器学习带来显著进步,但物理世界要求99%以上成功率,远高于其他AI领域标准[8] - 行业更倾向从结构化和半结构化环境切入,非结构化环境商业化难度大[9] 技术路线之争 - AGI(人工通用智能)强调端到端学习和泛化能力,但距离实际应用仍有距离[19] - ASI(人工专门智能)专注于特定领域高性能小模型,适合工业实时控制需求[23][24] - 专门模型优势:支持多速率系统、高效实时、易调试、可本地运行[27] - 通用模型优势:开发时强大、适合语义规划和人机交互,但难以满足机器人实时需求[27] 关键技术突破 - 视觉-语言-动作(VLA)模型展现潜力,RT-2X实现跨具身任务执行[39][40] - RT-2成为首个机器人基础模型,基于PaLI-X视觉语言模型改造[41] - RTX跨具身数据集包含34个实验室22种机器人数据,通用模型性能优于专用模型50%[42][43] - 第二代VLA模型采用连续动作分布,如PI-Zero增加动作专家模块处理高频率控制[45][46] 数据与训练方法 - 物理机器人产生的真实数据被视为关键,模拟数据作用有限[69][70][71] - PI-0.5模型仅3%数据来自移动操作器,却能在全新场景执行长期任务[54] - 强化学习(SERL)与基础模型结合,专用策略可生成训练数据提升通用性[87][91] - 未来需解决从数十亿轨迹中筛选最有价值数据的问题[73] 行业应用方向 - 工业领域倾向高混合低产量模式,需要快速适应能力[33] - 操作被视为最具挑战领域,需融合复杂环境理解与精细物理交互[99] - 持续学习、从反馈中学习、自主数据收集将成为未来重点[103][104][105] - 学术界与产业界需协同,选择对失败更宽容的应用场景加速技术落地[95][96] 前沿趋势展望 - 物理AGI实现路径存在分歧:性能优先或能力优先[62][63] - 需构建共享的物理世界常识理解框架,统一导航、移动与操作的方法论[101] - 年轻研究人员应关注根本性问题,超越短期实用性考虑[107] - 行业需要复合型人才,掌握物理、AI、机器学习和大数据科学[106]
这个2000人的具身社区,帮助大家解决了各种各样的难题!
具身智能之心· 2025-08-08 00:08
具身智能社区核心价值 - 国内首个具身全栈技术社区,覆盖产业、学术、求职、问答等多领域闭环 [2][15] - 提供30+技术路线梳理,缩短检索时间,包含40+开源项目、60+数据集、主流仿真平台 [4][15] - 汇聚斯坦福、清华等高校实验室及优必选、小米等头部公司成员,形成高质量行业网络 [15] 技术资源与解决方案 - 汇总具身智能感知/交互/强化学习等20+学习路线,包括VLA+RL、Diffusion Policy等前沿方向 [15][39][59] - 整理机械臂抓取、双足/四足机器人等硬件方案源码与仿真平台 [69][71][74] - 提供多模态大模型理解/生成、sim2real迁移等关键技术文档 [51][53][66] 职业发展支持 - 与智元机器人、逐际动力等企业建立内推机制,直接对接岗位需求 [9][15] - 针对SLAM/自动驾驶从业者转型具身智能提供技术过渡方案 [80][82] - 实时分享行业薪资动态,如初创公司70-80万总包案例 [82] 行业动态与趋势 - 具身智能处于探索期,类比自动驾驶2017-2018阶段,存在窗口期机会 [82] - 技术焦点从传统SLAM转向大模型端到端方案,催生视觉语言导航等新方向 [81][82] - 清洁机器人等领域SLAM工程化需求显著,但需平衡精度与资源消耗 [83] 社区活动与知识沉淀 - 定期举办圆桌论坛与直播,覆盖本体设计、算法部署等全链条内容 [4][76] - 汇总30家头部公司研报、零部件品牌及国内外实验室资源 [20][22][27][19] - 建立匿名提问机制,解决实际项目中的调试与数据采集难题 [1][78]
具身智能之心运营实习生招募来啦!合伙人1v1培养(只有1个名额哦)
具身智能之心· 2025-08-07 12:00
大家好,我们是自动驾驶之心/具身智能/大模型之心Tech团队。非常高兴在这里和你相遇,如果你也认同技 术内容可以改变世界,那你可能就是我们在找的人! 1. 自驾、大模型、具身相关研究方向,本科及以上学历,硕士优先; 2. 对技术相关的前沿进展和事件有极高的研究热情和分享欲; 3. 较强的执行力、效率意识和沟通意识; 4. 有一定的文字功底,逻辑清晰,表达流畅; 5. 具备较强的学习能力和知识梳理能力; 6. 加分项: 有技术背景,独立解读学术论文,运行部署开源项目和撰写代码demo; 有产品背景,能深入体验和拆解AI产品,提炼核心价值; 有运营背景,主导运营过原创科技自媒体账号; 我们在做什么? 我们希望通过技术内容连接学术界和工业界,成为企业和学校沟通的桥梁,更乃至数十万的AI开发者和创 业者。我们致力于为大家带来全网最新最权威的技术信息,团队聚焦在自动驾驶、具身智能、大模型等AI 最前沿的技术领域,涵盖学术论文解读、业内量产方案分析、大模型评测、商业动态、行业招聘、开源项 目等,并通过公众号、社群、视频号、知乎、小红书、B站等平台进行内容分享、粉丝交流及企业联系。 目前自动驾驶和具身智能两个方向我们已经和 ...
具身智能之心项目与论文辅导来了!
具身智能之心· 2025-08-07 12:00
公司业务与服务 - 公司正式推出项目与论文指导系列课程 [1] - 服务内容包括项目辅导、论文辅导和求职辅导 [1] - 课程方向涵盖大模型、视觉语言导航、视觉语言交互、强化学习、DP、sim2real、仿真等多个前沿领域 [1] - 公司提供专业的学术资源和一线的工程算法人员支持 [1] 目标客户与需求 - 目标客户为在技术研发和求职过程中遇到困难的群体 [1] - 具体需求包括解决技术卡点、代码编写与调试、简历撰写和面试准备等 [1]