具身智能之心

搜索文档
近30家具身公司业务和产品一览
具身智能之心· 2025-06-20 03:07
具身智能领域公司盘点 人形机器人领域 - 智元机器人专注人形机器人研发 代表产品包括远征A1 A2双足人形机器人 支持复杂地形行走和精细操作 如拧螺丝 插拔插座 [2] - 傅利叶智能推出GR-1 GR-2通用人形机器人 同时开发上肢康复机器人 采用3D空间训练模式用于中风患者康复 [6] - 松延动力研发通用人工智能本体 创新产品包括运动健将N2和通用人形Dora [10] - 开普勒机器人定位通用人形机器人 产品先行者系列K1 K2应用于智能制造 仓储物流 科研教育等领域 [25] 四足机器人领域 - 宇树机器人是全球四足机器人领导者 代表产品Go1 Go2系列消费级四足机器人搭载超感知AI系统 支持人脸识别跟随 [3][5] - 云深处科技聚焦特种四足机器人 绝影X20 x30具备防爆设计和IP66防护等级 可爬40°斜坡 用于变电站巡检 [7] - PNDbotics推出四足机械狗U1 [24] 核心技术创新 - 宇树机器人自研M107电机扭矩密度达30Nm/kg 运动控制方案成本低于波士顿动力同类产品80% [5] - 云深处科技J系列关节最大扭矩重量比达56 48Nm/kg J60-10 [7] - 星动纪元开发全直驱仿人五指灵巧手星动XHAND1 [19] - 智平方推出具身大模型AI2R Brain [20] 行业应用场景 - 宇树机器人与比亚迪 宁德时代合作落地工业场景 [2] - 云深处科技产品被国家电网 南方电网批量采购 2023年巡检里程超10万公里 [7] - 自变量机器人S6六轴协作机械臂重复定位精度达±0 02mm 适用于半导体晶圆搬运 汽车电子拧紧等精密装配场景 [12] - 乐聚机器人Aelos开源人形机器人覆盖K12至高校编程教学 合作世界机器人大赛WRC [14] 新兴技术方向 - 西湖大学孵化企业西湖机器人主攻强化学习与大模型深度融合的通用智能创新路径 [18] - 银河通用研发可泛化操作的具身大模型机器人GALBOT G1 能灵活应对复杂场景 [31] - 穹彻智能开发"以力为中心"的具身智能大模型Noematrix Brain和AnySkill [30] - 维他动力构建视觉语言模型ViLa和部件约束模型CoPa的具身大模型体系 [32]
EMBODIED WEB AGENTS:融合物理与数字领域以实现综合智能体智能
具身智能之心· 2025-06-20 00:44
研究背景与核心问题 - 当前AI智能体存在领域割裂问题,网络智能体擅长数字信息处理,具身智能体专注于物理交互,二者协同不足[4] - 人类智能天然融合物理与数字领域,而现有AI缺乏这种跨域协同能力[4] - 研究团队提出Embodied Web Agents (EWA)新范式,旨在构建可无缝桥接物理具身与网络推理的智能体[4] 统一仿真环境 - 开发集成式任务环境,整合户外环境、室内环境和网络环境三大模块[5][8][10] - 户外环境基于Google街景/地球API构建真实城市导航图[5] - 室内环境采用AI2-THOR高拟真厨房场景[8] - 网络环境自建5功能网站,包括食谱、购物、地图、维基和主页[10] - 状态空间融合物理与数字状态,动作空间支持跨域操作,观测空间包含具身观测与网络感知[7] 基准测试EWA-Bench - 构建包含1.5K任务的评测集,涵盖烹饪、导航、购物、旅游和地理定位5大领域[11] - 任务类型包括烹饪(911条)、导航(144条)、购物(216条)、旅游(110条)和地理定位(142条)[11] - 75%任务需多次环境切换,强制考察跨域协调能力[11] 实验结果与发现 - 主流模型性能差距显著,GPT-4o整体准确率34.72%,Gemini 30.56%,Qwen 15.97%,Intern 13.19%,人类90.28%[14] - 导航任务中,GPT-4o完成率52.08%,Gemini 48.96%,Qwen 36.81%,Intern 26.04%,人类91.32%[14] - 购物任务中,GPT-4o整体准确率25.46%,Gemini 23.61%,Qwen 13.89%,Intern 10.65%,人类92.59%[14] - 旅游任务中,GPT-4o整体准确率30.91%,Gemini 25.45%,Qwen 11.82%,Intern 9.09%,人类91.82%[14] 错误根因分析 - 失败主因是跨域协同问题,占比66.6%[15] - 模型在纯网络任务表现尚可(57-69%),但涉及物理交互时暴跌至≤10%[15] - 烹饪任务中文本输入显著优于视觉输入[15] - 单域循环陷阱占比36.8%,指令-动作错位占比11.8%,无效环境切换占比16.7%[19] 地理定位任务启示 - 具身探索显著提升定位精度,GPT-4o街道级识别从1.41%提升至3.52%[20] - 查询行为本身可强化推理置信度,即使检索结果噪声大[20] 贡献与未来方向 - 首次形式化"具身网络智能体"概念框架[21] - 发布首个物理-数字融合仿真环境[21] - 构建多领域任务集EWA-Bench[21] - 揭示当前LLM跨域协同是主要瓶颈[22]
港科大智能建造实验室诚招博士后/博士生/研究助理(机器人方向)
具身智能之心· 2025-06-20 00:44
郑展鹏教授学术背景 - 郑展鹏教授现任香港科技大学正教授 并担任土木与环境工程学系副系主任 极智慧城市研究院副院长 智能建造实验室主任 低空经济研究中心成员等多个学术职务 [1] - 教授拥有斯坦福大学博士学位 在国际期刊发表360篇论文 总引用超18,000次 h-index达76 入选2024年全球前2%顶尖科学家榜单 [2] - 曾获buildingSMART国际openBIM大奖 日内瓦国际发明展金奖等荣誉 担任Automation in Construction等期刊编委 [1][2] 研究方向与招募信息 - 方向一聚焦多旋翼无人机开发 需实现无GPS环境自主巡航 要求申请人熟悉ROS编程 SLAM算法和飞控系统 [4] - 方向二基于水下机器人 研究水下目标识别与三维重建 要求掌握计算机视觉 深度学习及水下成像原理 [5][6] - 招募岗位包括博士后 博士生和研究助理 优先考虑有相关科研竞赛经验及论文发表者 [4][5] 博士生待遇详情 - 常规博士奖学金为每年HK$225,120(月HK$18,760) 港府奖学金达每年HK$337,200(月HK$28,100) [8] - 红鸟奖学金提供HK$40,000入学奖金 免除首年学费 后续每年额外HK$20,000奖学金 [8] - 另设会议及海外交流奖学金资助 具体参见港科大研究生奖学金网页 [8]
VR-Robo:real2sim2real,机器人视觉强化学习导航和运动控制新范式!
具身智能之心· 2025-06-20 00:44
问题出发点 - 足式机器人在自主运动控制方面取得显著进展,但现实部署时因"仿真到现实"差异表现不佳[3] - 现有方法难以复现实景中的复杂几何和视觉细节,限制高层次视觉导航任务开展[3] - VR-Robo提出"真实-仿真-真实"统一框架,由清华大学等多家机构联合开发[3] 解决方案 - 结合基础模型几何先验,从图像重建几何一致性场景[4] - 采用GS-网格混合表示与遮挡感知策略构建可交互仿真环境[4] - 利用深度图/点云进行几何对齐,NeRF生成高保真场景图像[4] - 强化学习策略零样本迁移至真实机器人,实现第一视角导航[5] 技术实现细节 - 使用Isaac Sim环境进行物理交互,输入包括ViT编码的RGB特征、本体感知和颜色指令[7] - 采用非对称Actor-Critic结构和LSTM网络输出底层控制策略[7] - 训练时随机采样机器人/物体网格位置,同步融合高斯表示进行联合渲染[9] 实验性能 - 成功率(SR)和平均到达时间(ART)为核心指标[14] - VR-Robo在Easy/Medium/Hard场景SR达100%/93.33%/100%,ART为4.96s/6.28s/9.09s[15] - 对比方法中模仿学习SR为0%,SARO在Hard场景SR为0%,CNN编码器SR为6.67%-73.33%[15] - 消融实验显示纹理网格SR仅20%,去除域随机化后SR降至53.33%[15] 应用局限 - 当前仅支持静态室内环境,未覆盖动态/户外场景[16] - RGB重建的Mesh存在结构缺陷,需引入生成资产方法改进[16] - 单任务训练耗时约3天,需优化训练效率[16]
【圆桌正当时】机器人不能没有方向盘,你的遥操够丝滑吗?
具身智能之心· 2025-06-20 00:44
行业趋势与概念发展 - 具身智能概念诞生于1950年 但当前热潮本质是Robot Learning学科从规则驱动范式转向数据驱动范式的变革 类似AI 1.0时代人脸识别领域的技术跃迁 [3] - 基于遥操作采集数据训练的模型已能完成叠衣服、系鞋带等传统规则驱动难以实现的任务 标志着技术路径的根本转变 [3] - 人形机器人热潮推动中国机器人供应链快速成熟 本体构型呈现百花齐放态势 遥操作技术从辅助工具升级为行业核心要素 [3] 技术发展阶段类比 - 当前机器人行业处于马车向汽车过渡的早期阶段 如同手机行业在功能机时代的多样化探索 缺乏标准化操作硬件和软件架构 [4] - 机器人领域尚未形成类似汽车方向盘或手机安卓系统的统一交互标准 操作系统的工程化水平仍处于初级阶段 [4] - 即使模型驱动算法短期难突破 开发人类友好型机器人操作系统仍可成为推动行业发展的第二引擎 [4] 商业化路径与生态建设 - 行业需要并行推进全无人方案与渐进式辅助驾驶方案 类似自动驾驶领域的技术落地策略 [5] - 亟需构建ROS3.0级别的具身机器人操作系统 形成类似柳树街车库的开发者生态 联合工程师、研究机构与工业企业共同推进 [4][5] - 大模型技术加速机器人行业进步 催生多元化供应链体系 为新产品品类诞生创造条件 [4] 技术研讨方向 - 重点关注遥操作技术的标准化进程 其可能成为机器人领域的"方向盘"或"安卓系统" [5] - 探索具身智能渐进式落地方案 平衡技术理想与商业化可行性 [5] - 优化遥操作硬件/软件交互设计 提升人机协同效率 [5]
直击CVPR现场:中国玩家展商面前人从众,腾讯40+篇接收论文亮眼
具身智能之心· 2025-06-18 10:41
CVPR 2025核心趋势 - 多模态和3D生成成为论文接收与研讨的热门方向 其中高斯泼溅技术是论文标题出现频率前五的关键词之一 [8][17] - 基础模型讨论深入并延伸至产业落地 具身智能和机器人AI成为独立Workshop板块 [8] - 中国企业参与度创纪录 腾讯、字节等大公司主导展区 但参与主体仍集中于成熟商业化企业 [4][9][32] 技术研究热点 - 多模态以75次出现频率位列论文标题关键词榜首 扩散模型(153次)、大语言模型(129次)紧随其后 [16] - 3D生成领域突破显著 高斯泼溅技术推动神经渲染研究 腾讯Hunyuan 3D 21版本实现几何与纹理双重优化并全面开源 [17][21][23] - 计算机视觉与图形学加速融合 3D重建相关论文数量激增 国内技术跃迁速度加快 [19][20] 企业参与动态 - 腾讯表现突出:40+篇论文入选 覆盖混元大模型团队(多模态推理/3D生成)、优图实验室(DeepFake检测/自监督生成)等方向 [34] - 中国企业赞助力度加大:6家中国机构进入赞助商名单 腾讯与字节跻身白金赞助商行列 投入规模创历史新高 [36][37] - 人才争夺策略升级:腾讯派出20人技术团队现场交流 通过Demo展示、学术活动直接对接顶尖人才 [38][44] 产业应用延伸 - Workshop议题设计呈现双轮驱动:既深化视觉概念等基础研究 又拓展3D场景理解、数字孪生等产业应用场景 [27][30] - 腾讯形成商业反哺技术闭环:2024年研发开支70686亿元 累计研发投入达3403亿元 专利授权超45万件支撑AI持续投入 [46] - AI商业化成效显现:腾讯AI能力已驱动广告与游戏业务增长 微信生态内新AI应用成为重点投入方向 [50]
工业界和学术界在具身智能数据采集上有哪些方案?
具身智能之心· 2025-06-18 10:41
具身智能数据采集方案 - 机器人运动控制主要使用强化学习训练 机械臂操作任务通常采用模仿学习方式 数据采集是核心环节 直接影响模型性能[3] - 遥操采集依赖本体 成本较高 但前后处理简单 数据质量最高[4] - 开放场景采集不依赖本体 成本低 可映射多本体 但存在数据与真实部署差距 传感器信息可能不全[5] - 合成数据不依赖本体 成本低 需搭建仿真环境 需处理sim2real和real2sim问题[6] - 互联网数据不依赖本体 采集成本低 但清洗成本高 可能引入不稳定因素[8] 机器人采集实施方案 - Optimus采用VR遥操加动捕手套 操作员通过VR眼镜与机器人视野对齐 动捕手套捕捉手指动作映射到灵巧手[9] - ALOHA/Mobile ALOHA采用同构映射数据采集方案 成本较高[10] - 工业界主流选择遥操方案 因商业阶段尚未到降本增效时 遥操数据质量最高且成本可接受[12] - 遥操系统可反哺机器人本体设计 通过人类操作反馈改进硬件设计[12] - 遥操系统可辅助机器人进入危险作业场景 类似特斯拉影子模式 用有效数据反哺模型[12] - 特斯拉人形机器人本体完成度高 规模生产统一程度高 已具备相关条件[13] 学术研究进展 - Data Scaling Laws in Imitation Learning for Robotic Manipulation研究模仿学习中的数据缩放规律[12] - RDT-1B成为双手操作的扩散基础模型[12] - RH20T提供学习多样化单次技能的综合机器人数据集[12] - RoboMIND建立多体现智能规范性数据基准[12]
ForceVLA:通过力感知MoE增强接触丰富操作的VLA模型
具身智能之心· 2025-06-18 10:41
研究背景与问题提出 - 视觉-语言-动作(VLA)模型在机器人操作领域推动通用机器人发展,但处理接触丰富任务时存在局限性,尤其在视觉遮挡或动态不确定性情况下表现不佳[4] - 现有VLA模型依赖视觉和语言线索,忽略力传感模态,导致在插入、工具使用或装配等任务中行为脆弱或失败[4] - 不同任务阶段需要不同形式的力调制,如精细抓取、受控插入和顺应性表面接触,现有方法缺乏感知和适应动态变化的机制[4] 核心创新点 - ForceVLA框架将外部力传感作为VLA系统中的一等模态,引入FVLMoE融合模块动态集成视觉-语言嵌入与实时6轴力反馈[6] - FVLMoE模块通过门控机制计算专家子网络的动态路由权重,专门处理不同模态,实现力、视觉和语言特征的动态处理和深度集成[7][8] - ForceVLA-Data数据集包含五个接触丰富操作任务的同步视觉、本体感受和力-扭矩信号,共244条轨迹和14万个同步时间步[9][15] 方法细节 - ForceVLA基于π₀框架构建,集成视觉、语言、本体感受和6轴力反馈,通过条件流匹配模型生成动作[11] - FVLMoE模块将6轴力-扭矩数据转换为力token embedding,与视觉-语言特征连接后输入模块,通过稀疏混合专家层动态路由[12] - 数据采集使用Flexiv Rizon 7-DOF机械臂,配备Dahuan自适应夹具和两个RGB-D摄像头,通过Quest3 VR界面进行人类遥操作[15] 实验与结果 - ForceVLA在五个接触丰富操作任务上的平均成功率为60.5%,显著优于不使用力反馈的π₀-base模型(37.3%)[25] - 在黄瓜削皮任务中,ForceVLA平均削皮长度达14.12厘米,仅需7次strokes即可完成,优于To-base w/F的13.17厘米和10次strokes[19] - 在视觉遮挡场景下ForceVLA成功率高达90%,在五种挑战性实验条件下平均成功率达63.78%[20][22][25] - 消融研究显示ForceVLA通过FVLMoE模块实现的自适应融合成功率达80%,显著高于晚期融合(60%)和早期融合(55%)[23][26] - 多任务联合训练中ForceVLA平均成功率达67.5%,在插头插入任务中成功率100%,瓶子按压和白板擦拭任务达80%[27]
还不知道发什么方向论文?别人已经投稿CCF-A了......
具身智能之心· 2025-06-18 03:03
具身智能之心论文辅导服务 - 核心观点:提供具身智能领域的论文辅导服务,帮助学员冲击顶级会议 [1] - 辅导方向包括多模态大模型、机器人导航、机器人抓取、具身泛化、具身合成数据、端到端具身智能体、3DGS等 [2] - 辅导老师均在CVPR、ICCV、ECCV、ICLR、RSS、ICML、ICRA等顶级会议发表过论文 [3] 学员要求 - 需要自带简历,学校背景要求国内TOP100高校或国外QS200以内 [5] - 详细内容可通过微信咨询 [5]
从扭秧歌到跑半马:机器人离「iPhone时刻」还有多远?
具身智能之心· 2025-06-17 12:53
具身智能行业现状 - 过去半年机器人技术取得显著突破,从表演性功能扩展到半程马拉松等复杂任务,推动行业认知从想象进入现实[3] - 行业面临核心技术瓶颈、落地场景选择、真实需求匹配和量产成本控制等关键问题,目前尚无统一解决方案[3] - 平台型企业加速布局计算开发平台赛道,英伟达推出Jetson Thor,高通、英特尔跟进,国内地平线推出RDK S100算控一体化套件[4] RDK S100产品特性 - 采用80 TOPS算力设计,已覆盖20+头部客户合作和50+合作伙伴测评,成为英伟达之外的主流选择[4] - 独创CPU+BPU+MCU超级异构架构,实现单SoC"算控一体",支持感知-决策-执行闭环[8] - 6核A78AE CPU负责逻辑处理,BPU支持160+ONNX算子加速视觉/点云/LLM等模型,4核R52+MCU提供低延迟运动控制[10] - 开发套件成本控制在5000元以内,已实现双臂自主叠衣等应用验证[16] 技术路径选择 - 行业存在端到端VLA模型和分层决策两条技术路径,前者通用性强但资源消耗大,后者可控性高但泛化性弱[6] - 分层"大小脑"架构被视为当前最可行方案,大脑负责感知决策(CPU+BPU),小脑负责运动控制(MCU)[7] - RDK S100精准卡位未来三年最可能量产的轮足机器人/机械臂等场景,百TOPS级算力可满足需求[12] 开发者生态建设 - 提供ModelZoo算法仓包含110+预训练模型,配套工具链支持快速算法迁移和部署[14] - 构建端云一体数据闭环和Sim2Real仿真系统,解决高质量训练数据短缺问题[15] - 推出"地心引力计划"汇聚200+初创公司,提供硬件优惠、技术支持及产业链资源对接[18] 商业化落地进展 - 已在宇树G1人形机器人实现运动控制,BPU推理使CPU占用率降低250%[16] - 验证四足机器人多地形步态控制、双臂自主操作等场景,覆盖商业清洁/工业制造等五大领域[16] - 20多家合作客户中部分已进入量产开发阶段,涵盖人形/四足等多种形态[16]