Workflow
Robotics
icon
搜索文档
小米智造基金入股国华智能 后者为人形机器人核心部件研发商
新浪财经· 2025-08-25 03:21
公司股权变动 - 北京小米智造股权投资基金合伙企业新增为国华(青岛)智能装备有限公司股东 [1] - 公司注册资本由约935.22万人民币增至约1047.45万人民币 增幅约12% [1] - 股东结构现包含王广 齐鲁前海(青岛)创业投资基金合伙企业 金杨股份及小米智造基金 [1] 公司业务定位 - 公司成立于2021年2月 法定代表人为王广 [1] - 经营范围涵盖智能机器人研发销售 工业机器人制造销售 高速精密齿轮传动装置销售 轴承齿轮制造 变速箱制造 光学仪器制造及人工智能系统集成服务 [1] - 专注于精密传动及伺服驱控系统的高新技术企业 致力于人形机器人核心部件研发制造 [1]
宇树即将发布“芭蕾舞者”,拥有31个关节自由度;Meta公布Reels短视频音频翻译功能,利用AI多语言配音对口型丨AIGC日报
创业邦· 2025-08-25 00:08
AI与机器学习技术进展 - Meta推出Reels短视频AI多语言翻译功能 支持嘴型对齐和声线模拟 大幅降低多语言视频制作成本[2] - xAI开源Grok 2.5模型 预计Grok 3模型将在约半年后开源[2] - OpenAI与英国政府磋商ChatGPT Plus开放协议 潜在成本达20亿英镑[2] 人形机器人技术突破 - 宇树科技新型"芭蕾舞者"人形机器人拥有31个关节自由度 为该公司最高自由度设计[2][3] - 新产品主打Agile(敏捷)与Elegant(优雅)特性 通过宽肩窄腰的纤长体形实现拟人化运动[2][4] 行业生态与数据资源 - 投资分析平台提供超过2万家LP数据 10万+基金数据及1万家专精特新小巨人企业数据[9] - 平台覆盖独角兽企业榜单 产业图谱和全生命周期投资分析工具[7][9]
一文尽览!2025年多篇VLA与RL融合的突破方向
具身智能之心· 2025-08-25 00:04
视觉-语言-动作模型与强化学习融合研究进展 - 2025年机器人具身智能领域聚焦视觉-语言-动作模型与强化学习的融合 旨在解决真实场景中决策与执行精度问题 相关研究在ICLR、RSS、ICRA、CVPR等顶会集中收录[2] GRAPE模型创新 - 通过轨迹级VLA对齐和任务阶段分解提升模型泛化能力 解决行为克隆依赖导致的未见任务适应性问题[4][5] - 采用可定制时空约束的偏好建模 支持根据安全、效率等目标灵活调整策略[5] - 在现实世界与模拟环境中 域内操作任务成功率提升51.79% 未见任务成功率提升58.20% 安全性目标下碰撞率降低37.44% 效率目标下启动步长减少11.15%[7] VLA-RL框架突破 - 构建轨迹级强化学习表达式 将操作轨迹转化为多模态对话形式 优化在线数据利用[10][12] - 微调预训练视觉语言模型作为机器人过程奖励模型 解决稀疏奖励问题[12] - 在LIBERO平台40个任务中性能超越OpenVLA-7B基线 并显现推理扩展规律迹象[14] ReWiND框架优势 - 通过预训练语言基奖励函数和策略 实现少样本微调适配新任务 无需重复设计奖励或演示[17][18] - 奖励模型泛化能力达基准方法2.4倍 新任务适应效率在模拟环境中快2倍 真实世界场景下双手动策略性能提升5倍[20] ConRFT强化微调方法 - 采用离线行为克隆与Q学习结合在线一致性策略的两阶段训练 提升训练稳定性[23][25] - 在八项实际操作任务中平均成功率达96.3% 较监督学习方法提升144% 回合长度缩短1.9倍[28] RLDG数据优化策略 - 利用强化学习生成高质量训练数据微调通用策略 改善动作分布与状态覆盖[32][35] - 在精确操作任务中成功率最高提升40% 泛化能力优于人类演示训练策略[38] TGRPO在线优化方案 - 融合步骤级与轨迹级优势信号优化组级估计 增强在线强化学习训练适配性[38][41] - 在十个操作任务中性能超越监督微调与PPO基线 生成策略更稳健高效[43] iRe-VLAd迭代训练框架 - 通过强化学习与监督学习循环迭代解决训练不稳定与计算负担问题[44][46][48] - 在模拟基准和真实操作套件中验证有效性 实现交互场景下性能优化[50] RIPT-VLA后训练模式 - 基于稀疏二进制成功奖励进行交互式后训练 适配低数据环境[51][52][54] - 轻量级QueST模型成功率提升21.2% OpenVLA-OFT模型达97.5%成功率 仅需1次演示即可在15次迭代内实现97%成功率[56] 行业应用与趋势 - 研究聚焦机器人操控、导航中的策略泛化、动态环境适应及多模态信息对齐问题 覆盖家居家务、工业装配、机械臂操控等高频场景[57] - 部分研究开放项目代码 推动前沿技术落地应用[57]
3个月!完成你的具身大脑+小脑算法学习
具身智能之心· 2025-08-25 00:04
具身智能行业概述 - 具身智能强调智能体与物理环境的交互与适应 聚焦智能体在物理世界中感知环境、理解任务、执行动作并反馈学习的能力[1] - 具身智能的核心模块由大脑和小脑构成 大脑负责思考感知(语义理解和任务规划) 小脑负责执行(高精度运动执行)[1] 国内外产业布局 - 近2年具身明星团队陆续创业 成立星海图、银河通用、逐际动力等公司 推动具身本体和大小脑技术进步[3] - 华为2024年底启动"全球具身智能产业创新中心" 与乐聚机器人、大族机器人等企业合作建设具身智能大脑和小脑关键技术[5] - 京东自2025年5月以来连续投资智元机器人、千寻智能、逐际动力等公司 强化物流科技与家庭服务场景效率[5] - 腾讯、蚂蚁集团、小米等科技巨头通过战略投资与合作加快构建具身智能产业生态[5] - 国外Tesla/Figure AI推进工业与物流机器人应用 美国投资机构支持Wayve、Apptronik等公司落地自动驾驶与仓储机器人[5] - 国内企业以产业链投资与综合平台驱动具身智能落地 国外科技巨头侧重基础模型、模拟环境与类人机器人原型研发[5] 技术演进阶段 - 第一阶段聚焦抓取位姿检测 通过点云或图像预测末端执行器姿态实现静态物体抓取 但缺乏任务上下文和动作序列建模[6] - 第二阶段进入行为克隆阶段 借助专家演示数据学习从感知到控制的端到端映射 具备模仿人类完成复杂任务能力[6] - 第三阶段(2023年起)采用Diffusion Policy方法 通过扩散模型生成整个动作轨迹 提升策略稳定性与泛化能力[6] - 2024年进入Vision-Language-Action模型阶段 融合视觉感知、语言理解与动作生成模块 支持零样本或小样本快速泛化[6][7] - 第四阶段(2025年起)探索VLA模型与强化学习、世界模型、触觉感知等模块融合 提升长时任务试错能力与环境动态预测能力[8] 技术发展特征 - 从抓取位姿检测到行为克隆、扩散策略与VLA模型的演进 体现"低层感知->中层策略->高层理解"的能力补齐路径[9] - VLA+强化学习结合提升机器人试错能力与自我改进能力 VLA+世界模型引入环境动态预测 VLA+触觉信息拓展多模态融合感知边界[8] - 技术发展推动人形机器人、机械臂、四足机器人等产品落地 服务于工业、家居、餐饮、医疗康复等领域[9] 工程化需求 - 产业界推动具身智能从"论文"走向"部署" 对工程能力提出更高要求[12] - 需要在Mujoco/IsaacGym/Pybullet等平台完成策略训练与仿真测试[12] - 需要训练并部署Diffusion Policy/VLA/力触融合的VLA模型[12] - 需要实现强化学习在VLA后训练上的应用 支持机器人反馈微调[12] - 需要实现从世界建模预测→策略学习→物理执行的一体化具身智能架构[12]
浙大具身智能VLN+VLA统一框架:ODYSSEY
具身智能之心· 2025-08-25 00:04
ODYSSEY框架核心创新 - 提出分层视觉-语言规划器 将基于自我中心感知的长期指令分解为可执行动作 弥合自我中心感知与语言任务间差距 [4] - 设计首个适用于复杂地形的四足机器人全身控制策略 协调运动和操作 实现从模拟到现实的有效迁移 [4] - 构建首个长期移动操作基准测试 覆盖广泛现实世界室内外场景 提供语义推理/任务规划/导航/操作能力全面测试平台 [4] - 实现模拟到现实迁移 现实部署展现强大泛化能力和鲁棒性 验证非结构化环境部署可行性 [4] 研究背景与动机 - 移动操作在动态非结构化环境中至关重要 需结合移动性/操作/实时感知实现复杂任务如微妙调整位置抓取物体 [5] - 现有研究局限:大型语言模型多局限于桌面场景 未解决移动平台感知受限和执行器范围有限问题 [5] - 开放世界环境中操作策略泛化能力不足 非结构化环境中高平台机动性与精确末端执行器控制的双重需求研究不足 [5] - 研究动机为解决上述局限 提出统一移动操作框架实现四足机器人开放世界长期任务执行 [5] 技术架构设计 - 全身控制策略定义为单一网络 将观测向量映射到目标动作 观测包括运动指令/末端执行器目标/局部地面高度图/重力向量等 [9] - 输出动作为默认关节配置偏移量 通过PD控制器转换为扭矩 [9] - 全局规划器融合RGB和LiDAR流构建空-语义表示 利用预训练基础模型映射实例图 [10] - GPT-4.1分解自然语言指令为原子动作 输出粗略目标航路点 投影到2D占用图生成无碰撞目标姿态 [10] - Qwen2.5-VL-72B-Instruct根据RGB观测推断任务相关接触点 投影到深度图像恢复3D位置 根据几何约束确定末端执行器朝向 [10] 训练方法 - 采用两阶段训练:第一阶段固定机械臂关节训练静态负载运动 引入步态奖励和频率奖励改善探索效率 [11] - 第二阶段控制所有18个关节 扩展奖励函数包括末端执行器跟踪项 采用地形不变采样策略提高交互精度 [11] - 全程运用领域随机化增强不同负载适应性 [11] 基准测试构建 - 资产库包含50个刚体物体/15个容器/30个关节结构/10个可拖动物体 [20] - 10个真实场景涵盖室内家居/超市/餐厅/室外庭院等 [20] - 从物体布局/物理属性/环境条件/地形复杂性四维度引入变化确保泛化能力 [20] - 多阶段任务套件包括短期操作技能和长期移动操作任务 长期任务由2-3个子目标组成 共246个室内和58个室外变化 [20] - 模块化评估协议同时评估整体任务成功率和每个动作成功率 [20] 性能评估结果 - 短期任务评估显示在所有数据集实现显著改进 仅依赖单个自我中心摄像头下优于PerAct的精细操作能力 [17] - 在未见数据集上性能保持稳定 PerAct性能急剧下降 表明具备处理未见物体配置的泛化能力 [17] - 长期任务评估涵盖8个移动操作任务 整体成功率均达40%以上 原子技能成功率保持60%以上 [19][29] - 导航成功率表现优异:室内导航成功率97.4%-98.4% 室外导航成功率95.6% [19] - 抓取成功率72.7%-85.0% 放置成功率76.5%-96.8% 推/拉操作成功率71.0%-94.1% [19] 模拟到现实迁移 - 使用Unitree Go2四足机器人和Arx5机械臂构建平台 配备MID-360 LiDAR定位和D435i/D405 RealSense相机 [36] - 现实世界测试两个长期任务("导航到抓取"和"抓取和放置") 使用五种不同物体 [36] - 成功实现任务规划和执行从模拟到现实的迁移 [37] - 存在模拟到现实差距:抓取小物体时因末端执行器跟踪和视觉感知不准确导致失败 [37] 未来发展方向 - 将基准测试扩展为全面评估范式 评估视觉-语言模型和移动操作器的跨体现语义推理和运动-操作协调能力 [38] - 探索主动感知新兴能力 使动态场景理解和自适应运动协同作用 实现更有效现实世界交互 [38] - 解决杂乱非结构化环境中新行为 进一步弥合高层规划和低层控制间差距 [38]
Prediction: These 2 Trillion-Dollar Artificial Intelligence (AI) Stocks Could Strike a Megadeal That Wall Street Isn't Ready For
The Motley Fool· 2025-08-24 18:00
核心观点 - 苹果和特斯拉作为科技巨头在人工智能领域存在明显短板 均未建立规模化AI业务 但通过战略合作可互补优势 加速下一代AI应用商业化 [2][4][19] 苹果现状分析 - 公司依赖iPhone渐进式升级 AI领域进展缓慢 缺乏独立AI平台 [3] - 取消造车项目Project Titan 研发数年未推出正式产品 错失汽车市场机会 [6] - Vision Pro头显被定位为高端奢侈品而非大众市场突破性产品 消费者采用率有限 [7] - 持有超过1320亿美元现金及等价物 拥有全球分销渠道优势 [15] 特斯拉现状分析 - 人形机器人Optimus和机器人出租车网络具备变革潜力 但尚未实现规模化验证 [3] - 缩减内部Dojo AI超算项目 转向英伟达和AMD基础设施 凸显自建系统成本高昂 [14] - 尽管资产负债表健康 但近年资本配置决策存在争议 [12] 合作潜在价值 - 苹果可借助特斯拉自动驾驶系统和机器人技术 整合自身AI软件生态及营销能力 [9] - 特斯拉可利用苹果资金加速Optimus和机器人出租车商业化 避免财务过度扩张 [15] - 苹果品牌影响力有助于特斯拉AI驱动设备从原型概念转化为主流产品 [16] - 战略合作比直接收购更能释放增值机会 避免重复过去昂贵错误 [10][17]
任正非:中国在技术研究领域的发展步伐不可阻挡
观察者网· 2025-08-24 09:59
校企合作 - 西安交大党委书记及校长带队访问华为总部及优艾智合机器人科技公司推进合作 [1] - 华为创始人任正非与校方围绕科研、教育和人才进行座谈 华为多名高管参与交流 [3] - 双方回顾卓有成效的合作历程 校方对华为支持表示感谢并希望深化合作 [4] 基础研究与技术创新 - 任正非强调以数学为代表的基础研究重要性 指出大学核心使命是探索0到1原始创新 [3] - 华为通过开放全球产业需求和设立专项竞赛机制与高校开展协同创新 [3] - 西安交大在华为"难题揭榜"火花奖获奖数量持续位居全国高校前列 [6] 战略合作领域 - 双方在数学、系统工程理论与技术、电力电子技术、先进制造与检测等领域取得重要合作成果 [6] - 期待在人工智能、网络安全等领域拓展合作空间 深入实施华为"青年学者计划" [6] - 校方提出依托创新港"6352"工程和"1121"产学研模式推动深度融合 [7] 产学研协同机制 - 华为具有市场导向和成果转化产业优势 高校具备基础研究和人才培养创新优势 [7] - 构建长效合作机制促进创新资源与市场需求精准对接 打造校企协同示范 [7] - 共同开拓产业蓝海新机遇 打造产学研用深度融合新典范 [8] 实验室建设与产业应用 - 校方参观华为数据存储实验室和计算创新实验室 [9] - 推动"优艾智合-西安交大具身智能机器人研究院"发展 加速创新成果产业化应用 [9] - 充分发挥学科、人才、平台综合优势提升企业核心竞争力 [9]
佛企斩获1万台订单,具身智能商业化按下“快进键”
21世纪经济报道· 2025-08-23 13:25
行业订单与规模突破 - 广东天太机器人联合多家企业签署具身智能人形机器人1万台订单 刷新全球单笔订单纪录 [2] - 2024年中国人形机器人商用销售出货量仅约两千台 与万台订单形成巨大反差 [2] - 行业预测2024年中国人形机器人市场规模达27.6亿元 2035年有望突破3000亿元 [2] 应用场景与需求驱动 - 订单机器人首要聚焦家庭康养赛道 融合医疗辅助、教育陪伴与数字生活功能 [3] - 中国60岁及以上人口达3.1亿 占总人口22% 护理人力缺口扩大养老机器人需求 [4] - 家庭环境相对结构化且容错率高 技术适配性优于工业场景 [4] 技术突破与成本控制 - 机器人硬件成本占比70% 核心部件包括关节、电机、减速机及结构件 [7] - 订单机器人采用轮式移动方案 高度1.2米 侧重性价比与应用可行性 [7] - 天太机器人新一代关节模组单价进入三位数区间 实现从高价定制向平价量产转变 [8] 量产规划与产能部署 - 2025年完成首代产品原型开发 2026年实现5万台量产并扩大产能 [5] - 2026年底至少交付1万台面向家庭康养的具身人形机器人 [5] 政策支持与产业合作 - 政府工作报告首次提出培育具身智能产业 大力发展智能机器人装备 [3] - 工信部与民政部推动智能养老服务机器人应用试点 覆盖家庭、社区和养老机构场景 [3] - 合作方山东未来机器人具国资背景 隶属山东未来集团体系 形成民企技术与国资资源联动 [9]
Physical Intelligence 核心技术团队分享:物理世界的“Vibe Coding”如何实现?
海外独角兽· 2025-08-23 12:04
技术演进路径 - VLA是VLM在机器人领域的应用 能够接收图像和文本输入并整合机器人状态信息 直接输出控制机器人的动作指令 与文本生成模型存在本质差异[6][12] - VLM在LLM基础上拓展视觉感知能力 能处理纯文本输入和涉及视觉内容的复杂信息 训练流程已较完善[7] - VLA发展路径与VLM类似但起步稍晚 2024年下半年出现Gemini for Robotics等方案 仍属概念验证阶段[16] 机器人智能发展维度 - 能力指完成从未实现的复杂任务 π₀演示多步骤操作能力 执行偏差时主动调整 接近人类灵活应对能力[23] - 泛化指在陌生环境中正确执行任务 训练覆盖家庭环境越多 新环境表现越好 数据多样性是提升泛化关键路径[23][44] - 性能需提升任务成功率 稳定性 速度和鲁棒性 当前模型处于演示就绪而非部署就绪阶段 失败仍频繁[24][25] 数据管线构建 - 团队从头搭建数据引擎 超过一半工作集中在数据系统构建 收集和质量保障 六个月收集约1万小时机器人操作片段[30][37] - 数据涵盖数十个不同家庭环境和数百类任务 包括折叠衬衫 物品搬运和整理 更贴近真实生活场景[37] - 移动操控系统采集数据提升多样性 涵盖数百种不同场景 捕捉动态变化环境 任务复杂度从简单抓取扩展到细致操作[41][42] 算法架构创新 - 提出知识绝缘机制重构训练流程 将连续动作序列离散化为text-like tokens 截断梯度回传保护主干网络 训练速度提升10倍[47] - π₀.₅架构以pre-training的Transformer为核心 拓展Action Expert Transformer子模块 实现语义到物理执行高效衔接[50] - 采用软硬件解耦战略 将智能软件作为系统核心 降低对特定机器人硬件依赖 提升模型部署灵活性与效率[53] 开放世界部署挑战 - 数据缺口体现在数量和质量 机器人操作需物理交互闭环反馈时序数据 收集真实有效交互数据门槛高成本昂贵[54] - 性能不稳健是最大挑战 动作指令需高频率低延迟 需应对物理扰动和感知不确定性 存在时序错位问题[54][56] - 硬件平台迁移复杂 不同机器人在控制协议 感知系统和执行机制差异巨大 缺乏统一接口层[58] 未来发展方向 - 重点突破性能瓶颈 研发通用任务配方 构建覆盖多场景多任务的标准化评估体系 通过统一benchmark量化模型性能[60] - 构建通用可定制机器人智能生态 用户通过自然语言发布命令引导机器人完成复杂操作 降低使用门槛[61] - 推动软硬件深度融合 用户可设计定制硬件并注入智能算法 实现物理世界的vibe coding 可能催生机器人模型即服务新模式[61][62]
都市评:广州博览会变未来体验舱,新质生产力要从民间破圈
南方都市报· 2025-08-23 05:49
展会定位与转型 - 第三十三届广州博览会以培育新质生产力为核心目标 实现五个首次突破 包括首次设立新质生产力主题展区和机器人表演专区 [2] - 展会从传统贸易展转型为新质生产力超级接口 连接全球技术与广州智造 聚焦民生需求应用 [4] - 展会覆盖新质生产力多场景应用 包括智能制造 低空飞行 医疗健康等领域 实现技术研发到政策配套的闭环 [2][4] 技术展示与产业应用 - 广汽 亿航等企业展示低空飞行器技术 体现智能制造业发展实力 [2] - 情绪机器人和AI中医等民生科技实现落地应用 包括陪聊服务和把脉诊断功能 [2] - 机器人表演专区实现人形机器人与观众互动 显示人工智能技术在生活场景的渗透 [2][4] 产业生态与国际化 - 与国际发明展联动 展示2000多项中外发明技术 强化技术交流与创新合作 [2] - 数字湾产业政策大模型DBayGPT发布 体现人工智能在政策制定领域的应用突破 [2] - 广州推动12218现代化产业体系转型 重点发展智能网联汽车 载人飞行器和养老机器人等产业 [4]