具身智能(Embodied AI)
搜索文档
华人博士在英国做出颠覆性人机交互“皮肤”,已在汽车、医疗行业应用
创业邦· 2025-12-20 01:09
以下文章来源于快鲤鱼 ,作者卜松 快鲤鱼 . 创业邦旗下AGI矩阵号,寻找海内外创新性的AGI高成长公司,记录AGI商业领袖的成长轨迹。 创业哲学: 以零为始,大道至简 郭留成的履历 , 是一条典型的精英学霸路线:博士毕业于英国帝国理工学院,硕士毕业于北京大学,后来赴斯坦福大学商学院进修。博士毕业后,郭留成 选择在英国创业。 2015 年的伦敦, AlphaGo 还没战胜李世石, Transformer 架构还要等两年才问世,但敏锐的嗅觉让郭留成意识到, AI 将是下一场风暴的核心。 "当时大家做 AI ,都是不惜代价的。算力不够就加显卡,精度不够就加数据,没人关心功耗,也没人关心成本。"郭留成 说,他 把目光投向了端侧设备 , 他认为, 如果 用 AI 赋能 小型 硬件设备 , 在 日常生活 中 会有很大的 应用 空间。 作者丨 卜松 编辑丨 刘恒涛 图源 丨 触零科技 2025 年 5 月,英国唐宁街 10 号,首相府邸。 作为 TG0 (触零科技)的联合创始人兼 CTO , 郭留成博士 站在" Future Fifty "的 舞台 。这是英国科技界的最高荣誉之一,旨在选拔全英最具潜力的 25 到 50 ...
“木头姐”站队:不是泡沫!AI正在复制互联网的财富爆炸时刻
金十数据· 2025-11-26 04:13
AI行业周期判断 - 当前AI浪潮并非泡沫,而是类似1995年互联网初期的技术革命,未来十年将带来巨大财富机会[1] - 泡沫产生于"提供的产品缺乏需求",而目前市场状况是供不应求,公司甚至不得不限制对其底层数据中心的访问[2] - 全球约有10亿AI聊天机器人用户,仅占全球智能手机用户的15%多一点,预计到本十年末可能增长到40亿至50亿,实现用户数量5倍增长[2] 技术成熟度与历史对比 - 与科技和电信泡沫时期对比,当前技术已经就绪:2006年出现云计算,2012年出现深度学习突破,2017年出现Transformer架构[3] - 测序完整人类基因组的成本从27亿美元并耗费13年计算能力大幅下降,过去25到30年种下的技术种子正在开花结果[3] - 将当前周期定位为1995年互联网时刻,思科股价从每股2美元、英特尔从7美元在泡沫结束前有10到20倍上涨空间[3] 估值与增长前景 - 公司收入增长和利润率扩张将压倒估值的压缩,Palantir美国商业收入增长达到123%[4] - AI变现速度极快,周活跃用户达10亿,可能是任何企业集合达到300亿美元经常性收入最快的一次[4] - OpenAI预计到今年年底年化收入约200亿美元,明年可能400到500亿美元,2027年达到1000亿美元年化收入[5] 企业战略差异 - OpenAI面向消费者世界,有8亿用户(其中约4000万付费用户),变现路径更长,将利用广告模式和商业杠杆[5] - Anthropic更偏向B2B,致力于开发编程能力,与10x Genomics合作显示医疗保健可能是AI最深刻的应用[5] 技术创新平台与机会 - 五大创新平台包括AI、机器人技术、储能、区块链技术和多组学测序,其中AI是最大的催化剂[6] - 具身智能是最大机会,Robotaxi目前全球收入不到10亿美元,未来5到10年内将扩大到8到10万亿美元[6] - 人形机器人是一个比几乎任何东西都要大的机会,平台即服务层规模几乎与基础模型层相当[6] 市场竞争格局 - SaaS应用层正在将市场份额输给PaaS平台即服务部分[7] - Meta、亚马逊、Google、微软等"现金堡垒"都在增加资本支出,看到了收入增长的公司获得回报[7] - 自动驾驶卡车的运输成本预计将低于铁路(每吨英里3美分对比4美分),传统资产可能成为"搁浅资产"[7] 市场增长预测 - 整个市场直到本十年末可能以每年百分之十几的速度复利增长[8] - "美股七雄"之外的颠覆性创新增长率将远高于此(50%)[8] - 实际GDP增长将在未来5到10年内加速,达到可持续的5%左右水平,推动全球实际GDP增长到7%至8%[8]
DeepMind招募波士顿动力前CTO,哈萨比斯点赞宇树
机器之心· 2025-11-22 07:03
核心观点 - 谷歌DeepMind聘请波士顿动力前CTO Aaron Saunders,标志着公司在具身智能领域的战略深化,旨在解决AGI在物理世界落地的硬件问题 [2][3][8] - 此次人才流动反映了机器人行业从追求高机动性向发展通用操作能力的范式转移,谷歌正通过整合顶尖硬件人才与Gemini AI系统,试图打造类似安卓的机器人操作系统 [9][11][13] - 行业竞争格局发生变化,中国公司如宇树科技在四足机器人供应链成本优势显著,但谷歌DeepMind仍将战略重心放在AI"大脑"的研发上 [14][15] 人才战略与行业意义 - Aaron Saunders于本月初正式加入DeepMind担任硬件工程副总裁,其核心任务是"负责任地解决具身智能问题" [8][9] - 此次招聘是DeepMind CEO Demis Hassabis宏大愿景的关键部分,旨在将Gemini打造为可跨身体构型工作的机器人操作系统 [11][13] - 谷歌与波士顿动力存在历史渊源:Alphabet于2017年将波士顿动力出售给软银,后者又转售给现代汽车,时隔8年后谷歌重新引入其核心技术高管 [5][6] 技术范式与行业趋势 - 机器人领域正从"去任何地方"(高机动性)向"做任何事情"(通用操作能力)转型 [9] - 制造足式机器人的组件和专业知识日益普及,美国公司如Agility Robotics、Figure AI、1X及特斯拉均在研发人形机器人 [14] - 中国公司宇树科技在面向制造业和建筑业的四足机器人供应方面已超越波士顿动力,成为全球最大供应商 [14] 公司战略定位 - DeepMind强调其战略重心在于AI"大脑"而非硬件,Hassabis对宇树科技表示印象深刻但更关注Gemini的多模态能力 [15] - 公司采用类似安卓的开放策略,目标是构建可适配不同身体构型(包括人形与非人形)的通用AI系统 [11][13] - Hassabis预测AI驱动的机器人技术将在未来几年迎来"突破性时刻",此次高管招聘被视为实现该目标的关键拼图 [15]
ICCV 2025 Highlight | 大规模具身仿真平台UnrealZoo
具身智能之心· 2025-11-13 02:05
文章核心观点 - 联合研究团队发布了名为UnrealZoo的高保真具身智能仿真平台,旨在通过提供大规模、多样化的近真实虚拟环境,解决当前具身智能研究在环境复杂性和智能体泛化能力方面的短板 [1][2][8] - 该平台基于虚幻引擎构建,包含超过100个高质量3D场景和66个可交互实体,并提供了优化的编程接口,以支持算法验证、数据合成和智能体训练等多种研究需求 [5][13][16] - 平台相关论文已被ICCV 2025接收并入选Highlight Award,占录用论文总数的10% [2] 平台核心特性与优势 - UnrealZoo收录了100余个高质量、高逼真、大尺度3D场景,覆盖从室内家居、城市街道到自然景观和大型工业工厂等多种环境,最大场景达16平方公里 [2][15] - 平台内置了7种类型共66个具身实体,包括人类、动物、汽车、无人机、机器人等,各具不同的动作空间和视点 [5][31] - 相较于现有模拟器如Habitat、AI2-THOR等,UnrealZoo在场景多样性、风格覆盖(古代、现代、科幻、东方、西方等)和智能体形态多变性方面具有明显优势 [11] 技术创新与系统优化 - 平台对开源工具UnrealCV进行了优化,推出UnrealCV+,显著提升了通信效率和渲染性能,例如物体掩码捕获帧率从70 FPS提升至154 FPS(提升120%),深度图捕获从52 FPS提升至97 FPS(提升86%) [48][53] - 提供了易于使用的Python API和Gym接口,支持环境增强、演示收集和分布式训练/测试,降低了使用门槛 [5][48] - 智能体运动系统基于Smart Locomotion,支持跑、跳、攀爬等复杂三维空间探索;导航系统基于NavMesh,支持自主路径规划和避障 [36][38][39] 实验验证与应用潜力 - 在视觉导航任务中,实验揭示了当前智能体(包括基于RL和GPT-4o的模型)在复杂开放3D世界中面临巨大挑战,与人类玩家表现存在显著差距 [56][60] - 在主动视觉跟踪任务中,实验表明,随着训练环境数量从1个增加到8个,智能体的泛化能力显著提升,尤其是在野外环境中成功率提高明显 [64][68] - 研究同时发现,高控制频率(如30 FPS)对智能体在动态环境中的性能至关重要,当频率低于10 FPS时性能会显著下降 [70] 行业意义与发展方向 - UnrealZoo填补了现有具身智能模拟器在开放世界复杂性和多变性方面的空白,为智能体从虚拟世界走向现实世界的广泛应用奠定了基础 [7][8][72] - 平台的开放下载(通过Modelscope)有助于推动整个具身智能行业在导航、主动追踪、社会交互等任务上的研究进程 [5][9] - 未来的工作将继续丰富虚拟世界的场景、实体和交互任务,以进一步提升智能体的空间感知和泛化能力 [72]
ICCV 2025 Highlight | 大规模具身仿真平台UnrealZoo
机器之心· 2025-11-11 17:11
核心观点 - 联合研究团队推出了基于虚幻引擎的高保真具身智能仿真平台UnrealZoo,旨在解决现有模拟器场景单一、真实性不足的问题,为复杂开放世界中的AI训练提供支持 [2] - 该平台包含超过100个高质量3D场景和66个可自定义操控的实体,提供优化的编程接口和工具链,显著提升了仿真效率与易用性 [5][7][15] - 实验证明环境多样性对智能体泛化能力至关重要,同时揭示了当前基于强化学习和大模型的智能体在复杂3D空间推理中的局限性 [50][55][58] 平台概述与定位 - UnrealZoo是一个基于虚幻引擎UE5开发的高保真虚拟环境集合,包含100余个场景地图和66个可自定义操控的具身实体 [5] - 平台被ICCV 2025接收并入选Highlight Award,本届共有280篇论文入选,占录用论文总数的10% [2] - 旨在弥补现有模拟器如Habitat、AI-Thor和Carla等在场景多样性和开放性方面的短板,推动具身智能体在多变环境中的适应能力发展 [8] 场景与实体多样性 - 平台收录100多个高质量3D场景,涵盖住宅、超市、火车站、工厂、城市、乡村、寺庙及自然景观等多种风格,最大场景达16平方公里 [13][16] - 提供人类、动物、汽车、摩托车、无人机、移动机器人和飞行相机等七种类型共66个实体,各具不同的动作空间和视点 [24] - 与主流虚拟环境相比,UnrealZoo在场景类别、规模、风格和实体多样性方面具有显著优势,支持古代、现代、科幻等多种风格 [12] 技术特性与系统功能 - 运动系统基于Smart Locomotion,支持智能体在复杂三维空间中进行跑步、跳跃、攀爬等基础移动能力 [31] - 内置基于NavMesh的自主导航系统,支持智能路径规划和避障;交互系统支持物体拿放、碰撞、上下车、开关门等丰富物理交互 [33][34][36][38][40] - 支持多智能体之间的合作与对抗交互,为研究社会智能行为如合作、竞争与沟通提供平台 [41] 软件接口与性能优化 - 提供一套易用的Python API和工具(UnrealCV+),包括环境增强、演示收集和分布式训练/测试功能 [15][42] - UnrealCV+优化了渲染管道和通信协议,帧率(FPS)显著提升:物体级分割图性能提升120%,深度图提升86%,多智能体交互(N=10)提升100% [45][46] - 开发基于Gym接口的高级Python API,简化环境交互,使初学者也能轻松使用和定制环境 [44][46] 实验验证与应用潜力 - 视觉导航实验中,在线RL智能体在需要立体空间感知的复杂环境中表现优于GPT-4o,但与人类玩家存在显著差距 [47][50] - 主动视觉跟踪实验表明,随着训练环境数量从1个增加到8个,智能体的泛化能力显著提升,尤其在野外环境中成功率提高明显 [55][58] - 在动态干扰测试中,RL方法在0D、4D、10D干扰设置下均保持较高成功率(0.76/0.68/0.56),显著优于PID、GPT-4o和OpenVLA等方法 [60][61] - 控制频率实验显示,当感知-控制循环频率低于10 FPS时性能显著下降,30 FPS时成功率可达0.92,凸显高效模型的重要性 [62]