具身智能之心
搜索文档
国产GPU第一股IPO获批,募资80亿!
具身智能之心· 2025-11-01 16:03
IPO进程与募资计划 - 摩尔线程科创板IPO注册申请已获证监会批准,从6月30日递交招股书到10月30日获准注册,仅用时4个月,进度非常迅速[2][3][17] - 公司计划募集资金总额80亿元,其中25.10亿元用于新一代AI训推一体芯片研发,25.02亿元用于新一代图形芯片研发,19.82亿元用于新一代AISoC芯片研发,10.06亿元用于补充流动资金[4][5][6] - 公司在2024年11月启动上市进程,完成Pre-IPO轮融资,38家投资机构合计投资约52.25亿元,去年11月启动上市时企业估值达255亿元[14][20] 财务表现与业务转型 - 2025年上半年营业收入达7.02亿元,已超过2024年全年收入4.38亿元,其中第一季度收入2.89亿元,第二季度4.12亿元[9] - 2025年上半年净亏损2.71亿元,较去年同期大幅收窄,管理层预计最早可于2027年实现合并报表盈利[10] - 公司收入结构发生根本性转变,从2022年桌面级产品占收入71.44%转变为2025年上半年AI智算产品占比94.85%,收入达6.65亿元[11][12][13] 公司背景与技术架构 - 公司成立于2020年6月,实控人张建中曾任英伟达全球副总裁、中国区总经理,控制公司36.36%股份[18][19] - 采用Fabless经营模式,核心技术为自主研发的MUSA统一系统架构,该架构融合GPU硬件和软件,具备全功能特性[21][22][24] - 已推出四代GPU芯片,涵盖企业级和消费级市场,产品包括芯片、板卡/模组、一体机、集群设备等完整产品线[25] 国产GPU行业竞争格局 - 沐曦于2025年6月30日科创板IPO申请获受理,9月5日进入第二轮问询,10月24日成功过会[27] - 燧原科技2024年8月启动IPO辅导,估值160亿元,腾讯作为第一大股东持股20.49%,已融资近70亿元[28][29] - 壁仞科技2024年9月启动IPO辅导,2025年5月披露辅导情况,估值约160亿元,瀚博半导体2025年7月宣布启动A股IPO辅导[30][31]
边缘设备上高效运行!NanoVLA :保留 VLA 模型的精度与泛化能力,推理速度提升 52 倍
具身智能之心· 2025-11-01 16:03
文章核心观点 - NanoVLA模型通过创新的“视觉-语言解耦融合+长短动作分块+动态路由”架构,解决了通用视觉-语言-动作模型在边缘设备上部署时“通用化”与“轻量化”的矛盾 [2] - 该模型在保持甚至超越现有大型VLA模型任务精度与泛化能力的同时,将推理速度提升52倍,参数量压缩98%,首次实现在资源受限的边缘设备上高效运行通用机器人策略的目标 [2][19][32] 技术瓶颈与解决思路 - 传统VLA模型存在三大设计瓶颈:模态融合冗余导致高延迟、动作执行僵硬导致运动失准、模型容量错配导致资源浪费与性能不足并存 [3] - NanoVLA的突破思路并非单纯缩小模型,而是重构推理逻辑,通过解耦静态指令与动态视觉、分阶段规划动作、自适应选择骨干网络,实现计算资源的“按需分配” [3] 核心架构模块 - **视觉-语言解耦融合与缓存**:分离模态编码并延迟融合时机,对静态指令特征进行缓存复用,仅需动态更新视觉嵌入,使计算量减少62% [8][12] - **长短动作分块**:训练时学习长序列依赖以保证动作连贯性,推理时执行短窗口并结合高频环境反馈重新规划,在LIBERO长任务中成功率比固定长序列执行高16%,动作抖动减少30% [9][11][13][14] - **动态路由**:引入轻量级路由器,根据任务复杂度自适应选择轻量或重量级骨干网络,使简单任务中轻量骨干使用占比超80%,平均参数量降至296M,仅为OpenVLA的4% [15][18][21] 性能表现 - **模拟基准测试**:在LIBERO基准上,NanoVLA-R版本取得84.1%的平均成功率,比7.5B参数量的OpenVLA高7.6%,比450M参数量的SmolVLA高5.5% [20] - **真实机器人测试**:在搭载Jetson Orin Nano的LeRobot机器人上,NanoVLA在12类真实任务中的平均成功率达85.6%,超越OpenVLA的80.4% [26] - **边缘设备效率**:在Jetson Orin Nano上,NanoVLA-R的推理速度达到41.6 FPS,是OpenVLA(0.8 FPS)的52倍,同时在LIBERO-Goal任务上成功率提升8个百分点 [22][29] 行业意义与未来方向 - NanoVLA为通用机器人策略的边缘部署提供了不牺牲精度的轻量化路径,其架构范本可直接复用于工业巡检、家庭服务、嵌入式操控等产业化场景 [30][32] - 未来技术演进方向包括融入触觉/力觉等多模态信号以提升操作精度、通过知识蒸馏实现端到端轻量化、以及扩展适配双臂、移动机器人等多机器人形态 [31]
单张4090跑到30fps,范浩强团队让VLA实时跑起来了
具身智能之心· 2025-11-01 16:03
文章核心观点 - 研究团队通过深度优化,成功将30亿参数的VLA大模型Pi0在单张RTX 4090显卡上的推理速度提升至30fps,远快于行业普遍认知的百毫秒级别延迟 [1] - 优化后的代码已开源,并基于此成果设计出有潜力实现480Hz闭环控制的下一代机器人实时控制算法框架 [2] - 该技术突破解决了机器人VLA大模型因高延迟而难以实现实时控制的核心痛点,为具身智能的实时应用打开了新的大门 [5][16] 技术性能突破 - 针对Pi0模型(30亿参数),在单张消费级显卡RTX 4090上最快可达到30fps的推理速度 [1] - 针对双视角输入,模型推理时间从初始的100+毫秒被优化至27毫秒,实现了数倍的性能提升 [1] - 优化后的模型在抓取自由落体笔的任务中,端到端总反应时间被缩短到200毫秒以内,媲美人类表现 [11] 技术实现方法 - 通过深入分析Pi0模型结构,将其分解为视觉编码器、编码器和解码器,并进一步拆解为矩阵乘法和标量运算 [8] - 针对Transformer模型单次推理时产生的大量零碎“矩阵计算小任务”,研究者融合和并行优化了每一个计算步骤 [9] - 优化代码全部实现均打包为一个只依赖于torch和triton的单一文件,已在GitHub开源 [2] 未来框架与展望 - 设计了一套完整的、围绕GPU打造的机器人控制框架,能驱动VLA大模型进行流式实时控制 [13] - 该框架规划最高能以480Hz的频率生成机器人控制信号,已达到基于力反馈进行控制的门槛 [13] - 框架为机器人设计了三种不同速度的“反应神经”:超快反应(480Hz)、视觉反应(30Hz)和智能思考(<1Hz) [15] - 对未来发展提出关键问题,包括视觉处理帧率从30fps向120fps提升、模型参数从3B向更大规模扩展、以及反馈回路向亚毫秒级迈进的可能性 [19]
走路、擦板、端盘都不抖!SEEC框架:人形机器人也懂"物理补偿"
具身智能之心· 2025-11-01 16:03
核心观点 - SEEC框架通过“模型增强残差学习”方法,实现了人形机器人在动态行走中上肢的稳定控制,其核心是让上肢策略自动预判并抵消下肢运动带来的扰动[5] - 该框架将控制解耦为上下两层,上层策略通过模仿动力学模型推导的理想补偿力矩,在真实机器人上实现了零额外训练的稳健上肢控制[5][6] - 在仿真和真实机器人实验中,该框架显著提升了末端执行器的稳定性,并在多项任务中表现出色[30][33] 核心思路与创新点 - **控制范式创新**:采用“模型增强残差学习”框架,将动力学模型与强化学习融合,使策略学习过程从“黑箱试错”转变为“物理引导的高效收敛”[7][23] - **扰动建模**:构建“基座扰动生成器”,通过脚底冲击和身体重心摆动来模拟真实行走中的多种扰动[7][14] - **结构设计**:采用上下肢分层独立训练的策略,提升了策略的迁移性和模块复用性[7] - **奖励机制**:引入“力矩模仿奖励”,使强化学习策略能够对齐物理模型推导出的补偿信号,而非盲目试错[7][32] 算法实现细节 - **整体框架**:框架包含扰动生成器、模型增强模块、上肢残差策略和任务控制器四个核心模块[12][13] - **扰动生成**:采用等效力方法生成脉冲型(模拟脚底冲击)和周期型(模拟身体晃动)两类扰动信号,并通过随机化参数来增强泛化能力[14][15][21] - **模型增强**:利用雅可比矩阵和惯量矩阵推导出理论上可抵消扰动的“补偿力矩”,为强化学习提供教师信号[17] - **强化学习训练**:使用PPO算法和循环神经网络结构,奖励函数包含力矩模仿奖励、稳定性奖励和平滑性奖励[19][20] 仿真测试与结果分析 - **测试任务**:在仿真环境中设计了四种步态任务进行测试,包括原地踏步、向前行走、侧向移动和旋转步态[27][28][30] - **性能对比**:与多种基线方法对比,SEEC框架在所有任务中平均将末端线加速度降低60%以上,角加速度降低40%以上[30] - **消融实验**:实验表明,去除任务控制力矩导致性能下降约36%,去除力矩模仿奖励导致性能下降约26%,验证了各组件的关键作用[31][32] 实机部署与结果 - **任务表现**:在Booster T1真实人形机器人上成功完成了抓链行走、擦白板、端盘行走和提瓶行走等高难度任务[33] - **稳定性**:在端盘行走任务中实现全程无倾斜、无抖动,在提瓶行走任务中液体波动显著减弱[33]
社区准备做一些访谈了,关于求职,读博/转方向......
具身智能之心· 2025-11-01 05:40
社区活动与访谈 - 社区正筹备博士访谈和行业开拓者分享 为刚入行的同学提供科研建议和行业见解 [1] - 今年是具身智能规模化招聘年 领域资金规模相比去年明显扩大 提供更多岗位机会 [1] - 将邀请企业招聘负责人和已获多个offer的求职者分享面试经验和公司需求 [1] 社区资源与内容 - 社区已完成技术路线分享、直播、问答、求职、赛事等多个版块建设 实现产业、学术、求职、问答交流的闭环 [2] - 社区汇总近40+开源项目、近60+具身智能相关数据集、行业主流仿真平台及各类技术学习路线 [12] - 社区汇总国内外具身智能高校和公司 涉及教育、宠物、工业、救援、物流、交互、医疗等方向 [15][17] 技术专题覆盖范围 - 技术内容涵盖数据采集、灵巧手、VLA模型、VLN模型、多传感器融合、分层感知操作、机器人操作系统等15个主要领域 [6] - 具体技术点包括遥操作算法、灵巧手硬件设计、VLA泛化方法、视觉语言导航、协同感知、人型机器人运动智能等40余个子专题 [6] - 社区提供持续直播分享 包括圆桌论坛和专题讲解 涵盖从本体、数据到算法的全链条内容 [4][5] 会员服务与福利 - 社区与多家具身公司建立内推机制 可第一时间将简历送达心仪公司 [11] - 会员可向数十位一线产业界和学术界嘉宾提问 获得专业解答 [11] - 社区提供行业研报汇总、机器人相关书籍、零部件品牌信息等增值内容 [19][22][24] 社区规模与影响力 - 社区拥有近2000名成员 来自斯坦福、清华等国内外知名高校和智元、优必选等头部机器人公司 [11][12] - 社区定位为国内首个具身全栈技术交流平台 旨在培养行业未来领袖 [11]
招募VLA+RL方向的合伙人!
具身智能之心· 2025-10-31 04:00
招募背景与目的 - 公司收到大量关于视觉语言动作与强化学习方向的咨询,显示该领域存在显著的知识需求 [1] - 公司计划开发视觉语言动作与强化学习方向的在线课程,旨在进行更深入的技术讲解 [1] - 公司是国内首个具身全栈技术交流社区,已聚集大量视觉语言动作与强化学习方向的研究者 [3] 讲师资格要求 - 应聘者需专注于视觉语言动作与强化学习的研究方向 [2] - 学术界应聘者需为博士及以上学历(含在读),并拥有相关方向的顶级会议成果 [2] - 工业界应聘者需具备实战经验和真机调试经验 [2] 合作待遇与资源 - 公司将提供高于行业平均水平的薪酬 [4] - 公司将提供丰富的行业资源 [4] - 详细合作内容需通过指定微信联系方式进行咨询 [5]
再创历史!英伟达市值一夜突破5万亿美元!
具身智能之心· 2025-10-31 00:04
市值里程碑与市场地位 - 英伟达成为全球首家市值突破5万亿美元的公司,达到5.03万亿美元 [2][4][11] - 公司股价在2025年开年至今的10个月内已暴涨56% [6] - 英伟达当前市值超过了AMD、Arm、ASML、博通、英特尔、泛林集团、美光科技、高通和台积电的总和 [6] - 其市值也超过了标普500指数中的整个公用事业、工业和消费品板块 [7] - 与全球市值第二的微软(4.03万亿美元)和第三的苹果(4.00万亿美元)相比,英伟达已拉开一万亿美元的差距 [14][15] 市值增长轨迹与速度 - 英伟达市值从1万亿美元飙升至5万亿美元仅用了约两年半时间 [10][23][24] - 公司市值从3万亿美元到4万亿美元用时1年1个月,从4万亿美元到5万亿美元仅用了3个多月 [24] - 相比之下,微软市值从1万亿美元到4万亿美元花了近6年时间,苹果则用了7年有余 [16][17][19][20] - 以员工数计算,公司约3.6万名员工人均创造了1.38亿美元的市值 [12][13] 近期股价表现与GTC大会驱动因素 - 2025年10月29日,英伟达股价一度上涨5.44%,盘中触及212.19美元/股,收盘价为207.04美元/股 [3][10][11] - 本轮市值创新高的直接原因是GTC开发者大会宣布的技术革新和产业合作计划 [26] - 大会关键点包括:计划与美国能源部合作打造7台新型超级计算机,其中一台将采用10000块Blackwell系列GPU [27] - Blackwell芯片在投产的五个季度内预计出货量达600万个处理器单元,增长速度是上一代产品Hopper的五倍 [28] - 发布了旨在加速量子超级计算机研发的全新开放系统架构Nvidia NVQLink [29] 未来业绩预期与产品路线图 - 宣布Blackwell芯片正在全面生产,下一代架构Rubin超级芯片平台加速部署,预计到2026年底这两个产品的累计营收有望达到5000亿美元 [32] - 该5000亿美元预期远高于公司2025财年上半年刚刚突破的1000亿美元营收 [33] - 公布了GPU未来三年计划,承诺每年一次重大更新,计划到2028年推出Feynman架构 [35][36] - Blackwell芯片系列全年产能已被锁定,明年的订单仍在追加 [42] 行业生态与战略合作 - 自2022年底ChatGPT问世以来,AI热潮是公司增长的重要背景,英伟达是这股浪潮的最大获益者,两年间股价上涨了12倍 [38][39][40] - 全球AI大模型头部公司,包括OpenAI、Anthropic、Google DeepMind、Meta、亚马逊、微软Azure等,其核心基础设施都在使用英伟达GPU [40] - 上个月与OpenAI达成战略合作意向,OpenAI将建成并部署至少10吉瓦的AI数据中心,配备数百万块英伟达GPU [40] - 在此过程中,英伟达将向OpenAI投资至多1000亿美元 [41] 创始人财富与公司文化 - 创始人兼CEO黄仁勋因其在英伟达的持股,个人财富价值约1792亿美元,跃居福布斯全球富豪榜第八位 [8][48][50] - 公司推崇专注“0亿美元市场”的哲学,即投资于当前规模小但未来潜力巨大的创新领域 [55] - 公司以高强度工作文化著称,但同时也是离职率最低的公司之一,部分原因在于其丰厚的薪酬回报 [55]
OmniDexGrasp 揭秘:基础模型 + 力反馈,让机器人 “看懂指令、灵活抓握” 的通用方案
具身智能之心· 2025-10-31 00:04
技术方案核心创新 - 提出“基础模型生成人类抓握图像 + 动作迁移 + 力反馈控制”的三段式框架,以解决灵巧抓取领域“泛化性”与“物理可行性”难以兼顾的瓶颈 [1] - 核心设计是不直接生成机器人动作,而是以人类抓握作为通用中间表示,串联泛化生成、动作迁移和力控执行,既保留基础模型的泛化能力,又通过精准转化解决物理落地问题 [4] - 该方案在模拟与真实场景中实现了跨指令、跨机器人、跨任务的全能灵巧抓取 [1] 方案模块详解 - **模块1:基础模型生成人类抓握图像**:输入支持全场景指令,包括自然语言、视觉提示或单张演示图,通过正负提示模板优化生成图像质量,确保符合指令且具备物理合理性 [6] - **模块2:人类图像到机器人动作迁移**:通过手-物三维重建、灵巧重定向和可执行动作转换三步策略,将人类抓握意图转化为适配不同机器人手型且符合真实场景物体位姿的关节动作 [9] - **模块3:力感知自适应抓取**:采用双阶段位姿设计和力约束位置控制策略,通过力传感器实时监测接触力,使脆弱物体抓取成功率从56%提升至88%且无损坏风险 [12][13] 性能评估与对比 - 在6类真实世界灵巧抓取任务测试中,平均成功率达到87.9%,其中Human-Robot Handover任务成功率高达100% [15] - 与传统方法相比优势显著,例如在语义抓取任务中,“液体容器”抓取成功率从25%升至80%,“手柄”从20%升至60%,“脆弱物体”从55.6%升至91.7% [16][17] - 在模拟场景的33类物体测试中,面对“新类别”物体,传统方法性能暴跌,而该方案凭借基础模型泛化能力保持稳定,是唯一能应对完全陌生物体的方案 [18][19] 技术通用性与扩展性 - 方案能适配多种灵巧手,包括Inspire Hand、Leap Hand、RoboSense Hand和Shadow Hand [20] - 技术可自然扩展到操控任务,通过生成抓取后物体运动轨迹,实现“抓取-移动-放置”的完整操控,为通用机器人操控提供延伸可能 [20] - 模型适配性强,兼容闭源与开源基础模型,开源模型经任务微调后性能可大幅提升,如Wan2.2微调后稳定性得分从2.52升至3.49 [8] 行业影响与未来方向 - 该方案为灵巧抓取技术产业化提供了兼顾泛化性与实用性的参考范本,尤其适用于追求快速落地的工业场景或家庭服务机器人 [23] - 未来方向包括多模态观测融合以提升复杂场景抓取精度,以及深化操控任务以实现端到端的通用操控 [22] - 关键启示在于“人类抓握”是绝佳的中间表示,有效衔接了基础模型的泛化能力与不同机器人的适配需求 [21]
面向实习/校招:京东具身智能算法岗位开放投递
具身智能之心· 2025-10-31 00:04
公司招聘信息 - 京东探索研究院具身智能实验室在北京亦庄招聘实习或校招岗位 [2] - 招聘岗位涉及视觉-语言-动作模型算法研发,包括模型架构设计、数据利用及模型训练方法 [3] - 岗位职责包括收集并规范化处理视频或机器人操作数据,以及VLA模型在仿真环境和真实机器人上的部署测试 [6] - 任职资格要求本科及以上学历,人工智能、计算机科学、自动化或机器学习相关领域 [6] - 要求熟悉VLA模型训练及测试,例如pi0、pi0.5、Gr00t N1.5、OpenVLA等 [6] - 要求精通Python/C++,熟练使用PyTorch深度学习框架 [6] - 具备独立分析和解决问题的能力以及较强的协作沟通能力是任职资格之一 [6][7][11] - 有VLA模型真机部署经验者优先考虑 [6] - 另一岗位职责涉及虚实仿真数据合成算法研发,包括Real-to-Sim、3DGS、4DGS等相关算法 [6] - 负责视频数据或机器人数据增强工作,例如背景变换、操作物体改变、轨迹增强等 [6] - 负责搭建虚实仿真平台,构建虚实仿真数据生成链路 [6] - 任职资格要求精通一种主流机器人仿真器,如NVIDIA Isaac Sim、Mujoco、Gazebo、 PyBullet [6] - 要求在虚实仿真重建技术上有深入研究,例如3DGS、4DGS等 [6] - 具备较强的编程能力,有虚实仿真数据增强经验者优先 [6] - 另有岗位负责双目摄像头的标定、校准、去畸变,深度估计等算法选型及部署 [11] - 负责手物交互检测、手势识别、SLAM等算法研发和部署 [11] - 任职资格要求熟悉机器人视觉软硬件知识,了解三角测距、畸变矫正及图像检测算法等 [11] - 在手物交互检测、手势识别、SLAM等任一领域有深入研究经验 [11] - 在TRO, RSS, ICRA, IROS, ICCV, CVPR等顶会及顶刊发表过相关论文或竞赛获奖者具备优势 [11] 行业社区与资源 - 具身智能之心知识星球是国内首个具身智能开发者社区,关注数据集、仿真平台、VLA、VLN等多个方向 [12] - 该社区汇总了近30+学习路线、40+开源项目、近60+具身智能相关数据集 [12] - 社区欢迎近200家公司和机构一起交流学术和产业 [13] - 具身智能之心社群拥有近60+技术交流群,覆盖大模型、VLN、VLA、足式机器人等多个方向 [14]
阿里新研究:一统VLA和世界模型
具身智能之心· 2025-10-31 00:04
WorldVLA框架概述 - 核心创新是将视觉语言动作模型与世界模型融合的统一框架,由阿里巴巴达摩院、湖畔实验室和浙江大学共同提出[2] - 该自回归动作世界模型通过结合动作与图像理解来预测未来图像,同时基于图像观测生成后续动作[5][6] - 实验结果显示其表现显著优于独立的动作模型与世界模型,体现二者相互增强效应[3] 技术架构设计 - 基于Chameleon模型初始化,采用三套独立分词器处理图像、文本和动作编码[9] - 图像分词器使用VQ-GAN模型,压缩比为16,码本大小8192:256×256图像生成256个token,512×512图像生成1024个token[9] - 动作分词器将连续机器人动作的每个维度离散化为256个区间,动作由7个token表示[9] - 创新设计替代注意力掩码,使动作生成仅依赖文本和视觉输入,屏蔽之前动作影响,实现并行生成多个动作[12][13] 性能基准测试 - 在离散动作模型对比中,WorldVLA(256×256)平均成功率79.1%,优于OpenVLA的76.5%[22] - 分辨率提升至512×512时性能进一步提高,平均成功率81.8%,显示分辨率与性能正相关[22] - 在连续动作模型对比中,WorldVLA未使用预训练即超越部分预训练模型,证明架构有效性[20][22] 世界模型对动作模型的增强 - 引入世界模型后动作模型成功率从62.8%提升至78.1%,特别是在长序列任务中从23.0%提升至52.4%[26][27] - 世界模型赋予系统前瞻推演能力,通过预判动作后果优化决策,案例显示能持续尝试直到操作成功[26][28] - 环境物理理解、动作风险评估和精确动作解析是三方面主要增强机制[15][16][17] 动作模型对世界模型的提升 - 在视频生成质量上,动作世界模型在50帧序列的FVD指标从718.6优化至674.1,PSNR从23.98提升至24.30[33] - 纯世界模型出现抽屉无法拉开、物体消失等缺陷,而动作世界模型生成连贯且符合物理规律的后续状态[33] - 动作模型通过增强视觉理解能力进一步支持世界模型的视觉生成[18] 行业专家观点 - 小米汽车高级研究总监陈龙认为VLA与世界模型可结合相互促进,分别负责"抽象思考"和"物理感知"[37] - VLA与世界模型结合被视为通往具身智能的重要路径[37]