具身智能之心
搜索文档
IPO辅导收官!A股首个人形机器人正式开启冲刺
具身智能之心· 2025-12-02 03:03
公司上市进展 - 2025年11月29日,宇树科技向浙江证监局提交更新后的IPO辅导进展报告,辅导状态正式转为“辅导工作完成” [2] - 公司已成功通过中国证监会关于A股上市的前期合规审查,即将迈出提交招股说明书的关键一步 [2] - 公司有望成为“A股人形机器人第一股” [2] 公司商业模式与业务状况 - 公司采用“四足机器人业务实现盈利 + 人形机器人业务加速拓展”的双轮驱动商业模式 [2] - 核心业务围绕四足机器人展开,已形成清晰的客户群体划分,涵盖B端工业应用与C端消费市场,并建立了稳定且可持续的收入流 [4] - 人形机器人业务正处于积极的研发推进及小批量试产阶段 [4] - 公司业务布局集中,边界清晰,不存在盲目跨界经营或业务多元化导致的资源分散问题 [4] 公司财务与行业意义 - 自2020年起,公司已步入盈利轨道,未出现持续亏损或业绩剧烈波动等影响财务健康的突出问题 [3] - 研发支出的资本化处理及收入确认等关键会计操作均严格遵循相关会计准则,财务数据真实准确 [3] - 若成功上市,公司将成为A股市场上首个以“实际盈利”为特征的人形机器人企业 [2] - 这对于验证整个行业的估值逻辑、引导市场理性认知具有里程碑式的意义 [2] 行业竞争态势 - 国内人形机器人企业的“上市竞速赛”正进入白热化阶段 [2]
转具身最好的机会在昨天,其次是现在...
具身智能之心· 2025-12-01 10:00
文章核心观点 文章旨在推广一个名为“具身智能之心”的付费知识星球社区,该社区定位为国内首个具身智能全栈技术交流平台,通过系统性地整合行业资源、技术路线、学术进展与产业信息,为从业者、研究者和学生提供一站式学习、交流与求职服务,以加速具身智能领域的人才培养与技术发展 [1][9][17] 行业资源与公司梳理 - 社区已梳理了行业内从事具身大脑和本体研发的公司,以及活跃的具身智能实验室,帮助成员判断行业趋势与升学选择 [1] - 社区汇总了涉及教育、宠物、工业、救援、物流、交互、医疗等多个方向的国内外具身智能相关机器人公司 [23] - 社区汇总了机器人行业知名的零部件制造厂商,涉及芯片、激光雷达、相机、IMU、底盘等 [31] - 社区成员包括来自近**200**家具身公司与机构的专业人士,以及近**3000**名具身领域成员 [17][85] 科研与开发本体推荐 - 推荐了数款适合科研的机器人本体产品,包括SO-100系列、openarm系列和XLerobot系列 [2] - SO-100系列及其升级版本能够运行VA和VLA算法,实现常见功能 [2] - Openarm是一款双臂任务框架,已有公司开始生产相关本体,能完成叠衣服、pick and place等任务,但其VR版本在数据采集中体验更佳 [4] - XLerobot具备一定的移动能力,适合入门科研与个人开发,可适配移动操作任务 [6] - 对于资金充足的开发者,可参考方舟无限、星海图、宇树等公司提供的更高成本开发平台 [8] 技术路线与算法研究 - 社区收拢了广泛的技术研究方向,包括VLA(视觉-语言-动作)模型的训练、无需训练方式、与强化学习(RL)结合、与世界模型结合、轻量化及部署等 [9] - 其他研究方向涵盖VLN(视觉语言导航)、运动控制(强化学习、MPC、WBC)、仿真(通用与真实)、触觉感知等 [9] - 社区整理了全面的技术学习路线,包括但不限于:具身智能感知、交互、强化学习全栈、VLN、VA/VLA、多模态大模型理解与生成、Diffusion Policy、多传感器融合、机械臂抓取与策略学习、双足/四足机器人、大模型部署、sim2real等超过**20**个具体路线 [13][18][43][44][46][48][50][52][54][56][58][60][62][64][66][68][71][73][75] 社区内容与知识库 - 社区提供持续的直播分享,内容覆盖从本体、数据到算法的圆桌论坛,探讨行业现状与待解决问题 [11] - 直播分享目录包含超过**15**个大类,如数据采集、灵巧手、VLA模型、VLN模型、多传感器融合、机器人操作系统、协同感知、机器人模型、Sim2Real、具身世界模型、触觉感知、大模型与规划推理、推理加速、模型微调等,具体细分话题超过**50**项 [12] - 社区汇总了**近40+**个开源项目、**近60+**个具身智能相关数据集,以及行业主流仿真平台 [18][33][39][41] - 社区汇总了国内外具身智能知名高校实验室,供成员读研、申博参考 [20] - 社区汇总了大量行业研报,帮助成员了解大模型、人形机器人等领域的发展与工业落地情况 [1][25][26] - 社区汇总了机器人导航、概率机器人、动力学与运动学等多个方向的PDF书籍,供基础学习 [29] - 社区汇总了国内外知名ToF与3D相机厂家的产品与技术资料 [35] - 社区汇总了数据采集相关的遥操作、动作捕捉、AR等方案,以及多个领域的开源数据集 [37][39] 求职与产业对接 - 社区与多家具身公司建立了岗位内推机制,可帮助成员将简历第一时间送达目标公司 [17] - 社区提供具身智能相关工作岗位推荐,并第一时间对接企业 [21] - 社区提供行业机会挖掘、投资与项目对接服务 [21] - 社区内部设有问答板块,成员可就工作选择、研究方向等问题提问并获得解答,案例显示有资深成员为研一学生提供方向与文献推荐 [77]
港理&清华等首个具身程序性综述:让机器人从第一人称视角学习步骤、纠错与问答
具身智能之心· 2025-12-01 10:00
文章核心观点 - 文章提出构建第一人称视角程序性AI助手(EgoProceAssist)的概念,旨在通过可穿戴设备辅助人们完成日常程序性任务,例如烹饪、装配等 [6] - 该研究首次系统性地总结了构建此类助手所需的三大核心技术任务:第一人称视角程序性错误检测、程序学习和程序问答,填补了现有综述的空白 [1][2] - 通过补充实验验证,现有主流视觉语言模型和AI代理在辅助程序性任务方面表现不足,存在巨大发展空间 [7][8][23] 核心技术任务分类与总结 - **第一人称视角程序性错误检测**:根据输入数据模态划分为仅需视频数据的方法和需要多模态数据的方法,程序性错误检测不同于视频异常检测,它关注于步骤序列中的特定顺序约束 [9][11] - **第一人称视角程序学习**:按照监督水平划分为无监督、弱监督和自监督三大类,其核心目标是识别出对实现目标真正重要的关键步骤序列,过滤无关动作 [14][15][16] - **第一人称视角程序问答**:根据算法结构分为以大型语言模型为固定推理引擎的方法和专门训练理解第一人称视角视频的模型两类,后者能更好地捕捉细微的视觉差异和时空关系 [17][19][20] 补充实验发现 - **程序性错误检测实验**:在CaptainCook4D数据集上,传统方法EgoPED的精确度为56.5,EDA为69.8,而主流VLM如Video-LLaVA的精确度为40.1,EDA为60.8,显示出现有模型识别程序性错误的能力有限 [25][26] - **程序学习实验**:在EgoProceL数据集的电脑装配任务中,传统方法RGWOT的F1分数为43.6,IoU为28.0,而AI代理Vinci 7的F1分数仅为14.1,IoU为7.5,表明现有方法在关键步骤识别和时间定位上准确性不足 [27][28] 行业面临的挑战 - **数据稀缺**:现有第一人称视角视频数据集场景单一,缺乏多样性,且与程序性任务相关的细粒度动作标注较少 [29] - **理解能力有限**:现有模型难以捕捉程序性活动中的逻辑和时间依赖关系,在计算效率、语义理解和多模态信号整合方面存在困难 [30] - **实时性不足**:严重依赖人工标注限制了在真实世界环境下的实用性,目前很少有方法能在实时在线环境中有效运行 [31]
带硬件!最全的VLA实战教程来啦
具身智能之心· 2025-12-01 03:12
VLA技术发展现状 - 具身智能领域高度依赖硬件本体,算法性能与硬件紧密相关,仿真和互联网数据在泛化性能上无法保证,许多公司坚持采用真机数据路线[2] - 近2年来VLA技术框架快速发展,从ACT到OpenVLA,再到π0、π0.5、π0.6系列,新方法层出不穷且性能持续提升,基于强化学习的优化方案使VLA模型运行更加流畅[4] - 开源硬件本体多样化,支持各类研究需求,包括SO-100机械臂、openarm双臂操作系统、XLeRobot移动操作平台等[4] VLA落地技术挑战 - 完整打通数据采集、VLA模型训练优化和部署全流程存在较大困难,初学者可能花费半年时间仍无法有效入门[6] - 数据采集主要采用模仿学习和强化学习方法,模仿学习包括遥操作、VR和全身动捕捉三种方式,机械臂领域多采用前两种,如何保证数据质量和实现real2sim2real是关键问题[8] - 模型训练需要先进行仿真调试,在真机数据不足时sim2real技术尤为重要,使用mujoco、Isaac Gym等框架,训练技巧对结果影响显著,不同算法难度差异大[10] - 部署阶段需要进行模型轻量化处理,即使2B参数规模的模型对边缘芯片也是挑战,必须通过量化、蒸馏等技术在保证性能的同时最小化参数量[12] 教育培训解决方案 - 针对VLA技术快速迭代的特点,推出了国内首个面向实战与求职的VLA小班课,涵盖机械臂硬件、数据采集、VLA算法、模型评测、仿真、部署等完整内容[14][16] - 课程配备SO-100机械臂硬件套装(包含示教臂和执行臂),由拥有5年以上机器人行业实战经验的VLA高级研究员授课,具备IEEE Trans系列顶级期刊发表经验[22][26] - 目标学员包括求职者、VLA入门进阶人员、高校学生及转行人员,要求具备Python和Pytorch基础,推荐使用3060以上显卡进行推理,2张以上3090ti进行训练[27] - 课程于2025年12月30日开课,共九章内容,学完后可掌握真机调试与数据采集、VLA算法部署、模型量化等技术,达到1-2年算法工程师经验水平[28][30][31]
VLA+RL方案的部署落地如何啦?
具身智能之心· 2025-12-01 03:12
直播活动概览 - 具身智能之心公众号举办线上直播活动,主题为“VLA与RL的真机部署 如何更好落地” [5] - 直播时间为12月6日19:30,可通过扫描二维码免费观看 [16] - 活动将围绕VLA算法与RL落地问题展开讨论 [3] 核心讨论议题 - VLA的架构和模型现存痛点分析 [8] - 提升机器人全身运动控制方案性能的进化空间探讨 [8] - VLA+RL技术如何更有效地部署到真实机器人硬件,包括硬件选型和轻量化实现方案 [8] 分享嘉宾阵容 - 隋伟:地瓜机器人算法副总裁 [9] - 张强:北京人形机器人首席研究员、学术委员会主任 [11] - 汪天才:原力灵机合伙人 [11] - 于超:清华大学博士,即将加入清华深研院任助理教授,担任主持人 [13] - Gloria:具身智能之心联创 [15] - 刘斯坦:知乎大V,全网拥有13万关注者的专业自媒体,深度流光CTO [15] 后续内容获取 - 直播完整版深度内容已独家上线知识星球「具身智能之心」,涵盖所有技术细节、QA及未公开彩蛋 [19] - 知识星球内容包含灵巧手设计与难题分析、Agent概念探讨、Spec-VLA推理加速框架、CMU跨实体世界模型等深度解析 [19]
炸了!ICLR 一键清零 rebuttal,全网研究者怒了
具身智能之心· 2025-12-01 03:12
ICLR审稿重置事件 - 国际机器学习顶会ICLR因系统漏洞被滥用,官方采取“强制重启”措施,将所有论文的领域主席重新分配,并将所有审稿意见与评分重置回讨论前状态 [2][3] - 此举导致大量作者在反驳阶段所做的努力被清零,例如有作者通过大规模补实验和长反驳将评分从4分提升至8分,但所有努力因重置而无效 [6] - 本届ICLR投稿量巨大,接近两万篇,评审意见超过七万份,此次重置使得整个评审工作量爆炸,所有参与者需重新适应新规则 [13] 学术社区反应与争议 - 事件引发国内外AI社区强烈不满,多位作者在社交平台控诉,认为这是对无辜作者的“连坐式惩罚”,因其并未参与利用漏洞却要共同承担后果 [4][8] - 有观点质疑会议组织者拥有完整的日志和元数据,应自行筛查可疑行为,而非采取“一刀切”的惩罚方式让所有人背锅 [8] - 部分作者担忧新上任的领域主席无法在短时间内妥善处理大量论文,例如有领域主席需接手二三十篇稿件,难以逐篇细读论文与反驳并做出公正裁决 [12] - 也有少数作者认为重置可能带来意外获益,例如之前遇到不回应反驳的审稿人,重置后大家回到同一起跑线,评分可能更为公平 [13] 对学术发表机制的反思 - 此次事件暴露了机器学习顶会发表机制的深层次问题,包括为追求论文数量而疯狂内卷,导致审稿质量不断下滑 [14] - 泄密与重置事件将原本就存在的评审系统问题赤裸裸地放大出来,引发了学术界对现有机制的广泛系统性悲观 [14]
ICRA 2026 | 首个真实世界场景的具身学习挑战赛!最高7万美金奖励
具身智能之心· 2025-12-01 03:12
赛事概况 - IEEE机器人与自动化顶会ICRA 2026官方赛事REAL-I首届具身智能挑战赛正式发布 [1] - 赛事由IEEE ICRA背书,乐聚机器人、北京通研院联合全球顶尖高校举办 [1] - 旨在推动具身智能与数据驱动机器人操作的前沿研究 [1][5] 赛事核心特点 - 赛事以真实工业任务为核心,挑战动态抓取、双臂协调等核心技术难点 [1] - 采用「仿真赛→真机赛」双阶段赛制,推动算法在现实挑战中持续进化 [1][15] - 最终模型将在乐聚智能的KUAVO-4 Pro全尺寸人形机器人上进行评估 [10][26] 赛事任务设置 - 任务一:快递包裹称重,包括拾取包裹、称重、检索和最终精准放置 [16][17] - 任务二:零件分拣,从传送带上拾取零件并放入正确的料箱中 [19] - 任务三:全周期托盘运输,移动到目标区域、拾取目标托盘、移动到正确区域并成功放置托盘 [21] 赛事资源与支持 - 提供工业级数据集,包含30,000+多模态轨迹,100小时数据,具备多模态特性 [11] - 提供全栈工具链,包括数据转换脚本、基线实现和综合文档 [13] - 获奖者有望瓜分9万美元奖池,冠军可获得价值7万美元的KUAVO-4Pro全尺寸人形机器人 [1][30] 赛事日程与学术价值 - 赛事日程从2026年1月1日持续至6月1日,最终阶段在ICRA 2026现场举行 [24][27] - 基于赛事平台和数据集发表的论文(前十名)每篇可获得500美元奖励 [32] - 参与者可借助赛事数据与真机验证成果,发表高价值论文 [1]
第一个吃螃蟹的人!上交成立全球首个具身智能专业
具身智能之心· 2025-11-30 07:06
上海交通大学具身智能本科专业设立 - 上海交通大学正式拟增设具身智能本科专业,这是国内高校首个此类专业 [1] - 该专业将隶属于人工智能学院计算机类,授予工学学位,修读年限为四年 [3] - 专业预计年度招生人数为30人,其中计划升学人数25人,升学占比约83% [3] - 专业带头人由上海交通大学人工智能学院副院长卢策吾担任 [3] 具身智能行业与社区发展 - 具身智能是一个交叉学科,其专业设立反映了相关产业高速发展和人才供不应求的现状 [1] - 具身智能之心知识星球是国内首个具身智能开发者社区,汇总了超过30个学习路线、40个开源项目及近60个相关数据集 [5] - 该社区已汇聚近200家公司和机构进行学术与产业交流 [6] - 具身智能之心社群拥有近60个技术交流群,覆盖大模型、机器人仿真、规划控制等多个方向 [9]
华尔街尬捧TPU学术界懵了:何恺明5年前就是TPU编程高手,多新鲜~
具身智能之心· 2025-11-30 03:03
市场对谷歌TPU订单的过度反应 - Meta与谷歌签订数十亿美元TPU订单的消息导致英伟达盘中最大跌幅达7% 市值蒸发超3000亿美元 [1] - 谷歌盘中情绪最热烈时涨幅一度达4% 市值增加约1500亿美元 合人民币超1万亿 [2] - 《华尔街日报》将此视为谷歌向英伟达市场主导地位发起冲击的信号 但从业人士认为华尔街看法外行 [3] TPU在行业内的实际应用历史 - OpenAI技术人员Clive Chan指出谷歌Gemini、Claude、MidJourney、Ilya的SSI等模型均使用过TPU进行训练 [4] - Meta使用TPU并非新鲜事 谢赛宁证实Meta早在2020年已开始使用TPU [6] - 何恺明领导的TF和JAX代码库初步开发及MAE、MoCo v3、ConvNeXt v2和DiT等研究项目完全在TPU上开发 [6] 英伟达与谷歌的技术护城河分析 - 英伟达宣称自家产品是唯一能运行所有AI模型并应用于所有计算场景的平台 [8] - 但OpenAI开发了Triton可绕过CUDA 仅需25行Python代码即能达到cuBLAS性能 [12] - 从技术角度看 谷歌、Meta、OpenAI等巨头自身绕开英伟达并非难事 [13] TPU与英伟达芯片的成本效益比较 - Artificial Analysis用Llama 3.3测试显示从H100到B200 每1美元带来的Token收益是TPU v6e的5倍 [14] - 以30Tokens/秒速度跑Llama 3.3 输入输出各100万Tokens H100成本1.06美元 TPU v6e成本5.13美元 [15] - TPU v7与B200成本相近 TPUv7 FP8运算速度4.6PFLOP/s功耗约1000瓦 GB200 FP8运算速度5PFLOP/s功耗约1200瓦 [18][19] 谷歌出售TPU的战略意图 - 谷歌出售TPU主要目的并非赚钱 而是通过出货量换取排产和价格优惠 对冲芯片代工厂风险 [21][23] - 谷歌利用与Meta、苹果的长期云服务合同作为抵押 预购代工厂尖端芯片产能 可能锁定N2容量25%按成本价供应 [25] - 此策略导致小型芯片公司如Groq、Cerebras、Tenstorrent难以获得先进晶圆产能 形成类似苹果垄断显示屏供应链的效果 [26][27]
北京大学最新!MobileVLA-R1:机械臂之外,移动机器人的VLA能力怎么样了?
具身智能之心· 2025-11-30 03:03
文章核心观点 - 北京大学等团队推出的MobileVLA-R1模型,通过“结构化思维链推理+两阶段训练范式”,首次在四足机器人上实现了自然语言指令下的显式推理与连续控制,有效弥合了高层语义推理与底层动作控制之间的鸿沟,在导航和操作任务中性能领先[1] 当前行业痛点与解决方案 - 当前四足机器人视觉-语言-动作系统面临“推理-控制脱节”困境,具体表现为直接从语言映射到动作导致稳定性差、泛化能力弱,以及依赖隐式嵌入导致推理不可追溯、难以进行错误排查[2] - MobileVLA-R1的核心突破在于将“思维链推理”与“连续动作执行”解耦,通过结构化数据监督和强化学习,让机器人先推理再执行,兼顾可解释性与控制稳健性[2] 核心技术架构与数据集 - 模型核心设计基于“结构化CoT数据集 + 两阶段训练 + 多模态感知融合”三大模块[4] - 构建了首个面向四足机器人的大规模结构化思维链数据集MobileVLA-CoT,包含18K条episode级样本、78K条步骤级样本和38K条导航专用样本,覆盖导航与操作全场景[4] - 数据集基于R2R、RxR导航数据集和262K规模的QUARD四足机器人数据集,通过大模型生成并经过规则过滤与人工校验[4][5] - 采用分层VLA架构,包含“感知-推理-执行”三级,实现从多模态输入到连续控制的端到端映射[6] - 采用两阶段训练范式:先在MobileVLA-CoT数据集上进行监督微调,建立基础映射;再采用Group Relative Policy Optimization进行强化学习优化,设计了三重奖励函数[8] - 多模态感知前端融合RGB图像、深度图和点云数据,使用DepthAnything V2和Point Transformer v3编码器精准捕捉3D空间信息[8] - 推理模块基于LLaMA3-8B语言模型生成结构化输出,动作解码器将其转化为四足机器人的连续控制指令[8] 模型性能表现 - 在导航任务基准测试中,在R2R-CE和RxR-CE数据集上的成功率分别达到68.3%和71.5%,较现有方法平均提升5%,导航误差低至4.05,轨迹效率达65.2%[10] - 在四足控制任务中,在QUARD数据集的6项运动与操作任务中平均成功率达73%,硬难度任务成功率达44%,显著超越QUART、MoRE等基线模型[12][13] - 在Unitree Go2四足机器人上的真实世界测试显示,在复杂指令下的成功率高达86%-91%,导航误差低于1.23,能稳定完成多步连贯任务[16][18] - 消融实验证明,同时启用运动、动作、格式三重奖励函数时性能最优,移除任一奖励会导致成功率下降3%-10%[17] - 多模态感知消融实验表明,新增深度和点云编码器后,导航成功率提升5.8%[19][20] 技术意义与未来方向 - 该研究首次将思维链推理与强化学习融入四足机器人的VLA框架,打破了“要么可解释、要么稳执行”的行业困境[21] - 结构化CoT推理是弥合语义-控制鸿沟的关键,显式推理过程提升了指令落地的稳定性和决策可解释性[23] - 两阶段训练范式兼顾了“冷启动效率”与“优化上限”,实现协同效应[23] - 多模态融合提升了机器人在复杂空间中的泛化能力[23] - 未来方向包括扩展动作空间以支持更精细操作、通过模型蒸馏与量化降低8B参数主干的推理延迟以适应实时交互,以及探索自监督学习以减少对标注数据的依赖[23]