Workflow
具身智能之心
icon
搜索文档
当还在纠结研究方向的时候!别的同学已经CCF-A了......
具身智能之心· 2025-11-04 00:05
服务核心定位 - 公司推出针对具身智能领域的科研论文辅导服务,旨在解决研究人员在论文选题、入门及技术方向选择上的困难 [1] - 服务提供从CCF-A到CCF-C类会议、SCI一区到四区期刊以及毕业论文、申博等全区间辅导 [2] 服务覆盖的技术方向 - 辅导服务覆盖多模态大模型、视觉语言动作模型、强化学习、视觉语言导航、遥操作、数据采集、机器人仿真、虚实迁移、端到端学习、扩散模型等多个前沿顶会方向 [2] - 服务针对具身智能领域的研究方向选择难题,例如在强化学习与视觉语言动作模型之间、传统SLAM与视觉语言导航之间如何选择提供指导 [1] 服务团队与特色 - 导师团队由来自国内外名校的博士及头部大厂研究员组成,拥有在ICML、ICLR、CoRL、ICRA、NeurIPS、CVPR等顶级会议的投稿与审稿经验 [2] - 提供全流程闭环辅导,涵盖从选题创新点挖掘、实验设计、代码调试、论文写作到投稿策略的全方位支持 [2] - 服务兼具工业界与学术界双视角,不仅关注论文发表,更关注技术的落地价值 [3] 咨询与获客策略 - 公司为前10名咨询者提供免费匹配专属导师的服务,可进行深度会议并获得个性化的会议、期刊选投建议 [4]
Dexmal原力灵机发布实时VLA模型!消费级显卡上完成pi0模型30Hz以上推理
具身智能之心· 2025-11-04 00:05
核心观点 - 研究团队提出并验证了一套针对十亿参数级别视觉-语言-动作模型的实时推理优化方案,在单块消费级RTX 4090 GPU上实现了30Hz图像处理与最高480Hz动作生成的性能,突破了传统VLA模型因高延迟而无法应用于动态任务的瓶颈 [3][23][37] 核心优化策略 - 通过四步优化流程将2视图模型的推理时间从初始的106.5毫秒降低至27.3毫秒,满足了实时推理所需的33毫秒阈值 [7][10][22] - 第一步消除基础开销:使用CUDA Graph技术将内核启动开销减半,使推理时间从106.5毫秒降至约53.9毫秒;通过简化计算图进一步降至约45.8毫秒 [9][10][12][14] - 第二步内核深度优化:针对GEMM操作进行底层优化,包括RMS归一化权重折叠、动作-时间嵌入层折叠、QKV投影融合等,并利用Triton框架手动调整tile参数,累计减少约1.5毫秒推理时间 [16][18] - 第三步性能下界验证:通过Roofline模型计算得出理论最低时间为19.7毫秒,叠加同步开销后理论下界为20.6毫秒,实际实现27.3毫秒的差距仅30%,表明优化已接近硬件理论极限 [20][21][22] 全流推理框架 - 提出全流推理框架,通过VLM与动作专家的并发执行,在1秒内可并行运行30个VLM与480个动作专家,实现480Hz的轨迹生成频率 [23][27][30] - 重构动作专家角色,将其从“批量输出”改为“逐步生成”模式,并结合高频传感器数据实时调整动作,确保低延迟响应 [28][30] - 设计三层反馈环:480Hz力环用于紧急停止等快速反应,30Hz视觉环实现图像驱动的动作调整,<1Hz文本环用于任务规划等低速智能场景 [29][30] 真实世界验证 - 通过抓取下落钢笔的实验验证实时VLA的有效性,在200毫秒的时间约束下,10次连续实验成功率达到100%,与人类反应速度相当 [29][32][36] - 实验证明大参数VLA模型在完成此类动态任务时具备泛化优势,可直接迁移至更复杂的动态任务而无需重新设计模型结构 [36]
突发!arXiv CS新规:未经同行评审,一律不收
具身智能之心· 2025-11-04 00:05
arXiv政策变革背景 - arXiv对计算机科学板块的"综述/调研"和"立场"类论文实施新规,要求必须通过同行评审后才能收录[2][7] - 生成式AI和大模型技术导致论文撰写变得轻而易举,特别是那些不包含新研究成果的论文[20] - arXiv所有分类都出现提交量大幅增长,但在计算机科学领域尤为显著[21] - 目前arXiv每月收到数百篇综述文章,其中90%被描述为"带注释的文献清单",缺乏实质性价值[5][32] 新规具体内容 - "综述"和"立场"论文需被期刊或顶会接收并完成同行评审后,才能提交至arXiv[8] - 作者提交时必须提供经同行评审的期刊引用及DOI元数据[9] - 若论文因"未完成同行评审"被拒,后续通过严格评审后可按指引申诉并二次投稿[49] - 研究科学技术对社会影响的论文(如cs.CY或physics.soc-ph分类)不受此政策影响[50] 学术界反应 - MIT EECS副教授Phillip Isola认为此举偏离了arXiv作为"科研界GitHub"的定位[10][11] - 前谷歌DeepMind专家Ahmad Beirami担忧新规会误杀优质内容并拖慢成果发布速度[39] - 艾伦研究所ML专家Nathan Lambert对政策实施效果持保留态度[40] - 研究员Gavin Crooks指出arXiv正从预印本服务器转向"后印本"平台[41] 政策实施目标 - 帮助读者更轻松地找到由领域专家撰写的高质量综述和立场文件[28] - 让审稿人集中精力处理arXiv正式接纳的内容类型,缩短稿件积压时间[28] - 保持arXiv快速、自由分享研究论文的核心宗旨,促进科学发现[23] - 如果其他分类也遭遇AI生成论文泛滥,未来将效仿计算机科学板块调整审核政策[51]
向黄仁勋汇报的英伟达36人
具身智能之心· 2025-11-04 00:05
文章核心观点 - 英伟达CEO黄仁勋的直接汇报团队规模为36人,分布在七个关键职能板块,反映了公司在硬件基石之上,正积极向AI、具身智能与自动驾驶等新兴领域扩张的战略布局[1][3][4] - 公司采用高度扁平化的管理模式以加速决策,但随着业务规模急剧扩张(员工数一年增长21.62%至3.6万人),其直接下属数量从55人缩减至36人,暗示组织结构可能正从扁平化向垂直化调整,以应对管理复杂度的提升[74][78][100][115] - 核心高管团队包括多位长期追随黄仁勋的资深技术领袖(如GPU架构负责人Jonah Alben、软件负责人Dwight Diercks),以及新引入的行业专家(如前小鹏高管吴新宙),通过经验与创新结合驱动技术迭代与业务增长[21][23][32][56][73] 组织架构与职能分布 - 硬件板块是公司基石,直接下属中有9人负责GPU、电信、DGX整机系统等业务,占比达三分之一[6][7][8] - AI与前沿技术板块配置7名高管,由吴新宙等领导,重点开拓自动驾驶等“零亿美元市场”,汽车业务收入在2024-2025财年从2.81亿美元翻倍至5.67亿美元[9][10][71][72] - 公关职能突出,设3名直接下属负责全球企业、研究机构与政府关系,与产业链上下游协同需求强,而马斯克旗下公司无专职公关团队[12][13][15][16] 关键高管背景与贡献 - Jonah Alben任职28年,领导约千人的GPU工程团队,持有34项专利,是公司从独立显卡转向AI时代的关键人物[23][24][25][30] - Dwight Diercks司龄31年,掌管软件研发体系,团队规模随公司扩张显著增长,负责AI框架、自动驾驶平台等全栈软件支持[32][33][36][37] - Bill Dally作为首席科学家,推动GPU向并行计算平台演进,学术背景独特(无高中学历但获加州理工博士),兼具理论与实战经验[40][42][47][49] - 吴新宙是直属团队中唯一华人,具高通与小鹏技术积累,加入后推动英伟达汽车业务收入逆转(2023年缩水4%,2025财年激增628%)[56][65][71][72] 管理模式与文化特征 - 黄仁勋坚持扁平化结构,提倡信息透明(如避免一对一会议、鼓励跨部门直接沟通),以应对AI行业快速迭代需求[79][80][83][88] - 通过每周收集员工五项重点工作清单(约两万封邮件),保持与一线技术动态同步,早期获悉Transformer架构即得益于此[91][92][95] - 公司推崇高压文化,强调“第二名即第一个失败者”,办公环境专注工作导向(无健身房等设施),但裁员倾向低,故障项目责任人仍获留任[108][110][111][117][122][123] 业务规模与架构演变 - 2024财年净利润达295亿美元(同比增600%),2025财年前三月净利润148亿美元(同比增628%),驱动员工总数从2.96万增至3.6万[98][100] - 直接下属数量从2024年3月的55人降至当前36人,缩减近四成,反映组织可能因规模膨胀而调整管理跨度,以平衡效率与复杂度[74][78][96][115]
最火VLA,看这一篇综述就够了
具身智能之心· 2025-11-03 00:03
文章核心观点 - 视觉-语言-动作模型是当前人工智能领域极具吸引力的前沿阵地,其目标是让机器人具备听懂人话、看懂世界、动手干活的能力 [7] - ICLR 2026会议上VLA模型相关投稿量从去年的个位数飙升至164篇,增长了18倍,显示出该领域的爆发式增长 [6] - 学术界对VLA尚无统一定义,但核心标准是模型必须使用经过大规模互联网级别视觉-语言数据预训练的骨干网络 [8][9] VLA概念定义与区分 - VLA模型强调基因,必须继承自强大的视觉语言模型,具备语言理解、视觉泛化和任务迁移能力 [9][12] - 大型行为模型强调养料,指在大规模多任务机器人演示数据上训练出的策略 [11][13] - 一个在大量机器人数据上微调的VLA同时也是一个LBM,但LBM不一定是VLA [13][14] - 简单拼接独立视觉编码器和文本编码器的模型应称为多模态策略,而非VLA [11] ICLR 2026 VLA八大技术趋势 - **高效架构新范式**:离散扩散模型成为新风向,可并行生成整个动作序列,在LIBERO评测中取得近乎饱和表现 [15][16][17] - **具身思维链**:让机器人生成动作前先产生中间推理步骤,提升计划与解释能力,在SIMPLER等评测中表现突出 [18][19][20][21] - **动作分词器**:将连续高频机器人动作转换为VLM能理解的离散词汇,包括FASTer Tokenizer和OmniSAT等新进展 [22][25][31] - **强化学习微调**:作为VLA策略的微调利器,代表作在LIBERO和SIMPLER上分别取得99%和98%的成功率 [26][27][32] - **效率优化**:通过HyperVLA的超网络机制和AutoQVLA的智能量化等技术降低硬件门槛,使VLA走向平民化 [28][29][33] - **视频预测赋能**:利用视频生成模型理解时序动态和物理规律,为机器人控制提供强先验知识 [30][35][36] - **真实评测基准**:社区开发如RoboCasa365和WorldGym等新基准,致力于打破对现有测试集的过拟合 [37][40][47] - **跨体态学习**:通过X-VLA的软提示、XR-1的统一视觉-运动编码等技术让模型适应不同结构的机器人 [41][43][48] 行业现状与挑战 - 主流仿真评测存在性能天花板问题,开源模型仿真得分高但真实世界表现仍难匹敌前沿产品如Google的Pi-0.5 [44][45] - 头部公司凭借海量高质量真实数据、更看重开放环境和泛化能力的评测维度以及大规模工程支持占据优势 [49] - 数据质量中的噪声、歧义和次优行为可能限制模型上限,上下文学习机制向机器人领域的迁移或是通用VLA的突破口 [50] 作者背景与权威性 - 作者Moritz Reuss是德国卡尔斯鲁厄理工学院四年级博士生,2025年Apple AI/ML学者奖得主 [4][46][52] - 作为将扩散模型引入机器人策略研究的先行者,其研究成果多次发表于RSS、ICLR、NeurIPS等顶级会议 [4][52]
具身科研平台来了,为具身领域打造,高性价比
具身智能之心· 2025-11-03 00:03
产品定位与目标用户 - 产品为面向具身智能科研领域的轻量级高性价比机械臂Imeta-Y1,旨在解决硬件选择中价格过高或低价产品难用的问题[1][2] - 目标用户为学生、教育工作者及机器人领域初学者,帮助其低成本、高效率完成算法验证与项目开发[2] 核心产品优势 - 提供全流程开源工具链与代码示例,覆盖从数据采集、模型训练到推理部署的全过程,支持视觉、力控等多模态数据融合,兼容TensorFlow、PyTorch等主流框架[3][17][32] - 支持Python与C++双语言接口,并兼容ROS1与ROS2,提供URDF模型,实现仿真与真机无缝切换[3][17][18] - 提供快速响应的售后与生态服务,承诺24小时内响应,并支持项目开发与教学培训[3][19][44] 关键性能参数 - 机械臂本体重量为4.2公斤,额定负载为3公斤,具备6个自由度,工作半径为612.5毫米,重复定位精度达±0.1毫米[8][19] - 供电电压为24V,采用PC作为控制器,通讯方式为CAN,控制方式支持轨迹跟踪、示教及API[8][19] - 关节运动最大速度范围为180°/s至220°/s,具体为J1-J3关节180°/s,J4-J6关节220°/s[8][19] 软件开发与仿真支持 - 提供完整的开源软件开发工具包,包含驱动程序、API接口、示例代码与文档[26] - 提供URDF模型,支持Gazebo等主流仿真环境与真机实时联动,用户可在仿真中验证算法后一键部署至物理设备,降低开发风险与调试成本[17][22] 硬件测试与可靠性 - 产品经过严格的硬件测试流程,包括精度校准、耐久性、负载性能与稳定性验证,确保在各类应用场景下的可靠性与安全性[35][39][40][42] 售后服务与支持 - 交付周期为1-2周,提供半年质保(非人为损坏),质保期后按市场价收取售后费用[44][45] - 已适配RealSense D435系列及奥比中光DCW2等相机,开源模型方面目前适配lerobot和ACT,未来将逐步适配更多模型如robotwin、pi0等[46]
新国立等校企3D与4D世界建模联合综述
具身智能之心· 2025-11-03 00:03
文章核心观点 - 该综述首次对3D和4D世界建模领域进行了全面系统的梳理,明确定义了“世界模型”和“3D/4D世界建模”的概念,为研究社区提供了统一的术语和清晰的概念框架 [8][13] - 文章提出了一个层次化的分类体系,将当前方法基于表示模态划分为基于视频生成、基于占用生成和基于激光雷达生成三大类,并进一步按功能类型细分为数据引擎、行动解释器、神经模拟器和场景重建器 [8][13] - 研究系统总结了专门针对3D和4D场景的数据集和评估协议,并对相关领域的最新方法进行了基准测试,旨在填补现有综述多强调2D模态、对原生3D/4D数据研究不足的空白 [8][9][13] 3D和4D世界建模的重要性与意义 - 世界建模是人工智能和机器人学中的基础任务,目标是使智能体能够理解、表示和预测其所处的动态环境,近年来生成建模技术的进展极大地丰富了该领域 [9] - 与2D投影不同,原生3D/4D信号在坐标中编码了度量几何、可见性和运动,这些是物理作用发生的坐标,使其成为满足可操作建模需求(如多视图一致性、运动学、遮挡推理)的首选载体 [9] - 在安全关键的应用中,智能体不仅要生成逼真的帧,还要遵守几何、因果关系和可控性,RGB-D、占用和激光雷达数据提供了满足这些要求的归纳偏差 [9] - 工业界已启动雄心勃勃的世界建模计划,目标应用于交互式机器人、沉浸式模拟和大规模数字孪生,凸显了该领域在学术界和工业界日益增长的重要性 [9] 基础知识与定义 - 3D和4D世界建模常用的场景表示方法包括视频流、占用网格、激光雷达点云和神经表示,这些表示强调几何一致性和时间一致性,以确保物理上合理的模拟 [14] - 文章为世界建模建立了精确的定义:其目标是生成或预测满足几何、时间和语义一致性的3D或4D表示,生成过程通常需要几何条件、行动条件或语义条件作为引导 [15] - 世界建模方法被分为四种功能类型:数据引擎(生成多样化场景)、行动解释器(预测未来世界状态)、神经模拟器(模拟闭环交互)和场景重建器(从部分观测恢复完整场景) [15] 生成模型与方法分类 - 生成模型是3D/4D世界建模的基础,核心算法包括变分自编码器、生成对抗网络、扩散模型和自回归模型,使智能体能够学习、想象和预测感官数据 [17][19] - 基于视频生成的方法专注于从多视角视频数据生成或预测动态场景,应用包括感知数据增强、规划导向的数据挖掘和场景编辑与风格转换 [20][21][24] - 基于占用生成的方法利用占用网格作为几何一致的中间表示,应用于3D感知增强和未来占用预测,支持行为感知和可控预测 [26] - 基于激光雷达生成的方法通过生成多样化的点云来缓解训练数据稀缺问题,应用于感知数据增强、场景完成和罕见条件建模 [29][30] 数据集与评估 - 研究覆盖了用于视频生成、占用生成和激光雷达生成的主流数据集,例如nuScenes数据集包含1000个场景、140万张图像(6个视角)和40万帧数据,采集频率为2Hz [32][37] - 评估指标分为五个方面:生成质量(如FID、FVD)、预测质量(如IoU、CD)、规划质量(如ADE、FDE)、重建质量(如PSNR、SSIM)和下游任务评估(如mAP、mIoU) [35][38] - 基准测试结果显示,部分模型表现出色,例如MagicDrive和DreamForge等视频生成模型的FVD值低于100,某些占用生成模型在重建质量上的mIoU值超过90% [39][43] 应用领域 - 在自动驾驶领域,世界模型应用于交通模拟、闭环驾驶评估和场景合成,可生成罕见或安全关键场景以评估系统鲁棒性 [52][53] - 在机器人技术中,世界模型支持具身导航、目标中心的操控和基于场景生成的仿真,帮助机器人预测动态并规划任务 [52][54] - 在视频游戏和扩展现实领域,世界模型实现了程序化世界生成和交互式场景渲染,根据玩家互动调整内容以增强沉浸感 [55][56] - 数字孪生应用利用世界模型进行城市级场景建模和事件回放与预测,支持智能城市规划、分析和仿真 [57] 挑战与未来方向 - 当前领域缺乏统一的基准测试和评估协议,使得模型比较困难,未来需要建立涵盖物理合理性、时间连贯性等关键指标的标准化框架 [60] - 在长时域内实现高保真度生成是一大挑战,小误差会累积导致场景连贯性下降,未来需开发先进的生成技术和记忆机制 [60] - 模型在物理保真度、可控性与泛化能力方面存在局限,常产生物理不合理事件,编辑能力粗糙,且难以泛化到新环境 [60] - 计算效率低和跨模态生成一致性差是主要挑战,未来需优先研究稀疏计算、推理加速技术以及能强制执行严格一致性约束的集成架构 [60][61]
清华大学最新!πRL:用在线强化学习让机器人 “边学边做” 的通用方案
具身智能之心· 2025-11-03 00:03
文章核心观点 - 清华大学、北京大学、中科院自动化所等团队联合提出创新框架RLinf 成功解决了流式视觉-语言-动作模型的大规模强化学习适配难题 [1] - RLinf通过Flow-Noise与Flow-SDE双算法结合并行仿真训练 实现了从监督微调瓶颈到近满分性能的突破 [1] - 该方案不回避流式模型的去噪特性 而是将其转化为强化学习适配的优势 为通用机器人操控奠定基础 [5][30] 技术方案创新 - Flow-Noise算法采用可学习噪声网络加单层马尔可夫决策过程 解决动作对数似然计算难题 [7] - Flow-SDE算法通过ODE转SDE加双层马尔可夫决策过程 平衡探索与效率 [9] - 采用近端策略优化算法进行策略优化 并针对流式模型特性进行动作块级奖励设计和对数似然计算适配 [9][12] - 构建共享演员-评论家架构 采用320个并行环境同步训练 实现大规模任务高效优化 [17] 性能表现 - 在LIBERO基准测试中 RLinf在少样本监督微调加强化学习设置下平均性能达到97.6% 较单纯少样本监督微调提升40个百分点 [16] - 在LIBERO长序列任务上 性能从单轨迹监督微调的43.9%提升至94.0% 甚至超过全轨迹监督微调的92.4% [16] - 在ManiSkill基准的4352种任务组合下 RLinf平均性能提升13.0%至15.3% 证明其大规模多任务优化能力 [20][22] - 近端策略优化算法在所有任务上均优于生成奖励策略优化 如在LIBERO基准平均性能近端策略优化为96.0% 生成奖励策略优化仅为90.0% [16][18] 训练与优化 - 监督微调阶段仅用少量专家轨迹初始化模型 强化学习阶段冻结视觉语言模型参数 仅微调3亿参数的动作专家模块 [17] - 最优超参数配置为噪声水平0.5 去噪步骤4步 动作块5步 过高噪声会导致动作失真 过多去噪步骤会增加计算成本 [27] - 双层马尔可夫决策过程比单层训练时间减少50% 同时保持性能差异小于1% [24] - 视觉语言模型接入评论家比动作专家接入评论家的价值损失低30% 解释方差高15% [26]
具身智能之心11.11优惠来了!课程/付费社区/论文辅导/开发套件!
具身智能之心· 2025-11-03 00:03
营销活动概览 - 公司正在开展双十一促销活动,活动时间为11月1日至11月11日 [2] - 促销产品组合包括具身智能系列课程、知识星球会员、科研平台机械臂及开发组件 [1][3] - 提供新人7折优惠和续费5折优惠 [3] 课程产品优惠 - 具身智能系列课程提供单门课程与三门课程组合两种购买选项 [2] - 单门课程优惠价为8 BT,三门课程组合优惠价为7 BT [2] 硬件产品优惠 - 科研平台机械臂产品在此次活动中提供最大优惠力度 [3] - 同时提供具身机械臂及开发组件的优惠 [1] 客户服务渠道 - 公司指定客服渠道为欢迎添加: AlDriver005,用于咨询活动详情 [3]
招募世界模型&人形运控&数采相关的合作伙伴!
具身智能之心· 2025-11-02 04:00
合作招募背景 - 后台收到大量关于具身世界模型、机器人运控、数采的咨询 表明这些是行业内有价值但存在门槛的方向 [2] - 公司期望与领域专家合作研发课程或实战项目 为从业者提供更多见解 [2] 合作内容与形式 - 合作聚焦于具身世界模型、运控、数采相关的课程设计与PPT制作 [3] - 合作形式灵活 可兼职 并提供高于行业水平的薪资和资源共享 [6] 合作伙伴要求 - 期望合作伙伴正在从事具身领域研究 并至少发表一篇CCF-A级别会议论文或拥有1年以上工业界经验 [4]