Workflow
具身智能之心
icon
搜索文档
具身智能之心企业合作邀请函
具身智能之心· 2025-09-17 03:14
联系方式 添加商务微信oooops-life做进一步沟通。 具身智能之心是具身智能领域的优秀创作和宣传的媒体平台。近一年内,我们和多家具身公司签订长期合作事 项,包括但不限于产品宣传、品牌宣传、硬件代理、联合运营、教育产品研发等。 随着团队的不断扩大,我们期望在上述业务上和更多优秀的公司建立联系,推动具身领域的快速发展。欢迎有 相关业务需求的公司或团队联系我们。 我们期待进一步的合作!!! ...
前理想汽车 CTO 具身领域创业,过硬的量产实力是硬通货
具身智能之心· 2025-09-17 03:14
编辑丨具身智能之心 点击下方 卡片 ,关注" 具身智能 之心 "公众号 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 元璟资本投资合伙人、前理想汽车CTO王凯已投入具身智能创业。与此同时,某头部自驾技术高管 也即将参与。 成立数月便受到各类投资机构的青睐,红杉资本、蓝驰资本等多家累计进行了5000w美元的投资。 「具身智能之心」 立减 新人立减券 * 50 2025/09/20 23:00 后失效 CJ知识量班 长按扫码领取优惠 ▶ 除了目前比较火热的具身智能赛道,创始人的量产能力是资本非常看好的。2020年王凯加入理想汽 车,负责智能驾驶相关的研究,涉及座舱、自驾、操作系统和平台等内容。他推动了地平线芯片的 方案量产。2022年离开理想,加入元璟资本担任投资合伙人。 另外一位自驾高管参与某头部新势力的端到端与vla量产工作,当下具身领域确实需要量产能力强的 大牛参与,推动商业化进程。 更多内容欢迎加入我们的具身社区:具身智能之心知识星球,第一时间了解行业动态。 ...
VLA-Adapter:以0.5B参数实现机器人智能新高度,还无需预训练
具身智能之心· 2025-09-17 03:14
>> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 点击下方 卡片 ,关注" 具身智能之心 "公众号 | | OpenVLA-OFT (soTA) | | VLA-Adapter (Ours) | | --- | --- | --- | --- | | Backbone ↓ | 7B | 0.5в | 1/14× | | Fine-tuning Cost ↓ | 304GPU·h | 8GPU.h | 1/38× | | Training VRAM (8 batch)↓ | 62GB | 24.7GB | 0.4× | | Throughput (8-dim chunk) ↑ | 71.4Hz | 219.2Hz | 3× | | Performance (LIBERO) ↑ | 97.1% | 97.3% | Maintain | | VLM # / 3 | Bridge | Policy | Frozen | | | | | ు Trainable | | / IRGB L Instuction | A ...
星动纪元招聘!具身多模态、强化学习等多个方向
具身智能之心· 2025-09-17 00:02
点击下方 卡片 ,关注" 具身智能 之心 "公众号 职位描述 职位要求 加分项 职位描述 职位要求 1. 多模态强化学习算法研究与开发: 负责前沿多模态强化学习算法的研究、设计和实现,解决实际应用中的 复杂问题。 2. 模型训练与优化: 负责多模态大模型的训练、微调和优化,以提升模型在不同任务上的性能。 3. 多模态数据处理与分析: 负责多模态数据的收集、处理、清洗和分析,构建高质量的训练数据集。 4. 技术文档撰写与分享: 撰写相关技术文档,分享研究成果,并与团队成员进行技术交流和协作。 1. 强化学习(RL): 深入理解强化学习基本原理,熟悉主流 RL 算法(如 PPO、GRPO、DAPO 等)。 2. 多模态学习: 深入理解多模态学习的原理和技术,熟悉多模态融合、跨模态对齐等技术。 3. 大模型(LLM/LVM): 深入理解大模型的架构和训练原理,熟悉 Transformer 结构,了解预训练、微 调、提示工程等技术。 4. 计算机视觉/自然语言处理: 具备扎实的 CV 或 NLP 基础,了解主流模型(如 ViT、DINO、LLaMA 等),并具备相关项目经验。 1. 在顶级学术会议(如 NeurIPS ...
一个P7,从自驾到具身的转行建议......
具身智能之心· 2025-09-17 00:02
行业技术发展现状 - 具身智能行业当前处于早期发展阶段,面临数据稀缺、算力不足和设备不成熟等挑战,与早期自动驾驶行业状况相似[1] - 数据采集成本高,行业采用real2sim2real或sim2real方案解决数据短缺问题,并借鉴自动驾驶数据闭环和自动标注技术[2] - 商业化部署优先选择已验证的成熟技术而非最新技术,例如VLA在智驾和机械臂应用较成熟但人形机器人应用难度大[3] - 人形机器人本体稳定性是关键挑战,需要开发类似自动驾驶的兜底方案防止摔倒或损坏[6] - 部署能力已具备轻量化技术,现有算力基本满足需求,预计随技术成熟将进一步提升一代[5] 技术方法论迁移 - 自动驾驶领域的优化方法论可直接迁移至具身智能领域,仅需调整面向对象和因素[1] - 采用机器人自采集数据并通过算法筛选dirty数据的方案,与自动驾驶数据处理流程高度相似[2] - 强化学习方法在具身智能领域仍然有效,应优先采用已验证的技术方案[3] 人才转型路径 - 自动驾驶与大模型背景人才转向具身智能领域难度较低,传统机器人背景人才也存在较多相似点[8] - 缺乏相关基础者需要完整学习体系,建议通过专业社区避免自学踩坑[8] - 行业已建立具身智能之心知识星球社区,汇聚近2000名成员,目标两年内达到近万人规模[10] 行业生态建设 - 社区覆盖产业、学术、求职、问答等多领域闭环,提供实时问题解答和技术分享[10] - 与智元机器人、有鹿机器人、优必选、傅里叶机器人、开普勒机器人等近200家头部企业建立合作[17] - 汇总40+开源项目、60+数据集及主流仿真平台,提供完整技术学习路线[17] - 建立高校与企业人才通道,覆盖斯坦福大学、清华大学、ETH等国内外知名机构[17] 技术研究体系 - 社区系统化梳理30+技术路线,包括数据采集、VLA模型、多传感器融合等13个核心领域[11] - 提供具身感知、强化学习、VLN等18个专项学习路线,加速技术入门与进阶[17] - 汇总国内外高校实验室、公司研报、零部件品牌等产业基础设施信息[19][22][29] - 持续更新开源项目、仿真平台、数据集资源,覆盖从基础研究到工程落地的全链条需求[31][37][39]
宇树开源了UnifoLM-WMA-0: 一个跨实体的世界模型+Action的框架
具身智能之心· 2025-09-16 03:29
核心观点 - 宇树科技推出开源世界模型-行动架构UnifoLM-WMA-0 专为通用机器人学习设计 具备物理交互理解能力 支持仿真引擎和策略增强两大功能 [2] 架构设计 - 架构嵌入世界模型 支持决策模式和模拟模式运行 决策模式预测未来物理交互信息辅助策略生成动作 模拟模式根据机器人动作生成高保真环境反馈 [7] - 基于视频生成模型微调 以图像和文本指令为输入 生成未来交互过程视频 适配机器人操作场景 [11] - 动作可控生成功能通过五个开源数据集训练 可根据当前图像和未来机器人动作实现交互式可控生成 [11] 数据集与模型 - 提供两个模型版本 UnifoLM-WMA-0Ba基于Open-X数据集微调 UnifoLM-WMA-0基于五个宇树机器人开源数据集训练 支持决策和模拟模式 [13] - 数据集覆盖Z1和G1机器人形态 包含双臂堆叠箱体 清理铅笔 包装相机等具体任务场景 [14] - 所有数据集和模型均通过HuggingFace平台开源提供 [13][14] 技术实现 - 训练过程分两阶段 先在Open-X数据集微调视频生成模型 再基于宇树机器人数据集训练动作可控生成能力 [11] - 测试表明模型可作为仿真引擎 实现基于图像和动作指令的交互式可控生成 [11]
机器人入职洗衣房,开始打工挣钱!苹果前AI高管打造
具身智能之心· 2025-09-16 00:03
公司背景 - 公司Weave Robotic由前苹果技术高管Evan Winelan和Kaan Dogrusoz共同创立 两位创始人分别担任CEO和CTO 均毕业于卡内基梅隆大学并有苹果公司任职经历 [17][18][21] - 公司未正式发布产品时已完成三轮融资 团队具备苹果AI项目 Siri更新及Apple Watch iPhone产品研发经验 [5][18][21] 产品技术 - 机器人Isaacs为通用型家用机器人 搭载自主训练的视觉-语言-动作模型 能精准识别衣物类型和折叠边角位置 提供视觉决策支持 [12][20] - 采用高性能网络堆栈 支持人类操作员远程协助处理复杂情况 早期原型实现70%端到端自主折叠率 必要时才启动人工干预 [20] - 配备持续学习数据管道 每次折叠任务数据用于训练新一代模型 提升处理不同材质和款式衣物的效率与精度 [20] 商业应用 - 机器人已在美国付费洗衣房Tumble Laundry正式上岗 负责衣物折叠和收纳环节 为首个实现商业化衣物折叠的通用机器人 [4][5][9] - 折叠标准严格 要求衬衫版型均匀 边角整齐 衣领朝上 堆叠方向统一 并能自动整理操作台保持整洁 [6][7][8] - 未来计划拓展整理杂物 家庭安防等家务能力 设计注重隐私保护 闲置时自动关闭摄像头并降低躯干高度 [12][14][15] 行业定位 - 机器人突破展台表演阶段 率先进入商业场景 解决洗衣房人力密集型折叠环节 体现技术实用化进展 [5][6] - 公司目标为面向家庭场景设计通用机器人 强调快速完成实际工作 而非单一功能设备 [12][24]
那些敢于破风的具身技术一号位们......
具身智能之心· 2025-09-16 00:03
全球具身智能行业核心推动者概览 - 具身智能已成为全球商业化核心方向 国内外团队在硬件 算法及场景应用领域展开激烈竞争 技术架构革新推动研发资源 人才需求及市场竞争格局重塑[2] - 行业领军人物主导技术路线与战略决策 对抢占转型期先机具有决定性作用 涵盖学术研究 产品开发及商业化落地全链条[2] 国内具身智能企业及技术领袖 宇树科技 - 王兴兴主导四足机器人研发 推出Laikago AlienGo A1 Go1 B1等产品及Z1机械臂 拥有机器人相关专利100余项[4] - 开创低成本高性能足式机器人技术先河 2015年独立开发XDog四足机器人 公司获国家高新技术认证及专精特新"小巨人"企业称号[4] 星海图 - 赵行提出全球首个自动驾驶大模型"快-慢双系统"DriveVLM-Dual 应用于理想汽车 该架构成为Figure机器人Helix系统参考框架[6] - 许华哲系统性研究视觉深度强化学习与模仿学习 解决数据效率低和泛化能力弱问题 发表顶级期刊会议论文60余篇[8][9][10] 银河通用 - 王鹤创立具身感知与交互实验室 提出VLA大模型推动具身智能与大模型融合 自研仿真数据合成管线积累亿级真实场景数据及百亿级合成数据[12][13] - 开发轮式双臂通用机器人Galbot 获CVPR2019 Oral论文奖及世界人工智能大会青年优秀论文奖[13] 智元机器人 - 罗剑岚主导开发工业级强化学习系统SERL/HIL 实现机器人真机强化学习任务成功率100% 仅需20分钟学会精密装配[16][18] - 联合斯坦福 谷歌等机构构建全球最大跨场景机器人开源数据集Open X-Embodiment 获MIT TR35创新奖[18] 自变量机器人 - 王昊主导开发端到端具身大模型WALL-A 为2024年全球最大参数规模具身智能通用操作模型 构建统一认知与行动框架[20][21] - 开源具身智能大模型Wall-OSS并公开训练代码 支持开发者自有机器人微调与应用[21] 逐际动力 - 张巍聚焦全尺寸通用人形机器人研发 首款四轮足商用机器人W1已上市 全尺寸人形机器人将于2025年下半年公开销售[24] - 推动具身大模型技术研发及IDS生态平台建设 通过仿真数据和互联网视频数据降低数据成本[24] 星尘智能 - 来杰主导研发第一代AI机器人Astribot S1 采用"绳驱"传动方案 实现AI智能与操作能力深度耦合[26] - 拥有16年机器人研发经验 曾牵头百度小度机器人项目及腾讯轮腿式机器人Ollie开发[26] 云深处 - 朱秋国主持四足机器人"赤兔"和"绝影"研制 公司坚持全栈自研 拥有授权专利100多项[28] - 承担国家重点研发项目及国家自然科学基金10余项 发表学术论文40余篇[28] 千寻智能 - 韩峰涛主导研发国内首款高性能全身力控人形机器人Moz1 全身26自由度 负载自重比达1:1[31] - 公司成立1年4个月累计融资超10亿元 强调大模型与机器人控制深度融合[31] 国际具身智能机构与领军者 Physical Intelligence - Sergey Levine参与创立公司 成立1个月获7000万美元融资 2024年11月完成4亿美元新一轮融资 投后估值24亿美元[36] - 开发代表VLA落地最高水平的模型 强调真实世界数据对机器人基础模型发展的关键作用[36] Figure AI - Brett Adcock开发人形机器人Figure 01和Figure 02 搭载OpenAI大模型后实现搬箱子 煮咖啡等任务[37] - 发布Helix模型实现双机器人共脑合作 利用强化学习实现自然人形行走[37] 斯坦福大学 - 李飞飞发起ImageNet数据集成为AI技术基石 研究涵盖认知启发AI 机器学习及计算机视觉[40][41] - 联合创立非营利组织AI4ALL推动AI教育包容性 在《Nature》《PNAS》等顶级期刊发表论文[41] Skild AI - Deepak Pathak开发机器人"人工好奇心"技术 论文获超4000次引用[44][45] - 构建可扩展机器人基础模型Skild Brain 适应不同硬件平台和环境[45] 技术发展路径与行业趋势 - 技术领袖通过不同路径推进具身智能发展 包括学术算法深耕 产业量产强调 全链路自主研发及大模型与硬件协同[46] - 应用场景覆盖工业精准作业与家庭场景泛化 目标为打造适配本土需求的具身智能系统[46]
具身VLA后训练:TeleAI提出潜空间引导的VLA跨本体泛化方法
具身智能之心· 2025-09-16 00:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Yang Zhang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在多模态大模型的基座上, 视觉-语言-动作(Visual-Language-Action, VLA) 模型使用大量机器人操作数据进行预训练,有望实现通用的具身操作能力。然而, 现有VLA基座模型的能力仍存在很大不足,在进行目标场景应用时需要采集数十乃至数百小时目标本体数据完成后训练 (Post-Training),特别是当目标场景本 体和预训练本体存在差异时,预训练和后训练阶段的动作分布出现严重失配,从而引发了VLA模型跨本体适配(Cross-Embodiment Adaption)挑战。在后训练阶 段通过堆叠目标本体数据对抗这种失配的边际收益迅速递减,也难以有效拟合目标场景动作分布。 为了解决该问题, 中国电信人工智能研究院(TeleAI)具身智能团队 提出了一种"对齐-引导-泛化"(Align then Stee ...
真的花了好久才汇总的大模型技术路线......
具身智能之心· 2025-09-16 00:03
大模型技术发展趋势 - 大模型已成为推动社会生产的重要工具,广泛应用于日常办公、自动驾驶、具身智能和AIGC生成等领域 [2] - 大模型产业正经历技术普惠化、应用垂直化和生态开源化的深度变革 [2] - RAG和AI Agent技术成为AI从业者核心竞争力,相关岗位需求旺盛且算法岗位年薪领先行业 [2] 技术社区建设 - 创建了集视频、图文、学习路线、问答和求职交流为一体的综合型大模型社区 [2] - 社区已邀请40+来自国内外知名高校和头部企业的专家,包括上交、清华、北大、上海AI实验室、港科大、阿里、美团、深度求索、字节、百度和月之暗面等机构 [4][66] - 社区提供学术进展追踪、工业应用交流、求职对接和行业机会挖掘等服务 [7] RAG技术体系 - 提供完整的RAG学习路线,包括Graph RAG、Knowledge-Oriented RAG、Reasoning RAG等子领域 [4][9] - 汇总了最新综述、开源仓库和BenchMark,涵盖RAG在视觉理解和AIGC中的应用 [11][12][14][16][18][21][23] - 包含个性化RAG工作汇总和专业技术资料,适合从入门到进阶的系统性学习 [4][11] AI Agent技术体系 - 详细解析AI Agent核心技术,包括前沿综述、强化学习、多模态应用和通讯协议 [25][27][29][31][32] - 汇总基座Agent、自进化Agent和Multi-Agent的最新研究成果 [34][36][38] - 提供Agent评测框架和开源工具链,覆盖工业界与学术界需求 [4] 多模态大模型训练 - 涵盖多模态大模型(MLLM)和视觉语言模型(VLM)的训练方法,包括微调、RLHF和MoE技术 [40][44][45][47][49][50] - 汇总开源数据集和提示适配器学习方案,支持3D世界应用开发 [42][51][53] - 持续扩展强化学习与模型优化模块,满足科研和工业落地需求 [40] 模型量化与部署 - 提供大模型量化、推理和部署的完整技术方案 [55][56] - 涵盖参数优化、推理加速和部署实践,助力模型高效落地 [58][60][62] - 扩展社区内容至工程应用领域,满足开发者对模型部署的需求 [56] 社区发展计划 - 计划邀请国内外顶尖学术界和工业界专家进行直播分享,内容可回放 [64] - 持续扩展专家网络,打造大模型前沿技术聚集地 [66] - 提供独家岗位招聘信息,赋能社区成员职业发展 [67]