Robix

搜索文档
字节团队最新Robix!全能大模型,一个模型就能搞定机器人推理、任务规划和交互
具身智能之心· 2025-09-08 00:03
文章核心观点 - 字节跳动提出统一视觉-语言模型Robix 作为机器人高层认知中枢 通过端到端架构整合推理 规划与交互能力 解决现有分层系统在动态场景中的能力割裂问题[2][3][5] - Robix通过三阶训练策略(持续预训练 有监督微调 强化学习)实现物理世界感知与人类需求适配 在基础推理 离线规划和在线场景中超越主流商业模型[5][13][22] - 模型在真实场景测试中任务进度达92.5-92.6% 较Gemini-2.5-Pro提升4.3个百分点 响应延迟更低 展现更强的物理操作适配性[29][32] 技术架构与工作机制 - 采用分层系统设计 Robix作为高层认知层处理多模态推理与任务规划 低层控制器执行原子动作指令形成感知-推理-动作闭环[7][8] - 输入包含视觉观测 用户指令和历史交互记录 输出原子动作指令 自然语言回复和结构化思考轨迹三大类型[9][11] - 支持复杂指令理解 实时中断处理 任务状态监测和主动对话四大核心交互能力[12] 训练策略与数据构建 - 持续预训练使用2000亿tokens数据 包含3D空间理解(400亿) 视觉定位(700亿) 任务中心推理(100亿)和通用多模态推理(900亿)四类数据集[13][14] - 有监督微调通过合成7类交互指令数据 涵盖多阶段指令 约束指令 实时中断处理和模糊指令澄清等场景[17][18][19] - 强化学习采用GRPO算法 引入思考-动作一致性奖励机制 解决推理与动作脱节问题[22][23] 性能表现 - 基础具身推理:Robix-32B在VSIBench得分50.9超Gemini-2.5-Pro(43.4)7.5个百分点 在LVIS-MG达79.2超开源模型最高值73.8[24][25] - 离线任务规划:Robix-32B-RL在OOD任务准确率86.8% 超Gemini-2.5-Pro(83.8%)3个百分点 在ID任务超开源模型28.1-64.6个百分点[27] - 在线真实场景:搭配自动VLA控制器时任务进度92.5% 超Gemini-2.5-Pro(88.2%)4.3个百分点 超GPT-4o(64.4%)28.1个百分点[32] 优势与局限 - 核心优势体现在统一性(单模型整合三大能力) 灵活性(支持动态重规划)和泛化性(OOD任务持续领先)[35][38] - 主要局限为动态场景鲁棒性不足 高频场景切换可能出现推理漏洞 且依赖短期记忆窗口难以支持长时交互[38]
腾讯研究院AI速递 20250908
腾讯研究院· 2025-09-07 16:01
Anthropic地缘政治限制政策 - Anthropic停止向多数股权由中国资本持有的集团或子公司提供Claude服务 无论其运营地点在哪里[1] - 限制适用于直接或间接被中国公司持股超过50%的实体 官方声明出于法律、监管和安全风险考虑[1] - 政策同样适用于俄罗斯、伊朗、朝鲜等"对手国家"实体 预计对Anthropic全球收入造成"数亿美元"范围影响[1] AI硬件设备市场动态 - AI Key作为定价89美元的iPhone外接AI助手硬件 上线7小时内几乎售罄 通过USB接口连接实现语音控制功能[2] - 当前iPhone已自带强大芯片能访问各类AI模型 外接硬件本质是给已足够智能的设备增加冗余功能[2] - AI硬件创业潮(如Humane Ai Pin和Rabbit R1)多数是短期热度 未来真正有价值的是将AI作为系统"属性"嵌入所有智能设备[2] 腾讯混元游戏平台升级 - 混元游戏2.0正式发布并全面开放使用 新增游戏图生视频、自定义模型训练、角色一键精修等能力[3] - 新推出的AI动画/CG能力支持角色360度旋转 用户只需上传游戏图片并输入动态描述即可生成高质量动态视频[3] - 自定义模型训练功能大幅降低生图模型精调门槛 用户上传数十张相同风格图片即可训练专属LoRA模型[3] 阿里大模型技术突破 - 阿里发布Qwen3-Max-Preview超万亿参数模型 在全球主流权威基准测试中碾压Claude-Opus 4、Kimi-K2和DeepSeek-V3.1[4] - 新模型在知识推理、数学推理、竞争性编程等多项评测中表现优异 证明参数越大模型性能越强[4] - 模型已上线阿里云百炼平台和Qwen Chat 支持100+语言 最大支持256k上下文 按token数阶梯计费[4] 字节跳动机器人研发进展 - 字节跳动Seed团队发布机器人研究成果Robix 将推理、任务规划与人机交互无缝整合的统一"机器人大脑"[5] - Robix采用层次化架构将"大脑"与"小脑"解耦 高阶认知层负责复杂任务决策 低阶控制层执行具体动作[5] - 通过三阶段训练构建了Robix 使机器人能理解模糊指令、处理实时反馈、进行动态推理决策[6] AR/AI智能眼镜市场表现 - Rokid Glasses开售5天全渠道已售40000台 9月产能已排满 以49g轻量化设计和精细产品体验赢得市场认可[7] - 产品核心优势包括可拆卸鼻托适配各种鼻型、三种音频模式、三种拾音模式 显示位置无级调节 89种语言实时翻译[7] - Rokid开放SDK 首次提供面向AI智能眼镜的完整开发工具链 产品已布局全球80多个国家和地区[7] Anthropic版权纠纷解决 - Anthropic同意支付至少15亿美元和解作家集体诉讼案 成为美国版权案件历史上金额最高的赔偿[8] - 和解金涉及约50万本书 平均每本赔偿3000美元 同意销毁从盗版网站下载的原始文件及所有副本[8] - 相比Anthropic近期130亿美元融资和50亿美元年化营收 影响有限 此案或成为AI公司与创意产业版权纠纷转折点[8] 开源机器人项目发展 - XLeRobot开源机器人项目零件成本仅3999元起 可完成擦桌子、浇水、逗猫等家务[9] - 项目已累计1.6k标星 包括抱抱脸联合创始人Thomas Wolf在内的多位业内人士给予高度评价[9] - 硬件组合包括LeKiwi开源低成本移动机械手、SO-100/101机械臂、RGB摄像头和树莓派5 组装时间仅4小时[9] AI应用市场数据报告 - 2025上半年全球生成式AI应用下载量近17亿次 IAP收入19亿美元 环比增长67% 收入翻倍[10] - 头部AI助手用户仍以年轻男性为主 但ChatGPT、Copilot等应用女性用户已超30% ChatGPT全球用户月均活跃13天[10] - 垂直领域应用面临被"颠覆"压力 应用名称/描述加入"AI"可带来显著下载增长 头部应用主推图像生成与语音模式功能[10] OpenAI幻觉研究突破 - OpenAI发表论文定义幻觉为"模型自信地生成不真实答案的情况"[11] - 研究发现幻觉持续存在原因是当前评估方法鼓励模型猜测而非承认不确定性 基于准确度的评估奖励侥幸猜对的回答[11] - 提出解决方案:对自信错误的惩罚力度大于对不确定性的惩罚 奖励恰当表达不确定性的行为[11]
字节跳动Seed推出「机器人大脑」Robix:让机器人学会思考、规划与灵活互动
机器之心· 2025-09-07 05:12
文章核心观点 - 字节跳动Seed团队发布一体化机器人模型Robix 实现从指令执行器到统一思考者的转变 通过端到端多模态架构整合推理 任务规划与人机交互 显著提升机器人在复杂动态环境中的适应性和智能水平 [2][4][6] 技术架构创新 - 采用层次化机器人系统架构 将大脑(高阶认知层)与小脑(低阶控制层)解耦 实现宏观思考与微观执行的协同 [7][12] - 构建统一视觉语言模型 原生整合推理 任务规划与自然语言交互三大功能 解决现有多模态模型具身推理不足和交互能力缺失的瓶颈 [9][10] - 通过持续预训练增强物理世界认知 使用约2000亿token数据强化视觉识别 3D空间理解和任务推理等核心能力 [36][37] 性能表现 - 在31个公开基准测试中 Robix-7B和Robix-32B在3D空间理解任务平均准确率较基座模型Qwen2.5-VL分别提升6.5和5.1个绝对点 并在5项任务超越Gemini-2.5-Pro [42][48] - 视觉定位能力显著提升 在多物体定位LVIS-MG基准上Robix-7B/32B较Qwen2.5-VL-7B/32B的F1分数分别提高39.6和25.0个绝对点 [48] - 具身任务推理优势明显 在Agibot-ER基准上准确率较Qwen2.5-VL-7B/32B提升12.8和7.2个绝对点 [48] 交互能力突破 - 具备主动规划与动态调整能力 可识别任务缺失环节(如做菜缺配料)并主动询问 实时响应中断指令并重规划(如更改物品处理方式) [5][20][25] - 展现立体空间理解 能准确处理"离你较远的这一排从左往右数第三个物体"等复杂空间指令 [29] - 支持开放式对话 可评价用户绘画作品并进行任务总结式主动交互(如询问剩余物品处理方式) [27][36] 训练方法论 - 三阶段训练策略:先通过海量数据构建物理直觉 再通过交互合成流水线模拟七类复杂人机场景 最后用强化学习纠正思想-行动偏差 [35][38][39] - 创新交互数据集覆盖多阶段指令 约束指令 随时打断 模糊指令等七种场景 提升模型泛化能力 [38] - 引入思想-行动一致性奖励函数 通过强化学习优化逻辑严谨性和行动可靠性 [39] 实测表现 - 在线真实任务测试中 Robix-32B与UMI设备结合实现92.6%平均任务完成率 优于Gemini-2.5-Pro(91.0%)和GPT-4o(64.3%) [51] - 端到端测试中与VLA模型GR-3结合达到92.5%完成率 高于Gemini-2.5-Pro(88.2%) 解决VLM-VLA指令对齐问题 [55] - 在跨领域泛化任务中准确率领先Gemini-2.5-Pro达11.8个百分点 思维链推理使Open Instruction任务性能提升26.7个点 [54]
字节发了个机器人全能大模型,带队人李航
量子位· 2025-09-06 04:21
技术突破 - 字节推出Robix视觉-语言单模型 整合机器人推理 任务规划和自然语言交互三大功能 解决多模块拼接导致的信息代沟问题 [1][3][4] - 模型采用思维链推理技术 基于当前场景物体 空间关系和任务要求进行迭代决策 实现思考过程 动作指令和人类回复的逻辑循环整合 [10][12][13][14] - 通过三阶段训练策略:持续预训练阶段使用机器人数据学习3D空间和语言-画面对应 监督微调阶段模拟真实场景训练逻辑思维 强化学习阶段通过算法纠正决策偏差 [17][19] 性能表现 - 在8个空间理解任务中 Robix的7B和32B版本有7个任务表现优于Qwen2 5-VL 平均准确率更高 [21] - 在多数基准测试中超越闭源模型 包括GPT-4o和Gemini 2 5 Pro [21] - 离线评估中Robix-32B-RL在所有评估集上排名第一 [22] - 在线评估使用UMI设备时 Robix-32B在5个任务中的3个超越Gemini 2 5 Pro 平均任务进度更高且大幅超越Qwen2 5-VL-32B [23] - 使用GR-3进行自动化真实机器人评估时 Robix-32B平均任务进度达92 5% 分别比Gemini 2 5 Pro和GPT-4o高出4 3和28 1个百分点 [25] 行业影响 - 机器人模型发展方向从拼凑模块数量转向提升单一模型的综合能力 [27] - 项目由字节AI实验室负责人李航博士领导 其曾担任华为诺亚方舟实验室主任和首席科学家 2017年加入字节后主导机器人项目 [28][30]