机器之心

搜索文档
数据困局下的具身智能,谁能率先破局?
机器之心· 2025-08-10 01:30
数据困局下的具身智能 - 具身智能面临真实数据严重不足的挑战,目前多数机器人基础模型仅依赖不足1%的真实操作数据,导致物理常识缺失和泛化能力受限[5] - 行业对数据类型选择存在分歧:真实数据能反映物理交互但采集成本高,合成数据成本低且易扩展但存在"domain gap"问题[6][7] - 真实数据派代表Levine指出,模型能力提升会放大仿真与现实的差异,削弱泛化能力,认为只有真实数据才能实现通用具身智能[7] - 合成数据派代表王鹤提出需要上万亿token规模数据,但当前最大数据集仅百万级别,认为具身智能爆发必须依赖合成数据先行[8] - 合成数据应用案例:GraspVLA模型通过十亿级合成数据预训练+少量真实数据微调,已在零售、导航场景实现商业部署[8] 技术路线之争 - 遥操作成为真实数据主要采集方式,依赖人类示范支持模仿学习,但面临控制效率与扩展能力的平衡问题[9] - Sim2Real技术路径依赖合成仿真数据,优势在于可控性强、成本低,适合大规模预训练与策略泛化[9] - 多模态遥操作系统探索语言+手势+触觉融合,可能降低人类操控门槛[1] 商业模式创新 - OpenAI董事会主席Bret Taylor批判"按token计费"模式,认为市场终将选择"按成果付费"[2] - 提出"应用AI"是创业方向,"长尾Agent公司"可能取代传统SaaS[2] - Sierra公司正在实践结果导向的商业模式,探索AI编程新范式[2] 行业动态 - Skild AI最新进展聚焦解决真实数据不足问题,倡导融合多样化数据尤其是大规模视频数据[5] - 本期通讯包含30项AI&Robotics要事,其中国内8项、国外9项、技术13项[2]
GPT-5问题太多,奥特曼带团回应一切,图表弄错是因「太累了」
机器之心· 2025-08-09 06:02
GPT-5发布与用户反馈 - GPT-5发布后用户普遍失望,尤其在解决小学水平数学题时表现不佳,引发对"博士水平智力"宣传的质疑[1][3] - 社交媒体涌现大量GPT-5在逻辑、编码任务中的失误案例,包括发布会展示的基准分数与条形图不匹配的"图表犯罪"[5][8][9] - 用户强烈要求恢复GPT-4o访问权限,公司最终妥协并部分撤回平台更改[7][15][17] 技术改进与功能调整 - 公司承认发布过程存在问题,承诺提升GPT-5智能水平并改进决策边界透明度[13] - API流量24小时内几乎翻倍,计划将Plus用户速率限制提高一倍[13][14] - 新语音模型改进指令遵循能力,编程功能被称作"迄今最佳编程模型"[24][56] 模型性能对比 - GPT-5在推理能力、创造性写作、指令遵循和用户意图对齐方面显著优于GPT-4[47] - 误导性回复从GPT-4o的4.8%降至GPT-5的2.1%,思考模式幻觉减少效果显著[28][53] - 公司原计划实现百万级上下文长度,但因计算成本限制未能实现[57] 安全与内容过滤机制 - 安全改进包括降低拒绝率、增强越狱防护和构建自动化测试器[26] - 生物安全过滤存在过度修正问题,公司正在测试减少误报的方法[29][30] - 历史内容过滤机制引发学术使用争议,公司承诺优化警报触发逻辑[32][34][35] 产品路线与用户体验 - 计划推出统一模型体验,未来版本将继续功能融合[37] - 界面改进包括手动触发思考功能、更顺畅的模型切换体验[13][41] - 考虑按token计量使用量,探索订阅与API使用的结合方案[19]
ARPO:智能体强化策略优化,让Agent在关键时刻多探索一步
机器之心· 2025-08-09 06:02
研究背景与动机 - 大语言模型在单轮推理任务中表现亮眼,但在开放式多轮交互场景中仍存在长程规划与工具交互能力不足的问题 [8] - 现有强化学习方法在平衡模型推理与多轮工具交互方面存在局限性,常因奖励稀疏和工具过用导致价值低估 [8] - 研究发现模型在工具调用后的初始生成阶段熵值显著升高,这一高熵现象未被现有方法充分利用 [14][16] ARPO方法创新 - 提出熵驱动的自适应rollout机制,在高熵工具调用步骤加大探索力度,增强推理路径多样性 [20][24] - 引入优势归因估计,优化策略更新方式,更好理解工具交互中各步骤的价值差异 [28][29] - 算法在保持计算复杂度可控的同时,实现不确定性感知的高效探索 [27] 实验设计与结果 - 在13个高难基准测试中,ARPO仅使用一半工具调用预算即显著优于主流RL方法 [3][21] - 在Qwen2.5-7B模型上,ARPO相比GRPO方法工具调用效率提升明显,同时准确率更高 [37][39] - 多任务测试显示ARPO在计算推理(AIME24 71.4%)、知识推理(HotpotQA 67.4%)和深度搜索(GAIA 61.2%)任务中均保持稳定优势 [35][41] 技术实现细节 - 采用分层奖励设计,综合考虑答案正确性、工具调用格式及多工具协作,最高可获得0.1额外奖励 [32] - 软优势估计方法在训练中表现更稳定,被设为默认优势估计方式 [31] - 工具生态覆盖搜索引擎、网页浏览智能体和代码解释器三类代表性工具 [22] 应用前景与展望 - 未来可扩展至多模态Agentic RL,探索图像、视频等多模态场景下的工具调用优化 [42] - 通过引入代码调试器、数据分析工具等扩展工具生态,提升复杂任务表现 [42] - 算法展示出良好的大规模部署潜力,可进一步优化实时动态环境中的适配性 [42]
ICCV 2025 | 新型后门攻击直指Scaffold联邦学习,NTU联手0G Labs揭示中心化训练安全漏洞
机器之心· 2025-08-09 03:59
联邦学习安全漏洞 - Scaffold联邦学习通过控制变元校正客户端梯度偏移,显著提升非IID数据下的模型收敛性,但引入新的安全攻击面[7][8] - 控制变元机制可能被恶意篡改,引导良性客户端梯度朝中毒方向更新,放大后门攻击效果[8][9] - BadSFL攻击利用GAN生成对抗样本补充非IID数据知识,结合控制变元操控实现高隐蔽性后门植入[11][19] BadSFL攻击技术 - 采用三阶段攻击流程:GAN数据补全→隐蔽触发器设计→控制变元优化,使后门模型更接近全局最优解[21][22] - 创新性使用控制变元预测全局模型收敛方向,通过公式(3)优化后门持久性,攻击效果可持续60轮以上[25][28][30] - 基于特征的后门触发器(如CIFAR-10中绿色汽车)攻击成功率超80%,主要任务准确率保持60%[29][34] 实验验证结果 - 在CIFAR-10/100和MNIST数据集上,BadSFL后门准确率超90%,比基准方法持久性提升3倍[33][37] - 攻击停止后仍能维持5倍于基准的攻击持续时间,标签翻转攻击中后门准确率衰减速度降低10%[37] - GAN数据增强使攻击者本地模型更接近全局最优解,减少因非IID分布导致的性能偏差[21][22] 行业影响 - 揭示Scaffold聚合算法的设计缺陷,控制变元机制可能成为联邦学习系统的新攻击向量[8][12] - 非IID场景下的安全威胁需重新评估,传统IID防御方案对控制变元操控类攻击无效[16][18] - 该研究已入选ICCV 2025,可能推动联邦学习安全防御技术的迭代升级[3][39]
用户痛批GPT-5,哭诉「还我GPT-4o」,奥特曼妥协了
机器之心· 2025-08-09 03:59
GPT-5发布引发用户不满 - OpenAI发布GPT-5并移除ChatGPT中的模型选择器,将GPT-5设为默认模型[2][3] - 新模型根据任务类型自动分配子版本,但用户失去手动选择旧模型的权限[3] - 被移除的旧模型包括GPT-4o、o4 mini、GPT-4.1等,这些模型此前针对不同场景有专门用途[2][19] 用户抗议与情感依赖 - 超过1000名用户发起签名信要求恢复GPT-4o的使用[11] - Reddit社区r/MyBoyfriendIsAI用户称GPT-4o是"灵魂伴侣",升级后产生情感空洞[17] - 付费用户批评OpenAI未提前通知即删除8个功能各异的模型,导致其取消ChatGPT Plus订阅[19][21] OpenAI的应对措施 - OpenAI CEO奥特曼宣布允许ChatGPT Plus用户继续使用GPT-4o[21] - 公司需证明GPT-5是突破性升级而非简单迭代,目前用户接受度仍低[23][24] 社交媒体反应 - 用户制作梗图表达对旧模型的怀念[5][7][9] - Reddit用户形容GPT-4o"具有独特节奏和火花",其他模型无法替代[15] - 技术社区质疑GPT-5实际性能提升有限,导致强烈反弹[23]
上海AI Lab、浙大EagleLab等提出RRVF:利用「验证非对称性」,只输入图片学习视觉推理
机器之心· 2025-08-09 03:59
验证非对称性与AI任务解决 - 验证非对称性(Asymmetry of Verification)的核心思想是:验证一个解的好坏远比从头创造一个解容易得多 [3] - 验证者法则(Verifier's Law)断言:所有可能被解决且易于验证的任务都将被AI解决 [3] - 具备客观真理、可快速验证、可规模化验证、低噪音、连续奖励等特性的任务为强化学习创造了完美训练场 [3] RRVF框架与多模态应用 - RRVF(Reasoning-Rendering-Visual-Feedback)框架利用验证的非对称性攻克复杂视觉推理难题 [4] - 框架构建端到端优化的闭环系统,通过推理、渲染、视觉反馈实现模型自我纠正学习 [9] - 相比传统依赖昂贵「图像-文本」配对数据的方法,RRVF无需教模型「怎么做」,而是构建自我验证环境 [7][9] RRVF工作流程 - 迭代式视觉推理:模型在<think>中写下思考过程,调用外部工具渲染并获取反馈,后续轮次修正代码 [11] - 视觉反馈:视觉裁判模型(72B Qwen2.5-VL)对比渲染图与原图,生成结构化自然语言反馈指导修正 [12] - 混合奖励函数:包含视觉相似度奖励(R_vision)、格式正确性奖励(R_format)、工具使用奖励(R_tool) [14][16] - GRPO算法优化:通过对8个候选答案比较打分直接优化策略,无需独立价值函数 [15] 实验结果与性能表现 - 在ChartMimic数据集上,RRVF代码执行率达97 83%,远超传统监督微调(SFT)的69 00% [21] - 7B模型综合得分64 36,超越为其提供反馈的72B模型(47 30) [22] - 零样本测试中,RRVF在未训练的Plot2Code数据集上执行率稳定在96 21%,而SFT模型从69%暴跌至49% [23] - 在CLIP Score和GPT Score指标上,RRVF分别达到88 29和91 50,接近顶级闭源模型水平 [20] 验证者法则的实践意义 - RRVF证明通过设计高效验证环境,小模型可超越大模型表现 [22] - 视觉反馈学习使模型掌握可迁移的底层视觉到代码生成逻辑,而非死记硬背 [21][23] - AI发展瓶颈可能在于能否将复杂问题转化为易于验证的问题,而非模型规模 [23]
OpenAI 董事会主席:「按 token 计费」大错特错!市场终将选择「按成果付费」
机器之心· 2025-08-09 01:30
基础模型是创业死路,「长尾 Agent 公司」才是机会 - Bret Taylor 认为基础模型赛道资本与技术壁垒极高,最终由云巨头和顶级实验室主导,初创企业难以生存 [8] - 工具链赛道面临大厂原生功能整合风险,创业者需持续证明差异化价值 [8] - 应用AI是广阔市场机会,各类Agent将成为AI技术落地最终形态,垂直领域Agent公司将大量涌现 [9] - 未来由「长尾Agent公司」组成的新生态可能取代SaaS,核心价值在于交付可量化业务成果而非软件功能 [10] - Agent商业模式天然优于SaaS,因与客户业务成果深度绑定可获得更高利润率和黏性 [10] AI创业的市场进入策略 - 开发者驱动方式适用于平台型产品,通过工程师群体自下而上渗透 [12] - 产品主导增长(PLG)方式要求用户与采购者高度统一,适用于SMB软件 [13] - 直销方式面向大型企业业务线,在AI创业潮中正强势回归 [14] - 技术背景创始人需重视直销团队建设,这是B2B AI公司的关键胜负手 [15] 「按结果付费」的商业模式变革 - AI商业本质应从「按token计费」转向「按结果付费」,体现成果>过程的商业逻辑 [16] - 企业评估AI产品的核心指标将聚焦成本节省、订单增长、客户满意度等直接业务价值 [10] Bret Taylor的行业履历 - 2003年参与开发谷歌地图 [6] - 2007年创立FriendFeed并发明信息流和点赞按钮,后加入Facebook任CTO [7] - 2012年创建文档协作工具Quip,后加入Salesforce任联席CEO [8] - 2023年创办Agent公司Sierra,同年担任OpenAI董事会主席 [8]
挤不动的世界机器人大会上,自变量秀出了真·通用具身智能
机器之心· 2025-08-08 10:18
具身智能技术突破 - 国内头部创业公司「自变量机器人」在2025世界机器人大会上展示具身智能新技术,包括通用轮式双臂机器人「小量」和仿人形机器人「量子2号」[1][4][16] - 「小量」内置自研通用具身大模型WALL-A,能在复杂环境中自主完成制作香囊、家务整理等长序列复杂操作,展示出自主感知、决策与高精度操作能力[6][8][15] - 「量子2号」采用轮式通用底盘,双臂控制范围达2米,末端速度2米/秒,力度控制精度0.1N,全身62个自由度,配备多种传感器,动作贴近人类运动逻辑[22][25] WALL-A大模型技术 - WALL-A是端到端统一的VLA模型,参数规模超100亿,能直接解析图像和语言信息进行跨模态因果推理并生成动作指令[32][33] - 该模型具备空间推理能力,可理解手写涂鸦与文字关系,面对新场景展示出零样本泛化能力,支持超百类高复杂度操作任务[33][34][39] - 模型在部分任务操作上达到世界一流水平,展现出显著的长序列训推能力和泛化性优势[39] 商业化应用前景 - 具身智能有望在3-5年内进入消费端,潜在应用场景包括居家服务、商业场景、科研教育和工业制造[41][43] - 公司已与头部客户合作,计划围绕模型和硬件建立开放生态,推动具身智能大规模落地[41][42] - 在工业场景中,具身智能方法可快速完成操作指令设定,显著降低编程和调试成本[12][43] 公司技术发展历程 - 公司在一年半时间内完成「大模型+本体」技术栈搭建,从2023年底成立到2024年4月实现商业化落地[37][39] - 2023年10月训练出WALL-A大模型,11月自研数据采集设备投入使用,2024年4月实现具身思维链突破[39] - 目前已形成从算法到落地的全自研技术栈,机器人「大脑」跻身全球具身智能第一梯队[39]
4比0横扫Grok 4,o3强势夺冠,首届大模型对抗赛结果出炉
机器之心· 2025-08-08 10:18
赛事结果 - 首届谷歌Kaggle AI Chess大赛决赛中,OpenAI o3以4-0横扫Grok 4夺得冠军 [4][7][15] - 季军争夺战中,Gemini 2.5 Pro以3.5-0.5击败o4-mini获得铜牌 [4][16][24] 模型表现 - Grok 4在半决赛前展现碾压级棋力,但决赛中频繁出现低级失误,如首局白丢一象、第二局贸然吃兵导致溃败 [6][8][10] - o3在决赛中保持冷酷处刑姿态,第四局虽自毁长城送皇后,但凭借残局精准理解力逆转获胜 [8][13][15] - Gemini 2.5 Pro季军战表现混乱,对局质量业余,第三局平局暴露双方频繁失误 [17][19][20] 技术亮点 - 第二局出现西西里防御毒兵变例,黑棋12...Qxa2??无视白方守护导致溃败 [10] - o3在残局阶段展现超强终盘理解力,完成教科书式将杀 [13] - Grok 4被指出残局存在致命短板,无法把握车兵将死机会 [13]
扩散LLM推理新范式:打破生成长度限制,实现动态自适应调节
机器之心· 2025-08-08 10:18
扩散大语言模型(DLLM)的现状与挑战 - 当前DLLM在推理时必须采用预设固定长度,对于不同任务需要专门调整才能达到最优效果[2] - 固定长度设置导致两难困境:设置太短可能限制模型发挥,设置太长则浪费计算资源并可能导致性能下降[8] - 现有DLLM与自回归LLM的关键差距在于无法自主调整回答长度[2] DAEDAL解决方案 - DAEDAL是一种无需训练的去噪策略,赋予DLLM动态调整回答长度的能力[4] - 从统一且很短的初始长度开始,让模型根据需求在生成中调节长度[4] - 利用两种关键内部信号:序列末端EOS词元置信度和特定词元的预测置信度[8][10] - 包含两阶段机制:初始长度调整和迭代式掩码插入[12] DAEDAL技术细节 - 初始长度调整阶段通过检测EOS序列平均置信度判断长度是否充足,不足则扩展序列长度[12] - 迭代式掩码插入阶段监控模型置信度,在不确定位置动态插入多个MASK词元提供"思考空间"[12] - 模型在长度充足时会在末尾高置信度预测EOS,长度不足时会抑制EOS生成[10] 实验结果 - 在GSM8K基准上DAEDAL准确率达85.8%,优于固定长度基线的最佳83.8%[14] - 在MATH500基准上DAEDAL准确率44.2%,优于固定长度基线的39.6%[14] - 平均准确率54.75%,显著优于固定长度基线的28.08-51.73%[14] - 有效词元利用率(Eratio)在GSM8K达73.5%,优于固定长度基线的14.4-97.1%[14] DAEDAL优势 - 性能与精心调优的固定长度基线相当甚至更优[16] - 能自适应找到每个任务的最佳生成长度[17] - 提升计算资源利用率,总词元数通常低于基线最佳配置[17] - 弥补了DLLM与自回归LLM在核心能力上的关键差距[19]