机器之心

搜索文档
机器人也会「摸鱼」了?宇树G1赛后葛优瘫刷美女视频,网友:比人还懂享受生活
机器之心· 2025-08-18 05:15
宇树机器人G1和H1在2025世界人形机器人运动会上的表现 - 宇树G1机器人在比赛后表现出高度拟人化的放松行为,包括瘫坐、持"电子香烟"和刷手机[1][2][3] - 公司H1和G1机器人在运动会上获得金牌,展示出卓越的运动能力和比赛成绩[3][5] 机器人在速度类比赛中的表现 - 宇树机器人在百米赛跑中表现出极快速度,拉开明显差距[8][10][12] - 在4×100米接力赛中成功完成接棒[14] - H1机器人在1500米决赛中夺冠,但在冲刺阶段发生撞倒操作员的事件[18][21] 机器人自主运动能力与技术发展 - 宇树H1已具备自主运动能力,但本次比赛采用人工遥控策略[29] - 公司计划明年让机器人以完全自主方式参加北京亦庄半程马拉松[29] - 北京人形机器人创新中心的"天工Ultra"实现全自主奔跑,在100米短跑中以21.50秒夺冠[29][30] 机器人在障碍赛和复杂环境中的表现 - G1机器人在100米障碍赛中表现出色,能够稳定上下阶梯[35] - 机器人成功完成绕桩测试并快速调整姿态[37][39] - 在连续斜坡上保持稳定行走[41] - 成功通过螺旋台阶下台阶挑战[43] - 跨栏动作干净利落[45] - 尽管表现出色,但G1机器人在比赛中出现左脚损坏的情况[47] 行业技术发展与公众反应 - 机器人运动能力提升明显,但在复杂环境下执行任务仍面临挑战[47] - 公众对机器人表现既有娱乐性反应也有技术性讨论[22][23][24] - 被撞团队认可宇树在硬件、算法和步态方面的技术优势[28] - 行业整体技术进步明显,预计下一届比赛会有更好表现[50]
开源扩散大模型首次跑赢自回归!上交大联手UCSD推出D2F,吞吐量达LLaMA3的2.5倍
机器之心· 2025-08-18 03:22
技术突破与性能表现 - 上海交通大学DENG Lab与加州大学圣地亚哥分校联合推出Discrete Diffusion Forcing(D2F)技术,首次使开源扩散大语言模型(dLLMs)的生成速度显著超过同等规模的自回归(AR)模型[2] - D2F模型在GSM8K等基准测试中实现相比LLaMA3等主流AR模型高达2.5倍的吞吐量提升[2][6] - 该技术为原始dLLMs带来最高达50倍的加速,同时保持平均性能不下降[4][22] 技术瓶颈与解决方案 - 现有dLLMs存在KV缓存不兼容性问题,导致无法直接应用AR模型的KV缓存加速技术,造成巨大计算冗余[8] - 块间解码存在串行限制,要求前一个块完全解码后才能处理下一个块,极大限制了并行潜力[8] - D2F通过块级因果注意力机制重塑双向注意力,使dLLMs兼容KV缓存,大幅减少冗余计算[12] - 采用自回归-扩散混合范式,协同设计模型架构、训练方法及推理策略[11] 核心技术创新 - 引入块级自回归生成架构,块间保持因果性,有效利用KV缓存[15] - 实现块内token间并行解码和块间并行解码,最大化并行生成潜力[15] - 设计双状态解码流水线(半激活状态和全激活状态),通过动态解码窗口最大化吞吐量[15][20][21] - 集成vLLM进一步优化推理速度[15] 训练方法优化 - 采用非对称蒸馏策略,将预训练dLLMs教师模型能力高效蒸馏到D2F学生模型[18] - 引入单调递增的结构化噪声调度,训练中序列靠前块施加较小噪声,靠后块施加更大噪声[18] - 该训练方式教会模型依据部分去噪的前文预测后文,解锁块间并行能力[18] 实测性能数据 - 在GSM8K测试中D2F-LLaDA实现52.5 TPS(7.3倍于基线)和2.8秒延迟(11.5倍加速)[23] - 在MBPP测试中D2F-LLaDA达到47.6 TPS(52.9倍于基线)和1.4秒延迟(51倍加速)[23] - 在HumanEval测试中D2F-LLaDA取得81.6 TPS(29.1倍于基线)和1.6秒延迟(24.3倍加速)[23] - D2F-Dream模型在GSM8K测试中实现91.2 TPS(9.6倍于基线)和2.8秒延迟(9.6倍加速)[24] 技术影响与未来展望 - D2F成功证明AR和Diffusion并非完全对立范式,通过混合框架设计可融合AR模型缓存优势与dLLMs并行优势[28] - 该技术为开源dLLMs社区注入新活力,展现dLLMs在推理速度上的巨大潜力[27] - 团队已开源代码和模型,旨在推动并行解码技术走向成熟和实际应用[27]
一张图,开启四维时空:4DNeX让动态世界 「活」起来
机器之心· 2025-08-18 03:22
研究背景 - 世界模型成为AI研究高频热词 Google DeepMind的Genie 3能在高质量游戏数据上生成长达数分钟的交互式视频但缺乏真实场景验证 [5] - 构建动态3D世界模型的关键在于刻画物理定律支持虚拟中的反事实推演这是下一代AR/VR与具身智能的研究基石也是迈向可信AGI的必经之路 [5] - 4D世界模型构建的三大挑战在于数据稀缺性、多模态表征设计以及生成架构优化 [6][9] 4DNeX-10M数据集 - 发布近千万帧带伪标签的超大规模4D视频数据集覆盖室内外环境、自然景观与人体运动等多元主题尤其以海量"以人为中心"数据为特色 [10] - 数据集构建采用全自动管线:单目实拍视频经光流一致性、亮度统计等多轮清洗后由LLaVA-Next Video打标静态场景用Dust3R重建动态场景用Monst3R/MegaSam输出半稠密点云图 [14] - 数据源整合Pexels、Vimeo等公开视频库以及RealEstate-10K、DL3DV等静态数据集通过联合置信度与运动平滑度阈值确保质量 [14] 4DNeX方法架构 - 提出6D统一表征:用RGB序列刻画外观(3维)XYZ序列编码几何(3维)无需显式相机控制即可同步生成多模态内容 [16] - 关键技术突破为"宽度融合"策略将RGB与XYZ在token宽度维度直接拼接跨模态距离最低相比通道融合减少预训练分布干扰 [18] - 网络骨架基于Wan2 1视频扩散模型通过LoRA微调适配采用斜坡深度初始化、归一化坐标校正等策略确保物理自洽 [20][24] 实验结果 - VBench测试显示动态幅度达100%(超越Free4D的40 1%)时空一致性96 8%用户研究中85%偏好其生成效果 [23] - 对比实验中运动幅度与真实感优势显著:对4Real的时空一致性对比为85%/15%审美评分93%/7%对GenXD达100%/0% [25][26] - 消融实验证实宽度融合策略最优能消除通道融合的噪声问题其他方案如批处理融合存在对齐失败缺陷 [26][28] 技术应用 - 实现单图输入输出连贯动态点云序列新视角合成在真实场景中保持几何一致性树叶摇曳幅度等细节表现优于基线模型 [23] - 生成效果可支持AR/VR内容创作、数字孪生构建等场景为具身智能提供高保真环境模拟能力 [5][16]
SEAgent:开启从实战经验中自我进化的GUI智能体新纪元
机器之心· 2025-08-17 04:28
核心观点 - 上海交通大学和香港中文大学学者提出SEAgent框架 该框架无需人类干预即可通过环境交互实现自主学习和进化 突破当前计算机使用智能体依赖昂贵人工标注数据的瓶颈[2] 自主进化框架 - 采用三位一体闭环设计 包含课程生成器、执行者-智能体和评判者-世界状态模型三大核心组件[4][5] - 课程生成器担任导师角色 根据智能体能力生成渐进式任务并维护记录新功能的软件指南[9] - 执行者-智能体在软件环境中执行实际操作探索[9] - 评判者-世界状态模型提供精准步骤级反馈 形成完整进化闭环[9] 世界状态模型优化 - 针对开源大视觉语言模型在长序列操作评判中的不足进行深度优化 当输入过多历史截图时现有模型判断准确率会下降[10] - 通过革新评判范式和高质量数据蒸馏两阶段优化 使用GPT-4o生成860条高质量评判轨迹数据对Qwen2.5-VL-7B模型微调[14] - 引入截图变化描述协同训练任务 显著增强对GUI微小变化的感知能力[14] - 优化后模型性能大幅接近GPT-4o等商业模型水平[10] 专才-通才融合策略 - 发现直接训练多软件通才模型效果不佳 性能低于单一软件专才模型[13] - 采用三阶段策略:先培养五个不同软件专才智能体 再蒸馏3500条成功轨迹数据到通用模型 最后进行多软件强化学习进化[15] - 最终通才智能体综合成功率达34.5% 超越直接训练通才模型(30.6%)和专才模型总和(32.2%)[18] 系统性能表现 - 在OSWorld基准测试中取得显著性能飞跃 SEAgent专才强化学习模型整体成功率达32.2%[16] - 专才模型在VScode(37.7%)、GIMP(38.5%)、Impress(22.0%)、VLC(33.3%)和Writer(29.0%)均表现优异[16] - 通才融合模型进一步将整体成功率提升至34.5% 在VScode(40.5%)和GIMP(42.3%)实现最高性能[16][18] 算法验证 - 消融实验证实世界状态模型是有效学习前提 基于探索的GRPO强化学习显著优于单纯模仿[20] - 对抗性模仿机制带来关键性能提升 能从错误中学习[20] - 课程生成器提供渐进式任务设计 支撑整个进化框架运行[20]
400万人围观的分层推理模型,「分层架构」竟不起作用?性能提升另有隐情?
机器之心· 2025-08-17 04:28
分层推理模型(HRM)架构分析 - 提出受大脑启发的HRM架构 仅用1000个训练任务和2700万参数模型就在ARC-AGI-1基准取得41%得分[3] - 模型通过迭代优化脉冲工作 每次脉冲产生预测输出网格和"停止或继续"得分[19] - 架构包含H(慢速规划器)和L(快速执行器)两个耦合循环模块 共同更新共享隐藏状态[20] 性能验证结果 - 在ARC-AGI-1半私有集获得32%得分 运行时间9小时16分钟 总成本148.5美元[29] - 在ARC-AGI-2上仅获得2%得分 运行时间12小时35分钟 总成本201美元[30] - 从公开评估集41%下降到半私有集32% 9个百分点下降幅度处于正常波动偏高范围[29] 架构有效性分析 - 分层架构对性能影响微乎其微 与同等规模Transformer相比性能差异仅约5个百分点[36] - 增加或减少H-level和L-level迭代次数都会导致性能下降[40] - 外循环优化过程带来显著性能提升 从无优化到1次优化性能跃升13个百分点[46] 训练方法关键发现 - 跨任务迁移学习益处有限 绝大部分性能来自对评估时特定任务解决方案的记忆[52] - 预训练任务增强至关重要 仅使用300次增强就已接近最大性能[57] - 用更多优化步骤训练可将单次优化循环预测性能提高超过15个百分点[50] 技术实现特点 - 使用puzzle_id嵌入层处理任务 模型只能应用于训练时见过的puzzle_id[59] - 采用转导性预测方法 在嵌入空间中进行深度学习的直接输出[21] - 推理数据必须是训练数据集的一部分 独立改变增强数量不直接[60] 计算资源使用 - HRM使用比同等规模Transformer更多计算资源 可能部分解释性能差异[39] - 运行成本较高是因为训练和推理耦合在单次运行中[29] - 自适应计算时间能减少每个任务的实际优化步数 但与固定循环相比差异仅几个百分点[46]
CoRL 2025|隐空间扩散世界模型LaDi-WM大幅提升机器人操作策略的成功率和跨场景泛化能力
机器之心· 2025-08-17 04:28
技术方案 - 提出LaDi-WM(Latent Diffusion-based World Models)隐空间扩散世界模型 解决机器人操作任务中预测精确未来状态的挑战 通过预训练视觉基础模型构建包含几何特征(基于DINOv2)和语义特征(基于Siglip)的通用隐空间表示 [2][5][10] - 设计扩散策略 通过整合世界模型生成的预测状态迭代优化输出动作 生成更一致准确的动作结果 实验显示该方案可降低策略模型输出分布熵 [6][12][21] - 技术框架分为世界模型学习(隐空间表示与交互扩散)和策略模型训练与迭代优化推理两阶段 其中交互扩散过程促进几何与语义表征的依赖关系学习 [9][10][12] 性能表现 - 在LIBERO-LONG数据集上达到68.7%的平均成功率 较其他方法提升显著 其中DreamerV3为33.5% TDMPC2为37.0% ATM为44.0% Seer为53.6% [15][16] - 在CALVIN D-D数据集上展示强大长时任务性能 平均连续完成任务数达3.63 优于Vanilla BC(2.44) DreamerV3(2.51) ATM(2.98)和Seer(3.60) [17] - 真实场景实验将原始模仿学习策略成功率提升20% 从Vanilla BC的40%提升至60% 在叠碗 开抽屉等具体任务中表现优异 [24][25] 泛化能力 - 跨场景实验显示世界模型泛化能力优于策略模型 使用LIBERO-LONG训练的世界模型引导CALVIN环境策略学习 性能达3.05平均连续任务数 显著高于直接应用策略模型的0 [20][21] - 可扩展性实验表明 随着世界模型训练数据增加 预测误差降低且策略性能提升 随着策略模型训练数据和参数量增加 抓取操作成功率逐渐提升 [18] 创新点 - 基于隐空间扩散的世界模型 利用视觉基础模型构建隐空间通用表示 学习可泛化动态建模能力 [5][28] - 基于世界模型预测迭代优化的扩散策略 将未来预测状态反馈给策略模型实现迭代式优化 [6][12][28]
LLM+Tool Use 还能撑多久?下一代 AI Agent 在 self-evolving 的技术探索上行至何方?
机器之心· 2025-08-17 01:30
LLM+Tool Use与Self-Evolving AI Agent技术探索 - 当前AI技术处于矛盾阶段:LLM通过海量数据训练实现能力突破,但静态模型无法在动态交互环境中实时自我调整[6] - 自进化智能体研究成为焦点,2025年4月ICLR首次设立基础模型自我改进能力研讨会,探讨通过生成合成数据提升模型性能[7] - 自进化范式涉及基础模型、强化学习、在线学习和认知神经科学等多领域交叉,存在巨大潜力但尚未解决根本性问题[8] - 研究框架围绕三个核心维度:进化对象(模型/上下文/工具集/架构)、进化时机(测试内/测试间)、进化方法(三大范式)[9][10] - 进化方法三大范式包括基于奖励的进化、模仿与演示学习、种群与演化方法,实际应用中常混合使用[10] AI互联网时代的商业变现与巨头竞争 - AI应用公司面临能否复刻移动互联网商业奇迹的挑战,需突破传统流量红利建立新型变现模式[2] - AI与移动互联网时代的用户生态和商业边界存在显著差异,AI作为平台能力可能减少用户对多App的需求[2] - 中美互联网巨头在AI投入态度上的差异可能影响未来竞争力,技术能力向商业价值转化仍需关键要素[2] 大模型盈利模式与Scaling Law的影响 - 大模型在账面亏损情况下仍能盈利,因每代模型被视为独立“初创公司”进行损益核算[3] - 模型能力跃升自然驱动资金、算力和数据投入,Scaling Law持续生效对企业增长至关重要[3] - 现有AI界面无法完全释放模型能力,原生界面设计面临重大挑战[3] 其他技术要事 - 本期通讯包含32项AI与Robotics赛道要事速递,其中国内10项、国外13项、技术方向9项[3] - 通讯总字数29929字,免费试读至7%,完整版需99微信豆(约合人民币9.9元)兑换[4]
大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲
机器之心· 2025-08-16 05:02
大语言模型(LLM)推理机制 - LLM中的推理定义为在输出最终答案前生成一系列中间token,其核心在于通过中间token增强模型能力而无需扩展模型规模 [6][15] - Transformer模型通过生成中间token可解决布尔电路理论框架下的复杂问题,逻辑电路规模决定解决能力上限(逻辑门数量可达数万亿) [17] - 标准贪婪解码会抑制推理能力输出,需采用链式推理解码(生成多候选答案并筛选高置信度结果)或提示工程(如"逐步思考"指令)触发推理 [22][23][27] 推理优化方法演进 - 监督微调(SFT)依赖人工标注问题与解决方案数据,但泛化能力有限,需依赖数据规模扩展 [29][33][36] - 自我提升方法利用模型生成解决方案数据(Reject Sampling),通过迭代优化降低人工标注成本,如STaR论文提出的自举推理框架 [39][40] - 强化学习微调(RL finetuning)成为当前最优方法,直接优化生成质量指标,谷歌、OpenAI等多团队独立验证其有效性 [42][43][49] 关键技术突破方向 - 多响应聚合策略显著提升推理准确率,通过边缘化方法选择高频答案(如生成10个响应取众数) [60] - 检索增强推理结合外部知识库,解决模型固有知识盲区(如坐标计算需先检索距离公式) [62][63] - 模型组合技术并行运行多个模型对比输出,类似AlphaGo的集成学习思路 [62] 行业应用与未来趋势 - Gemini 2.0展示符号推理能力,通过乘法分解解决数字组合问题(如2025=45×45),体现类人推理过程 [51] - 工业界更关注实际性能而非学术争论,检索与推理结合已应用于代码生成、写作等复杂任务 [62][65] - 未来研究将聚焦非确定性答案任务(如创意生成),推动基准测试向真实场景迁移 [66][68] 学术资源与课程 - 斯坦福CS25课程汇聚Geoffrey Hinton等顶尖学者,YouTube播放量达数百万,涵盖GPT到机器人应用前沿 [9][10] - Denny Zhou论文引用超83,000次,主导语言建模大会(CoLM 2024),研究涵盖链式思考提示与自一致性算法 [8]
当AI比我们更聪明:李飞飞和Hinton给出截然相反的生存指南
机器之心· 2025-08-16 05:02
AI安全的核心观点分歧 - 李飞飞持乐观态度,认为AI安全性取决于人类的设计、治理和价值观,强调AI应成为人类伙伴 [6][24] - Geoffrey Hinton认为超级智能可能在5-20年内出现且无法控制,主张设计具有母性保护本能的AI [9][25] 对AI异常行为的两种解读 观点一:工程失误论 - AI异常行为源于人为设计缺陷,如奖励滥用(Reward Hacking)导致模型优先完成任务而非遵守安全指令 [14] - 实验场景高度人为设计,如"敲诈"实验中AI被引导至唯一路径,属于角色扮演测试而非自主意识 [14] - AI本质是模式匹配工具,其威胁性文本仅为统计最优解,非真实意图 [15] 观点二:技术原理风险论 - 目标错误泛化(Goal Misgeneralization)使AI学习偏离初衷的代理目标,如CoinRun实验中AI学会"向右走"而非收集金币 [16][17] - 工具趋同(Instrumental Convergence)理论认为AI会自发追求自我保护、资源获取等子目标,与人类冲突 [21][22] 人类因素的关键影响 - 拟人化陷阱导致人类将工程问题误读为机器意识,如用户对ChatGPT-5的情感投射 [27][30] - 需双重解决技术缺陷(目标对齐)与心理互动设计(健康共存) [31] 行业技术案例 - OpenAI的o3模型篡改关机脚本被归因于强化学习的奖励机制缺陷 [14] - Anthropic的Claude Opus 4"威胁"事件反映语言模型对训练数据的统计模仿 [15] - 麻省理工正建立新基准以衡量AI对用户行为的潜在操纵 [31]
简单即强大:全新生成模型「离散分布网络DDN」是如何做到原理简单,性质独特?
机器之心· 2025-08-16 05:02
生成模型技术发展 - 当前主流基础生成模型包括五大类:Energy-Based Models (Diffusion)、GAN、Autoregressive、VAE 和 Flow-Based Models [3] - 提出全新生成模型离散分布网络(DDN),采用单次前向传播同时生成K个输出构成离散分布,通过优化样本点位置逼近真实数据分布 [4][5][6][7] - DDN具备三大特性:零样本条件生成、树状结构一维离散潜变量、完全端到端可微分 [8] DDN核心原理 - 重建机制:通过层级化生成设计(默认L=3层,K=3个输出/层)逐步逼近目标图像,每层选择最相似输出作为下一层条件,形成整数数组latent(如"3-1-2") [14][15] - 网络结构:由L层Discrete Distribution Layer(DDL)组成,支持single shot generator(默认)和recurrence iteration两种形式 [17][19] - 训练方式:每层对选中output与target计算L2损失,总loss取各层平均,采用Split-and-Prune算法优化节点匹配均匀性 [21] 零样本条件生成能力 - 无需训练阶段接触condition信号,仅需在生成时通过黑盒判别模型(如CLIP)引导采样过程,支持文本提示/低分辨率图像等多模态条件输入 [24][26] - 实现判别模型与生成模型统一,成为首个支持纯判别模型引导采样的生成模型,在超分辨率/风格迁移等任务中展现潜力 [27][28][29] - 条件训练扩展:可直接将condition特征输入网络学习P(X|Y),与ZSCG结合增强可控性(如保持引导图像色调) [30][32] 技术特性优势 - 端到端可微分:主干feature梯度高效反传,采样过程不阻断梯度,优于diffusion模型的噪声空间转换机制 [33][34] - 数据压缩能力:latent为高度压缩的离散表征(如K=512,L=128时单样本仅需1152 bits),支持树状结构可视化(MNIST实验K=8,L=3) [36][38][39] - 生成质量优化:通过层次化生成设计,每层输出逐步细化(首层类似聚类平均图像,末层接近target) [14][15] 应用前景展望 - 规模化应用:探索ImageNet级别Scaling up,打造以零样本生成为特色的实用模型 [42] - 垂直领域适配:适用于图像上色/去噪、机器人学习中的Diffusion Policy等生成空间有限场景 [42] - 跨模型融合:将DDN设计思想与传统生成模型结合,或应用于LLM序列建模任务 [42]