GenMimic
搜索文档
腾讯研究院AI速递 20251208
腾讯研究院· 2025-12-07 16:01
生成式AI技术进展 - 英伟达发布20年来最大更新CUDA Toolkit 13.1,核心是基于tile的编程模型CUDA Tile,抽象化张量核心等专用硬件,并新增Green Context运行时支持、MPS内存局部性优化分区和静态SM分区,cuBLAS引入双精度单精度模拟提升FP64矩阵乘法性能 [1] - 谷歌在NeurIPS 2025发布Titans架构和MIRAS框架,融合RNN极速响应与Transformer强大性能,引入神经长期记忆模块,在200万token上下文中召回率和准确率最高 [2] - 谷歌向Ultra用户推出Gemini 3深度思考模式,采用IMO和ICPC金牌推理技术,在ARC-AGI-2、HLE、GPQA Diamond等基准测试中性能超越Gemini 3 Pro,并通过多轮迭代式思考机制在复杂任务上表现出色 [3] - 伯克利、纽约大学等机构提出GenMimic方法,让机器人通过观看AI生成视频零样本复现人类动作,研究推出GenMimicBench数据集(428个生成视频),并在宇树G1机器人上验证可行性 [4] 主要科技公司战略动态 - Meta战略重心从“元宇宙优先”转向“AI硬件优先”,计划对Reality Labs部门削减高达30%预算,将超轻薄MR头显Phoenix从2026年下半年推迟至2027年上半年,并计划2026年发布限量版可穿戴设备Malibu 2 [5][6] - Meta通过收购AI硬件初创公司Limitless并从苹果挖来人机界面设计副总裁艾伦·戴伊等高管,加速AI可穿戴设备布局 [6] - 苹果硬件技术高级副总裁Johny Srouji(M系列和A系列芯片核心功臣)正认真考虑离职,库克考虑破天荒设立CTO职位挽留,过去一周苹果还失去了AI主管、设计负责人、法务负责人和政府事务主管等多位高管 [7] - AI教父Hinton断言谷歌凭借Gemini 3、自研芯片、强大数据与研究团队正在超越OpenAI,Sensor Tower数据显示ChatGPT月活增速放缓至6%,而Gemini月活同期跃升30%,用户日均使用时长翻倍增长至11分钟 [10][11] AI行业应用与市场趋势 - OpenRouter和a16z联合报告基于100万亿Token元数据显示,开源模型流量占比达30%,中国开源模型占比从1.2%飙升至近30%,推理优化模型流量占比飙升至50%以上 [8] - 编程应用占总AI流量50%以上统治生产力领域,角色扮演占开源流量52%统治创造力领域,亚洲付费使用量从13%翻倍至31%,中文以近5%份额成为全球第二大AI交互语言 [8] - AI搜索正从为人类设计转向为智能体重构,大多数涉及网络搜索的企业选择外包给专业API供应商而非自建,深度研究被视为Agent搜索主导和最具货币化的形式 [9] - Anthropic发布Claude驱动的访谈工具,对1250名专业人士进行大规模访谈,核心发现包括:86%认为AI节省时间但69%提到使用污名,41%认为工作安全而55%表示焦虑,48%考虑转向管理监督AI系统 [12] - 创意工作者中97%称AI节省时间但面临经济焦虑和污名压力,科学家中79%提到信任和可靠性问题是主要障碍,91%渴望在研究中获得更多AI辅助 [12]
Yann LeCun离开Meta后首篇论文?使用了宇树机器人做研究
机器之心· 2025-12-06 04:08
研究核心观点 - 伯克利、纽约大学和约翰・开普勒林茨大学的研究人员提出名为GenMimic的新方法,使人形机器人能够零样本模仿AI生成视频中的人类动作,即使视频存在噪声或变形,机器人也能提取核心动作逻辑并在物理世界中复现 [1] - 该研究是首个使人形机器人能够执行由视频生成模型生成动作的通用框架,并在仿真和真实世界实验中验证了其可行性 [4] 研究方法与框架 - 研究提出一个基于4D重建的两阶段流程:第一阶段从生成视频中提取并重定向SMPL参数到机器人关节空间,第二阶段通过新的GenMimic跟踪策略输出物理上可执行的关节角度 [15][17][18] - 方法采用加权关键点跟踪奖励和对称损失增强策略鲁棒性,使策略能选择性关注任务关键点(如末端执行器)并利用人体对称性应对生成视频中的噪声 [22][23][25][26] - 训练使用对称正则化和选择性加权的3D关键点奖励,尽管仅在现有动作捕捉数据上训练,却能泛化到充满噪声的合成视频 [4] 数据集构建 - 研究团队创建了名为GenMimicBench的合成人类动作数据集,包含428个由Wan2.1和Cosmos-Predict2视频生成模型创建的视频,涵盖广泛的主体、环境和动作类型 [8][9][11] - 数据集包含217个使用Wan2.1生成的多视角室内结构化视频,以及211个使用Cosmos-Predict2生成的模拟YouTube风格的自然场景视频,旨在评估策略在视觉和动作分布偏移下的零样本泛化能力 [11][12][13] 实验表现与结果 - 在仿真实验中,GenMimic方法在GenMimicBench数据集上显著优于基线模型,其教师模型获得了86.77%的成功率,远高于BeyondMimic的23.81%和TWIST的2.69% [30][31] - 在真实世界实验中,研究团队将策略部署在23自由度的宇树G1人形机器人上,推演了43个动作,对于原地动作(如挥手、伸展)视觉成功率高达1.0,但涉及下半身运动(如步进、转身组合)的动作成功率较低,在0.20至0.60之间 [29][32][33][34] - 仿真训练在IsaacGym中进行,样本量超过15亿,使用了四个NVIDIA RTX 4090 GPU,部署使用单个NVIDIA 4060移动版GPU [29]