Workflow
机器之心
icon
搜索文档
全球图生视频榜单第一,爱诗科技PixVerse V5如何改变一亿用户的视频创作
机器之心· 2025-09-08 06:22
机器之心原创 作者:冷猫 好玩好用的明星视频生成产品再更新,用户操作基础,模型技术就不基础。 熟悉生成领域的读者们最近都被谷歌的一只纳米香蕉 nano-banana 刷了屏。 在图像生成领域,纳米香蕉在短期内获得了巨量的影响力,凭着「照片变手办」的超高真实感的创意玩法横扫整个社交媒体,尤其触动了毛孩子家长们的心。 在优秀的模型实力基本盘外,真正做到出圈的 核心 要素还得是「 创意」 。 把自家宠物变成可爱手办的创意玩法的彻底出圈,让更多普通用户意识到 AI 生成让想象落地的能力,「这个好酷,我也想要」的心理触发了全民 AI 创作的裂 变。 不过,说到在 AI 视频中玩 创意,老玩家 PixVerse(拍我 AI) 上周五开始在国内开启免费开放周,两天内有创作者在小红书、短视频平台上玩 Nano banana 3D 手 办,也有创作者用 Nano banana 生图和拍我 AI 模板结合,玩衣柜变装,获得 视频号超 5000 点赞量。 在两年前,Sora 甚至还没有概念发布的时候,PixVerse 就已经上线了网页端产品,上线 30 天内就实现了百万访问量。 如此元老级的视频生成玩家,在「创意」上是认真的。过去 ...
具身VLA后训练:TeleAI提出潜空间引导的VLA跨本体泛化方法
机器之心· 2025-09-08 06:22
研究背景与问题 - 视觉-语言-动作(VLA)模型在多模态大模型基座上使用机器人操作数据预训练 但现有VLA基座模型能力存在不足 进行目标场景应用时需要采集数十至数百小时目标本体数据完成后训练[2] - 当目标场景本体和预训练本体存在差异时 预训练和后训练阶段动作分布出现严重失配 引发VLA模型跨本体适配挑战[2] - 后训练阶段通过堆叠目标本体数据对抗失配的边际收益迅速递减 难以有效拟合目标场景动作分布[2] 解决方案 - 中国电信人工智能研究院提出"对齐-引导-泛化"(ATE)的VLA跨本体泛化框架 核心思想是在潜空间中对齐跨本体动作分布 利用统一潜空间梯度引导VLA策略更新[3] - ATE框架无需改动现有VLA主干架构 实现后训练从调架构向调分布的范式转移 适配Diffusion和Flow-Matching等主流VLA模型[3] - 该方法极大减少VLA跨本体适配的数据需求[3] 技术原理 - ATE框架分为两个阶段:第一阶段构建统一动作潜空间 将预训练数据编码到潜空间 再用目标域有限样本将目标潜空间嵌入预训练潜空间[9] - 第二阶段在统一潜空间设计引导函数 利用分类引导将微调过程牵引至目标分布 无需更改VLA主干结构[9] - 引导机制通过能量函数和分类器衡量生成动作与目标动作分布差异 将引导梯度整合进训练目标函数[14] 性能优势 - 样本效率提升:潜空间对齐将策略搜索范围约束在包含目标分布域的流形上 显著降低拟合所需数据量[10] - 训练效率提升:分布引导避免模型全参数重训练 在既定预算内获得更快收敛[10] - 工程可复用性增强:潜空间引导只作用于动作专家模型后训练 与顶层模型解耦 具备即插即用特性[10] 实验结果 - 在ManiSkill与RoboTwin 1.0仿真评测中 平均多任务成功率最高提升9.8%[16] - 真实机器人跨本体场景中 ATE带来最高32%成功率增益 表现出更稳健收敛行为与对光照干扰的鲁棒性[16] - 在RoboTwin 1.0基准测试中 ATE框架对RDT与PI-0的平均提升分别为+9.8和+8.7个百分点[18] - 在困难任务中表现突出:RDT在Empty Cup Place任务成功率从22%提升到61%(+39) PI-0在Dual Bottles Pick任务从48%提升到85%(+37)[18] - ATE在70k步即可超过传统RDT的90k步效果 显著提升收敛速度[18] 应用验证 - 在双臂睿尔曼实验环境中 ATE算法能将基座RDT和PI-0等VLA模型快速适配到目标本体[20] - ATE框架在未见的光照、杂物干扰、空间偏移与外部干预下仍能维持任务相关注意与恢复能力[22] 行业意义 - ATE框架为数据稀缺与跨本体泛化后训练难题提供可行答案 面对数据预算、训练窗口与算力上限三重约束[24] - 可作为即插即用模块 兼容各种主流VLA模型的后训练阶段对齐引导方案[24] - 成为破解数据与训练瓶颈的实践路径[24]
空间智能新高度:港科大谭平团队SAIL-Recon突破万帧级图像大规模3D场景重建Transformer
机器之心· 2025-09-08 01:21
技术突破 - 推出SAIL-Recon方法 通过锚点图建立全局隐式表征 突破VGGT基础模型对大规模视觉定位与3D重建的处理能力瓶颈 实现万帧级场景表征抽取与定位重建[2][7] - 采用统一Transformer架构同时处理场景表征抽取与定位重建任务 在TUM-RGBD、CO3Dv2、Tanks & Temples数据集上相机位姿估计与新视角合成精度显著超越现有方法[10][20] - 使用50-100张代表性锚点图像构建全局隐式场景表征 大幅降低计算复杂度和内存需求 支持处理数千帧规模图像[15][16] 性能表现 - 在Tanks and Temples数据集所有非优化方法中取得最强性能 RRA@5达70.4 RTA@5达74.7 ATE仅0.008 注册成功率100%[22] - 新视角合成PSNR指标达19.5 显著优于ACE0的16.9和DROID-SLAM的18.1 在Francis场景PSNR达21.8[25] - 处理时间仅需3-3.5分钟 远快于GLOMAP的1977秒和ACE0的2499秒 实现速度与精度的双重突破[22][25] 应用前景 - 作为3D场景表征与重建基础模型 可应用于任意场景的大规模3D重建和空间漫游[2] - 为机器人3D空间感知、自主空间定位与导航提供基础技术支撑 具备具身智能领域应用潜力[2][29] - 通过光影焕像公司推进技术在游戏、影视和具身智能等行业场景的商业化应用[2]
SceneSplat: 基于3DGS的场景理解和视觉语言预训练,让3D高斯「听懂人话」的一跃
机器之心· 2025-09-07 08:21
技术突破与创新 - 推出首个在3D高斯点(3DGS)上原生运行的端到端大规模3D室内场景理解方法SceneSplat,突破现有方法依赖2D或文本模态的局限 [2] - 提出自监督学习方案,从未标记场景中解锁3D特征学习,支持视觉-语言预训练和自监督预训练两种模式 [2][12][14] - 开发高效语义标注系统,结合SAMv2分割、SigLIP2特征提取和Occam's LGS多视角特征融合技术,实现稳定的3D高斯-语言特征对生成 [8][10] 数据集构建 - 构建并发布首个针对室内场景的大规模3DGS数据集SceneSplat-7K,包含7916个场景,源自7个权威数据集(ScanNet、Matterport3D等) [2][6] - 数据集总计包含112.7亿个高斯点,单场景平均约142万个点,对应472万张RGB训练帧 [6][7] - 重建质量达到PSNR 29.64 dB、平均Depth-L1 0.035米,存储需求2.76TB,计算资源消耗等效NVIDIA L4 GPU运行3592小时(约150天) [6][7] 性能表现 - 在ScanNet200、Matterport3D和ScanNet++的零样本语义分割任务中达到SOTA效果,最高f-mIoU达28.4%(ScanNet++) [21][22] - 无监督预训练后在ScanNet20、ScanNet200和ScanNet++的语义分割任务中均达到SOTA,mIoU最高77.2%(ScanNet20) [23] - 支持开放词汇识别和物体属性查询,能有效处理训练数据中未出现的类别(如Robot Arm) [27][29] 应用与扩展 - 数据集已扩展至SceneSplat-49K,并在多数据集上完成系统化3DGS与语义结合的基准测试 [31] - 技术成果由国际顶尖研究团队(含INSAIT、苏黎世联邦理工等机构成员)联合开发,获CVPR、ICCV等顶级会议论文收录 [32][33][34] - 相关研究获得Google、华为等企业产学协同支持,并参与欧盟"AI工厂"计划(总额9000万欧元) [34][36]
Claude不让我们用!国产平替能顶上吗?
机器之心· 2025-09-07 08:21
全球AI代码生成竞争格局变化 - Anthropic市场地位受到挑战 因OpenAI GPT-5系列模型在代码能力方面表现强势 且Anthropic自身出现模型降智和地区服务限制问题[1] 国产大模型技术突破 - 月之暗面Kimi-K2-0905版本将上下文长度扩展到256k 针对前端开发等编程任务优化 提升长代码生成正确性、稳定性和逻辑一致性[2] - 阿里发布超万亿参数Qwen3-Max-Preview模型 提升通用知识、数学推理和编程等多任务表现[2] - Kimi-K2-0905采用MoE架构 总参数1万亿 推理时激活参数320亿 在SWE-bench Verified等编程基准测试中部分表现超过Claude Sonnet 4[6][7] 国产大模型实际应用表现 - Kimi-K2-0905在Hugging Face平台近30天下载量超过39万次[3] - 模型工具调用格式正确率达100% 完全兼容Anthropic API 支持WebSearch Tool实时信息检索[2] - 在"鞭炮连锁爆炸测试"中能生成超一千行代码 前端水平显著提升[15] - 成功生成完整网页游戏代码 实现星空背景、移动拖影、回血道具和爆炸效果等复杂功能[11][13] 国产大模型价格优势 - Kimi-K2-0905 API定价为缓存未命中时每百万输入tokens/4元 缓存命中时每百万输入tokens/1元 每百万输出tokens/16元[17] - 美元计价分别为输入缓存命中0.15美元 缓存未命中0.60美元 输出2.50美元每百万tokens[18] - 相比Anthropic定价更具竞争力 成为Claude Code平替方案[18] 国产AI发展路径分化 - 腾讯和字节等厂商聚焦产品侧更新 如发布CodeBuddy IDE和Trae Solo版本[21] - 月之暗面等AI新势力专注技术创新 通过扩展上下文窗口和优化工具调用等功能提升核心模型能力[22] - 国内模型已接入Cursor、Windsurf等主流AI编程工具 深度融入开发生态[23]
字节跳动Seed推出「机器人大脑」Robix:让机器人学会思考、规划与灵活互动
机器之心· 2025-09-07 05:12
文章核心观点 - 字节跳动Seed团队发布一体化机器人模型Robix 实现从指令执行器到统一思考者的转变 通过端到端多模态架构整合推理 任务规划与人机交互 显著提升机器人在复杂动态环境中的适应性和智能水平 [2][4][6] 技术架构创新 - 采用层次化机器人系统架构 将大脑(高阶认知层)与小脑(低阶控制层)解耦 实现宏观思考与微观执行的协同 [7][12] - 构建统一视觉语言模型 原生整合推理 任务规划与自然语言交互三大功能 解决现有多模态模型具身推理不足和交互能力缺失的瓶颈 [9][10] - 通过持续预训练增强物理世界认知 使用约2000亿token数据强化视觉识别 3D空间理解和任务推理等核心能力 [36][37] 性能表现 - 在31个公开基准测试中 Robix-7B和Robix-32B在3D空间理解任务平均准确率较基座模型Qwen2.5-VL分别提升6.5和5.1个绝对点 并在5项任务超越Gemini-2.5-Pro [42][48] - 视觉定位能力显著提升 在多物体定位LVIS-MG基准上Robix-7B/32B较Qwen2.5-VL-7B/32B的F1分数分别提高39.6和25.0个绝对点 [48] - 具身任务推理优势明显 在Agibot-ER基准上准确率较Qwen2.5-VL-7B/32B提升12.8和7.2个绝对点 [48] 交互能力突破 - 具备主动规划与动态调整能力 可识别任务缺失环节(如做菜缺配料)并主动询问 实时响应中断指令并重规划(如更改物品处理方式) [5][20][25] - 展现立体空间理解 能准确处理"离你较远的这一排从左往右数第三个物体"等复杂空间指令 [29] - 支持开放式对话 可评价用户绘画作品并进行任务总结式主动交互(如询问剩余物品处理方式) [27][36] 训练方法论 - 三阶段训练策略:先通过海量数据构建物理直觉 再通过交互合成流水线模拟七类复杂人机场景 最后用强化学习纠正思想-行动偏差 [35][38][39] - 创新交互数据集覆盖多阶段指令 约束指令 随时打断 模糊指令等七种场景 提升模型泛化能力 [38] - 引入思想-行动一致性奖励函数 通过强化学习优化逻辑严谨性和行动可靠性 [39] 实测表现 - 在线真实任务测试中 Robix-32B与UMI设备结合实现92.6%平均任务完成率 优于Gemini-2.5-Pro(91.0%)和GPT-4o(64.3%) [51] - 端到端测试中与VLA模型GR-3结合达到92.5%完成率 高于Gemini-2.5-Pro(88.2%) 解决VLM-VLA指令对齐问题 [55] - 在跨领域泛化任务中准确率领先Gemini-2.5-Pro达11.8个百分点 思维链推理使Open Instruction任务性能提升26.7个点 [54]
国内外AI大厂重押,初创梭哈,谁能凭「记忆」成为下一个「DeepSeek」?
机器之心· 2025-09-07 05:12
大模型记忆能力的重要性 - 记忆能力成为AI技术演进的关键方向 是提升AI智能的核心 让AI能够持续学习积累经验 适应新任务而不遗忘旧知识 同时实现长上下文的高效理解[2] - 当前大模型依靠长文本和外部数据库的记忆属于"短期记忆" 而业界追求的是具备人类记忆组织、检索、应用方式的"长期记忆"或"终身记忆"[3] - 2024年8月成为记忆功能集中发布期 Anthropic在8月12日让Claude具有记忆功能 谷歌13日宣布Gemini配备记忆能力 字节跳动14日发布具备长期记忆的M3-Agent系统 OpenAI在20日将记忆作为GPT-6重点[4] 行业参与者布局情况 - OpenAI早在2023年2月就在ChatGPT上线记忆功能 马斯克的xAI在2024年4月宣称Grok能记住多轮对话 Mistral AI最新宣布引入记忆系统并与20多个企业平台集成[5][6] - 记忆张量是聚焦Agent Memory的初创企业 推出了业界首个记忆操作系统 其团队成员参与研发的记忆分层大模型Memory³在2024年7月发布[9] - 腾讯AI Lab是业界最早进行利用RAG提升模型记忆能力的研究团队之一 相关研究曾获得2021年ACL杰出论文奖[14] 技术发展驱动力 - 技术侧驱动力来自Scaling Law边际效应下降 通过堆算力、参数量获得性能提升的效果明显下降 即便再去堆成倍算力 都拿不到10%甚至5%的能力突破[20] - 应用侧需求来自AI Agent发展 用户希望AI能作为合作伙伴解决长期问题 需要记住之前的交互与反馈 模型终身记忆成为非常重要的事情[21][22] - 记忆能力是Agent取得突破性进展的必不可少环节 技术侧和应用侧形成双重诉求[7][23] 技术路线分析 - 参数化记忆路线基于基座模型架构驱动融合记忆创新 让模型从参数层面区分需要被记忆的内容 在推理过程中融合到前向推理过程[26] - 上下文记忆路线将信息以prompt方式放在Context Window中 典型代表Manus不断强调在Agent交互过程中做KV cache管理[28] - 外部数据库/RAG路线将信息存储在模型外部数据库中 通过RAG将相关内容取回注入到当前Context Window[28] - 各种路线都有优势与局限性 参数化记忆理论上限高但研发成本高 上下文记忆容易变成纯粹工程事情 RAG上限较低[27][28][29] 市场格局与商业模式 - 第一类玩家是OpenAI、Anthropic、Google等AI厂商 通过引入长短期记忆能力达成个性化服务目标 借助记忆的个性化能力来留住用户[33] - 第二类玩家是记忆中间件服务商 如Mem0、记忆张量的MemOS、Zep等开源记忆框架 面向更广泛开发者提供记忆能力增强[33] - Mistral AI宣布免费扩展企业级业务平台Le Chat 已与20多家平台集成 试图通过提供先进记忆功能打破AI市场竞争格局[35] 发展时间框架 - 距离真正能够大范围应用记忆能力 让用户感受到生活无处不在变化 还需要一到两年时间[36] - 要达到解决记忆幻觉问题、隐私保障和立法等治理层面 至少还需要三到五年时间[37] - 记忆能力竞赛中各类玩家互相角力 战况胶着 谁都有可能突破 未来乾坤未定 一切皆有可能是黑马[38]
斯坦福:优化器「诸神之战」?AdamW 凭「稳定」胜出
机器之心· 2025-09-07 05:12
优化器研究背景与现状 - Adam及AdamW长期主导开放权重语言模型预训练 帮助模型在海量数据下保持稳定并实现较快收敛[1] - 预训练已成为计算密集型任务代表 在大模型研发中构成最主要计算开销 优化器设计直接关系到收敛速度与计算成本[1] - 矩阵型预条件子优化器(如Muon、Soap、Kron)相比严格调优的AdamW可实现30–40%的迭代级别加速[1] - 尽管存在声称提供1.4至2倍加速的替代方案 AdamW仍是预训练的稳健首选 但矩阵型方法在特定数据-模型比例下展现优势[1] 研究方法论缺陷 - 基线模型存在超参数调优不足问题:仅调优学习率一个参数就可在1.3亿参数模型上实现2倍加速[3][6] - 固定共享超参数导致比较不公平:例如Lion优化器偏好0.6权重衰减值 而标准AdamW常用0.1[4] - 测试规模不足:多数测试使用参数远小于10亿的小型模型或1倍Chinchilla数据配比[7] - 早期训练检查点可能产生误导:学习率衰减阶段不同方法的损失曲线可能交叉导致最终排名反转[7] 优化器性能比较 - 基于矩阵的优化器(Kron、Soap、Muon)性能稳定优于基于标量的优化器(AdamW、Nesterov AdamW、Mars)[9] - 小规模模型加速效果显著但随规模增大而衰减:在10亿参数以下模型加速比达1.3-1.4倍 但12亿参数时衰减至1.1倍[9] - 最优选择与场景相关:标准Chinchilla比例下Muon表现最佳 数据量相对模型规模提升至8倍以上时Soap更优[11] - 实际加速效果普遍低于声称水平:所有测试中加速比均未超过1.4倍[19][22] 实验设计与方法 - 研究涵盖11种优化器 包括AdamW、NAdamW、Mars、Cautious、Lion、Adam-mini、Muon、Scion、Kron、Soap和Sophia[10][13] - 测试多种模型规模(1亿至12亿参数)和数据-模型比例(Chinchilla最优比例的1倍至8倍)[9][17] - 采用三阶段评估方法:通用设置确定实验环境 独立超参数调优确保公平性 敏感超参数识别扩展规模测试[14][16][20] - 使用混合数据集(DCLM-baseline、StarCoder V2、ProofPile 2)和LLaMA-3分词器确保训练数据丰富性[13] 关键研究发现 - 独立调优至关重要:不同优化器最优超参数配置差异显著 缺乏独立调优会导致比较不公平且加速效果被高估[15][18] - 短期评估具有误导性:随着训练进行和学习率衰减 不同优化器性能排名可能发生逆转[15] - 矩阵方法性能领先:所有最快优化器都采用基于矩阵的预条件子而非逐元素标量缩放[15] - 加速比随规模扩展衰减:Muon在1.2B参数模型上加速比降至1.2倍以下 在高数据-模型比例下Soap和NAdamW表现更优[25][26] 案例研究结果 - 超参数预测有效性验证:1.2B模型在1倍Chinchilla数据量下预测配置与实际最优配置性能差异极小[23] - 极端数据比例测试:在16倍Chinchilla数据量下 Soap在300M模型上超过Muon NAdamW和Soap在130M模型上超越Muon[25][26] - 二阶动量有效性:在高数据-模型比例下 Soap和Kron维持的二阶动量变得更为有效[26]
从 SEAL 自适应学习到 DFT 奖励矫正,LLM 泛化能力的实质提升又有多少?
机器之心· 2025-09-07 01:30
大模型泛化能力研究进展 - 大模型泛化能力存在本质争议 部分研究认为其优势源于海量训练数据的记忆而非真正的逻辑推理 例如CoT推理在分布外测试中性能急剧崩溃[9][10] - 模型规模扩大对泛化影响呈现分化 参数从13M增至12B时 推理任务生成全新短语组合能力增强(Spearman ρ下降) 而知识任务仍高度依赖预训练语料共现片段(Spearman ρ>0.35)[9] - 2022-2025年LLM研究爆发式增长 ACL论文数增长近6倍 arXiv论文数增长近15倍 当前研究重点依次为推理、泛化、幻觉、偏见和安全性[11] 泛化能力提升技术路径 - 研究重心从早期关注数据分布与模型规模 转向训练策略、模型更新机制及数据设计创新 包括自适应微调、动态梯度调整和数据增强等[7][11] - 动态微调(DFT)通过纠正传统微调(SFT)隐含的反向奖励机制提升泛化能力 上下文学习(ICL)相比SFT在泛化提升方面具显著优势[1] 行业研究动态 - 学界对泛化本质存在根本性分歧 ReflectionAI CEO提出"不存在泛化 仅存在测试分布被纳入训练分布"的观点 强调训练数据覆盖度的决定性作用[10] - 知识密集型任务(如TriviaQA)准确率高度依赖预训练语料共现频率 对共现片段去重或扰动会导致性能显著下降[9]
想要「版本」超车,Agent 需要怎样的「Environment」?
机器之心· 2025-09-06 07:00
AI行业战略转型 - AI创企you.com完成1亿美元C轮融资 同时宣布从搜索引擎转型为AI基础设施公司[1] - 转型遵循"产品驱动基础设施"战略模式 顺应Agentic AI商业化趋势[1] Agentic AI发展趋势 - 人工智能重心从生成式AI转向具备自主执行能力的Agentic AI[4] - 吴恩达多次强调AI Agent将成为人机交互新界面 用户可通过自然语言指令替代传统编码交互[5] - Cursor、Bolt和Mercor等公司通过智能体产品实现显著营收增长[6] Agent环境需求演变 - 具备Computer Use能力的AI Agent可直接通过像素信息与图形界面交互 摆脱API依赖[6] - 开发者面临自由度与安全性的矛盾:既希望Agent能运行任意代码 又需确保环境隔离和敏感信息保护[6] - 现代Agent环境需求从训练场转变为作业区 需提供对真实世界工具的安全访问[9] Agent环境解决方案 - E2B和Modal Labs等公司通过虚拟机形式提供安全隔离的云环境(Sandbox) 专用于运行AI生成代码[7] - Agent Environment定义为AI智能体生存和行动的数字或物理空间 提供必要输入和行动定义[7] - 环境分类包括:物理环境(机器人/无人车)、数字环境(虚拟助手)以及人类作为交互对象的环境[10] 代表性项目 - E2B的Sandbox和Browserbase的AI浏览器是Agent Environment领域的典型创业项目[1][7] - 不同Agent应用对应特定环境:Manus使用虚拟机 DeVin对应浏览器 Flowith对应笔记本[10]