机器之心
搜索文档
视频生成Prompt何须仅是文字!字节&港中文发布Video-As-Prompt
机器之心· 2025-11-18 05:08
核心技术框架 - 提出“Video-As-Prompt”框架,引入“视频参考”新范式,用户提供参考视频和语义描述即可直接克隆指定语义应用于新内容,实现抽象语义下可控视频生成范式的统一 [3] - 使用参考视频作为统一的抽象语义条件表征,无需为不同语义设计专门编码模型,提升模型通用性和可扩展性,降低使用难度 [9] - 采用Mixture-of-Transformers架构,包含一个冻结的视频扩散Transformer和一个可训练并行专家Transformer,通过连接两部分的Q/K/V并运行全注意力机制实现双向信息融合和上下文控制 [11][13] 功能与应用 - 支持四大类复杂语义的克隆和迁移:复杂概念、艺术风格、指定动作和相机运镜 [5] - 能够用包含不同或相同语义的参考视频驱动同一张图片,也能用同一个参考视频驱动不同图片 [5] - 具备结合文本实现语义编辑的能力 [7] - 支持由新语义参考引导的零样本生成,即使该语义未在训练数据中出现 [18][19] 性能与数据 - 构建并开源VAP-Data数据集,是目前用于语义可控视频生成的最大开源数据集,包含超过100个语义条件下的100K个精选配对视频样本 [3][15] - 模型性能在整体视频质量、文本一致性、语义一致性和人工偏好上与闭源模型Kling/Vidu相当,并优于其他开源基线 [18] - 是首个针对所有语义条件统一控制且可扩展和推广的模型 [18] 行业影响 - 其统一的参考视频建模框架验证了基于参考视频的可控生成思路的巨大潜力 [20] - 开源的大规模视频参考生成数据集有望推动AIGC视频创作进入生成更可控、语义更丰富的新阶段 [21]
韩松等提出FlashMoBA,比MoBA快7.4倍,序列扩到512K也不会溢出
机器之心· 2025-11-18 05:08
文章核心观点 - 月之暗面提出的MoBA注意力机制是一种创新方法,通过稀疏关注键值块来降低长上下文处理的计算成本 [2][3] - 针对MoBA理论优势与硬件实现效率低下的矛盾,研究提出了FlashMoBA这一硬件友好的优化内核,使小块配置下的MoBA变得实用高效 [7][12] - 优化后的MoBA在性能上可与密集注意力基线相匹敌,对于小块场景,FlashMoBA相比FlashAttention-2可实现最高14.7倍加速 [8][43] 技术原理与挑战 - MoBA遵循“更少结构”原则,让模型自主决定关注位置,其性能关键取决于路由器能否准确区分相关块与无关块 [2][4] - 理论分析指出两条改进路径:采用更小块大小和在Key上应用短卷积,以提升路由准确性 [5] - 小块尺寸在理论上更优,但在现有GPU实现中会导致内存访问碎片化和低并行度,速度甚至慢于稠密注意力 [6][11] FlashMoBA内核设计优化 - 采用三个融合内核以最小化HBM往返次数,并使计算与GPU架构对齐 [16] - 使用Flash TopK替换原始Top-k选择过程,这是一个高度优化的三阶段流水线,无需将完整分数矩阵显式写入HBM [18][19] - 前向传播采用“收集并致密化”策略,通过两级分块机制处理不规则稀疏性,利用高效稠密GEMM分摊不规则内存访问成本 [22][26] - 反向传播利用内存高效设计,重计算注意力分数,在序列长度上保持线性复杂度,是关键的性能改进 [27][28] 实验性能结果 - 块大小对模型质量有显著影响:将块大小从512缩小到128,使340M模型的困惑度从20.9降至19.7,RULER准确率从38.8%提升到56.0% [30] - Key Convolution带来性能提升:kconv3将340M模型语言建模准确率从45.1%提升到45.6%;kconv5在64K长度检索任务中达到100%检索率 [36] - 在多个基准测试和规模下,MoBA表现与密集注意力机制相当甚至更胜一筹,1B参数模型在部分任务上达到15.1分 [39][40] - 效率方面,在N=64K且B=128配置下,FlashMoBA比原始MoBA快7.4倍,内存占用减少6.1倍,并能扩展到512K序列长度 [42]
告别「一条路走到黑」:通过自我纠错,打造更聪明的Search Agent
机器之心· 2025-11-18 05:08
技术挑战与现有瓶颈 - 搜索智能体(Search Agent)旨在解决知识的实时性和推理复杂性两大挑战,通过与实时搜索引擎多轮交互来分解并执行复杂任务[2] - 现有搜索智能体的核心瓶颈是缺乏过程中的自我纠错能力,早期因模糊查询导致的错误会引发连锁式错误(Cascading Errors),最终导致任务失败[2][7] ReSeek框架核心创新 - ReSeek框架由腾讯内容算法中心与清华大学联合提出,其关键创新在于引入了动态自我修正机制,允许智能体在执行过程中主动评估每一步行动的有效性[3] - 该框架扩展了Agent动作空间,引入核心的JUDGE动作,该动作在每次信息获取后被调用,用于评估新信息的有效性,并基于判断结果动态构建后续决策上下文[10][11] - 通过设计密集的中间奖励函数来训练智能体的自我评估能力,当智能体的判断与客观的“理想判断”一致时给予正奖励,反之则给予惩罚[18][20] 评估基准与实验设计 - 为公正评估智能体真实推理能力,团队构建了FictionalHot数据集,通过将真实实体替换为虚构实体并生成对应知识文档,创建一个封闭世界评测环境,以消除预训练模型“数据污染”带来的评估偏差[22][23][24] - 为确保公平比较,ReSeek采用最普遍的训练方法,在NQ和TriviaQA训练集上训练,并以精确匹配(Exact Match, EM)作为主要评估指标,在7个主流公开问答数据集上测试[26] 性能表现与结果分析 - 实验结果表明,ReSeek在3B和7B参数规模上均达到业界领先的平均性能,尤其在HotpotQA和Bamboogle等需要复杂多跳推理的基准上优势突出[29][32] - 在FictionalHot基准上,模型规模(7B vs 3B)对性能的影响显著减小,表明该基准成功消除了模型因规模增大而产生的记忆优势,能更准确衡量程序化推理能力[29] - 消融实验显示,ReSeek的性能从一轮到四轮交互单调递增,而基线模型性能在增至两轮后几乎停滞,证明ReSeek能将更多交互预算转化为真实性能增益,具备更强的自我纠错能力[34][35] - 对JUDGE机制的逐例分析显示,“积极影响”的比例在全部测试上稳定在40-50%之间,而“负面影响”比例通常低于25%,证明该组件是框架中可靠高效的关键部分[38][39] 应用前景与行业意义 - ReSeek框架的核心价值在于为需要实时数据或热点理解等复杂业务场景提供高可靠性的决策支持,其自我纠错机制能显著降低因单点错误导致全盘失败的风险[41] - 该框架代表搜索智能体从“忠实的执行者”向“批判性的思考者”演进的关键突破方向,即赋予智能体自我反思和动态纠错能力[8][41]
中国AI Agent产业化参考范本:斑马口语攻克的四大技术难关
机器之心· 2025-11-18 05:08
行业趋势转向 - AI产业正经历从通用能力探索到垂直行业落地的关键转折,决定AI商业价值的战役已在教育、医疗、客服等具体领域打响[2] - 通用大模型试图在所有场景下表现良好,却在任何场景下都难以做到极致,难以直接承担关键生产任务,真正的产业化落地必然发生在垂直场景[4] - 在线口语教学是最适合AI Agent落地的垂直场景之一,因其有明确的教学目标、可量化的学习效果、标准化的内容体系以及个性化互动需求[4] 斑马口语产品定位 - 公司推出业内首个真正实现AI外教一对一的产品「斑马口语」,是真正意义上在垂直行业落地的AI Agent[2] - 产品解决方案基于通用大模型能力,针对6-12岁儿童英语口语场景做深度定制,目标是打造真正「会教英语」的一对一AI外教,而非仅仅「能聊英语」的AI助手[5] - 教育场景对AI要求苛刻,AI外教需能判断发音标准度、情绪、理解程度并实时调整教学策略,且必须适龄,不能输出不当内容或事实性错误[4] 技术突破:实时交互 - 为实现自然对话,AI外教响应延迟需控制在合理范围,分层延时目标为即时反馈1.5秒内,标准响应1.5到2.5秒内[9] - 完整语音交互链路(ASR、大模型推理、TTS、网络传输)总延迟易超过2.5秒,在教学场景下不可接受[9] - 公司采用全链路流式处理架构,将各环节由串行等待改为流水线并行,并结合智能调度策略与WebRTC协议,将端到端延迟压至1.5到2.5秒目标范围[10] 技术突破:语音识别 - 英语教学对语音识别要求远超普通语音助手,需精准识别易混音素并给出音素级反馈,低龄儿童发音不标准率可能超过40%[11] - 系统需应对真实环境音频干扰,并解决VAD判停策略难题,避免打断孩子思路或导致交互混乱[12] - 公司采用智能VAD判停策略,结合音频能量、静音时长、语义完整度三维判断,并根据教学环节动态调整判停阈值[12] 技术突破:内容安全与适龄 - 教学场景需要严格的目标导向和内容可控,大模型的开放性和随机性可能导致错误知识或不适合儿童的内容输出[14] - 公司建立多层防护体系,包括在模型训练阶段进行数据严格筛选与安全强化训练,上线前进行全面测试集验证,运行时接入传统风控系统实时拦截与在线会话质检监控[15][16] 技术突破:多模态呈现 - 现代在线教学需实现语音、动画、文字、特效等多种元素的时序精确配合,同步误差超过200毫秒就会产生「对不上」的感觉[17] - 公司设计统一的时序编排引擎,所有模态元素在统一时钟下调度,并实现自动补偿机制以保持整体同步[17] - 采用「边生成边渲染」的流式策略与自适应性能降级机制,根据设备性能动态调整呈现策略,确保体验流畅[18] 市场竞争与公司优势 - AI教育赛道参与者众多,如谷歌、可汗学院等,但其产品多停留在「AI辅助学习」层面,工具属性强,而非真正意义上的「教学」[19] - 公司产品在实现AI主导教学、像真人老师一样引导系统化学习方面处于领先地位,优势建立在近60万节真实对话数据、1500万分钟交流记录以及长期技术积累之上[19] 行业影响与前景 - 产品成功正在重构口语教育赛道竞争规则,竞争焦点从外教资源、师资数量转向AI Agent打造能力,标准提升至AI外教能否做到比真人更稳定、更个性化、更具可扩展性[22] - 垂直AI Agent的成功为其他行业提供范本,未来可能涌现医疗问诊、心理咨询、法律咨询等领域的专业Agent,形成全新AI服务生态[22] - 中国企业在垂直AI应用上有能力做到全球领先,庞大的市场规模、丰富场景和快速迭代能力将成为巨大优势[22]
真机RL!最强VLA模型π*0.6来了,机器人在办公室开起咖啡厅
机器之心· 2025-11-18 03:30
公司及产品发布 - 美国具身智能创业公司Physical Intelligence发布最新机器人基础模型π*0.6 [2] - 公司2024年获得超过4亿美元融资,估值突破20亿美元,成为具身智能赛道最受瞩目的玩家之一 [3] - 公司技术路线强调“视觉-语言-动作”模型,通过大规模数据训练使机器人能在未知环境中灵活执行任务 [3] 模型性能与能力 - 通过对π*0.6模型进行微调,可在除处理衣物外的多种任务上达到90%成功率 [6] - 模型能够连续运行一整天制作意式浓缩咖啡,或连续数小时不间断地折叠衣物 [9] - 利用Recap方法训练π*0.6可将最困难任务的吞吐量提高一倍以上,并将失败率降低2倍或更多 [9] - 对于制作意式咖啡等最困难任务,加入机器人真实执行经验后,吞吐量和成功率都提升了超过两倍 [27] 核心技术方法:Recap - Recap方法实现了演示训练、纠错指导和从自主经验中改进三个步骤 [9] - 该方法通过训练价值函数解决强化学习中的信用分配关键挑战 [15][20] - 在训练中保留全部数据并将价值变化注释作为输入,使模型选择高优势的动作 [20] - 训练过程包括离线强化学习预训练、任务级微调,并结合专家纠正和自主经验反馈 [25] 具体应用场景挑战 - 纸箱组装任务需执行复杂物理操作并处理如一次抓起多个箱子等边缘情况 [33] - 衣物折叠任务需处理不同衣物种类和材质的多样性,实现泛化 [33] - 意式咖啡制作任务涉及长操作序列,需判断设备状态及完成清洁工作 [33] - π*0.6能够以超过90%的成功率完成这些极具挑战性的步骤 [34] 行业发展趋势 - 从经验中学习可能成为实现高性能机器人模型不可或缺的组成部分 [37] - 未来机器人学习将结合专家示范定义新行为、纠正式指导改进策略、自主经验打磨行为 [37]
华为诺亚发布ScaleNet:模型放大通用新范式
机器之心· 2025-11-18 03:30
文章核心观点 - 研究团队提出名为ScaleNet的新方法,旨在以少量额外参数实现模型深度扩展一倍,解决模型规模扩大带来的成本高昂问题[2] - ScaleNet结合层级权重共享和轻量级适配器两项核心技术,在视觉Transformer和大语言模型上均验证有效,展现出成为通用、经济高效模型扩展框架的潜力[2][20] 研究动机 - 当前从头训练大规模模型计算代价巨大,现有渐进式训练方法会引入大量新参数,拖慢优化并带来巨大存储开销[3][4] - ScaleNet针对核心问题提出在保持参数效率的同时实现模型有效扩展的解决方案[5] 核心方法 - 技术一采用层级权重共享,让新增加层与预训练模型已有层共享同一套参数,极大提升参数效率并加速学习过程[7][8] - 技术二引入轻量级适配器模块,仅包含极少量调整参数,为每个共享层提供独特调整,保证扩展后模型容量和性能[11] 视觉模型实验结果 - 在ImageNet-1K任务上,ScaleNet在DeiT和Swin等多种架构上参数量相近情况下稳定取得更高准确率[14] - 具体数据表明,Deit-Small模型使用ScaleNet后参数量23.53M,Top-1准确率达81.13%,优于其他扩展方法[15] - 训练效率显著提升,24层DeiT-Small模型使用ScaleNet仅需100周期和15.8小时,准确率81.13%,优于300周期直接训练的79.31%[16] 大语言模型验证 - 将ScaleNet应用于Llama-3.2-1B模型进行扩展,在BoolQ、PIQA等多个常识推理任务上超越原始模型,平均性能提升0.92%[17][18] - 扩展后模型参数量1265M,在多项基准测试中表现优于原模型1236M参数版本,证实方法跨模态通用性[18] 总结 - ScaleNet框架为预训练模型扩展提供高效低成本技术路径,大幅提升训练效率和模型性能[20] - 该方法在视觉与语言多种任务上验证有效,对开发更大更强且更经济AI模型具有积极意义[20]
让大模型学会「心灵感应」:基于思维沟通的多智能体合作范式来了
机器之心· 2025-11-17 23:40
如果多个大模型能读懂彼此的想法,会发生什么 ? 在 NeurIPS 2025 的 Spotlight 论文 Thought Communication in Multiagent Collaboration 中,来自 CMU、Meta AI 和 MBZUAI 的研究者提出了一种全新的协作方式, 让模型不再仅仅依靠语言交流,而是直接共享「 思维」。 这项研究提出了 Thought Communication(思维沟通) 的概念,让智能体在内部层面传递潜在思维(latent thoughts),实现类似「 心灵感应」的合作。 理论上,研究者建立了首个针对多智能体系统的 潜在思维可识别性理论 ,证明即使在非参数设定下,也能从模型状态中恢复出共享与私有思维。实现上,他们据 此提出了通用框架 ThoughtComm ,使模型能够自动抽取、路由并注入这些潜在思维,从而实现超越语言的直接沟通。 结果显示,这种「 思维层交流」不仅在理论上可行,在实践中也显著提升了模型的协作效率与推理能力。 论文标题: Thought Communication in Multiagent Collaboration 论文链接:https:/ ...
刚刚,马斯克Grok 4.1低调发布!通用能力碾压其他一切模型
机器之心· 2025-11-17 23:40
| | | 就在刚刚,xAI 宣布,Grok 4.1 已经向所有用户开放,可以在 Grok 官网、X 以及 iOS 和 Android 应用中使用。 此次, Grok 4.1 将在真实世界可用性方面带来显著提升,尤其是在创造力、情感互动和协作交互方面表现出色 。Grok 4.1 对细微意图的感知能力更强,与用户对 话更加吸引人,整体人格也更连贯,同时完全保留了前代模型强大的智能与可靠性。 Grok 4.1 将立即在 Auto 模式中推送,并可在模型选择器中手动选择。 上宣传一波自家模型。 为实现这些提升,xAI 在支撑 Grok 4 的同一套大规模强化学习基础设施上进一步优化了模型的风格、个性、助人性和对齐性。并且,为了优化这些不可直接验证 的奖励信号,xAI 开发了全新的方法,能够利用前沿的智能体式推理模型作为奖励模型,从而可以大规模自主评估并迭代输出结果。 与此前的线上生产模型相比,Grok 4.1 在对比评估中有 64.78% 的概率被用户偏好选择。 马斯克在 x 接下来看 Grok 4.1 的能力特征。 SOTA 通用能力 Grok 4.1 在盲测的人类偏好评估中树立了全新的标杆。 在 LMArena ...
首个完整开源的生成式推荐框架MiniOneRec,轻量复现工业级OneRec!
机器之心· 2025-11-17 09:00
生成式推荐新范式概述 - 传统“召回+排序”级联式推荐架构收益触顶,生成式推荐成为行业热门话题[2] - 生成式推荐利用层次化语义ID表示用户历史序列,直接生成用户下一批可能交互的物品列表,显著提升模型智能上限并引入Scaling Law可能性[2] - 快手OneRec通过端到端推荐大模型实现资源可控且带来真实线上收益的推荐革命[2] MiniOneRec开源框架核心贡献 - 提供生成式推荐领域首个完整开源方案,实现全链路、一站式、端到端训练与研究平台[4] - 代码、数据集、模型权重全部开源,仅需4-8卡A100同级算力即可轻松复现[6] - 框架提供丰富SID Construction工具箱,集成RQ-VAE、RQ-Kmeans、RQ-VAE-v2等先进量化算法[9] 生成式推荐Scaling Law验证 - 在Amazon Review公开数据上训练从0.5B到7B的模型版本,验证模型规模增大时训练损失和评估损失持续下降[7][8] - 结果显示生成式推荐范式在参数利用效率上具有优势[8] 世界知识对推荐性能的影响 - 引入大模型世界知识能显著提升生成式推荐性能[13] - 基于预训练LLM初始化并进行语义对齐的MiniOneRec性能始终优于未对齐变体,表明通用序列处理能力和世界知识带来显著额外收益[15] - 框架将SID token添加至LLM词表,在SFT和RL阶段共同优化推荐与对齐任务[16] 面向推荐的强化学习优化 - 采用Constrained Beam-Search替代传统采样策略,高效生成多样化候选物品[21] - 在准确性奖励外引入排名奖励,对高置信度困难负样本施加额外惩罚以强化排序信号区分度[21] - 在同一Amazon基准上,MiniOneRec在HitRate@K和NDCG@K指标上全面领先传统推荐、生成式推荐及LLM推荐范式[22] 生成式推荐行业应用与展望 - 行业存在“改革派”与“革命派”两条路径:美团MTGR、淘天URM利用生成式架构能力进行增量改进;快手OneRec则颠覆传统方案实现端到端生成[25][26] - 生成式范式已在部分大厂走出可行性验证阶段,开始创造真实业务收益[27] - 生成式推荐展现出作为下一代推荐系统新范式的显著潜力[24]
成本仅0.3美元,耗时26分钟!CudaForge:颠覆性低成本CUDA优化框架
机器之心· 2025-11-17 09:00
文章核心观点 - 明尼苏达大学团队提出名为CudaForge的多智能体框架,旨在解决利用大语言模型生成优化CUDA Kernel时面临的高成本、性能不佳及缺乏硬件反馈等问题 [2] - 该方法模拟人类专家工作流程,通过Coder和Judge双智能体分工协作,结合迭代式优化与显式硬件反馈,以低成本高效生成可靠CUDA代码 [3][6][7] - 实验结果显示,CudaForge在KernelBench基准测试中取得领先的正确率和性能,同时显著降低了时间和经济成本 [4][18][26] 技术框架与设计 - 采用Coder–Judge双智能体架构,Coder负责根据任务描述和反馈生成候选Kernel,Judge则利用Kernel本身、硬件反馈及运行时信息进行评估 [7][8] - 框架采用迭代式优化流程,通过多轮迭代逐步纠错与提速,在复杂任务中能获得更稳定的优化效果 [9][14] - 关键创新在于显式引入硬件反馈,Judge使用NCU工具获取性能指标并结合GPU规格,精确定位瓶颈并提供可执行的优化指导 [8][15] 性能评估结果 - 在KernelBench Levels 1-3上,CudaForge达到97.6%的正确率,平均加速比为1.677倍,75分位加速比为1.592倍,Fast1比例为70.8% [18][19] - 与无需训练的Kevin-32B模型在H200上对比,CudaForge在Level 1–2上表现更优,在Level 3上也取得出色性能 [20][22] - 消融实验表明,CudaForge不依赖特定基础模型,在不同LLM组合下均能保持高性能,例如O3/GPT-5组合的Fast1比例达到96% [28][29][30] 成本与效率分析 - CudaForge生成一个优化Kernel在单张RTX6000上平均仅需26.5分钟,API调用成本约0.3美元,显著低于Agentic Baseline方法的60分钟和5美元成本 [4][26] - 性能随API成本与计算时间增加呈单调提升趋势,在每任务耗费不超过0.15美元和10分钟时已能超越基线方法,展示出色的性能-成本平衡能力 [24] 通用性与鲁棒性 - 框架在多种GPU架构上均保持高正确率和强性能,包括RTX 6000、RTX 4090、A100等,证明其良好的硬件通用性 [31][32][33] - 在不同大模型实例化下框架有效性得以保持,表明其性能提升主要源于工作流机制,并能直接受益于更强的基础模型 [29][30]