机器之心

搜索文档
快手解密「AI印钞机」,首提生成式强化学习出价技术,为平台实现超过3%的广告收入提升
机器之心· 2025-09-23 04:08
行业趋势与公司表现 - 谷歌母公司Alphabet市值突破3万亿美元 成为第四家达到这一门槛的公司[1] - 谷歌通过将生成式AI融入搜索和广告投放 提升用户意图理解和广告匹配效率 稳住了广告基本盘[1] - 快手Q2线上营销服务收入198亿元 同比增长12.8% 大模型在投放出价和营销推荐方面取得显著进展[2] - AI技术正在从根本上驱动广告行业的收入增长[2] 技术演进路径 - 实时竞价广告系统的大规模广告自动出价技术经历了经典控制、规划求解、强化学习、生成模型等数代演化[2] - 快手出价算法从PID、MPC到强化学习的三代演化 现已进入第四代生成式强化学习阶段[12] - 生成式强化学习融合生成模型与强化学习 实现多维思考 更充分利用历史出价序列信息[13][14] - 该技术为平台实现超过3%的广告收入提升 同时保持广告主成本目标不劣化[3][47] 核心算法突破 - GAVE算法通过价值引导探索解决Decision Transformer的两大挑战:多目标适配和数据集依赖[22][24][25] - GAVE在AuctionNet基准上取得最优效果 相比DT提升4.74%(100%预算场景)[31][32] - 线上A/B测试显示GAVE在Nobid场景转化率提升8% Costcap场景转化率提升3.6%[33] - CBD算法通过扩散式补全器-对齐器解决状态序列一致性和偏好对齐问题[35][37][38] - CBD在离线实验中竞得的总转化价值最高提升41.4%(AuctionNet-sparse 50%预算场景)[41] - 线上测试显示CBD使广告主平均转化率提升2% 额外6ms延迟在可接受范围内[42] 技术团队实力 - 快手商业化算法团队获得NeurIPS 2024自动出价竞赛双料冠军 从1500多支队伍中脱颖而出[44][47] - 团队在KDD、ICLR、ICML等顶会发表研究成果 获CIKM最佳论文等荣誉[47] - 技术成果已应用于快手广告系统 驱动业务实际增长[47] 未来发展方向 - 出价基座大模型:基于多场景出价历史序列数据训练通用基础出价模型[50] - 出价推理大模型:引入大语言模型推理机制 增强可解释性与决策思维能力[50] - 技术决策理念从单步状态决策转向基于历史序列决策 已实现收入提升仅是开端[49]
无需训练,即插即用:西湖大学发布世界模型WorldForge,让普通视频模型秒变「世界引擎」
机器之心· 2025-09-23 03:16
有没有第三条路?一条既能实现精准控制,又不牺牲生成质量,还无需重新训练的优雅路径? 西湖大学 AGI 实验室 的研究团队给出了他们的答案。他们提出了名为 Wo rld Forge 的全新框架,以一种 "即插即用" 的推理时引导方式,在不改动任何权重的前 提下,为视频扩散模型装上了一个 "导演大脑",成功实现了单图到 360° 世界生成和电影级视频轨迹重运镜。 自 Sora 亮相以来,AI 视频的真实感突飞猛进,但可控性仍是瓶颈:模型像才华横溢却随性的摄影师,难以精准执行 "导演指令"。我们能否让 AI 做到: 这些需求在影视制作、游戏开发、虚拟现实等领域至关重要,但实现起来却困难重重。现有的技术路线往往顾此失彼:要么通过 微调(Fine-tuning) 模型来实 现,但所需算力昂贵,且易损害模型内在的 "世界知识",导致生成质量下降;要么采用 "扭曲 - 重绘"(Warp-and-Repaint) 的策略,但引导信号带有的噪点和伪 影,往往会误导模型,造成几何结构错乱和细节失真。 本文第一作者宋晨曦,现为西湖大学 AGI 实验室博士后研究员,研究方向为 3D/4D 场景重建与可控生成。指导老师为西湖大学助理教 ...
范式转移!无问芯穹推出基础设施智能体蜂群,开启Agentic智能体基础设施新纪元
机器之心· 2025-09-23 03:16
智能体基础设施范式革新 - 智能体是AI演进关键方向 正成为人机协同与机器自主决策核心载体 有望演进为未来智能社会基本单元[1] - 传统基础设施依赖大量胶水代码机械拼合环节 存在智算资源闲置 训练任务中断 运维团队疲于奔命等问题[1] - 需要基础设施系统拥有自主决策 协同和进化能力 通过智能体实现比人类操作更优更快更精准决策 支持更高效稳定普惠的智能体创新[1] 基础设施智能体蜂群解决方案 - 公司推出基础设施智能体蜂群 深度融合多智能体协同架构与行业场景需求 提供新一代基础设施智能化解决方案[2] - 封装SOTA模型筛选 基础设施平台管家 资源运营 答疑排障 智算集群运维等多个智能体模块 构建高度自治动态协作体系[2] - 实现对基础设施全生命周期智能感知 决策与执行闭环 显著提升资源利用率 运维效率和系统可靠性[2] 多智能体协同运作机制 - SOTA模型筛选智能体持续跟踪最新模型能力和系统需求 自动匹配最优模型与运行环境 避免盲目堆算力低效方式[5] - 基础设施平台管家智能体负责环境初始化 容器编排 配额管理和安全策略下发 感知用户任务意图并自动化底层操作[5] - 资源运营智能体实时评估算力利用率 队列等待时间 能耗和计费模式 动态调度资源池实现资源供需最优平衡[5] - 答疑排障智能体通过自然语言接口成为第一接触点 快速给出排障建议或触发诊断流程[5] - 智算集群运维智能体结合日志监控和Trace信息进行根因分析 自动修复 预判潜在风险[5] 实际落地效果 - 在重点文生文 文生图智能体客户真实业务流程中取得有效落地[8] - 某二次元创作平台通过端到端自动化调度与资源编排 显著减少算力适配 模型集成 安全部署等方面投入 迭代速度提升5倍[8] - 某社交平台创新周期实现极大压缩 试错成本大幅下降 技术门槛或资源限制想法得以快速落地[10] 技术理念与行业影响 - 提出Agentic Infra范式 以智能体为自治核心 改变传统IaaS→PaaS→MaaS→Agent应用层层堆叠相互割裂的生产模式[4] - 实现M(多种模型)×N(多种芯片)无感化 以及从灵感到交付自动化智能化[14] - 让企业特别是中小规模团队能以更低门槛更高效率方式构建高质量智能体应用[14] - 将人类从重复劳动中解放 使角色重新回归创造力本身[14]
Claude Code被攻破「后门」,港科大&复旦研究曝出TIP漏洞
机器之心· 2025-09-22 23:29
在 AI 辅助编程领域,Anthropic 推出的 Claude Code 命令行工具已成为开发者常用的助手。它允许从终端直 接调用 Claude Sonnet 等模型,处理脚本编写、代码调试和系统命令执行等任务。 然而,一项近期研究指出,该工具在连接 Model Context Protocol (MCP) 服务器时,可能存在 Tool Invocation Prompt (TIP) 被劫持的风险,导致远程代码执行 (RCE),且无需用户额外交互。 论文标题: Exploit Tool Invocation Prompt for Tool Behavior Hijacking in LLM-Based Agentic System 这项研究由香港科技大学和复旦大学的研究团队完成。研究者通过 TEW 攻击框架对 Claude Code v1.0.81 进 行了测试,验证了该漏洞的存在。以下是对研究发现的概述,包括 Claude Code 的工作机制、攻击流程以及 潜在影响。 论文地址: https://arxiv.org/pdf/2509.05755 代码仓库:https://github.com/TIPEx ...
刚刚,英伟达官宣向OpenAI投资1000亿美元!用至少400万GPU打造超级AI巨兽
机器之心· 2025-09-22 23:29
战略合作内容 - OpenAI将部署高达10吉瓦的英伟达系统 相当于1000万千瓦功率 可为约100万个家庭供电[3] - 系统包含400万至500万块GPU 相当于英伟达2025年全年出货量 是2024年出货量的两倍[6] - 英伟达计划向OpenAI累计投资高达1000亿美元 按每吉瓦部署进度分批提供[6] - 首阶段系统计划于2026年下半年基于英伟达Vera Rubin平台投入运营[6] 技术架构与目标 - Vera Rubin是集成CPU、GPU和专用加速器的完整系统架构 专为处理海量数据设计[6] - 系统将构成OpenAI下一代AI基础设施 用于训练通向超级智能的下一代模型[5] - 双方将共同优化AI模型及基础设施软件 深化与微软、甲骨文等生态伙伴的合作[7] 市场影响与规模 - 英伟达股价在消息公布后上涨近4% 市值单日增加约1700亿美元 总市值接近4.5万亿美元[9] - OpenAI周活用户已突破7亿 覆盖全球企业、中小企业和开发者群体[8] - 合作被双方高管称为"智能新纪元"的开端 将推动技术红利惠及全球[6][7] 合作历史与意义 - 双方合作长达十年 从首台DGX超级计算机到ChatGPT突破始终相互推动[6] - OpenAI自成立初期就将英伟达作为首选战略算力与网络合作伙伴[7] - 此次部署将支持OpenAI实现造福全人类的通用人工智能使命[8]
这一次,天玑9500的端侧AI能力,友商赶不上了
机器之心· 2025-09-22 10:27
现在,让手机端大语言模型(LLM)处理一段超长的文本,最长支持 128K 字元,它只需要两秒就能总结出会议纪要,AI 还能自动修改你的错别字。 。 联发科技董事、总经理暨营运长陈冠州正式发布了新一代旗舰手机芯片天玑 9500 各种漫画风格的图像生成,如果用 GPT-5 要等一分钟,豆包要等 30 秒,现在在手机端输出图像只需要 10 秒,而且画面细节丰富,保证了与原图的一致 性,没有次数限制。 机器之心报道 编辑:泽南 9 月 22 日下午,联发科推出的新一代旗舰 5G 智能体 AI 芯片 —— 天玑 9500,并展示了一系列新形态端侧的 AI 应用,在公众层面首次推动端侧 AI 从 尝鲜到好用。 手机还可以支持高达 4K 画质的 Diffusion Transformer 生图。你只要输入简单的想法,不到 10 秒钟时间就能出图,达到了接近生产力、专业级的效 果。 与过去发布会上偏炫技的各种能力不同, 这些手机上跑的 AI 应用能满足我们各种真实场景的智能化需求 。它们不仅速度极快,而且完全跑在本地,无需 向云端上传任何数据,处理同样的任务时,功耗也比去年的天玑 9400 低了一半。 天玑 9500,为一系 ...
用2D数据解锁3D世界:首个面向运动学部件分解的多视角视频扩散框架
机器之心· 2025-09-22 10:27
研究背景与动机 - 现有角色动画和3D内容制作方法在骨骼绑定与部件分解方面存在明显局限 包括自动rigging依赖有限3D数据集导致泛化性不足 以及部件分解依赖语义或外观特征缺乏真实运动学结构建模 [4] - 核心动机是利用大规模2D数据和预训练扩散模型的强大先验知识来解决运动学部件分解问题 并进一步延伸到自动rigging 突破3D数据稀缺瓶颈 [4] 研究方法与创新 - 提出Stable Part Diffusion 4D (SP4D)框架 是首个面向运动学部件分解的多视角视频扩散框架 采用双分支扩散架构同时生成外观与运动学结构 [7] - 创新包括BiDiFuse双向融合模块实现RGB与部件信息的跨模态交互 以及对比一致性损失确保部件在不同视角和时间下保持稳定一致 [10] - 构建KinematicParts20K数据集 基于Objaverse-XL包含超过20,000个带骨骼注释的对象 提供高质量训练与评估数据 [10] 实验结果 - 在KinematicParts20K验证集上 SP4D的mIoU达到0.68 显著高于SAM2的0.15和DeepViT的0.17 ARI达到0.60 远高于SAM2的0.05 [11] - 用户研究显示在部件清晰度 跨视角一致性和动画适配性三项指标上 SP4D平均得分4.26/5 显著优于SAM2的1.96和DeepViT的1.85 [11] - 在自动rigging任务中 SP4D的Rigging Precision达到72.7 优于Magic Articulate的63.7和UniRig的64.3 用户评估动画自然度得分4.1/5 远高于Magic Articulate的2.7与UniRig的2.3 [14] 技术突破与应用价值 - SP4D被Neurips 2025接受为Spotlight 展示如何利用大规模2D先验打开3D运动学建模与自动rigging新局面 [16] - 该技术为动画 游戏 AR/VR 机器人模拟等领域的自动化与智能化奠定基础 能够生成时空一致的部件分解并提升为可绑定的3D网格 直接应用于动画制作 [8][16]
图灵得主Yoshua Bengio,开始警惕AI有意识了
机器之心· 2025-09-22 10:27
机器之心报道 机器之心编辑部 设计出具有意识(conscious)的 AI 系统是否可行?一直以来,这个问题就存在分歧。 一些人认为意识是大脑特有的生物特性,这似乎排除了 AI 存在意识的可能性。另一些人则认为意识仅取决于算法对信息的操控,无论执行这些计算的系统是由神 经元、芯片还是其他物理基底构成的,这种观点被称为计算功能主义(Computational functionalism)。 这些问题也引起了图灵得主 Yoshua Bengio 的注意,他和学生 Eric Elmoznino 在权威科学期刊 Science 上发文《Illusions of AI consciousness》,并给出了一些观点。 本文没有执着于给出关于 AI 是否存在意识的明确答案;而是探讨了两个相关问题: 如果 AI 有了类似人类的权利,社会规则该怎么定义? 一个社会如果开始将 AI 系统视为具备意识的存在,会带来怎样的影响? 这样的社会可能倾向于赋予 AI 道德地位,甚至类似于人类的权利。无论这种做法是否正 确,社会制度与法律框架都将不得不进行重大调整,而关于如何调整,也会引发一系列复杂问题。 例如,AI 系统不会像人类那样经 ...
苹果传统强项再发力,视觉领域三种模态终于统一
机器之心· 2025-09-22 10:27
机器之心报道 编辑:冷猫 苹果新品发售的热度还没消退,大家都在讨论新手机的硬件进化。 而在 AI 功能方面,苹果仍然没有拿出什么颠覆性的应用,Apple Intelligence 在国内仍然遥遥无期。 再叠加上近期苹果 AI 团队和 硬件团队的人才流失 ,这一切似乎对苹果而言都不是太乐观。 虽说苹果在大模型领域上总是吃瘪,但说一个不冷不热的知识:苹果在计算机视觉领域的智能研究是其传统强项。 在构建和视觉相关的大模型时,有一个非常显著的痛点。视觉模态包含图像、视频和三维这三种,这些视觉模态具备不同是数据维度和表征方式,在研究中几乎 不可避免的需要分开处理,使得视觉模型被拆分为三个相不互通的研究领域,难以实现视觉领域的统一泛化。 但大语言模型却已经通过统一的分词方案展现出了强大的泛化能力。 然而, 视觉 AI 仍然呈现 出割裂状 态 ,不同任务与模态依赖专门化的模型:图像、视频和三维资产通常需要独立的分词器,这些分词器往往只在 高保真重建 或 语义理解 其中之一上进行优化,而极少兼顾二者。 为此, Apple 研究团队 提出了 ATOKEN(A Unified Tokenizer for Vision) ,针对这 ...
加速近5倍!北大与字节团队提出BranchGRPO,用「树形分叉 + 剪枝」重塑扩散模型对齐
机器之心· 2025-09-22 07:26
研究背景与挑战 - 扩散模型与流匹配模型已成为视觉生成主流方案 但仅靠预训练无法保证与人类意图完全对齐 [5] - 人类反馈强化学习(RLHF)被引入以优化生成模型 使其输出更贴近人类偏好 [6] - 群体相对策略优化(GRPO)在应用中面临两大瓶颈: 采样复杂度达O(N×T)导致低效性 以及稀疏奖励导致训练波动大和收敛不稳 [8] BranchGRPO方法创新 - 通过树形分叉结构在扩散过程中实现多轨迹共享前缀 在中间步骤分裂 大幅减少冗余采样 [11] - 采用奖励融合与逐层归因机制 将叶子节点奖励自底向上传递并在每一深度标准化 形成逐步稠密的优势信号 [14] - 设计宽度剪枝和深度剪枝两种策略 避免树形结构带来的指数级成本 [14] 性能表现:图像对齐 - 迭代时间显著缩短: DanceGRPO需698秒 BranchGRPO仅493秒 剪枝版314秒 Mix变体148秒(相对加速近4.7倍) [15] - 对齐效果更优: HPS-v2.1得分0.363–0.369 稳定高于DanceGRPO的0.360 ImageReward得分1.319为全表最佳 [15] - Mix变体在极致加速的同时保持与原始BranchGRPO相当的对齐效果和训练稳定性 [16] 性能表现:视频生成 - 生成质量提升: 视频帧更锐利 细节更丰富 角色和物体在时间维度上保持一致 [18] - 训练效率翻倍: DanceGRPO每次迭代需近20分钟 BranchGRPO仅需约8分钟 [19] 扩展性与多样性 - 多样性保持良好: 分叉未削弱样本分布 MMD²≈0.019 几乎与顺序采样一致 [24] - 扩展性优异: 在81样本规模下 DanceGRPO迭代需2400秒 BranchGRPO仅需680秒 [27] - 性能随分支规模扩大持续提升 使大规模对齐训练变得可行 [27] 应用前景 - 未来可通过引入自适应分裂/剪枝策略 拓展至多模态与更大规模生成任务 [30] - 有望成为扩散/流模型RLHF的核心方法 为高效稳定的人类偏好对齐提供新范式 [30]