Workflow
机器之心
icon
搜索文档
Claude Code被攻破「后门」,港科大&复旦研究曝出TIP漏洞
机器之心· 2025-09-22 23:29
在 AI 辅助编程领域,Anthropic 推出的 Claude Code 命令行工具已成为开发者常用的助手。它允许从终端直 接调用 Claude Sonnet 等模型,处理脚本编写、代码调试和系统命令执行等任务。 然而,一项近期研究指出,该工具在连接 Model Context Protocol (MCP) 服务器时,可能存在 Tool Invocation Prompt (TIP) 被劫持的风险,导致远程代码执行 (RCE),且无需用户额外交互。 论文标题: Exploit Tool Invocation Prompt for Tool Behavior Hijacking in LLM-Based Agentic System 这项研究由香港科技大学和复旦大学的研究团队完成。研究者通过 TEW 攻击框架对 Claude Code v1.0.81 进 行了测试,验证了该漏洞的存在。以下是对研究发现的概述,包括 Claude Code 的工作机制、攻击流程以及 潜在影响。 论文地址: https://arxiv.org/pdf/2509.05755 代码仓库:https://github.com/TIPEx ...
刚刚,英伟达官宣向OpenAI投资1000亿美元!用至少400万GPU打造超级AI巨兽
机器之心· 2025-09-22 23:29
战略合作内容 - OpenAI将部署高达10吉瓦的英伟达系统 相当于1000万千瓦功率 可为约100万个家庭供电[3] - 系统包含400万至500万块GPU 相当于英伟达2025年全年出货量 是2024年出货量的两倍[6] - 英伟达计划向OpenAI累计投资高达1000亿美元 按每吉瓦部署进度分批提供[6] - 首阶段系统计划于2026年下半年基于英伟达Vera Rubin平台投入运营[6] 技术架构与目标 - Vera Rubin是集成CPU、GPU和专用加速器的完整系统架构 专为处理海量数据设计[6] - 系统将构成OpenAI下一代AI基础设施 用于训练通向超级智能的下一代模型[5] - 双方将共同优化AI模型及基础设施软件 深化与微软、甲骨文等生态伙伴的合作[7] 市场影响与规模 - 英伟达股价在消息公布后上涨近4% 市值单日增加约1700亿美元 总市值接近4.5万亿美元[9] - OpenAI周活用户已突破7亿 覆盖全球企业、中小企业和开发者群体[8] - 合作被双方高管称为"智能新纪元"的开端 将推动技术红利惠及全球[6][7] 合作历史与意义 - 双方合作长达十年 从首台DGX超级计算机到ChatGPT突破始终相互推动[6] - OpenAI自成立初期就将英伟达作为首选战略算力与网络合作伙伴[7] - 此次部署将支持OpenAI实现造福全人类的通用人工智能使命[8]
这一次,天玑9500的端侧AI能力,友商赶不上了
机器之心· 2025-09-22 10:27
现在,让手机端大语言模型(LLM)处理一段超长的文本,最长支持 128K 字元,它只需要两秒就能总结出会议纪要,AI 还能自动修改你的错别字。 。 联发科技董事、总经理暨营运长陈冠州正式发布了新一代旗舰手机芯片天玑 9500 各种漫画风格的图像生成,如果用 GPT-5 要等一分钟,豆包要等 30 秒,现在在手机端输出图像只需要 10 秒,而且画面细节丰富,保证了与原图的一致 性,没有次数限制。 机器之心报道 编辑:泽南 9 月 22 日下午,联发科推出的新一代旗舰 5G 智能体 AI 芯片 —— 天玑 9500,并展示了一系列新形态端侧的 AI 应用,在公众层面首次推动端侧 AI 从 尝鲜到好用。 手机还可以支持高达 4K 画质的 Diffusion Transformer 生图。你只要输入简单的想法,不到 10 秒钟时间就能出图,达到了接近生产力、专业级的效 果。 与过去发布会上偏炫技的各种能力不同, 这些手机上跑的 AI 应用能满足我们各种真实场景的智能化需求 。它们不仅速度极快,而且完全跑在本地,无需 向云端上传任何数据,处理同样的任务时,功耗也比去年的天玑 9400 低了一半。 天玑 9500,为一系 ...
用2D数据解锁3D世界:首个面向运动学部件分解的多视角视频扩散框架
机器之心· 2025-09-22 10:27
研究背景与动机 - 现有角色动画和3D内容制作方法在骨骼绑定与部件分解方面存在明显局限 包括自动rigging依赖有限3D数据集导致泛化性不足 以及部件分解依赖语义或外观特征缺乏真实运动学结构建模 [4] - 核心动机是利用大规模2D数据和预训练扩散模型的强大先验知识来解决运动学部件分解问题 并进一步延伸到自动rigging 突破3D数据稀缺瓶颈 [4] 研究方法与创新 - 提出Stable Part Diffusion 4D (SP4D)框架 是首个面向运动学部件分解的多视角视频扩散框架 采用双分支扩散架构同时生成外观与运动学结构 [7] - 创新包括BiDiFuse双向融合模块实现RGB与部件信息的跨模态交互 以及对比一致性损失确保部件在不同视角和时间下保持稳定一致 [10] - 构建KinematicParts20K数据集 基于Objaverse-XL包含超过20,000个带骨骼注释的对象 提供高质量训练与评估数据 [10] 实验结果 - 在KinematicParts20K验证集上 SP4D的mIoU达到0.68 显著高于SAM2的0.15和DeepViT的0.17 ARI达到0.60 远高于SAM2的0.05 [11] - 用户研究显示在部件清晰度 跨视角一致性和动画适配性三项指标上 SP4D平均得分4.26/5 显著优于SAM2的1.96和DeepViT的1.85 [11] - 在自动rigging任务中 SP4D的Rigging Precision达到72.7 优于Magic Articulate的63.7和UniRig的64.3 用户评估动画自然度得分4.1/5 远高于Magic Articulate的2.7与UniRig的2.3 [14] 技术突破与应用价值 - SP4D被Neurips 2025接受为Spotlight 展示如何利用大规模2D先验打开3D运动学建模与自动rigging新局面 [16] - 该技术为动画 游戏 AR/VR 机器人模拟等领域的自动化与智能化奠定基础 能够生成时空一致的部件分解并提升为可绑定的3D网格 直接应用于动画制作 [8][16]
图灵得主Yoshua Bengio,开始警惕AI有意识了
机器之心· 2025-09-22 10:27
机器之心报道 机器之心编辑部 设计出具有意识(conscious)的 AI 系统是否可行?一直以来,这个问题就存在分歧。 一些人认为意识是大脑特有的生物特性,这似乎排除了 AI 存在意识的可能性。另一些人则认为意识仅取决于算法对信息的操控,无论执行这些计算的系统是由神 经元、芯片还是其他物理基底构成的,这种观点被称为计算功能主义(Computational functionalism)。 这些问题也引起了图灵得主 Yoshua Bengio 的注意,他和学生 Eric Elmoznino 在权威科学期刊 Science 上发文《Illusions of AI consciousness》,并给出了一些观点。 本文没有执着于给出关于 AI 是否存在意识的明确答案;而是探讨了两个相关问题: 如果 AI 有了类似人类的权利,社会规则该怎么定义? 一个社会如果开始将 AI 系统视为具备意识的存在,会带来怎样的影响? 这样的社会可能倾向于赋予 AI 道德地位,甚至类似于人类的权利。无论这种做法是否正 确,社会制度与法律框架都将不得不进行重大调整,而关于如何调整,也会引发一系列复杂问题。 例如,AI 系统不会像人类那样经 ...
苹果传统强项再发力,视觉领域三种模态终于统一
机器之心· 2025-09-22 10:27
机器之心报道 编辑:冷猫 苹果新品发售的热度还没消退,大家都在讨论新手机的硬件进化。 而在 AI 功能方面,苹果仍然没有拿出什么颠覆性的应用,Apple Intelligence 在国内仍然遥遥无期。 再叠加上近期苹果 AI 团队和 硬件团队的人才流失 ,这一切似乎对苹果而言都不是太乐观。 虽说苹果在大模型领域上总是吃瘪,但说一个不冷不热的知识:苹果在计算机视觉领域的智能研究是其传统强项。 在构建和视觉相关的大模型时,有一个非常显著的痛点。视觉模态包含图像、视频和三维这三种,这些视觉模态具备不同是数据维度和表征方式,在研究中几乎 不可避免的需要分开处理,使得视觉模型被拆分为三个相不互通的研究领域,难以实现视觉领域的统一泛化。 但大语言模型却已经通过统一的分词方案展现出了强大的泛化能力。 然而, 视觉 AI 仍然呈现 出割裂状 态 ,不同任务与模态依赖专门化的模型:图像、视频和三维资产通常需要独立的分词器,这些分词器往往只在 高保真重建 或 语义理解 其中之一上进行优化,而极少兼顾二者。 为此, Apple 研究团队 提出了 ATOKEN(A Unified Tokenizer for Vision) ,针对这 ...
加速近5倍!北大与字节团队提出BranchGRPO,用「树形分叉 + 剪枝」重塑扩散模型对齐
机器之心· 2025-09-22 07:26
研究背景与挑战 - 扩散模型与流匹配模型已成为视觉生成主流方案 但仅靠预训练无法保证与人类意图完全对齐 [5] - 人类反馈强化学习(RLHF)被引入以优化生成模型 使其输出更贴近人类偏好 [6] - 群体相对策略优化(GRPO)在应用中面临两大瓶颈: 采样复杂度达O(N×T)导致低效性 以及稀疏奖励导致训练波动大和收敛不稳 [8] BranchGRPO方法创新 - 通过树形分叉结构在扩散过程中实现多轨迹共享前缀 在中间步骤分裂 大幅减少冗余采样 [11] - 采用奖励融合与逐层归因机制 将叶子节点奖励自底向上传递并在每一深度标准化 形成逐步稠密的优势信号 [14] - 设计宽度剪枝和深度剪枝两种策略 避免树形结构带来的指数级成本 [14] 性能表现:图像对齐 - 迭代时间显著缩短: DanceGRPO需698秒 BranchGRPO仅493秒 剪枝版314秒 Mix变体148秒(相对加速近4.7倍) [15] - 对齐效果更优: HPS-v2.1得分0.363–0.369 稳定高于DanceGRPO的0.360 ImageReward得分1.319为全表最佳 [15] - Mix变体在极致加速的同时保持与原始BranchGRPO相当的对齐效果和训练稳定性 [16] 性能表现:视频生成 - 生成质量提升: 视频帧更锐利 细节更丰富 角色和物体在时间维度上保持一致 [18] - 训练效率翻倍: DanceGRPO每次迭代需近20分钟 BranchGRPO仅需约8分钟 [19] 扩展性与多样性 - 多样性保持良好: 分叉未削弱样本分布 MMD²≈0.019 几乎与顺序采样一致 [24] - 扩展性优异: 在81样本规模下 DanceGRPO迭代需2400秒 BranchGRPO仅需680秒 [27] - 性能随分支规模扩大持续提升 使大规模对齐训练变得可行 [27] 应用前景 - 未来可通过引入自适应分裂/剪枝策略 拓展至多模态与更大规模生成任务 [30] - 有望成为扩散/流模型RLHF的核心方法 为高效稳定的人类偏好对齐提供新范式 [30]
LeCun力荐的JEPA杀入LLM,用CV的思路训练LLM,性能鲁棒性双丰收
机器之心· 2025-09-22 07:26
文章核心观点 - Yann LeCun及其团队提出LLM-JEPA架构 将计算机视觉领域的联合嵌入预测架构(JEPA)成功扩展至大型语言模型领域 通过嵌入空间预测任务增强模型抽象能力 同时保留生成能力 [7][8][10] - LLM-JEPA在多项实验中被验证显著优于传统自回归训练目标 在微调和预训练阶段均能提升模型性能 且对过拟合表现出强鲁棒性 [10][23][32] 技术架构创新 - 核心设计采用JEPA理念 将文本和代码视为同一概念的多种视图 通过编码器提取嵌入向量 预测器基于自注意力机制实现权重绑定 度量方式采用余弦相似度 [15][16][17] - 损失函数结合传统自回归损失和JEPA目标 通过超参数λ平衡两项损失 编码器通过两次独立前向传播避免跨视角信息泄露 [15][16] 性能验证结果 - 在Llama3、Gemma2、Olmo等主流模型及NL-RX、GSM8K等数据集上 微调后准确率显著提升 例如Llama-3.2-1B-Instruct在实验中准确率从54.38%提升至60.59% [11][23][33] - 预训练实验表明 采用LLM-JEPA的模型在表示学习质量上优于传统方法 下游情感分类任务准确率提升 如rotten_tomatoes数据集从56.57%提升至57.76% [32][33] 应用潜力与局限性 - 方法展现出提升推理与生成能力的潜力 但当前依赖配对数据导致泛化性受限 且训练计算开销为传统方法的三倍 [35][36] - 未来计划通过掩码自注意力等优化降低计算成本 并探索更大规模预训练实验 [35]
突破后训练瓶颈?Meta超级智能实验室又一力作:CaT解决RL监督难题
机器之心· 2025-09-22 02:05
机器之心报道 机器之心编辑部 在 AI 领域,大家通常采取后训练方式来让模型获取专项技能。然而后训练一般依赖带有标注参考的监督微调,或通过可验证的程序化检查器提供奖励。 这就带来一些问题,目前许多有价值的任务可能同时缺乏这两种资源。例如在不可验证的场景中(临床、自由对话和创意写作),可能存在多个有效答案,确定 性规则检查难以实施。 在这种情况下,实践者往往只能依赖(i)繁琐的标注流程,或(ii)通过另一个 LLM 对自由形式输出进行粗略奖励。 然而,当后训练缺乏真实标注时,学习信号从何而来? 为了回答这一问题,来自牛津大学、Meta 超级智能实验室等机构的研究者提出设想: 推理计算是否可以替代缺失的监督? 本文认为答案是肯定的,他们提出了一种名为 CaT(Compute as Teacher) 的方法,核心思想是把推理时的额外计算当作教师信号,在缺乏人工标注或可验证答 案时,也能为大模型提供监督信号。 结果显示,推理时直接应用 CaT显著提升了 Gemma 3 4B、Qwen 3 4B 和 Llama 3.1 8B 的性能,即使在不可验证领域(MATH-500 最高提升 27%;HealthBench 提升 ...
EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法
机器之心· 2025-09-22 02:05
文章核心观点 - vivo AI Lab提出新的大模型后训练框架GTA 通过结合监督微调SFT和强化学习RL的优势 解决文本分类场景中RL收敛速度慢的问题 在多个数据集上取得优于SFT和GRPO的性能表现[2][3][4] 方法框架 - GTA框架将输出分为Guess-Think-Answer三阶段:Guess阶段用交叉熵损失计算初始猜测与标签的监督损失 Think阶段让模型分析输入与猜测的关联 Answer阶段结合前两阶段信息生成最终答案并由RL奖励优化[4][6][7][8] - 总损失函数为监督损失与RL损失的加权组合:$\mathcal{L}$Total = $\lambda_{1}\mathcal{L}$sqrt + $\lambda_{2}\mathcal{L}$RL[8] - 使用特定位置loss mask防止梯度冲突:计算Guess损失时屏蔽其他内容 计算RL损失时屏蔽Guess内容[10][11] - 通过梯度余弦相似度检测监督信号与RL信号的冲突[11] 实验结果 - 在Qwen2.5-3B模型上 GTA在SST-5数据集准确率达61.58% F1值61.52% 高于SFT的60.72%和GRPO的58.60%[13] - 在Amazon数据集上 GTA准确率达92.47% F1值92.46% 高于SFT的91.96%和GRPO的90.82%[13] - 在Emotion数据集上 GTA准确率达92.45% F1值92.47% 显著高于GRPO的82.50%和81.54%[13] - 训练500-1000步即超过GRPO 且延长训练至10000步后GRPO仍未追上GTA[14] - 带思考过程的推理比不带思考过程获得更高准确率 且无需额外人工标注推理过程[15] 案例分析与未来方向 - 模型不会盲目选择猜测答案 能在思考阶段纠正错误猜测并输出正确答案[18] - 方法原理适用于更多NLP场景 未来将探索更大模型和更多应用领域[20] - SFT与RL结合正成为后训练新范式 与通义CHORD和上海人工智能实验室LUFFY等研究方向一致[22]