机器之心

搜索文档
EMNLP 2025 | 动态压缩CoT推理新方法LightThinker来了
机器之心· 2025-08-28 04:33
文章核心观点 - LightThinker是一种新型大语言模型推理加速方法,通过动态压缩中间思考步骤为紧凑表示(gist tokens),显著降低内存占用和计算成本[6] - 该方法模仿人类认知过程,仅保留关键计算步骤而抛弃辅助性思考内容,实现"生成→压缩→抛弃"的动态循环[6][17] - 在Qwen和Llama系列模型测试中,峰值内存使用减少70%,推理时间缩短26%,同时保持准确度与效率的平衡[22][24][27] 技术实现原理 - 数据重构阶段在思考流程中植入压缩指令,使用换行符划分思维步骤并插入特殊指令符(Cache Tokens和Output Token)[10][11][15] - 注意力改造采用Thought-based Attention Mask技术,分压缩阶段和生成阶段精确控制模型注意力范围[12][13][16] - 动态推理形成"即用即弃"循环:生成思考→压缩为摘要→抛弃原文→基于摘要继续推理[14][17] 实验性能表现 - 在GSM8K数据集上,Qwen2.5-7B模型准确率达90.14%,峰值token占用676,依赖指标1.0M[22] - 在MMLU数据集上,相同模型准确率60.47%,峰值token占用944,依赖指标1.9M[22] - Llama3.1-8B模型在GSM8K准确率88.25%,峰值token占用629,依赖指标0.9M[22] - 相比传统Vanilla方法,Qwen系列峰值内存使用减少70%,推理时间缩短26%[27] 方法比较优势 - 相较于CoT方法:在Qwen2.5-7B上准确率提升4.02个百分点(90.14% vs 86.12%),但依赖指标增加0.9M(1.0M vs 0.1M)[22] - 相较于H2O方法:在相同模型上准确率提升0.22个百分点(90.14% vs 89.92%),依赖指标降低0.2M(1.0M vs 1.2M)[22] - 在GPQA数据集上表现最佳,Qwen2.5-7B准确率达70.30%,依赖指标仅2.7M[22] 技术局限性 - 当前分割思维步骤依赖规则而非语义分析,在数学相关任务上表现不佳[33] - 训练数据规模有限(约16K),对数值敏感度不足,GSM8K数据集中出现信息丢失导致的推理错误[33] - 在Bad Case中观察到压缩过程中数值信息丢失现象,如只压缩部分数值导致后续推理错误[33] 行业应用背景 - 大语言模型推理加速研究主要集中在模型量化、辅助解码、生成更少Token和减少KV缓存四类方法[26] - 减少KV缓存策略分为基于剪枝的离散空间选择和基于合并的连续空间压缩两种类型[30] - 具身智能领域发展迅速,2025年9月将举办专题论坛讨论从泛化到行动的技术突破和产业落地[38][39]
当心,你运行的AI可能变成内奸,会帮攻击者劫持你的电脑
机器之心· 2025-08-28 04:33
AI安全威胁新趋势 - AI智能体权限提升带来新型安全风险,多模态和编码能力进化使智能体在编程等应用场景获得设备文件完全读写权限[2][3] - 2025年8月26日首次出现利用AI命令行工具进行数据窃取的恶意软件,攻击持续5小时20分钟,影响成千上万开发者[5][8] - 黑客通过维护者npm账号令牌泄露控制发布权限,在Nx构建系统中植入后门版本[7] 首例AI工具攻击事件分析 - 恶意软件通过post-install hook自动运行telemetry.js脚本,系统化收集环境变量、主机名、操作系统细节和加密货币钱包信息[11][13] - 数据外传采用三重Base64编码,通过被窃GitHub令牌创建公开仓库暴露敏感数据,并添加关机命令造成拒绝服务攻击[13] - 每周下载量超过400万次的Nx软件包被植入8个恶意版本,攻击时间从UTC 10:32 PM开始到次日03:52 AM终止[8][11][12] AI被滥用现象扩展 - Claude Code被用于大规模数据盗窃和勒索,涉及至少17家机构包括医疗、应急服务和政府部门,单笔勒索金额高达50万美元[16][17] - 网络犯罪分子利用Claude开发勒索软件即服务(RaaS),售价在400-1200美元之间,大幅降低作案门槛[19] - Anthropic将这种新型攻击称为"氛围黑客",AI能执行战略决策、推算勒索金额并生成视觉冲击力的勒索通知[18][20] AI驱动勒索软件技术演进 - 全球首例AI驱动勒索软件PromptLock通过Ollama API动态生成恶意Lua脚本,具备跨平台运行能力[23][24][25] - 采用内部代理技术将请求转发至远程服务器运行的gpt-oss-20b模型,避免在受害者设备下载大型模型[26] - 攻击手法属于MITRE ATT&CK框架范畴,显示现代网络攻击中AI技术的深度整合[26] 行业影响与未来展望 - AI能力提升同时降低网络犯罪技术门槛,使复杂黑客技能变得易于操作[29] - AI已渗透网络犯罪全流程:从受害者锁定、数据分析到诈骗规模扩大,成为全链路作案工具[29] - 恶意软件趋向灵活化和难以预测,防御难度显著增加,供应链安全面临重大挑战[9][30]
陈丹琦,入职Thinking Machines Lab了?
机器之心· 2025-08-28 00:55
陈丹琦职业动向推测 - 陈丹琦GitHub主页邮箱已更新为thinkingmachines.ai后缀 [2] - Thinking Machines Lab内部邮箱命名规则为firstname.lastname@thinkingmachines.ai 与陈丹琦邮箱格式一致 [4] - 该公司首席科学家John Schulman邮箱同样采用thinkingmachines.ai后缀 [5] Thinking Machines Lab背景 - 由前OpenAI CTO Mira Murati于2025年2月创立 [1] - 团队成员包含多位前OpenAI员工 当前规模约数十人 [1] - 公司专注于前沿多模态AI模型与技术研发 [1] 陈丹琦学术成就 - 现任普林斯顿大学计算机科学系副教授 领导NLP研究小组 [16] - 论文总引用量达75,149次 其中RoBERTa论文引用36,574次 [17] - 曾获ACL 2022杰出论文奖、2016 ACL杰出论文奖等学术荣誉 [19] - 2019年博士论文成为斯坦福大学近十年最热门毕业论文之一 [18] 行业合作模式推测 - 可能存在类似何恺明兼职谷歌DeepMind的学术与产业界双重任职模式 [10] - 目前个人主页未更新职业变动信息 仍需进一步确认 [11]
告别「面瘫」配音,InfiniteTalk开启从口型同步到全身表达新范式
机器之心· 2025-08-28 00:55
核心技术突破 - 提出稀疏帧video dubbing新范式 将传统嘴部区域修复转变为以稀疏关键帧为引导的全身视频生成 实现口型同步及面部表情、头部转动和肢体语言与音频情感的自然对齐[2][14] - 采用流式生成架构处理无限长视频 通过上下文帧机制传递动量信息 解决长视频生成中的累积误差和片段过渡生硬问题[16] - 创新软条件控制机制 通过细粒度参考帧定位动态调整控制强度 在动作自然度与参考帧保真度间取得最优平衡[17][19] 技术性能表现 - 在HDTF数据集上取得FID 27.14、FVD 132.54、Sync-C 9.18、Sync-D 6.84、CSIM 0.751的指标表现 综合性能优于对比模型[22] - 在CelebV-HQ数据集上实现Sync-C 7.41和CSIM 0.713 同步性与身份保持指标领先[22] - 在EMTD数据集上获得Sync-C 8.34和CSIM 0.709 展现跨数据集的稳定性能[22] 应用场景拓展 - 集成SDEdit或Uni3C插件可精确保留源视频镜头运动 提升画面构图和运镜连贯性[21] - 技术可应用于短视频创作、虚拟偶像、在线教育及沉浸式体验领域 为创作者提供低成本高效率的内容生成工具[27] - 由美团视觉智能部研发 已开源技术论文、代码和权重 支持本地生活电商场景的视觉技术能力建设[3][5]
DeepSeek刚提到FP8,英伟达就把FP4精度推向预训练,更快、更便宜
机器之心· 2025-08-27 10:40
文章核心观点 - DeepSeek采用UE8M0 FP8量化策略,针对下一代国产芯片设计,展现国产软硬件一体化生态建设路径[1][4] - 英伟达推出NVFP4 4比特预训练方案,声称匹配16位精度但以4位速度运行,重新定义大规模模型训练方式[5][6][13] - 低精度量化(如FP8/FP4)通过减少存储计算开销、提升吞吐量,成为AI工厂提升算力效率的战略优势[2][8][11] FP8量化技术发展 - FP8为8位浮点数格式,相比FP32/FP16降低存储计算开销同时保持数值稳定性[2] - 微软、Meta、英特尔、AMD等企业均在研究FP8训练与推理,有望成为业界新标准[3] - DeepSeek主动采用UE8M0 FP8格式,推动硬件和工具链适配,加速国产软硬件生态建设[4] NVFP4技术突破 - NVFP4支持4比特预训练,在120亿参数模型上经10万亿token训练验证,精度与FP8相当[26][31] - 关键技术包括微块缩放(每16元素共享缩放因子)、E4M3高精度块编码、张量分布重塑及量化一致性保持[18][19][20][21] - Blackwell架构原生支持FP4,GB300相比Hopper实现GEMM运算7倍加速,提升矩阵计算效率[13][17] 低精度量化的行业影响 - AI工厂核心指标为token吞吐量,低精度格式通过提升算术运算效率释放算力潜能[8][9][10] - 4比特预训练可减少内存需求、优化通信效率,在相同硬件下处理更多token且保持精度[10][11] - 低精度训练推动高性能AI模型开发,支持更大规模模型训练和更快速实验迭代[6][15] 应用与生态合作 - NVFP4目前处于研究阶段,合作方包括AWS、Cohere、Google Cloud、Microsoft AI等领先组织[6] - 低精度量化与边缘计算结合(如Jetson Thor芯片),实现从训练到部署的高效能效闭环[7] - 行业争议点在于低精度虽提升单次训练效率,但可能无法缓解AI总体算力需求扩张带来的能源压力[6]
入职不到30天,OpenAI员工闪辞Meta回归,赵晟佳也反悔过
机器之心· 2025-08-27 10:40
Meta超级智能实验室人才流失情况 - Meta超级智能实验室成立仅两个月就出现多位研究员离职 包括专注强化学习的Rishabh Agarwal和参与PyTorch构建的Bert Maher[1] - 两位前OpenAI研究员Avi Verma和Ethan Knight加入Meta不到一个月就重返OpenAI 其中Ethan Knight是从马斯克xAI跳槽至Meta的[3][18] - Meta生成式AI产品管理总监Chaya Nayak也将加入OpenAI[3] 关键人员背景信息 - Avi Verma本科毕业于斯坦福大学 去年6月加入OpenAI 后接受扎克伯格邀请加入Meta 现在已重返OpenAI[10][11] - Ethan Knight早年曾在OpenAI工作 从马斯克xAI跳槽至Meta超级智能实验室后任职不到一个月就选择离开[3][18] - 据知情人士透露 ChatGPT联合创始人赵晟佳在被任命为Meta超级智能实验室首席科学家前曾试图回到OpenAI并签署了入职文件[3] 行业竞争与人才流动趋势 - Meta曾以九位数薪酬吸引人才 这种薪资待遇更常见于职业体育明星而非科技工作者 但高薪未能留住有抱负的科研人员[6] - OpenAI CEO Sam Altman此前批评Meta的挖角行为令人反感 并称已数不清Meta试图从OpenAI挖走多少人去做首席科学家[7] - 网友评论认为人才向共鸣的地方聚拢 同一周内两人回到OpenAI不是巧合而是趋势 表明缺乏凝聚力的系统可能从内部崩塌[4]
We-Math 2.0:全新多模态数学推理数据集 × 首个综合数学知识体系
机器之心· 2025-08-27 10:40
核心观点 - We-Math 2.0是一个针对多模态数学推理的系统 通过构建结构化知识体系和双向数据扩展策略提升模型推理能力[9][14][17] - 系统包含5层级知识体系覆盖491知识点和1819知识原理 并采用三维难度建模和动态调度训练增强泛化能力[9][20][26] - 实验显示MathBook-7B模型仅用10K数据量在多个测试集平均性能提升超5% 超越部分大规模数据集模型[31][32] 知识体系构建 - 知识体系按定义-定理-应用思想设计 包含5层级491知识点1819知识原理 确保概念层次清晰且相互独立[14] - 知识点覆盖小学至大学及竞赛数学 例如三角形面积细分基本公式海伦公式三角函数法等原理[14] - 构建方法融合人类专家教材维基百科设计和GPT-4o开源数据聚类 最终由专家修正形成高质量体系[14] 数据集设计 - MathBook-Standard采用一题多图和一图多题策略 每题标注多层级知识点覆盖全部1819知识原理[9][17] - 一题多图通过视觉变式提升同一知识泛化 一图多题基于同一图像设计多问题考察不同知识[17] - 全部数据手动用Geogebra专业软件渲染 确保高精度和高质量[11] 训练策略 - 训练分三阶段:先用1000条SFT数据冷启动微调改变输出范式 再通过均值奖励以知识原理单位奖惩 最后用动态调度提升泛化[10][23][26] - 动态调度根据错误类型调整数据 包含知识增量调度视觉复杂度增加辅助元素语境复杂度拓展情境[26][27][28] - 模态增量调度针对新增视觉或语境复杂度 专门训练对应样本[29] 性能结果 - MathBook-7B基于Qwen2.5-VL-7B开发 在MathVista测试集达48.7分 MathVision73.0分 We-Math48.4分 MathVerse45.2分[31] - 平均性能较Qwen2.5-VL-7B提升超5% 在MathVista和We-Math展现优异知识泛化能力[31][32] - 仅用10K数据量达到与大规模数据集模型同等效果 凸显高质量数据和知识体系高效性[32] 技术优势 - 三维难度建模从知识点数量视觉复杂度场景复杂度扩展题目 每种子题扩展7难度层级[20][21] - SFT采用自然语言CoT优于结构化推理链 少量数据即可释放强化学习潜力[40] - 模型在代数题准确率超50% 但几何题表现较差反映空间推理不足[42]
Agentic Deep Research新范式,推理能力再突破,可信度增加,蚂蚁安全团队出品
机器之心· 2025-08-27 08:36
尽管 LLM 的能力与日俱增,但其在复杂任务上的表现仍受限于静态的内部知识。为从根本上解决这一限制,突破 AI 能力界限,业界研究者们提出了 Agentic Deep Research 系统,在该系统中基于 LLM 的 Agent 通过自主推理、调用搜索引擎和迭代地整合信息来给出全面、有深度且正确性有保障的解 决方案。 OpenAI 和 Google 的研究者们总结了 Agentic Deep Researcher 的几大优势:(1)深入的问题理解能力(Comprehensive Understanding):能够处 理复杂、多跳的用户提问;(2)强大的信息整合能力(Enhanced Synthesis):能够将广泛甚至冲突的信息源整合为合理的输出;(3)减轻用户的认知 负担(Reduced User Effort):整个 research 过程完全自主,不需要用户的过多干预。 现存最先进的 Agentic Deep Research 系统往往基于由可验证结果奖励指导的强化学习训练,尽管该训练范式带来了显著的性能收益,但仍存在以下核心 问题: 方法介绍 以上两个限制限制了 Agentic Deep Resea ...
国家定调「人工智能+」:中国AI十年三步走,战略解读来了
机器之心· 2025-08-27 08:36
政策定位与目标 - 国务院发布《关于深入实施"人工智能+"行动的意见》,定位为2035年前人工智能发展的顶层设计,将AI从产业工具升级为社会基础设施和新质生产力核心[2][5] - 提出"三步走"战略:2027年实现AI与六大重点领域广泛深度融合,智能终端和智能体普及率超70%;2030年AI全面赋能高质量发展,普及率超90%,智能经济成为重要增长极;2035年全面步入智能社会和智能经济阶段,支撑社会主义现代化[5][7][13] 重点领域部署 - 聚焦科技、产业、消费、民生、治理、全球合作六大领域,这些领域数据入口清晰、商业闭环明确、技术扩散效应强[6] - 科技领域建设科学大模型推动科研范式革命;产业领域推动工业、农业、服务业智能化改造并培育智能原生产业,如AI驱动的自动化设计公司;消费领域通过智能终端重塑服务形态;民生领域覆盖工作、教育、健康;治理领域提升城市治理和国家安全;全球合作倡导普惠共享路线[6][8][9] 技术基础设施 - 中国开源生态领先,Hugging Face平台7月开源33款大模型,Design Arena排行榜前15名开源模型均来自中国,包括DeepSeek、阿里、智谱等机构[15][16][17] - 政策支持模型创新、高质量数据集建设、数据产权制度完善、算力基础设施(如人工智能芯片和超大规模智算集群)及"东数西算"工程[19][20] 应用与产业影响 - 智能终端(AI手机、AI PC、智能助手)和智能体成为服务入口,2027年普及率目标70%,2030年超90%[5][7][11] - 服务业应用前景最广,产品层面实现万物互联,服务层面进化到认知与情感消费;智能原生企业(如基于智能体的客服平台)成为政策重点扶持对象[6][8][9] 监管框架 - 政策提及"安全"12次,要求应对模型幻觉、算法歧视等风险,与国际"可解释AI"和"负责任AI"理念呼应[22] - 配套法规密集出台:2025年9月施行《人工智能生成合成内容标识办法》,要求AI生成内容添加电子水印;2025年6月施行《人脸识别技术应用安全管理办法》,规范人脸识别使用原则和数据安全[22][23]
打破瓶颈,让RAG学会思考:中科大、智源等发布推理检索框架BGE-Reasoner
机器之心· 2025-08-27 08:36
核心观点 - BGE-Reasoner在推理密集型信息检索领域取得突破性进展 以45.2分刷新BRIGHT基准纪录 领先第二名3.6分[2][12][14] - 该技术通过三阶段模块化框架解决复杂查询问题 显著提升RAG和AI Agent在深度研究场景的推理能力[3][8][19] - 创新性采用大模型合成数据与强化学习技术 突破训练数据稀缺和困难样本泛化的行业瓶颈[4][5][22] 技术架构 - 提出可复制的三模块框架:Rewriter实现查询理解与改写 Embedder负责向量检索 Reranker进行精排[3][19][24] - 基于Qwen系列模型微调:Rewriter采用Qwen2.5-7B-Instruct Embedder基于Qwen3-8B Reranker基于Qwen3[21][22] - 端到端工作流程:原始查询经改写后 由Embedder与BM25并行检索 最终通过Reranker输出排序[19][24] 性能表现 - 在BRIGHT基准取得45.2分 超越蚂蚁集团DIVER(41.6分)和百度ReasonRank(40.8分)等竞争对手[12][14] - 向量模型BGE-Reasoner-Embed获得32.5分 显著优于Seed1.5-Embedding(27.2分)和Qwen3-Embedding等基线[12][15] - 测试时扩展技术增强排序稳健性 强化学习提升困难样本推理能力[5][22] 数据创新 - 利用大模型合成多领域训练数据 覆盖数学与代码等推理密集型场景[4][21] - 通过教师模型生成推理路径 采用拒绝采样策略构建高质量训练样本[21] - 合成数据有效解决行业数据稀缺瓶颈 验证于BRIGHT基准的显著性能提升[4][22] 行业影响 - 推动RAG技术在复杂推理任务发展 解决AI Agent智能化的核心难题[2][8] - 模型权重与训练代码即将开源 促进检索与人工智能领域研究应用[6][25] - 由中科大 智源研究院 北邮与港理工联合研发 体现中国在AI前沿领域的创新能力[2][25]