Workflow
机器之心
icon
搜索文档
所有大模型,都学物理学:北大物理系一篇研究,震撼了AI圈
机器之心· 2025-12-16 08:55
核心观点 - 北京大学等机构的研究团队提出了一种基于物理学“最小作用量原理”的理论框架,用以理解和统一大型语言模型智能体的宏观生成动力学 [1] - 研究发现LLM智能体的状态转移在统计上表现出“细致平衡”现象,表明其生成过程可能隐式地学习了一类潜在的“势函数”,这超越了不同的模型架构和提示词模板,是首次发现的不依赖特定模型细节的宏观物理定律 [3][4][16] - 这一发现将AI智能体研究从经验性的工程实践提升到了可量化、可预测的物理科学高度,为理解、预测和控制AI行为提供了新的科学测量手段 [4][6] 理论框架与方法 - 研究将LLM智能体的生成过程视为状态空间中的马尔可夫转移过程,其核心是转移概率P(g|f) [9] - 为捕捉智能体倾向于转移到“更好”状态的结构化偏好,研究假设存在一个反映状态“质量”的潜在标量势函数V [13] - 通过定义一个描述状态转移违背势函数排序程度的凸函数K(x),并计算其全局平均违背作为“作用量”S,最合适的势函数是能使作用量S最小化的函数,这满足变分原理δS=0 [13][14][15] - 研究指出,若智能体的状态转移满足细致平衡条件(即π(f)P(g|f)=π(g)P(f|g)),则存在势函数V可明确表示为log[T(g←f)/T(f←g)] = βV(f) - βV(g),并且该势函数满足最小作用量原理 [15] 实验发现与意义 - 通过在多个不同模型和任务上的实验验证,研究发现基于LLM的智能体在其状态空间中的转移在很大程度上满足细致平衡条件,表现出类似平衡系统的特征 [16][18] - 这意味着LLM的生成并非简单地死记硬背规则或随机尝试,而是在最小作用量原理驱动下,自然地向着势能更低(质量更好)的状态流动,如同水往低处流 [4] - 该理论框架使得可以用物理指标为不同大模型“画像”,例如Claude-4像急于交卷的优等生,倾向于快速收敛到某个答案(势井),但也容易固执己见;GPT-5 Nano则像探险家,收敛慢但更愿意探索状态空间 [5] - 这一发现为理解和优化LLM生成过程提供了新思路,例如通过研究偏离平衡的程度来理解模型过拟合水平,或基于势函数优化方法来提高生成任务的质量和多样性 [19]
临床PK完胜ChatGPT-5!国内团队造出首个OCT影像AI系统
机器之心· 2025-12-16 04:11
文章核心观点 - 通用大模型在医疗垂直领域面临挑战,一项针对心脏介入手术决策支持的临床研究显示,基于RAG增强的垂直领域AI系统CA-GPT在关键决策指标上显著优于通用大模型ChatGPT-5和初级医师,有望重新定义心脏介入手术的智能化标准并解决医疗资源不均的痛点 [1][3][30] 通用大模型在专业领域的局限性 - 通用大模型在需要“火眼金睛”和“毫厘必争”的心脏手术等专业领域表现不佳,面对复杂病变时容易产生“幻觉”,缺乏对图像数据的数值敏感性和空间理解力 [1][17] - 在经皮冠状动脉介入治疗(PCI)手术中,光学相干断层成像(OCT)的图像解读高度依赖医生经验,初级医师与资深专家在手术成功率、并发症发生率等关键指标上的差距高达40%以上 [5] COMPARE研究设计与结果 - 研究由空军军医大学唐都医院与深圳清华大学研究院团队联合完成,基于中科微光医疗的OCT系统搭建RAG增强型AI-OCT整合决策支持模型(CA-GPT系统)[1] - 研究纳入了96名患者、160处病变,将CA-GPT系统、ChatGPT-5以及拥有1-5年经验的初级介入医师进行对比,以资深专家团队的手术记录为金标准进行盲测,评估涵盖10项预设决策指标 [8] - 在术前规划阶段,CA-GPT系统的总体决策评分中位数达到满分5.0,显著高于ChatGPT-5的3.0和初级医师的4.0 [11] - 在关键指标上,CA-GPT的支架直径选择准确率高达90.3%,显著优于ChatGPT-5的63.9%和初级医生的72.2%;支架长度选择准确率达80.6%,优于ChatGPT-5的54.2% [11] - 在术后评估阶段,CA-GPT对“最小支架面积是否达标”的判断与专家吻合度接近100%,在支架贴壁评估上的准确率达93.2%,优于初级医师组的76.1% [17] - 在处理功能性缺血(OCT-FFR≤0.80)或严重钙化等复杂病变时,CA-GPT展现了极高的稳定性,在亚组分析中依然保持了中位数5.0的高分 [17] - 传统OCT图像解读需医师逐帧分析,耗时数分钟至十数分钟,而CA-GPT系统可在20秒内完成全面分析并生成结构化报告,将影像解读时间缩短95%以上 [10] CA-GPT系统的技术架构优势 - 系统核心架构摒弃了对单一端到端大模型的迷信,构建了“小模型 + 大数据 + 大模型”的RAG复合智能体架构 [19] - **“感官”精准化(小模型层)**:底层集成了13项核心功能(含6项自研专有算法),能在5-10秒内完成管腔分割、斑块定性、钙化积分计算等定量分析 [21] - **“大脑”逻辑化(大模型层)**:基于开源的DeepSeek大模型构建,基于小模型提供的精准量化数据进行符合医学逻辑的深度推理 [21] - **“知识”实时化(RAG技术)**:通过RAG技术链接了包含超过100万篇心血管文献及指南的知识库,使AI的每一次决策建议都能追溯到具体的专家共识或最新指南,有效抑制了AI幻觉 [21] 技术突破的行业意义与市场价值 - 该技术突破的终极意义在于解决医疗资源分布不均的现实痛点,全球心血管疾病负担沉重,每年因心血管疾病死亡的人数达1920万,PCI全球年手术量已超过400万例,但资深介入专家(完成1000+例手术)是极度稀缺资源 [5][25] - 培养一名能独立处理复杂病变的医生往往需要8-12年的漫长周期,CA-GPT系统本质上是在做“医疗能力的平权”,能让偏远地区或初级医生在复杂手术中获得相当于顶尖专家的实时指导 [25][26][27] - 此次发布的CA-GPT系统及其临床成果,标志着中国企业在高端腔内影像领域开始掌握定义权,不做通用大模型的“套壳”,而是深耕垂直场景,将深度学习的精准度与大模型的推理能力完美结合 [30] - 这代表了中国医疗科技的“DeepSeek时刻”,即把AI技术落地业务场景,用自己的技术解决最真实的临床痛点 [31]
56倍加速生成式策略:西交大提出EfficientFlow,迈向高效具身智能
机器之心· 2025-12-16 04:11
文章核心观点 - 西安交通大学研究团队提出了一种名为EfficientFlow的全新生成式策略学习方法,旨在解决当前生成式模型在机器人具身智能领域面临的两大核心瓶颈:训练依赖大规模演示数据和推理迭代步数多导致速度慢 [2] - 该方法通过将等变建模与高效流匹配深度融合,在显著提升数据效率的同时,大幅压缩推理所需的迭代步数,在多个机器人操作基准上实现了SOTA性能,并将推理速度提升一个数量级以上 [2] - 相关论文已被AAAI 2026接收,代码已开源 [3] 技术方法亮点 - **加速度正则化**:受物理直觉启发,在损失函数中引入加速度正则项,鼓励样本从噪声分布向数据分布的演化过程平滑且接近匀速,从而让生成轨迹更直、更快,减少推理迭代 [5][6] - **等变网络设计**:核心逻辑是确保当输入的视觉场景旋转一定角度时,机器人输出的动作也跟随旋转相同角度,这使得模型能从一条数据泛化到多个旋转角度,大幅提升数据效率,实现“举一反三” [9][11] - **时间一致性策略**:采用时间重叠策略与批量轨迹选择及周期性重置机制,在生成动作序列时平衡多模态表达能力与长期执行的时间连贯性,确保策略既快又稳 [15][17] 实验效果与性能 - 在MimicGen等多个机器人操作基准测试中,EfficientFlow在有限数据条件下展现出媲美甚至超过现有SOTA方法的成功率 [18][19] - 推理效率显著提升:仅需1步推理就能接近EquiDiff模型100步推理的平均性能,单步推理速度提升56倍,5步推理也有近20倍加速 [19] - 消融实验表明,加速度正则化与等变建模两者缺一不可,共同构成了高效生成式策略的关键 [19]
阿里妈妈发布MUSE:用多模态搞定十万级超长行为序列,并开源Taobao-MM数据集
机器之心· 2025-12-16 04:11
文章核心观点 - 阿里妈妈与武汉大学团队提出了一种名为MUSE的新型多模态搜索框架,旨在解决推荐系统对用户超长历史行为序列(如10万至百万级)建模能力不足的问题,通过利用图像和文本等多模态信息,系统性提升终身用户兴趣建模的质量与可用长度 [1][4][6] - MUSE框架已在阿里妈妈展示广告精排模型中全量上线,实现了对10万长度用户原始行为序列的建模能力,并在线上A/B实验中带来了显著的CTR提升(+12.6%)和业务收益(RPM +5.1%, ROI +11.4%) [6][36] - 该工作不仅提出了创新的算法与工程协同设计,还开源了首个包含“长行为序列+高质量多模态embedding”的大规模公开数据集Taobao-MM,以推动业界和学界在相关方向的研究 [1][6][41] 技术背景与问题 - 当前主流CTR建模,特别是以SIM/TWIN为代表的两阶段长期行为建模框架,虽将可用历史行为长度扩展至万级别,但收益边际提升已变得困难,尤其在检索精度受限时,序列从万级往上扩展效果提升会明显趋缓 [2] - 用户行为序列极长(在淘宝中轻松达到百万级),但受限于在线延迟、存储和算力,实际部署模型通常只能使用最近几千条行为,或进行粗粒度截断 [3] - 现有ID-based建模方法存在局限:长尾和过期item的ID embedding质量不佳,而它们在“终身历史”中占比很高;模型主要学习“ID共现关系”,而非用户真实的内容兴趣 [3][15] MUSE框架核心洞察与设计 - **核心设计原则**:GSU(通用搜索单元)应保持“简单”,而ESU(精确搜索单元)需要“丰富+融合” [12] - **对GSU的洞察**:在有高质量多模态embedding的前提下,GSU只需要一个轻量的余弦(cosine)相似度检索就足够好,复杂的检索结构收益低且不具性价比 [17] - **对ESU的洞察**:多模态序列建模与ID融合非常关键,ESU对多模态embedding的质量极其敏感,远高于GSU [18][19] - **表征预训练**:底层采用SCL多模态预训练,通过结合用户真实“搜索-购买”行为进行对比学习,使得到的embedding同时具备内容语义和行为相关性 [23] MUSE框架技术详解 - **多模态GSU**:使用SCL embedding进行简单的余弦相似度计算和Top-K检索,从用户10⁵~10⁶级历史行为中筛选出最相关的几十条,过程高效且无复杂Attention [24][26] - **多模态增强ESU**:采用SimTier与SA-TA双路并行建模 [25] - **SimTier路径**:将目标item与历史行为的多模态相似度序列压缩为一个“相似度直方图”,形成紧凑的语义兴趣分布向量,计算开销极小 [26][33] - **SA-TA路径**:在标准的ID-based Target Attention基础上,融合多模态余弦相似度及其与ID打分的交互项,形成最终的attention score,以缓解长尾item打分失真问题 [27][28][30] - **最终输出**:SimTier输出的多模态兴趣向量与SA-TA输出的ID兴趣向量拼接,作为“终身兴趣表示”输入给上层CTR模型 [30] 工程落地与性能 - **延迟控制关键**:将GSU从Ranking关键路径中剥离,进行异步预取,其延迟被Matching阶段遮蔽,从而在引入10万行为序列和多模态信息的同时不增加在线延迟 [32][35] - **具体两阶段设计**: 1. Pre-fetching阶段:与Matching并行,从远端存储拉取用户100K行为的多模态embedding并缓存至GPU显存 [36][42] 2. 相似度计算与Top-K选择阶段:在Ranking前快速计算相似度,得到Top-K行为ID和相似度序列供ESU使用,计算量小且可与特征处理并行 [36][42] - **效果验证**:线上A/B实验显示,相比仅使用5K长度行为的ID-only基线(SIM),MUSE(行为长度100K)带来CTR提升12.6%、RPM提升5.1%、ROI提升11.4% [36] - **离线消融实验**:序列越长,MUSE带来的收益越大;多模态增强ESU在所有长度上都显著优于ID-only ESU,且长度越长优势越明显 [36] 对业界的启发与可复制经验 - **GSU优化**:优先学习高质量的item图文embedding,并用多模态余弦检索替代GSU的ID-only检索,这是性价比最高的第一步,无需在GSU阶段设计复杂结构 [38] - **ESU增强**:将多模态信息引入ESU是关键,可逐步推进:引入轻量的“相似度直方图”模块(如SimTier);在现有DIN/TWIN的attention中融入多模态相似度作为辅助打分(类似SA-TA) [38] - **工程架构**:解决超长序列和多模态引入的I/O瓶颈是重点,可借鉴MUSE模板:将GSU抽成独立服务与Matching异步并行;将embedding就近缓存;确保Ranking阶段计算轻量 [39] - **落地路线**:对于拥有长行为日志(>> 万条)、丰富内容特征且ID-only模型收益见顶的业务,可先提升表征质量,用多模态支撑GSU检索,再在ESU中融合多模态信号,作为“轻量版MUSE”的起点 [46] 开源数据集Taobao-MM - **数据集价值**:这是首个同时具备“长行为序列+高质量多模态embedding”的大规模公开数据集,旨在支持“长序列 × 多模态”方向的研究,减少业界和学界自建数据的成本 [41][44] - **主要特点**:用户行为序列最长1K(开源版,内部实验支持100K);提供128维SCL多模态embedding;数据规模约1亿样本、近900万用户、3500万级item [43]
让扩散模型「可解释」不再降质,开启图片编辑新思路
机器之心· 2025-12-16 02:31
文章核心观点 - 香港中文大学MMLab与上海人工智能实验室的研究团队提出了一种名为TIDE(Temporal-Aware Sparse Autoencoders)的新框架,这是首个真正意义上面向扩散Transformer(DiT)的时序稀疏自编码器框架,旨在解决扩散模型内部机制不透明的问题[3][6] - TIDE的核心创新在于将“时序”作为扩散模型可解释性的关键,通过捕捉不同时间步中保持一致的语义因子,首次清晰呈现了扩散模型内部的渐进式生成过程,且几乎不损害模型的原始生成质量[6][7][10] - 该框架在多个主流扩散模型(如Stable Diffusion XL, PixArt-α, Flux)上得到验证,不仅实现了高质量、可解释的语义因子分解,还催生了全新的“因子级”图像编辑方式,并提升了模型的结构理解与安全性,标志着扩散模型可解释性研究的重要突破[8][12][14][17] 技术原理与创新 - **以时序为核心**:TIDE突破了以往忽视扩散过程时间线的方法,它并非“硬拆”静态特征,而是让模型在时间维度上对齐语义,形成可读、可控的“时间语义剖面”[6] - **无损可解释性**:TIDE的稀疏自编码器在特征空间进行无损重构,扩散轨迹保持稳定,对生成质量影响极小,FID、sFID变化小于0.1%,实现了“可解释而不降质”[7][10] - **因子分解**:TIDE将扩散特征分解为具有明确可控语义的因子,例如负责轮廓、物体姿态、材质纹理的因子,甚至可以捕捉跨时间的概念演化[8] 性能表现与效果 - **生成质量保持**:在多种设置下,TIDE对FID指标的影响很小。例如,在默认配置(5% sparsity, 16d)下,FID仅从基线7.30增加到7.45(增加0.15)[15] - **语义理解提升**:TIDE显著提升了AlignScore中的语义绑定(颜色、形状、纹理)和关系理解(空间与非空间关系)指标,在多项指标上取得最优表现(表中绿色标记)[12][15] - **泛化能力强**:TIDE在SDXL和FLUX-dev等不同主流扩散架构上均表现出稳定的优势。例如,在SDXL上,TIDE的FID增加(+0.14)小于传统SAE(+0.20)[15] - **安全性增强**:在安全性评测中,TIDE将攻击成功率(ASR)降至0.64%,显著低于基线SDv1.4的17.80%,显示出更稳健的特征理解能力[14][15] 应用与影响 - **因子级图像编辑**:基于TIDE分解出的语义因子,研究团队构建了全新的图像编辑方式,无需依赖繁琐提示语或反复调参,即可直接操控扩散过程,实现如调整物体姿态但保持背景一致等操作[8][13] - **推动研究范式**:TIDE不仅是一个技术方法,更是一种新的研究范式,它证明了扩散模型并非不可解释,只是缺少合适的视角(时序),为未来的可解释性研究开辟了道路[17][19] - **未来发展方向**:TIDE为更可控、稳健的扩散编辑系统、统一理解-生成模型的因子级桥接、扩散模型的因果与语义理论研究以及新一代透明可信的视觉生成系统奠定了基础[21]
告别「手搓Prompt」,前美团高管创业,要让物理世界直接成为AI提示词
机器之心· 2025-12-16 02:31
2025 年,AI 硬件赛道喧嚣一片。从形态各异的 AI 眼镜,到 OpenAI 传闻中的无屏设备,无数玩家正试图摆脱智能手机的束缚。 其底层逻辑清晰可见,今天的 AI 不缺智商,缺乏的是「在场感」 。 被困在对话框里的大模型如同「缸中之脑」。当你需要复盘会议或分析孩子情绪时,却不得不将鲜活场景压缩成干巴巴的文字描述,这种依赖「手动 Prompt」的 交互不仅低效,更是反人性的。我们被迫充当了 AI 的「人肉传感器」,而大模型因缺乏 Context(上下文语境),始终处于对物理数据的极度饥渴中。 「在物理世界中,人类本质上是被动的生物。我们期望让 AI 变得主动。」Looki 创始人兼 CEO 孙洋一语道破 。 正是带着这样的思考,一支自带自动驾驶基因的团队,试图将那套解析道路环境的「从感知到决策」逻辑复用到日常生活中,填补大模型对于物理世界的认知 「盲区」。他们打造的 Looki L1,在北美市场积累首批口碑后,于今天正式面向国内发布。 这款 AI 原生多模态可穿戴设备,旨在将实时视听信号转化为模型上下文,让物理世界本身,成为驱动 AI 思考与服务你的最高效 Prompt。 一、藏在 30g 机身里的「智能 ...
AAAI 2026|视频大语言模型到底可不可信?23款主流模型全面测评来了
机器之心· 2025-12-15 10:00
为此, 合肥工业大学研究团队携手清华大学研究团队推出了首个面向视频大语言模型的综合可信度评测基准 Trust-videoLLMs。 该工作以 Oral 形式被 AAAI 2026 接收。Trust-videoLLMs 对 5 款商业模型和 18 款开源模型进行了全面评估。评测涵盖真实性、鲁棒性、安全性、公平性、隐私五 大维度,包含 30 项精心设计的任务。同时,团队还提供了一个专门用于研究视频大语言模型安全可信能力的工具箱,该工具箱采用统一接口和模块化设计,便于 模型交互和任务执行。 近年来,视频大语言模型在理解动态视觉信息方面展现出强大能力,成为处理真实世界多模态数据的重要基础模型。然而,它们在真实性、安全性、公平性、鲁 棒性和隐私保护等方面仍面临严峻挑战。 论文地址:https://arxiv.org/pdf/2506.12336 项目主页:https://github.com/wangyouze/Trust-videoLLMs 评测什么? Trust-videoLLMs 构建了一个系统化、多层次、可扩展的评测体系,包含五个核心维度: 真实性 (Truthfulness): 视频描述、时序理解、事件推理、 ...
Thinking Machines首款产品重大更新:K2 Thinking、Qwen3-VL都可以微调了
机器之心· 2025-12-15 10:00
Thinking Machines Lab及其产品Tinker的更新 - 由前OpenAI CTO Mira Murati创办的Thinking Machines Lab,其首款产品Tinker API已正式取消候选名单,向所有用户开放[1] - Tinker API旨在简化大型语言模型的后训练过程,开发者只需专注于训练数据和算法,而将调度、调优、资源管理和基础设施可靠性等复杂工作交由Tinker处理[1] - 此次更新包含三项主要功能增强:支持对万亿参数规模的Kimi K2 Thinking模型进行微调;提供兼容OpenAI API的全新推理接口,实现即插即用;新增支持视觉输入的两款Qwen3-VL模型[1] Tinker产品的核心价值与能力 - Tinker通过将训练基础设施抽象为API,使开发者无需自行采购GPU、搭建集群或维护分布式训练,显著降低了使用前沿大模型的门槛和成本[4] - 该平台首次让普通开发者能够微调万亿参数的Kimi K2 Thinking模型,这曾是顶级实验室的专属能力[4] - 新增的视觉模型支持(Qwen3-VL-30B-A3B-Instruct和Qwen3-VL-235B-A22B-Instruct)进一步降低了视觉语言模型的应用门槛,支持处理图片、截图及示意图等内容[1][4] 视觉能力展示与性能评估 - 为展示视觉能力,研究团队对Qwen3-VL-235B-A22B-Instruct模型进行了微调,并在Caltech-101、Stanford Cars、Oxford Flowers、Oxford Pets四个经典图像分类数据集上进行评估[4] - 研究将图像分类任务建模为文本生成问题,即给定图片,模型直接输出类别名称,并与传统的视觉基线方案DINOv2进行对比[4] - 在小样本数据场景下,经过微调的Qwen3-VL-235B-A22B模型表现优于DINOv2,这得益于其庞大的模型规模以及作为视觉语言模型所具备的通用语言与视觉联合知识[7]
NeurIPS 2025|指哪打哪,可控对抗样本生成器来了!
机器之心· 2025-12-15 08:10
近日,在全球人工智能领域最具影响力的顶级学术会议 NeurIPS(神经信息处理系统大会)上, 清华大学和蚂蚁数科联合提出了一种名为 Dual-Flow 的新型对抗攻 击生成框架。 简单来说,Dual-Flow 是一个能够从海量图像数据中学习 "通用扰动规律" 的系统,它不依赖目标模型结构、不需要梯度,却能对多种模型、多种类别发起黑盒攻 击。其核心思想是通过 "前向扰动建模 — 条件反向优化" 的双流结构,实现对抗样本的高可迁移性与高成功率,同时保持极低的视觉差异。 可以把它理解为一个" 可控的对抗样本生成器 ", 只需指定想攻击的图像类别(如狗类、人类),模型就能自动生成该类别下逼真且有效的攻击图像 ,为 AI 安全 带来了前所未有的挑战。 研究背景与意义 论文标题:Dual-Flow: Transferable Multi-Target, Instance-Agnostic Attacks via In-the-wild Cascading Flow Optimization 作者:Yixiao Chen, Shikun Sun, Jianshu Li, Ruoyu Li, Zhe Li, Junliang ...
国产芯片也能跑AI视频实时生成了,商汤Seko 2.0揭秘幕后黑科技
机器之心· 2025-12-15 08:10
机器之心报道 编辑:杨文 自 Sora 2 发布以来,各大科技厂商迎来新一轮视频生成模型「军备竞赛」,纷纷赶在年底前推出更强的迭 代版本。 视频来自 Seko 官网,创作者:噪维 AIGC 谷歌推出 Veo 3.1,通过首尾帧控制和多图参考解决了以往视频生成「抽卡」随机性太强的问题;Runway 拿 出 Gen-4.5,强化了物理模拟和表情动作迁移;快手祭出 Kling 2.6,实现了原生音画同步…… 各家都在炫技,但一个更本质的问题却常被忽略:这些模型距离真正的生产力工具,究竟还有多远? 12 月 15 日,商汤科技产品发布周正式开启,第一天就重磅上线了全新的 Seko 2.0 版本 ,让 AI 短剧创作真 正实现「一人剧组」。 比如只需输入一句简单的提示词,它立马就能策划剧本大纲,生成分镜和视频,整个过程相当麻溜。 视频来自 Seko 官网,创作者 : 小铭 AI 百宝箱 无论是 1 分半钟的 3D 艺术风格的动画短片: 还是唇形同步精准的数字人音乐 MV,Seko 2.0 也都能在最短时间内信手拈来。 视频来自 Seko 官网,创作者 : AI 制片人 Webb 作为行业首个创编一体、多剧集生成智能体 ...