Workflow
机器之心
icon
搜索文档
DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波情绪轨迹动态评估
机器之心· 2025-12-07 04:33
论文成果与学术认可 - 趣丸科技与北京大学软件工程国家工程研究中心合作发表的关于大语言模型情感支持评估框架的论文,获人工智能顶级学术会议AAAI 2026录用 [2] - AAAI 2026会议投稿竞争激烈,共收到31000篇投稿,最终录用4167篇,录用率仅为17.6%,创历史新低 [3] 研究背景与问题定义 - 情感支持是人机交互的核心能力,但现有大语言模型评估多依赖简短静态对话,未能捕捉情感支持的动态和长期性质 [5] - 情感支持对话已从情绪识别和生成,扩展到角色扮演、心理陪伴等更广泛的以人为中心的任务 [5] - 开发有效的情绪支持不仅能减少负面情绪,还能通过持续高质量互动帮助维持积极的情绪状态 [5] 核心贡献与评估框架 - 团队提出了一套名为ETrajEval的全新评估框架,用于更科学系统地评估大语言模型在长期对话中提供情感支持的能力 [6] - 该框架旨在解决现有评估方法的两大局限:缺乏长期动态互动,以及过分强调以模型为中心的响应质量 [8][9] - 框架采用以用户为中心的视角,关注用户在整个交互过程中的情感轨迹,认为能持续改善并稳定用户情绪状态的模型才具备情感支持能力 [9] - 基于心理学理论,框架提出了三个轨迹层面的量化指标:平均情绪水平、情绪轨迹波动和情绪质心位置,用于表征用户情绪状态的动态变化 [11] - 动态评估框架由三大支柱组成:评估环境、动态交互和基于情感轨迹的指标 [12] 实验设计与数据集构建 - 构建了一个包含328个交互环境以及1152个可能影响人类情绪的干扰事件的大规模基准,以模拟真实情绪变化并评估模型的适应性 [14] - 利用基于心理学理论的情绪调节策略来约束模型响应,鼓励符合已验证治疗原则的支持性行为 [14] - 模拟了涉及重复情绪干扰的长期动态交互,用户情绪轨迹被建模为一阶马尔可夫过程,并应用因果调整的情绪估计来实现对情绪状态的无偏追踪 [14] - 主要贡献包括:提出了动态长期的评估框架与三个轨迹级指标;构建了大规模基准数据集;通过对业界领先模型的广泛评估,发现它们在长期情感支持能力方面存在显著差异 [15] 模型评估结果与关键发现 - 评估了包括闭源与开源在内的多款业界领先大语言模型,如ChatGPT-4o-Latest、Gemini-2.5-Pro、Claude-Opus-4、DeepSeek系列、Qwen系列、Kimi-K2-Preview等 [16] - 关键发现一:顶级的开源模型和闭源模型在整体情感支持能力方面没有显著差异 [16] - 关键发现二:专门为角色扮演设计的模型在维持用户积极情绪状态方面并未优于通用型大语言模型 [16] - 关键发现三:模型在英语对话中展现出比中文对话中显著更强的长期情感支持能力,大多数模型能帮助用户在英语对话中维持更高的平均情绪水平 [17] - 关键发现四:在具体策略应用方面,模型在英语对话中动态调整策略的能力不足;而在中文对话中,模型引导用户改变外部环境以改善情绪的策略应用明显较弱 [17] 可视化分析与深度洞察 - 通过情绪质心位置可视化分析发现,表现最佳的模型(如ChatGPT-4o-Latest、Kimi-K2-Preview)在引导用户达到积极稳定的情绪状态方面能力更强 [21] - 一些针对英语指令调整的模型的质心定位优于其对应的中文模型,表明不同语言的预训练和对齐方式在情绪调节策略上存在差异 [21] - 情绪轨迹可视化表明,情绪轨迹波动得分较高的模型能更有效地帮助用户从低落的情绪状态中恢复,并对多次干扰事件表现出更强的抵抗力 [22] 模型校准与人类一致性验证 - 为验证情感识别模型与人类感知的一致性,构建了一个包含近2000个中英文多轮对话的人工标注数据集 [26] - 提出的因果增强估计校准方法能有效降低混杂因素的影响,提升模型的情感识别性能,应用后不同模型的性能均得到提升 [26] - 评估模型结合校准方法后,与人类判断具有高度一致性,在中文对话上的准确率达到75%,在英文对话上的准确率达到90% [27] 总结与关联项目 - 提出的情感动态轨迹分析框架能更全面、多维度地评估模型的情感支持能力,且与人类评估结果高度一致 [28] - 团队还开源了关联项目,包括测评体系和框架PQAEF,以及情感陪伴能力测评基准和数据集MoodBench [29][30] - 同时开源了趣丸开天情感陪伴大模型供交流与体验 [32]
两个LLM互相对线,推理能力起飞:康奈尔团队发布大模型版类GAN训练法
机器之心· 2025-12-07 02:52
研究背景与核心观点 - 当前大型语言模型在数学推理等任务上仍高度依赖外部监督数据,如人工标注[2] - 研究提出一种类似生成对抗网络的训练范式,通过两个模型(Proposer和Solver)的对抗与共同进化,旨在解决单一模型难以胜任的任务[2] - 该框架名为PasoDoble,由康奈尔大学团队提出,其核心特点是在整个训练过程中完全不依赖任何监督信号[3] 方法论与框架设计 - PasoDoble框架包含四个核心组件:问题生成模型、问题求解模型、知识库以及用于离线训练的题目缓冲区[9] - 训练过程分为在线与离线两种范式,在线训练中两个模型同步更新,离线训练中则交替冻结进行更新[9][10] - 问题生成模型的奖励机制由难度奖励和多样性奖励构成,旨在鼓励其生成既困难又新颖的问题[13][21] - 难度奖励与求解模型的通过率成反比,即使问题非常简单也能获得基础奖励,以确保问题生成的持续性[15][16] - 多样性奖励通过计算与历史问题的Jaccard相似度来鼓励生成独特问题,避免模式退化[17][20] - 问题求解模型的奖励设计相对简单,仅依赖于其答案与问题生成模型提供的标准答案是否一致的正确性奖励[22][23] 实验结果与性能提升 - 在Qwen3-1.7B-Base模型上,应用PasoDoble后,其在AIME 2024的准确率从2.22%提升至7.22%,在AIME 2025从1.67%提升至7.22%[6] - 在Qwen3-4B-Base模型上,应用PasoDoble后,其在AIME 2024的准确率从6.11%提升至18.89%,在AIME 2025从2.78%提升至18.89%[6] - 在完全无监督条件下,PasoDoble使Qwen3-1.7B-Base在数学任务上的平均性能提升约13个百分点,使Qwen3-4B-Base提升约16个百分点[7] - 在MATH-500基准上,使用Qwen3-1.7B的求解模型准确率从45%提升至67%,并在第20步训练后即超过基线模型[11] - 性能提升具有规模效应,在Qwen2.5-1.5B/3B和Qwen3-1.7B/4B等更大规模模型上提升更为显著[28] - 消融实验表明,使用完全随机奖励进行训练会使求解模型在所有数学基准上的平均准确率几乎降至零,证明了从问题生成模型答案中学习的重要性[36][37] 模型行为分析 - 对问题生成模型的分析显示,即使提示问题前缀重叠达到80%,其生成问题与提示的精确匹配率也仅为12%(使用知识库)和31%(不使用知识库),表明绝大多数生成的问题源于推理而非对训练数据的简单记忆[38][39] 研究意义与未来方向 - 该研究为大语言模型提供了一种通过对抗式训练提升数学推理能力的新路径,并在多个竞赛级数学基准上取得了可量化的显著提升[41] - 该方法通过利用预训练知识库,在模型的预训练阶段与后训练阶段之间建立了有效连接[41] - 当前框架在如GPQA等特定领域外任务中尚未表现出性能提升,未来研究将探索将该框架拓展至代码生成、事实问答等其他领域[41] - 研究指出,探索更广泛的多模型训练范式,包括协作式、竞争式以及角色专门化等设置,对于解决更复杂的任务至关重要[41]
M系列芯片一号人物准备离开,苹果高管流失正在失控
机器之心· 2025-12-07 02:52
苹果公司近期高管变动概况 - 近期苹果公司高管变动频繁,集中在短短几天内发生,标志着公司正经历一场巨大的人事震动 [12] 人工智能领域人事变动与战略调整 - 苹果负责机器学习与人工智能战略的高级副总裁约翰・詹南德雷亚于12月1日宣布退休,预计退休时间为2026年春季 [2] - 知名人工智能研究员阿马尔・苏布拉马尼亚已加入苹果,出任人工智能副总裁,并向高级副总裁Craig Federighi汇报工作 [2] - 这一事件标志着苹果对人工智能定位的转变,AI不再是一个单独向CEO汇报的部门,而从属于软件工程之下 [3] - 苹果设计总监Alan Dye于12月4日宣布离开苹果,将前往Meta组建全新的设计工作室,其跳槽原因部分在于对苹果在人工智能领域进展缓慢的失望 [3][4] - 苹果基础模型团队负责人庞若鸣于今年七月离职并加入Meta [19] - 苹果公司AKI团队负责人Ke Yang于今年十月离职,加入Meta超级智能实验室 [19] 硬件与芯片领域核心高管潜在流失 - 苹果硬件技术高级副总裁、“苹果芯片”之父约翰尼・斯鲁吉已向CEO表示,正在“认真考虑”在不久的将来离开苹果 [7] - 斯鲁吉于2008年加入苹果,负责领导苹果设计的首款系统级芯片A4芯片的开发,并建立了公司的芯片和硬件技术团队 [10][11] - 如果斯鲁吉最终离职,将成为苹果高管层一系列重大人事变动中的最新一位 [12] 其他核心高管退休与离职计划 - 法律总顾问凯瑟琳・亚当斯计划于2026年底正式退休 [13] - 环境、政策及社会事务副总裁丽莎・杰克逊也已宣布将离任 [13] - 首席运营官杰夫・威廉姆斯在任满十年后退休,接棒者为萨比赫・汗 [13] - 首席财务官卢卡・马埃斯特里已于2025年初逐步交接核心职责,并将于不久后正式退居二线 [13] 人才流失与公司面临的挑战 - 苹果公司因为一直显得非常保守的发展策略,越来越留不住人才,近期高管离职只是冰山一角 [14] - 苹果CEO表示“人工智能一直是苹果战略的核心”,但公司总是处于被动状态,众多高管和人才的离开为公司敲响了警钟 [14] - 今年九月,OpenAI从苹果挖了20多人搞硬件,包括在苹果工作近15年的用户界面设计总监Cyrus Daniel Irani,以及制造设计领域的17年老将Matt Theobald和Apple Watch硬件团队高层Erik de Jong [19] 公司领导层未来变动 - 据报道,CEO蒂姆・库克最早可能于明年卸任,苹果董事会也已开始认真推进接班人计划 [17] - 目前苹果硬件工程高级副总裁约翰・特纳斯被视为最有希望接任CEO职位的头号人选 [17]
更多非共识,Test-time Scaling 能否一直大力出奇迹?
机器之心· 2025-12-07 01:30
Test-time Scaling 的发展现状与争议 - Test-time Scaling 通过在推理阶段动态投入更多计算资源以提升大语言模型性能 已成为当前重要范式 自2024年第三季度起关注度持续攀升[7] - 学术界通过“What How Where How well”四个维度系统梳理了Test-time Scaling方法 其中“What”关注扩展对象如思维链长度 “How”关注扩展方法如搜索或强化学习 “Where”关注适用任务 “How well”关注效果评估[8][9][10][11] - 该范式发展已逾一年 业界对其机制理解加深 但在改进思路上仍存在分歧与反思[12] Sequential 与 Parallel 路线的对比与局限 - 以增加思维链长度为核心的Sequential路线 曾被DeepSeek-R1等“o1-like”模型采用 试图从思考深度提升模型性能[12] - 复旦大学团队研究发现 更长的思维链并不能持续提高准确率 因为正确答案的计算周期通常更短 而长思维链包含更多自我修正 反而可能导致性能下降[12] - 该研究提出了Parallel方法 通过并行推理获取多个推理路径并聚合答案 从思考广度提升性能 作为对Sequential路线的改进方案[13] Test-time Scaling 的未来改进方向 - 随着Sequential路线方法逐渐接近瓶颈 当前External路线方法(如Parallel Hybrid)非常流行[14] - 有观点认为Test-time Scaling的未来或许不在于更多计算 而在于更聪明的搜索[14] - 除了关注推理密集型任务 业界也开始探索Test-time Scaling的能力提升能否适配更多场景[14] Skills与MCP的生态位竞争 - 社区对于模型上下文协议(MCP)的定位仍有争议 目前平均25个用户对应1个开发者 其更多是开发者自娱自乐的产物[2] - Skills被指意在取代MCP 但MCP能做而Skills不能做的功能 目前看来用途不大[2] - MCP的大规模落地可能需等待类似“微信小程序”的下一个入口出现[2] OpenAI的平台战略与行业洞察 - 曾被视作真理的“单模AGI”在商业现实面前已彻底梦碎[3] - 曾被预言即将消亡的“提示词工程” 已演变为更复杂的“上下文工程”[3] - 要真正掌控模型大脑 必须遵从“强化微调”[3] - 在开源模型日益强大的今天 “拥有权重”并不等同于“拥有服务能力”[3] - “按量计费”可能成为AI商业化的最终形态[3]
刚刚,英伟达CUDA迎来史上最大更新!
机器之心· 2025-12-06 04:08
核心观点 - NVIDIA发布了CUDA Toolkit 13.1,这是其CUDA平台自2006年诞生以来20年最大的一次更新[2] - 此次更新的核心是引入了全新的、更高层级的CUDA Tile编程模型,旨在简化GPU编程,特别是针对AI领域的张量计算,并抽象化专用硬件细节[4][6][14] - 更新还包括对Green Context的运行时API支持、多进程服务(MPS)增强、开发者工具升级以及核心数学库的性能优化,全面提升了软件栈的能力和效率[18][23][31][37] CUDA Tile 编程模型 - **核心概念与优势**:CUDA Tile是一种基于Tile(数据块)的编程模型,允许开发者在高于传统单指令多线程(SIMT)的层级编写GPU核函数[6] 开发者只需指定数据块(Tile)和要在其上执行的数学运算,编译器和运行时环境会自动决定将工作负载分发到各线程的最佳方式,从而简化了高性能代码的编写[7][14] - **抽象硬件细节**:该模型屏蔽了调用Tensor Core等专用硬件的底层细节,并且使用CUDA Tile编写的代码将能够兼容当前及未来的GPU架构[8][14] - **组成组件**:CUDA 13.1包含两个用于Tile编程的组件:CUDA Tile IR(一种用于NVIDIA GPU编程的全新虚拟指令集架构)和cuTile Python(一种新的领域特定语言,用于在Python中编写基于数组和Tile的核函数)[9] - **当前支持与未来规划**:目前CUDA Tile仅支持NVIDIA Blackwell(计算能力10.x和12.x)系列产品,开发重点聚焦于AI算法的Tile编程[15] 公司计划在未来的CUDA版本中扩展对更多架构的支持,增加更多特性、功能并提升性能,同时引入C++实现[15] 运行时与多进程服务(MPS)更新 - **Green Context运行时支持**:自CUDA 13.1起,轻量级的Green Context正式在运行时API中开放使用,此前已在驱动API中提供[19][20] 它允许用户定义和管理GPU资源的独立分区(主要是流式多处理器SM),可用于确保高优先级、低延迟的任务始终有可用的SM资源[20] - **可定制的SM分区**:引入了更加可定制的`split()` API,使开发者能够通过单一接口构建此前需要多次API调用才能完成的SM分区,并配置工作队列以减少不同Green Context之间的伪依赖[21] - **内存局部性优化分区(MLOPart)**:这是NVIDIA Blackwell系列及更新GPU上的一项新特性,允许基于同一物理GPU创建多个专门优化内存局部性的独立CUDA设备,每个设备拥有更少的计算资源和更小的可用内存[24][26] 目前该功能仅支持NVIDIA B200与B300系列产品[27] - **静态流式多处理器(SM)分区**:针对NVIDIA Ampere架构及更新GPU,为MPS客户端提供了一种创建独占SM分区的方法,旨在提供确定性的资源分配并改善客户端之间的隔离性[28] 开发者工具与性能分析 - **Nsight Compute增强**:增加了对CUDA Tile核函数的性能分析支持,在摘要页新增“Result Type”列以区分Tile与SIMT核函数,在详情页新增“Tile Statistics”部分总结Tile维度和管线利用率,并在源码页支持将指标映射到高层级的cuTile源码[32][34] - **编译时修补与插桩**:NVIDIA Compute Sanitizer 2025.4通过`-fdevice-sanitize=memcheck`编译器标志,增加了对NVCC编译时修补的支持,增强了内存错误检测能力和工具性能[33] 编译时插桩可将错误检测直接集成到NVCC中,实现更快的运行速度并捕捉更隐蔽的内存问题[35] - **Nsight Systems新功能**:NVIDIA Nsight Systems 2025.6.1带来了系统级CUDA追踪、CUDA主机函数追踪、默认的CUDA硬件追踪模式以及显示SM分配情况的Green Context时间轴行等新追踪功能[40] 核心数学库性能更新 - **cuBLAS性能提升**:CUDA 13.1增加了对FP4、FP8和BF16数据类型的性能支持[38] 并引入了一项全新的实验性API,支持Blackwell GPU的分组GEMM功能,兼容FP8和BF16/FP16数据类型,在MoE用例中,其设备端形状可实现最高4倍的加速,优于多流GEMM实现[40] - **cuSOLVER性能增强**:针对Blackwell架构,用于特征分解的批处理SYEVD与GEEV API带来了显著的性能提升[41] 例如,批处理SYEV在NVIDIA Blackwell RTX Pro 6000 Server Edition上,相比NVIDIA L40S实现了约2倍的加速[41] 对于GEEV函数,当矩阵行数n=30000时,加速比达到约1.7[45] - **cuSPARSE新API**:引入了一种新的稀疏矩阵向量乘法(SpMVOp)API,与CsrMV API相比性能有所提升,支持CSR格式、32位索引、双精度以及用户自定义的后缀[40] - **cuFFT设备API**:引入了一套全新的cuFFT设备API,提供主机函数用于查询或生成设备功能代码和数据库元数据,旨在提升cuFFTDx库的性能[40] CUDA核心计算库(CCCL)更新 - **确定性浮点运算选项**:NVIDIA CCCL 3.1为`cub::DeviceReduce`提供了额外的浮点确定性选项,允许用户在确定性和性能之间进行权衡[49] - **更便捷的单相CUB API**:为一些接受内存资源的CUB算法添加了新的重载,使用户可以跳过繁琐的临时存储查询、分配和释放的两阶段调用模式,简化了API使用[51][52]
Yann LeCun离开Meta后首篇论文?使用了宇树机器人做研究
机器之心· 2025-12-06 04:08
研究核心观点 - 伯克利、纽约大学和约翰・开普勒林茨大学的研究人员提出名为GenMimic的新方法,使人形机器人能够零样本模仿AI生成视频中的人类动作,即使视频存在噪声或变形,机器人也能提取核心动作逻辑并在物理世界中复现 [1] - 该研究是首个使人形机器人能够执行由视频生成模型生成动作的通用框架,并在仿真和真实世界实验中验证了其可行性 [4] 研究方法与框架 - 研究提出一个基于4D重建的两阶段流程:第一阶段从生成视频中提取并重定向SMPL参数到机器人关节空间,第二阶段通过新的GenMimic跟踪策略输出物理上可执行的关节角度 [15][17][18] - 方法采用加权关键点跟踪奖励和对称损失增强策略鲁棒性,使策略能选择性关注任务关键点(如末端执行器)并利用人体对称性应对生成视频中的噪声 [22][23][25][26] - 训练使用对称正则化和选择性加权的3D关键点奖励,尽管仅在现有动作捕捉数据上训练,却能泛化到充满噪声的合成视频 [4] 数据集构建 - 研究团队创建了名为GenMimicBench的合成人类动作数据集,包含428个由Wan2.1和Cosmos-Predict2视频生成模型创建的视频,涵盖广泛的主体、环境和动作类型 [8][9][11] - 数据集包含217个使用Wan2.1生成的多视角室内结构化视频,以及211个使用Cosmos-Predict2生成的模拟YouTube风格的自然场景视频,旨在评估策略在视觉和动作分布偏移下的零样本泛化能力 [11][12][13] 实验表现与结果 - 在仿真实验中,GenMimic方法在GenMimicBench数据集上显著优于基线模型,其教师模型获得了86.77%的成功率,远高于BeyondMimic的23.81%和TWIST的2.69% [30][31] - 在真实世界实验中,研究团队将策略部署在23自由度的宇树G1人形机器人上,推演了43个动作,对于原地动作(如挥手、伸展)视觉成功率高达1.0,但涉及下半身运动(如步进、转身组合)的动作成功率较低,在0.20至0.60之间 [29][32][33][34] - 仿真训练在IsaacGym中进行,样本量超过15亿,使用了四个NVIDIA RTX 4090 GPU,部署使用单个NVIDIA 4060移动版GPU [29]
AAAI 2026|新突破:北大彭宇新团队提出可见光-红外终身行人重识别方法CKDA
机器之心· 2025-12-06 04:08
研究背景与问题定义 - 终身行人重识别旨在通过持续学习新增数据中的新信息,同时保持对已知数据的识别能力,在公共安防、社区管理、运动分析等领域有重要价值 [2] - 在可见光-红外终身行人重识别场景中,现有方法在持续学习特定模态新知识时,会阻碍跨模态公共旧知识的保留,导致单模态专用知识获取与跨模态公共知识保留之间存在冲突 [2][9] 核心技术方案 - 北京大学彭宇新教授团队提出跨模态知识解耦与对齐方法CKDA,核心思想是避免可见光与红外模态知识的互相干扰,实现跨模态知识的高效平衡 [11] - CKDA包含三个核心模块:1) 跨模态通用提示模块,用于提取并净化两种模态共存的鉴别性知识;2) 单模态专用提示模块,用于促进特定模态知识的保留与净化;3) 跨模态知识对齐模块,在独立特征空间中对齐解耦后的新旧知识 [12] - 跨模态通用提示通过实例归一化缓解模态间风格差异,并自适应融合特征以提升通用知识的鉴别性与一致性 [14][16] - 单模态专用提示通过优化提示损失,促进特定模态知识的保留 [22] - 跨模态知识对齐通过构建并利用旧知识原型,在模态内与模态间特征空间分别对齐新旧知识,以缓解灾难性遗忘 [23][25] 实验结果与性能 - CKDA方法在由四个常用可见光-红外行人重识别数据集组成的终身学习基准上均取得了当前最优性能 [3] - 具体而言,CKDA的平均mAP达到36.3%,平均R1达到39.4%,优于所列的所有对比方法 [28] - 可视化结果表明,跨模态通用提示关注两种模态共存的行人整体轮廓和体态信息,而单模态专用提示关注特定模态知识,两者以互补方式提升模型感知能力 [29][30]
Skills vs MCP,谁才是「大模型的 HTTP 时刻」?
机器之心· 2025-12-06 02:30
文章核心观点 - 文章探讨了Anthropic推出的MCP协议在发布一年后的发展现状、社区争议及其与Claude Skills的关系,核心在于分析MCP协议的真实定位、适用边界及其作为基础设施的潜在价值,而非简单地将Skills视为MCP的替代品[1][7][12] builder 比 user 还多,MCP 仅是「旧瓶装新酒」? - 自发布一年以来,MCP的定位、适用场景和未来发展在业内存在持续争议[4] - 从技术栈看,MCP被定义为“client和server之间的通信协议 + 统一工具访问方式”,而非“AI USB”、Function Calling升级版或万能Agent框架[4] - 支持者视MCP为“大模型的HTTP时刻”,是AI下一阶段掌握工具能力的基础[4] - 反对者认为MCP是“旧瓶装新酒”,沿用了传统的服务注册和路由方法,仅将工具调用协议化,更“AI化”的做法应是将工具描述嵌入向量空间进行一步到位的匹配[4] - 另有观点认为Function Calling已规范工具调用,MCP只是将其转为显式协议,在当前生态下更像过渡方案[4] - MCP生态呈现“builder多于user”的现象,有科技博主称“MCP is probably the only piece of tech that has more builders than users”,该言论浏览量超28万[4] - 社区数据显示,已上线超过6000个MCP服务器,活跃开发者2000-3000人,终端用户约50000-75000人,平均25个用户对应1个开发者[5] - 服务器关注度分布不均,排名前10的服务器吸引了近一半用户关注,前10%的服务器获得了88%的星标[5] - 目前除少数面向开发者的IDE支持MCP外,主流网页端AI应用并不直接提供MCP接入,普通用户难以感知和使用[5] - MCP在实际使用中存在调用效率较低、资源消耗高和运行不够稳定等问题,企业发现直接通过系统API访问比通过MCP协议调用更便捷,因此MCP生态更多停留在开发者技术实验和内部验证阶段[5] - 社区认为MCP目前更适用于B端的“Data Open + 工具复用”场景,例如:需要向第三方开放扩展的平台、需跨多端复用同一套工具并进行版本管理、以及内部工具链尚未标准化时使用MCP SDK来统一流程[5][6][7] - 对于小型内部项目或一次性集成需求,使用MCP会增加不必要的复杂度;对于性能敏感的应用,MCP协议层的抽象和基于JSON-RPC的通信格式可能成为效率瓶颈[7] Not Skills vs MCP, but Skills with MCP? - Anthropic推出Claude Skills后,社区引发了关于Skills和MCP定位与分工的讨论[7] - 分析认为Skills更关注“如何做”,即业务流程和策略层面;MCP则回到具体“执行层”,主要负责调用后端工具[8] - Skills相当于“带知识的可移植工具调用+子代理”,封装了领域知识和业务逻辑;MCP则是远程调用运行在服务器上工具的机制[8] - 有用户认为Skills更像是“更省context的MCP,用来获取how-to指令”,许多MCP Server内部也会为工具编写说明性文档,作用类似Skills[9] - 在组织上,一个Skill通常由YAML头部、Skills.md文档和可选的资源文件组成,主要说明和资源文件仅在实际调用时加载,以有效节约token[9] - 举例:可为个人助手创建“会议管理”和“会议准备”等Skills,而访问邮箱、日历、Notion等外部系统的操作仍通过MCP Server完成[9] - 有观点认为Skills发布目的就是替代MCP,因为当两者功能重叠时,开发者更倾向于使用更友好的Skills;而MCP能实现但Skills不能的(如通过API实现动态更新功能)目前作用不大[10] - MCP的创新在于将模型与工具间的M×N次适配问题简化为M+N问题,但主要缺点是开发者需编写大量代码实现每个MCP Server,集成成本高[10] - 相比之下,Skills允许开发者用自然语言在SKILL.md中描述工具、资源和提示词,对开发者更友好[11] - Skills可以在提示中直接为LLM提供业务流程指导和思路,而MCP本身只是被动暴露工具接口,无法主动控制LLM的思维方式[12] - 从实用角度,对普通开发者和用户而言,“拿来即用的Skills市场”比“自己写MCP server”更有吸引力,标准化和共享的Skills可降低使用门槛[13] - MCP工具描述往往非常耗费token,例如官方的GitHub MCP接入需消耗上万token,部分团队通过让LLM直接调用CLI工具等轻量方法来替代部分MCP流程以提高效率[13] - 也有人认为现状是“Not Skills vs MCP, but Skills with MCP”,即Skills负责封装和组织业务流程、调用顺序,MCP则继续发挥接入数据和工具的作用[12] 过去一年,围绕 MCP 的 infra 层格局逐渐清晰? - 有分析指出,MCP的大规模落地可能还需等待下一个类似“微信小程序”的入口出现[3]
AAAI 2026 | 北航、东京大学填补AI「语义鸿沟」,过程感知视频理解如何找到「状态」锚点?
机器之心· 2025-12-06 01:15
文章核心观点 - 北京航空航天大学与东京大学联合团队提出名为TSS的新框架,通过引入“状态”作为视觉锚点,并采用渐进式“层级展开”预训练策略,有效解决了程序性视频理解中抽象文本指令与具象视频内容之间的语义鸿沟问题,该工作已被AAAI 2026接收[2][3][7] 现有方法的问题与挑战 - 现有程序性视频学习方法面临数据困境,依赖昂贵的时间密集型标注或利用WikiHow等外部知识库进行弱监督学习,将视频帧与“任务”或“步骤”文本描述强行对齐[2] - 弱监督方式存在优化空间,抽象语言描述与具体视觉像素之间存在断层,例如文本指令“切橙子”与视频中橙子从完整到果肉外露的连续形态变化不匹配,导致模型难以准确理解[2] - 传统“任务-步骤”二元结构过于抽象,视觉传感器捕捉到的是物体视觉状态的连续改变,与粗糙的步骤描述存在信息错位[5][7] TSS框架的核心创新 - 核心洞见在于重构过程性知识的层级结构,在“任务”和“步骤”之上引入了第三层语义——“状态”[3][7] - “状态”被定义为视觉可感知的物体属性具体变化,例如“切橙子”步骤可分解为“橙子完整”、“刀切入橙皮”、“橙子果肉外露变为切片”等状态快照,能够直接作为锚点将抽象步骤锁定在具体视频帧上[7][13] - 利用大语言模型基于现有WikiHow文本数据自动化生成“状态”描述,极大降低了数据成本,无需人工逐一标注[19] 渐进式“层级展开”训练策略 - 摒弃粗暴的“混合训练”,提出符合认知规律的渐进式训练策略,设计了一条Task → Step → State → Step → Task的U型学习路径[9][10] - 策略分为两个阶段:向下扎根,从高层任务出发学习到底层“状态”,迫使模型关注具体视觉证据;向上反哺,在掌握视觉细节后,带着“状态”知识回归高层,重新审视“步骤”和“任务”[11][14] - 实验证明,构建分析-综合闭环的路径(如Path-5: Task→Step→State→Step)性能最优,让模型学习“状态”可以反哺对“步骤”的理解[18][20] 实验验证与性能表现 - 在COIN和CrossTask数据集上进行了下游任务测试,包括任务识别、步骤识别和步骤预测[16] - 提出的方法在多项指标上全面超越基线模型,例如在COIN数据集上,使用下游MLP时,Path-5在任务识别、步骤识别、步骤预测的准确率分别达到83.78%、44.54%、38.07,显著优于未预训练的2.09%、1.37%、0.84以及基线模型Paprika的81.54%、42.39%、34.10[17][19] - 在CrossTask数据集上,Path-5的任务识别、步骤识别、步骤预测准确率分别为89.44%、57.92%、57.13,相较于Paprika模型,步骤识别和步骤预测分别提升1.71和1.36个百分点[17] - 对比实验表明,该方法提出的渐进式路径(如Path-5)性能优于混合训练,证明了TSS框架中的层级结构存在内在逻辑,通过渐进引导能更好地建立关联[21] 工程实现与技术应用 - 采用轻量化微调策略,训练轻量级Adapter模块作为预训练阶段的高效扩展组件,以提升模型表征能力[19] - 该方法为未来构建既能理解高层规划又能精准执行细节的智能系统提供了新思路,特别是在AI Agent需要执行复杂操作的背景下,通过显式建模物体状态变化来弥合自然语言与物理世界之间的鸿沟[23]
IJCAI 2026每篇投稿收100美元,学术圈却评价颇高
机器之心· 2025-12-06 01:15
机器之心报道 大模型辅助写作,辅助审稿的出现,已经打破了原有学术会议投稿评审体系的良性循环。 简而言之,投稿到顶会的论文数量激增,导致审稿系统不堪重负,于是导致了低质量评审,大模型辅助评审,甚至完全的 AI 评审的大量出现,最离谱的就是被我 们反复鞭尸的 「Who's Adam」 经典笑话。 在这也不得不提最近处于风口浪尖的 ICLR 2026,有第三方机构在对 75800 篇论文的审稿意见统计中竟然有 21% 完全由 AI 生成、4% 重度由 AI 编辑、9% 中度由 AI 编辑、22% 轻度由 AI 编辑, 完全由人类( 审稿人)撰写 的仅占 43% 。 不光审稿如此,投稿论文数量暴增的情况下,很难说有多少论文是 AI 撰写的。 这极大程度影响了学术顶会的信誉,毕竟谁也不想被扣上一顶「水」的帽子。 各大顶会面对大模型带来的冲击,都有一些应对手段,例如: ICLR 2026 出台了大语言模型使用政策 ,是 ICLR 历来最严格的新规定,以明确规范论文作者与审 稿人在研究过程和审稿过程中使用 LLM 的做法。 但这依然很难突破眼下的困境,因为顶会的投稿数实在太多,早已不堪重负。 为了尝试打破学术论文投稿数暴增 ...