Workflow
机器之心
icon
搜索文档
「幻觉」竟是Karpathy十年前命名的?这个AI圈起名大师带火了多少概念?
机器之心· 2025-07-28 10:45
AI术语命名与概念发展 - AI大牛Andrej Karpathy首次提出“幻觉”(hallucinations)一词,用于描述神经网络生成无意义内容的现象 [1][3] - Karpathy在2015年博客中已使用“幻觉”概念,但直到2022年ChatGPT爆发后才成为研究热点 [3][6] - Karpathy被公认为AI圈“取名大师”,提出“软件2.0”“软件3.0”“氛围编程”“细菌式编程”等概念 [6][9][11] 软件范式演进 - **软件1.0**:传统编程模式,开发者需精确编写Python/C++等显式指令代码 [12][14] - **软件2.0**:神经网络时代,代码由权重参数构成,通过数据训练而非人工编写 [13][15] - **软件3.0**:提示词时代,用户用自然语言描述需求,LLM直接生成代码 [16][17] - 软件3.0特点包括:LLM作为计算平台(类比电网基础设施)、自主滑块调节AI控制程度 [19][20] 新型编程范式 - **氛围编程**:开发者仅需向LLM提出需求并全盘接受输出,无需直接编写代码 [22][23][24] - **细菌式编程**:强调代码模块化与可移植性,类似细菌基因的水平转移特性 [35][36] - 细菌式编程检验标准:代码需满足小巧、自包含、无依赖,便于开源社区复用 [35][36] 上下文工程崛起 - 上下文工程因Karpathy转发点评迅速出圈,相关帖子浏览量达220万 [42][43] - 与提示工程区别:上下文工程更注重结构化信息提供,而非单纯优化提示词 [44] - LangChain指出提示工程是上下文工程的子集,后者适用于复杂智能体构建 [43][44] 行业趋势观察 - Karpathy预测未来99.9%内容将由AI处理,文档需转向“为AI优化”格式(如Markdown) [45] - 命名在科研中具有知识奠基作用,精确术语是科学分类的“稳定靶标” [7][9]
硬核「吵」了30分钟:这场大模型圆桌,把AI行业的分歧说透了
机器之心· 2025-07-28 04:24
大模型技术演进与发展之路 核心观点 - 大模型技术从预训练为主转向强化学习主导的范式转变 [10][17][19] - 行业面临Transformer架构局限性、数据枯竭、开源闭源博弈等核心挑战 [31][41][59] - Agent应用爆发与基础模型研发需双轨并行 [53][54][55] 训练范式转变 - OpenAI从GPT-4o的预训练主导转向o1的强化学习后训练,提出测试时间扩展新维度 [13][14][15] - 强化学习可解决行为克隆难以建立目标导向推理能力的问题,但需突破自然语言反馈限制 [21][22][23] - 预训练仍是强化学习冷启动的基础,但需解决奖励机制和算力效率挑战 [25][26][27] 模型架构演进 - Transformer面临O(n²)扩展性、显存占用和长期记忆三大瓶颈 [31] - 优化路径包括RoPE位置编码、分组查询注意力等改进,以及Mamba等非Transformer架构探索 [33][34] - 智能体时代可能推动RNN架构回归,需建模无限上下文能力 [37][38] 数据供给挑战 - 高质量语料预计2028年耗尽,合成数据被Anthropic/OpenAI等广泛应用但存在迭代崩溃风险 [41][42][43] - 英伟达提出物理仿真生成边缘案例,需建立真实世界验证闭环 [44][45] - 行业数据未充分挖掘,应建立非敏感数据共享机制提升预训练质量 [46][48][51] 商业化落地路径 - 2025年Agent产品成爆点(如OpenAI Operator、智谱AutoGLM),但基础模型研发仍持续 [53][54] - 大模型当前相当于自动驾驶L3阶段,距AGI仍有差距 [55] - 金融等领域落地需突破大规模数据处理等技术瓶颈 [56][57] 开源生态影响 - DeepSeek等开源模型性能逼近闭源,冲击传统GPU/闭源产业链 [60][61] - 开源推动资源合理配置并形成行业压力,但需解决分叉滥用问题 [63][64][67] - 英伟达支持开源算力引擎,未来可能走向混合模式 [65][66]
ICCV 2025|UV-CoT:无监督视觉推理新突破,偏好优化重塑图像级思维链
机器之心· 2025-07-28 04:24
核心观点 - 提出UV-CoT框架,实现无监督视觉思维链推理,动态聚焦关键区域并提升细粒度推理能力[3][4] - 通过自动化偏好数据生成与评估流程替代人工标注,降低高昂成本并增强泛化能力[7][8] - 采用改进的sDPO算法量化偏好分数差异,结合迭代学习策略优化模型输出分布[16][17] 方法设计 - **数据生成机制**:利用目标模型和评估模型生成多样化推理响应,通过偏好评分构建数据集[11] - 响应生成:每个时间步t随机生成n个响应(含边界框和推理结果)[13] - 评估标准:综合当前区域得分及对后续回答的影响(公式:$s^i = s_{cur}^i + \gamma s_{nxt}^i$)[11] - **偏好优化**:从响应中随机选择k个偏好对构建数据集,保留最高评分链用于后续推理[14] - **迭代学习**:将数据分为m个子集动态更新,缓解模型生成分布与训练数据的差异[17] 性能表现 - **基准测试**:在六大基准上平均得分0.286(UV-CoT)和0.312(UV-CoT*),显著超越有监督模型Visual-CoT-7B(0.261)[20][22] - 具体任务:在Visual7w上达0.432,高于Visual-CoT-7B的0.397[22] - 复杂任务:GPT4V-hard OCR任务中得分0.677,对比Visual-CoT-7B的0.593[22] - **边界框质量**:自评估模式下性能仍超LLaVA-1.5-7B 4.8%,接近OmniLMM-12B(差距0.2%)[23] - 辅助推理:应用UV-CoT边界框使OmniLMM-12B和LLaVA-1.5-7B性能分别提升7.3%和4.7%[23] 应用价值 - 为多模态推理提供高效可扩展的新思路,减少对人工标注的依赖[25] - 开源资源包括论文、代码及模型(Hugging Face仓库),促进后续研究[10]
多模态大模型,真的「懂」世界吗?——揭秘 MLLM 的核心知识缺陷
机器之心· 2025-07-28 02:47
多模态大模型核心认知缺陷研究 核心观点 - 主流多模态大模型(MLLM)普遍缺乏人类婴儿期即具备的核心认知能力,且该缺陷无法通过单纯扩大模型规模解决[5][12][16] - 模型在基础物理概念(如物体恒存、空间知觉)任务中表现远低于复杂推理任务,显示其认知架构存在结构性缺失[12][14] - 通过创新评估框架CoreCognition和Concept Hacking方法,证实模型多依赖表面特征而非深层理解[6][18][20] 研究框架设计 - **CoreCognition测评体系** - 覆盖12项核心认知概念,分层设计对应感知运动期/混合期/形式运算期三阶段[11] - 包含1503个图像-问题对,测试230款模型×11种prompt生成2530个评估数据点[11] - 采用三重严谨设计标准:判别性强/混淆最小/无文本捷径[11] 关键发现 - **基础认知缺陷** - 模型在边界感/连续性/空间知觉等基础任务中准确率比复杂任务低37%-62%[12] - 物体恒存性测试中,83%的模型表现低于随机猜测水平[12] - **规模效应悖论** - 参数增加100倍仅带来基础认知能力≤5%提升,部分能力随规模扩大下降16%[16] - System-2推理模型在核心认知任务中未显现优势[19] - **虚假学习模式** - Concept Hacking测试显示,关键特征反转导致模型准确率骤降58%-72%[18][20] - 模型在70%干预测试中表现出依赖表面线索的投机行为[20] 技术启示 - 当前预训练范式无法自发形成核心认知架构,需显式注入物理常识[30] - 需开发认知引导训练机制,建立类似人类的认知scaffold结构[30] - 模型高级能力与基础认知脱节,反映现有评估体系存在盲区[14][22] 研究团队 - 跨学科团队涵盖认知科学/计算机视觉/神经工程领域[23][24][25][26][27][28][29] - 核心成员来自UC San Diego/约翰霍普金斯/卡内基梅隆等机构[23][24][29]
扣子开源全家桶,Apache 2.0加持,AI Agent又一次卷到起飞
机器之心· 2025-07-28 02:47
核心观点 - 新一代AI Agent开发平台扣子(Coze)宣布开源两款核心产品:零代码开发平台(Coze Studio)和调试工具扣子罗盘(Coze Loop),加上此前已开源的应用开发框架Eino,四大核心产品已有其三完成开源 [4][5] - 开源的两个核心产品在GitHub上Star数量迅速攀升至9.5K,成为智能体开发领域最受关注的开源项目之一 [7] - 公司选择在2025年AI Agent爆发前夕全线开源,采用高度开放的Apache 2.0协议,旨在推动行业生态发展 [6][44] 开源产品与技术特点 Coze Studio - 真正意义上的无代码开发平台,用户无需编程基础,通过拖拽方式1-2小时即可构建实用的AI应用 [10][11] - 提供最丰富的插件市场,支持知识库、数据库等组件,极大拓展智能体能力边界 [12] - 技术栈采用Golang(后端)和React + TypeScript(前端),基于微服务和DDD架构,确保高并发下的稳定性 [19][20][21] - 支持多平台发布(飞书、抖音、微信等),提供API和SDK便于业务系统集成 [14] Coze Loop - 面向智能体全生命周期的可视化调试工具,覆盖开发-评测-观测-优化四大阶段 [28] - 提供Prompt IDE + Git + AB测试三合一功能,支持全链路Trace观测和性能量化 [30][32][33] - 开源功能包括提示调试、评测体系、Trace观测等商业级能力,支持多语言SDK二次开发 [34][36] Eino框架 - 支持OpenAI等主流LLM接入,模型切换灵活,扩展性强 [37] - 与商业版完全兼容,可通过Docker一键部署,降低使用门槛 [38] 行业影响与战略意义 - 开源时机选择在2025年AI Agent爆发前夕,旨在抢占行业标准制定权 [6][55] - 采用Apache 2.0协议,允许闭源商用,消除开发者合规顾虑,加速生态建设 [45][46] - 对标Android开源策略,通过技术放权吸引开发者共建生态,目标成为智能体时代的"操作系统" [47][52] - 开源完整工具链将改变行业竞争格局,直接挑战Dify、n8n等现有平台 [58][59] 开发者价值 - 零门槛获取商业级能力,尤其利好中小企业和个人开发者 [48] - 支持私有化部署,满足企业对数据安全和合规性的要求 [50] - 提供经过大规模验证的核心模块,开发者可快速构建差异化应用 [41][42]
首次结合RL与SFT各自优势,动态引导模型实现推理⾼效训练
机器之心· 2025-07-27 15:54
然而,目前以 Group Relative Policy Optimization (GRPO) 为代表的 RLVR 方法通常面临两个局限点:1. 训练数据难度与模型能力之间存在差距,导致 奖励稀疏从而阻碍了学习过程的稳定性。2. 单纯基于 On-policy 强化学习算法的样本效率低下,这对于端侧小模型而言尤为突出。 为此,华为香港研究所小艺团队、诺亚方舟实验室与香港城市大学合作推出了 GHPO 算法框架,实现了在线强化学习与模仿学习的融合,并且能够自适应 地进行切换。 GHPO 不仅能大幅提升端侧模型的样本利用效率,同时针对性缓解了目前 RLVR 方法中的奖励稀疏现象。通过难度感知与动态引导模块设计,GHPO 不仅 提升了模型训练过程中的稳定性,并且在 6 个不同的开源数学推理 Benchmark 上实现提升,尤其在 GPQA-Diamond 和 AMC23 上分别提升 9% 和 10%。该方法进一步被证明可以适用于不同难度分布的训练数据集与多个模型类别。 论文标题: GHPO: Adaptive Guidance for Stable and Efficient LLM Reinforcement Le ...
你的AI管家可能正在「拆家」?最新研究揭秘家⽤具⾝智能体的安全漏洞
机器之心· 2025-07-27 08:45
核心观点 - 上海人工智能实验室与北京航空航天大学联合推出首个专注于具身智能体与家用环境交互安全性的评测基准IS-Bench,设计了150+个暗藏安全隐患的智能家居场景[2] - 当前VLM家务助手的安全完成率不足40%,每10次任务中就有6次可能引发安全隐患[4] - IS-Bench首创从静态评估到动态追踪的具身安全评估新范式,解决了传统评估体系无法捕捉动态风险链和环境探索中新发现风险源的问题[5][6] 评测场景设计 - IS-Bench采用GPT自动生成+人工校验的双保险模式,设计了161个高仿真评测场景,嵌入388个安全隐患点,覆盖10大类家庭生活场景[8][12] - 场景构建流程包括安全准则提取、安全风险注入和安全探针部署三个核心步骤[11] - 所有定制场景在高仿真模拟器中完成实例化与验证,确保任务目标可达成性和安全判定条件可检测性[8] 评测框架 - IS-Bench预置了18项核心基础技能,构建了与高保真模拟器进行逐步交互的执行代码框架[15] - 采用全程实时状态追踪和灵活的分级评测机制,支持阶梯式难度测试[15] - 评测框架能够对智能体每一步操作的安全性进行精细化评估,全面洞察交互流中的风险暴露点[10] 评测结果 - 主流VLM具身智能体的任务安全完成率小于40%,事前防范措施正确率不足30%[19] - 提供物品边界框和初始场景描述可将智能体的安全意识和事前防范正确率提升15%左右[18] - 引入安全思维链提示能将交互安全性平均提升9.3%,但会牺牲9.4%的任务成功率[19] 模型表现 - 闭源模型中Gemini-2.5-pro表现最佳,安全完成率达到78.8%[17] - 开源模型中InternVL3-78B表现最好,安全完成率达到71.4%[17] - 当明确展示安全目标时,部分闭源模型的安全完成率可从<40%跃升至>65%[18]
钛动科技发布首个全球营销 AI Agent,改写中国品牌出海「新叙事」
机器之心· 2025-07-27 08:45
公司背景与定位 - 钛动科技成立于2017年,定位为"以技术驱动的全球数字化增长服务商",专注于借助AI技术帮助中国品牌出海[3] - 公司服务覆盖全球200多个国家和地区,累计服务8万多家企业,在出海营销领域积累了丰富经验[5][19] - 核心业务是通过AI技术为出海企业提供系统化、智能化的营销服务,解决品牌设计、市场洞察等痛点[3][4] 新产品Navos介绍 - Navos是钛动科技推出的全球首个营销AI Agent,深度融合产业大数据+多模态AI+出海营销场景[7] - 产品功能涵盖出海营销策划、视频理解分析、内容生成、广告投放、数据分析与优化等全链路环节[7] - 主要解决中国企业出海面临的本地化内容创作、热点捕捉、文化差异等营销难题[9][10] 产品核心优势 - 具备三大核心技能:AI爆款复刻、批量混剪、素材生产到全自动媒体投放[15][16][17] - 依托四大特点:全时域营销专家、行业Know-How、决策效率倍增、无缝极速迭代[18][19][20][21] - 通过具体案例展示了在电商素材制作、广告账户运营、投放优化等场景的应用价值[22][23][25] 差异化竞争力 - 核心优势在于"数据+场景"的积累:服务8万多家企业沉淀的行业Know-How数据[31] - 覆盖服装、电商、游戏、短剧等数十个垂直行业的真实出海场景经验[33] - 与通用Agent和创意工具相比,更聚焦营销增长场景并具备行业深度[34] - 拥有Meta、Google、TikTok等全球主流媒体平台的一级代理资源[36] 行业趋势洞察 - AI技术演进从深度学习到大语言模型,当前进入Agent元年[5][27] - 企业出海需要完成从"Global"到"Glocal"的范式转变,强调本地化能力[9] - 大语言模型的出现显著提升了营销内容创作的效率和质量[11][12]
ACL 2025|驱动LLM强大的过程级奖励模型(PRMs)正遭遇「信任危机」?
机器之心· 2025-07-27 08:45
大型语言模型与过程级奖励模型 - 大型语言模型(LLMs)在复杂推理任务中的能力提升很大程度上依赖过程级奖励模型(PRMs)的赋能 [1] - 最新研究发现现有PRMs在识别推理过程细微错误方面表现不佳,甚至可能不如随机猜测 [2] - 当前评估方法过度关注最终结果正确性,忽视对推理过程中错误类型的细粒度识别 [3] PRMBench基准的核心价值 - PRMBench是首个专为评估PRMs精细化错误检测能力设计的挑战性基准 [4] - 包含6216个问题和83456个步骤级细粒度标签,覆盖各种复杂推理场景 [11] - 从简洁性、合理性和敏感性三大维度细分九个评估子类别 [11] - 相比其他基准,PRMBench在错误类型检测、步骤评估等方面具有全面优势 [18] PRMBench的关键发现 - 表现最佳模型Gemini-2-Thinking的PRMScore仅68.8,远低于人类水平的83.8 [11] - 开源PRMs普遍落后于将主流LLMs提示为Critic模型的性能 [11] - 简洁性维度成为最大挑战,最佳模型ReasonEval-34B得分骤降至51.5 [17] - 部分模型存在显著"阳性偏好",正确步骤识别准确率超95%,但错误步骤识别仅17% [17] PRMs的潜在问题与局限性 - PRMs性能随错误步骤在推理链中位置后移而渐进式提升 [33] - 少样本ICL对闭源模型性能影响有限,提示需要更深层次的改进 [36] - PRMs易受"假阳性"影响,存在被模型"钻空子"的风险 [37] - 现有PRMs在多步过程评估中能力有限,提升空间巨大 [27] 研究意义与行业影响 - PRMBench将推动过程级奖励模型评估研究的范式转变 [42] - 为未来PRM开发提供关键指导,助力构建更可靠的AI系统 [42] - 促进开发更具鲁棒性和泛化能力的模型 [42] - 成为推动过程级奖励模型发展的坚实基石 [41]
实现 Agent 能力的泛化 ,是否一定需要对世界表征?
机器之心· 2025-07-27 01:30
实现 Agent 能力的泛化,是否一定需要对世界表征 - 现代AI智能体定义为能够感知环境、自主行动并提升性能的实体,其核心在于具备泛化能力,区别于仅响应预设规则的机器人[5] - 学界存在两大思想脉络:无模型范式认为智能行为可通过感知-行动循环直接涌现,无需构建显式世界模型;基于模型范式则认为灵活目标导向行为必须依赖内部世界表征[5] - DeepMind通过数学框架证明,具有泛化能力的智能体必然内化世界表征,且从策略本身可恢复环境转移函数的近似模型[6] - 研究区分短视行为与长远规划:短视智能体无需世界模型,而需长远规划的通用智能体必须比较不同行动引发的未来轨迹优劣[7] - 当前AI领域涌现多种世界模型构建方法,但现有范式存在缺陷且实践层面仍存非共识,焦点已从"是否需要表征"转向"如何表征"[8] 技术狂飙下的AI Assistant发展现状 - 当前多数AI Assistant仍停留在对话器阶段,与真正的通用行动体存在差距,需突破场景深度与交互延迟等瓶颈[2] - 技术架构上,Cross-Attention与MoE有望降低语音交互延迟,提升实时性[2] - 商业化路径存在争议:AI Assistant可能成为企业新盈利入口,但增量流量价值尚未验证;未来形态可能介于"第二手机"与"个人操作系统"之间[2] OpenAI前产品VP的产品方法论 - Peter Deng强调产品本身并非核心,产品品味才是企业护城河,其对当前AI产品的评价未公开但隐含高标准[3] - 打造爆款产品的超级团队需具备特定特征,不同团队对产品经理的特质要求存在差异化[3] 行业数据概览 - 本期通讯覆盖3项专题解读及27项AI&Robotics赛道要事,含10项技术动态、8项国内进展、9项国外进展[3] - 通讯总字数达22439字,免费试读比例8%,完整版需消耗99微信豆(约9.9元人民币)[4]