锯齿智能
搜索文档
卡帕西2025大模型总结火爆硅谷
量子位· 2025-12-20 04:20
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 2025都有哪些AI趋势,大神 卡帕西 的年终总结,正在火爆硅谷。 6大论断,硬核又颇有启发: 新范式、新应用、新模型……回首望去,过去一年大模型带来的变革让人兴奋。 然而卡帕西大胆预言: 大模型的潜力,才刚刚挖掘10%。 一切不过是刚刚开始…… 2025LLM年度回顾 为什么卡帕西认为大模型潜力只挖掘了10%? 一方面展现出强大的推理能力,另一方面也暴露出潜在的理解缺陷 ,既让人兴奋又让人谨慎,具体包括: RLVR (可验证奖励强化学习) 成为训练新阶段 大模型不应被类比为动物智能 Cursor展现了大模型应用的Next Level Claude Code加速端侧智能体普及 Vibe Coding将重塑软件行业 Nano Banana重塑人机交互 RLVR成为训练新阶段 在年初之前,全世界的大模型都基本遵循以下训练范式: 而到了2025年,RLVR开始加入其中。 模型通过在可自动验证的奖励环境中进行强化学习训练,会自发地形成推理策略,比如将问题分解为中间计算、循环计算等,具体可参考 DeepSeek R1 。 而这些策略如果用旧范式其实极难实现,因为大模 ...
DeepSeek陈德里:这一轮的AI革命,我们还处在上半场 | 直击乌镇
新浪科技· 2025-11-07 09:36
当前人工智能的局限性 - 当前AI不具备人类那样稳定且可跨领域泛化的智力 在某些复杂领域表现卓越但在一些简单任务上表现离奇 这种智能被称为“锯齿智能” [1] - 问题根源在于AI训练完成后无法像人类一样在真实世界进行持续的自我迭代和进化 [1] - 人类大脑仅提供核心学习算法和少量本能 大部分知识通过后天终身学习获得 [1] 人工智能的未来发展路径 - 解决当前局限性的方向是让AI具备稳定泛化的学习算法 并建立与真实世界的更多链接 如多模态和具身智能 使模型能在真实环境中进行持续学习和自我迭代 [1] - 从10~20年实现AGI的长期视角看 当前问题均可解决 因为技术发展具有加速度 [2] - 以ChatGPT为例 三年前其做小学数学题经常出错 但现在已能在国际奥林匹克数学竞赛获得金牌 表明技术迈过关键节点后将迎来跨越式发展 [2] 行业发展阶段判断 - 本轮AI革命目前仍处于上半场 甚至是上半场的早期 [2] - 对技术发展应保持乐观态度 [2]
诺奖得主谈「AGI试金石」:AI自创游戏并相互教学
36氪· 2025-08-19 00:00
Genie 3 世界模型 - Genie 3 是 DeepMind 多个研究分支融合的成果,核心目标是构建“世界模型”,让 AI 理解物理世界的规律,包括物理结构、材料特性、液体流动、生物行为等 [3] - 通过 3D 游戏引擎等模拟环境生成大量数据,让 AI 在虚拟场景中学习现实规律,能生成具有一致性的世界,用户返回虚拟场景时状态与离开时保持一致 [4] - 已用于内部训练,游戏 agent SIMA 可直接操控电脑游戏,Genie 3 实时生成对应的环境变化,形成“AI 生成世界、另一个 AI 探索”的闭环,为机器人技术和 AGI 系统创建无限训练数据 [4] - 在互动娱乐领域有潜在价值,可能催生介于电影与游戏之间的新型娱乐形式,与视频模型共同为探索现实本质提供新维度 [5] Game Arena 评估平台 - Google DeepMind 与 Kaggle 合作推出 Game Arena,作为评估 AGI 进展的新测试平台,让模型玩各种游戏并测试能力 [6] - 游戏是非常纯粹的测试场所,通过 Elos 等级分客观衡量性能,没有主观性,不需要人类进行 A/B 测试 [9] - 随着 AI 系统能力提升,游戏难度可自动调整,系统在比赛中相互较量,能力增强则测试自动升级 [9] - 未来支持 AI 自创游戏并相互教学,避免训练数据过度拟合,更真实检验通用学习能力 [10] - 将与其他新型评估工具共同作用,确保 AI 系统在认知能力的各个维度得到全面检验 [11] AI 系统现状与挑战 - 当前 AI 系统存在能力不均衡现象,能在 IMO 中获得金牌,却可能在高中数学、简单逻辑问题或特定游戏中犯低级错误 [7] - 现有评估基准存在局限性,很多 benchmark 开始变得饱和,例如数学领域 AIME 的正确率已达 99.2%,进入回报非常有限的阶段 [7] - 需要更难、更广泛的 benchmark,涵盖物理世界理解、直觉物理、物理智能及安全特性等维度 [8] Thinking 模型与工具使用 - Thinking 模型演进是重要方向,以 Deep Think 为代表的系统延续 AlphaGo 等早期游戏 AI 的 agent 系统思路,强调思考、规划与推理能力 [12] - 可进行深度思考和并行规划,在数学、编程、科学问题等领域通过反复推演优化结果,而非直接输出初始结论 [12] - 工具使用成为 AI 能力扩展的新维度,在推理过程中可调用搜索功能、数学程序、编码工具等,更新规划方案 [12] AI 系统架构转变 - AI 正从权重模型向完整系统转变,早期模型输入输出模式较简单,如今系统能结合工具使用、规划与思考能力,实现更复杂功能 [13] - 产品设计需具备前瞻性,预判一年后技术水平,允许底层引擎定期更新,周期可能短至三到六个月,以适应技术快速迭代 [13]