谷歌Gemini Nano Banana
搜索文档
大模型的2025:6个关键洞察
36氪· 2025-12-23 11:39
行业核心范式转移 - 2025年标志着AI训练哲学从单纯的“概率模仿”向“逻辑推理”的决定性跨越 [1] - 这一转变的核心动力源于可验证奖励强化学习(RLVR)的成熟,它通过数学与代码等客观反馈环境,迫使模型自发生成类似于人类思维的“推理痕迹” [1] - 长周期的强化学习已经开始蚕食传统的预训练份额,成为提升模型能力的新引擎 [1] 技术路径:可验证奖励强化学习(RLVR) - 基于可验证奖励的强化学习在2025年脱颖而出,成为大语言模型生产堆栈中事实上的核心新阶段 [4] - 通过在数学、代码谜题等大量可自动验证奖励的环境中训练,模型会自发形成人类视角下近似“推理”的策略,学会将复杂问题拆解为中间计算步骤 [4] - 与监督微调、基于人类反馈的强化学习等计算量相对较小的微调阶段不同,RLVR针对客观奖励函数开展训练,支持更长周期的优化过程 [4] - RLVR具备极高的“能力/成本比”,甚至占用了原本用于预训练的大量计算资源,2025年大语言模型能力的提升主要源于各实验室对这一新阶段“存量潜力”的挖掘 [5] - 2025年模型参数规模未发生显著变化,但强化学习训练的周期大幅延长 [5] - RLVR带来了全新的调节维度:通过生成更长的推理轨迹、增加模型“思考时间”,可灵活调控测试阶段的计算量,进而实现能力提升 [5] - OpenAI在2024年底推出的o1模型是RLVR技术的首次公开亮相,而2025年初o3模型的发布成为明确的拐点,使人们能直观感受到大语言模型能力的质性飞跃 [5] 智能本质与性能特征 - 大语言模型是智能空间中一类全新的实体,其技术栈的所有组成部分都与生物智能的演化逻辑截然不同,可比喻为“被召唤出的幽灵”而非“逐步进化成长的动物” [6] - 随着RLVR在可验证领域的普及,大语言模型在这些特定领域的能力会出现“爆发式增长”,整体呈现出“锯齿状性能特征”:既是精通多领域的天才博学家,也可能在基础常识上存在认知缺陷 [8] - 2025年对各类基准测试(Benchmarks)彻底失去了兴趣与信任,因为基准测试极易被RLVR训练或合成数据生成等方式“攻击”,“针对测试集进行定向训练”已成为一种新型技术操作 [8] 应用层演进:垂直整合与智能体 - 像Cursor这样的大语言模型应用,揭示了一个全新层级,核心价值在于为特定垂直领域整合并编排大语言模型调用逻辑 [9] - 具体体现在处理“上下文工程”、将多个大语言模型调用编排为有向无环图(DAG)、为“人机回圈”提供适配的图形用户界面、提供可调节的“自主权滑块” [9] - 行业讨论围绕大语言模型实验室是否会通吃所有应用场景,观点是大语言模型实验室培育“通识能力极强的大学生”式模型,而大语言模型应用则通过整合私有数据、传感器、执行器及反馈闭环,驱动它们成为特定垂直领域的“专业团队” [9] - Claude Code(CC)的问世令人信服地展现了大语言模型智能体(Agent)的核心能力,能够以循环方式串联工具使用与推理过程,完成长时间跨度的问题求解 [10] - CC的显著特点是其本地化运行模式:直接部署在用户电脑中,可访问本地私有环境、数据与上下文,这比云端运行的智能体集群在当前更具实用价值 [10] - Anthropic将CC封装为极简的命令行界面(CLI)形式,重塑了AI的用户认知,使其成为“栖息”在用户电脑中的智能实体,标志着一种全新的AI交互范式诞生 [11] 开发范式变革:氛围编程 - 2025年,AI突破了关键能力阈值,使得人们仅凭自然英语就能构建各类功能强大的程序,即“氛围编程” [12] - 氛围编程让编程不再是高训练门槛的专业技能,成为普通人也能掌握的通用能力,普通人从大语言模型中获得的收益超过专业人士、企业与政府 [12] - 氛围编程让专业开发者能够高效实现原本因技术门槛或成本问题不会尝试的软件项目,代码变得廉价、即时、可塑,支持“用完即弃”的轻量化使用场景 [13] - 氛围编程将彻底改造软件开发生态,并重新定义相关职业的核心价值 [13] 交互界面演进:大语言模型图形界面(LLM GUI) - 与大语言模型的“文本对话交互”类似20世纪80年代向电脑终端输入指令的操作模式,并非人类最易接受的交互形式 [14] - 人类更倾向于通过视觉化、空间化的方式获取信息,因此大语言模型也应采用人类偏好的格式进行交互——通过图像、信息图、幻灯片、白板、动画/视频、网页应用等可视化形态 [14] - 谷歌Gemini Nano Banana是2025年最具突破性、最可能引发范式转移的模型之一,是未来“大语言模型图形界面”的早期雏形 [14][15] - 其核心价值不仅在于图像生成能力本身,而在于模型权重中深度融合的文本生成、图像生成与世界知识的联合建模能力 [15] 行业现状与未来展望 - 当前的大语言模型既展现出远超预期的智能水平,也存在令人意外的认知短板,但已具备极高的实用价值 [15] - 即便以当前的能力水平,整个行业对大语言模型潜力的开发仍不足10% [2][15] - 该领域仍有无数创新想法等待探索,从概念层面来看,发展空间依然极为广阔 [15] - 随着RLVR等技术的普及,2026年的AI竞争将不再局限于算力的军备竞赛,而是转向对“如何让AI高效思考”这一核心逻辑范式的深度挖掘 [2]
大模型的2025:6个关键洞察
腾讯研究院· 2025-12-23 08:33
文章核心观点 - 2025年标志着大语言模型训练哲学从“概率模仿”向“逻辑推理”的决定性跨越,其核心驱动力是基于可验证奖励的强化学习的成熟[2] - 行业对大语言模型潜力的挖掘尚不足10%,正处于从“模拟人类智能”向“纯粹机器智能”跨越的临界点,未来竞争将转向对核心逻辑范式的深度挖掘[3][4][25] 基于可验证奖励的强化学习 - 基于可验证奖励的强化学习在2025年脱颖而出,成为大语言模型生产堆栈中事实上的核心新阶段,它通过在数学、代码等可自动验证奖励的环境中训练,迫使模型自发形成近似人类“推理”的策略[6][7] - 该技术具备极高的“能力/成本比”,占用了原本用于预训练的大量计算资源,成为2025年模型能力提升的主要来源,模型参数规模未显著变化,但强化学习训练周期大幅延长[8] - OpenAI的o1模型是该技术的首次公开亮相,而2025年初o3模型的发布成为直观感受模型能力质性飞跃的明确拐点[9] 智能的本质与性能特征 - 大语言模型的智能形态本质被比喻为“被召唤出的幽灵”,而非“逐步进化成长的动物”,其优化目标与生物智能演化逻辑截然不同[10][11] - 在可验证奖励强化学习的驱动下,模型能力呈现“锯齿状性能特征”:在特定领域能力“爆发式增长”,表现如天才博学家,但在基础常识上可能脆弱如孩童,甚至可能被“越狱指令”诱导[12] - 2025年行业对各类基准测试失去兴趣与信任,因为其构建逻辑基于“可验证环境”,极易被针对性训练“攻击”,“针对测试集进行定向训练”已成为一种新型技术操作[12][13] 应用层的新范式与竞争格局 - Cursor的爆发式增长揭示了大语言模型应用的一个全新层级,其核心价值在于为特定垂直领域整合并编排大语言模型调用逻辑,包括处理上下文工程、编排复杂调用、提供人机回圈界面及自主权控制[14][15] - 行业围绕该应用层的“厚度”展开讨论:大语言模型实验室倾向于培育“通识能力极强的大学生”式模型,而垂直应用则通过整合私有数据、传感器等,将这些模型组织成特定领域的“专业团队”[15] 本地化智能体的实用化趋势 - Claude Code的问世令人信服地展现了大语言模型智能体的核心能力,其关键特点是本地化运行模式,可直接访问用户电脑的本地环境、私有数据与上下文[16][17] - 核心差异并非运算位置,而是对已启动设备、预装环境、本地上下文、私有数据及低延迟交互的利用,这重塑了AI的用户认知,使其从需要主动访问的网站转变为“栖息”在用户电脑中的智能实体,标志一种全新交互范式的诞生[18] 氛围编程的兴起与影响 - 2025年,AI突破关键能力阈值,使得“氛围编程”兴起,普通人仅凭自然英语就能构建功能强大的程序,编程成为通用能力[19][20] - 大语言模型正在逆转技术普及的传统逻辑,普通人从中获得的收益超过专业人士、企业与政府,氛围编程让代码变得廉价、即时、可塑,支持“用完即弃”的轻量化使用场景,将彻底改造软件开发生态并重新定义相关职业的核心价值[20][21] 大语言模型图形界面的演进 - 与大语言模型的“文本对话交互”类似20世纪80年代的电脑终端指令模式,并非人类最易接受的交互形式,人类更倾向于通过视觉化、空间化的方式获取信息[23][24] - 大语言模型应采用人类偏好的格式进行交互,如图像、信息图、幻灯片等可视化形态,谷歌Gemini Nano Banana是未来“大语言模型图形界面”的早期雏形,其核心价值在于文本生成、图像生成与世界知识的联合建模能力[24]
大模型的2025:6个关键洞察,来自OpenAI创始人、AI大神“AK”
36氪· 2025-12-22 04:22
2025年大语言模型年度回顾核心观点 - 2025年标志着大语言模型训练哲学从“概率模仿”向“逻辑推理”的决定性跨越,其核心驱动力是可验证奖励强化学习的成熟[1] - 行业正处于从“模拟人类智能”向“纯粹机器智能”跨越的临界点,未来竞争将转向对“如何让AI高效思考”这一核心逻辑范式的深度挖掘[2] - 尽管行业进步迅猛,但人类目前对这一新计算范式潜力的挖掘尚不足10%,未来发展空间极其广阔[2] 技术范式转移:可验证奖励强化学习 - 基于可验证奖励的强化学习在2025年脱颖而出,成为大语言模型生产堆栈中事实上的核心新阶段,它通过在数学、代码等可自动验证奖励的环境中训练,迫使模型自发形成近似人类“推理”的策略[4] - 该技术具备极高的“能力/成本比”,甚至占用了原本用于预训练的大量计算资源,成为2025年模型能力提升的主要引擎[5] - 与监督微调、基于人类反馈的强化学习等微调阶段不同,可验证奖励强化学习针对客观奖励函数开展训练,支持更长周期的优化过程,并带来了通过生成更长推理轨迹来灵活调控计算量的新调节维度[4][5] - OpenAI的o1模型是该技术的首次公开亮相,而2025年初o3模型的发布成为行业能力发生质性飞跃的明确拐点[5] 智能本质与性能特征 - 大语言模型的智能本质被比喻为“被召唤出的幽灵”,而非“逐步进化成长的动物”,其所有技术组成部分都与生物智能的演化逻辑截然不同[6] - 由于优化目标(模仿人类文本、在数学问题中获取奖励等)与人类大脑不同,大语言模型在可验证奖励强化学习普及的领域能力会出现“爆发式增长”,整体呈现出“锯齿状性能特征”:既是多领域天才,也可能在基础常识上存在认知缺陷[7][8] - 2025年,行业对各类基准测试失去了兴趣与信任,因为其构建逻辑基于“可验证环境”,极易被可验证奖励强化学习或合成数据生成等方式“攻击”,“针对测试集进行定向训练”已成为一种新型技术操作[8] 应用层演进:垂直整合与智能体 - 以Cursor为代表的大语言模型应用揭示了一个全新层级,其核心价值在于为特定垂直领域整合并编排大语言模型调用逻辑,包括处理上下文工程、编排复杂调用图、提供场景化图形界面及调节AI自主权[9] - 大语言模型实验室倾向于培育“通识能力极强的大学生”式模型,而垂直应用则通过整合私有数据、传感器等,对这些模型进行针对性组织与微调,使其成为特定领域的“专业团队”[9] - Claude Code的问世令人信服地展现了智能体的核心能力,其关键创新在于本地化运行模式,直接部署在用户电脑中,访问本地私有环境与数据,重塑了AI交互范式,使其成为“栖息”在用户电脑中的智能实体[9][10] 氛围编程的兴起 - 2025年,AI突破关键能力阈值,使得“氛围编程”兴起,普通人仅凭自然语言就能构建功能强大的程序,编程正从专业人士的专属技能转变为普通人的通用能力[11] - 与以往技术不同,普通人从大语言模型中获得的收益超过了专业人士、企业与政府,氛围编程不仅赋予普通人技术创作权,也让专业开发者能高效实现原本因门槛或成本不会尝试的项目[11] - 在氛围编程模式下,代码变得廉价、即时、可塑,支持“用完即弃”的轻量化使用场景,这将彻底改造软件开发生态并重新定义相关职业的核心价值[12] 大语言模型图形界面的雏形 - 与大语言模型的“文本对话交互”被视为类似20世纪80年代向电脑终端输入指令的初级模式,并非人类最易接受的交互形式[13] - 未来的“大语言模型图形界面”应采用人类偏好的可视化形态进行交互,如图像、信息图、幻灯片、白板、动画/视频等,当前趋势的早期萌芽是表情符号与标记语言实现的文本视觉化排版[13] - 谷歌Gemini Nano Banana是未来形态的早期雏形,其核心价值在于模型权重中深度融合了文本生成、图像生成与世界知识的联合建模能力[14]
Karpathy 2025年AI终极觉醒:我们还没发挥出LLM潜力的10%
36氪· 2025-12-22 00:29
文章核心观点 - 2025年是人工智能发展历程中的“觉醒”之年,标志着大语言模型从模仿人类向追求真理的范式转移,其核心驱动力包括RLVR的崛起、Vibe Coding的流行以及关于AI本质的哲学思考[1][3] RLVR革命 - 传统的LLM训练流程包含预训练、监督微调和RLHF三个阶段,但RLHF存在“阿谀奉承”问题,导致模型倾向于生成看似正确但实际错误的答案[4][6] - 2025年兴起的RLVR范式引入第四阶段,其核心是使用可验证的客观结果作为奖励信号,例如用编译器验证代码、用答案验证数学题,从而训练模型进行真正的推理[7][11][12] - RLVR使模型能够通过自我博弈涌现出推理能力,它尝试生成成千上万条不同的推理路径,并由自动验证器进行筛选和强化[15][16][17][18] - 该范式引入了“测试时算力”这一新的扩展定律,模型能力不再在训练结束时定格,推理阶段通过增加“思考时间”可以显著提升表现[19][20][21][22] - 行业案例显示,仅靠纯粹的RLVR训练,模型也能从零开始衍生出强大的推理和自我反思能力,这意味着算力的价值从训练端向推理端转移[23] 哲学分野:动物与幽灵 - AI先驱Rich Sutton的“苦涩教训”认为,长期来看,能利用无限算力的通用方法终将胜出,他心目中的AGI是像动物一样具身、通过试错学习的连续智能体[27][28][29][31] - 然而,当前的大语言模型被描述为“幽灵”,它们无状态、没有持续的意识流,其智能是基于人类互联网文本的统计学蒸馏,是在扮演而非真正理解[32][33] - 目前的科研方向被认为是在召唤更强大的“幽灵”,这是一种位于“心智空间”不同坐标系的、全新的智能形态[35] - 这种智能是“参差”的,它在某些领域表现卓越,但在另一些简单任务上可能严重失误,这种特性源于训练数据分布不均和分词方式的先天缺陷[37][52] Vibe Coding - Vibe Coding代表编程范式的转变,开发者从编写代码细节转变为用自然语言描述意图,将逻辑和实现交由AI完成,人类主要负责审美和验收[40][44] - 行业实践案例显示,一个完整的Web应用项目可以在开发者不手写一行代码的情况下,通过自然语言指令与AI协作完成[41][44] - 2025年AI编程工具形成两大流派:以Cursor/Windsurf为代表的IDE增强派,将AI无缝集成到开发环境中辅助编码;以Claude Code为代表的终端Agent派,能够接受高级指令并自主执行复杂的开发任务[45] - 尽管Claude Code展现了Agent的雏形,但真正的“全自动工程师”尚未到来,当前的Agent在复杂架构任务上仍需人类把控方向[46] - 行业观点认为,Claude Code通过聚焦本地化开发体验,抓住了开发者的核心痛点[46] 范式转移 - 谷歌Gemini Nano Banana模型因其名称和特性引发了病毒式传播,它代表了文本生成、图像生成与世界知识在模型权重中交织的综合能力[47][49] - 一个深刻的行业观点是:文本是计算机偏好的格式,而非人类喜欢的格式,人类更倾向于通过视觉和空间维度接收信息[47][49] - 未来的LLM交互界面应超越文本,以图像、信息图、幻灯片、视频等人类偏好的格式进行输出,这被认为是继图形用户界面后的下一个重大计算范式[47][49] - 大语言模型正作为一种新型智能形态崭露头角,其能力分布不均,既在某些方面远超预期,又在另一些方面显得笨拙,但整体上极其有用[54] - 行业认为,即使以当前模型的能力,其应用潜力也远未被发掘出10%,该领域从概念上看仍感觉广阔无垠[55][56]