Workflow
Nano Banana
icon
搜索文档
近两百万人围观的Karpathy年终大语言模型清单,主角是它们
机器之心· 2025-12-21 03:01
2025年大语言模型(LLM)发展的核心观点 - 2025年是大语言模型快速演进、重磅事件密集出现的一年,行业格局发生了真正的改变[2][6] - 大语言模型正在显现出一种全新的智能形态,其既比预期的聪明得多,又比预期的愚蠢得多[37] - 大语言模型已经极其有用,但行业甚至还没有发挥出它们10%的潜力[38] 可验证奖励强化学习(RLVR)成为新标配 - 2025年初,几乎所有实验室的LLM生产训练流程都包含预训练、监督微调(SFT)和基于人类反馈的强化学习(RLHF)[8][9] - 2025年,一种新的训练阶段——可验证奖励强化学习(RLVR)——浮出水面并迅速成为事实上的标配[10] - RLVR的核心是让模型在可自动验证的环境中接受强化学习训练,模型能自发学会类似“推理”的策略,如将复杂问题拆解成中间步骤并逐步逼近答案[10] - 与SFT或RLHF这类“计算量相对较小的薄层微调”不同,RLVR使用客观、难以被投机取巧的奖励函数,使得训练可以持续非常久[10] - RLVR提供了极高的能力/成本比,大量吞噬了原本准备用于预训练的算力[10] - 2025年的大部分能力提升,并非来自模型规模的暴涨,而是来自相似规模模型加上更长时间的强化学习训练[11] - RLVR带来了新的“旋钮”:通过在推理时生成更长的思考链条、投入更多测试时算力,模型能力可以继续提升,并呈现出新的扩展定律[11] - OpenAI的o1是第一个明确展示RLVR思路的模型,而2025年初的o3则是让人直观感受到质变拐点的版本[12] 对LLM智能“锯齿状”分布的新认知 - 2025年,行业第一次真正直觉性地理解了LLM智能的“形状”,认识到其与人类智能的优化目标完全不同[14] - 大语言模型的智能被描述为“锯齿状”明显的能力分布:它们可以在某些可验证领域表现得像博学的天才,同时在另一些地方像困惑的小学生,甚至容易被攻击[14] - 这种“锯齿状”智能也解释了为何在2025年对基准测试普遍不当回事与不信任,因为基准测试本质上是可验证环境,天然容易被RLVR或“合成数据训练”所攻破[15] - 模型团队往往会在基准所在的嵌入空间附近“培育能力突起”,把能力尖刺精准地长到测试点上,“在测试集上训练”已经演变成了一门艺术[15] Cursor揭示LLM应用新范式 - Cursor在2025年的爆发清晰地揭示了一种全新的LLM应用层[16] - 像Cursor这样的LLM应用,本质是在为特定垂直领域打包和编排LLM能力,引发了关于“这一层会有多厚”的大量讨论[17] - 基础模型会趋向于“一个通用能力很强的大学毕业生”,而真正把他们组织成专业团队、在具体行业中落地的会是应用层,通过私有数据、传感器、执行器和反馈回路将模型组织并投入实际工作流程[17] - 应用层的关键功能包括:上下文工程、在后台编排多次LLM调用形成复杂的有向无环图、提供面向人的领域专用图形用户界面、提供“自主性滑块”[18] Claude Code定义本地化智能体新形态 - Claude Code被认为是第一个“真正的LLM智能体”,它以循环方式将推理与工具调用串联起来,能持续解决长任务[19] - 更重要的是,它运行在用户的本地电脑上,直接使用用户的环境、数据和上下文[20] - 在一个能力锯齿、起飞缓慢的世界里,更合理的顺序是先让智能体成为开发者身边的伙伴,Claude Code用一个极其优雅、极简、极具说服力的命令行界面形态呈现了这一点[20][21] - 这代表AI不再只是一个访问的网站,而是一个住在电脑里的伙伴,是一次全新的交互范式转变[22][23] “氛围编程”重塑软件开发 - 2025年,AI跨过了关键门槛,使得人们可以只用英语构建复杂程序,甚至忘记代码本身的存在,这被称为“氛围编程”[24][25] - “氛围编程”让编程不再只是专业工程师的专利,同时也让专业工程师可以写出大量原本永远不会被写出来的软件[27] - 代码变得不值钱、短暂存在、并可随意改写与丢弃,这正在重塑软件形态和工作角色[28][29] Nano Banana预示LLM的图形用户界面未来 - Google Gemini的“Nano Banana”是2025年最令人震撼的模型之一,它被视为构建真正LLM图形用户界面的一个早期但重要的信号[31][33] - 其意义不只在于图像生成,而在于文本、图像与世界知识在同一模型中深度纠缠[34] - 在UI/UX层面,“聊天”就像80年代的命令行,而人们更喜欢视觉化、空间化的信息,因此LLM应该用人类偏好的形式(如图片、信息图、幻灯片)进行交流[32][33]
Google was at risk of losing its dominance — until it promoted this AI executive
CNBC· 2025-12-20 12:00
公司核心人物与职责 - 乔希·伍德沃德自2025年4月起负责运营谷歌AI战略的核心产品Gemini应用,同时兼任谷歌实验室负责人[2][3] - 其被前谷歌实验室联合负责人评价为行动迅速、打破壁垒、执行力强,正处于谷歌最重要工作的中心[4] - 其面临的核心挑战是平衡快速发展以与OpenAI等对手竞争,同时避免AI产品造成潜在危害[13] 公司AI产品表现与里程碑 - Gemini应用中的图像生成功能Nano Banana在2025年8月底推出后迅速流行,导致公司基础设施过载,迫使谷歌暂时限制使用以减轻定制TPU芯片的负担[8] - 截至2025年9月底,Gemini应用生成的图像超过50亿张,并在苹果App Store上超越了OpenAI的ChatGPT登上榜首[9] - 谷歌在2025年10月表示,Gemini应用的月活跃用户从3月的3.5亿激增至6.5亿;AI Overviews的月用户达20亿[11] - 2025年11月,谷歌发布了更先进的Nano Banana Pro,但其生成内容因涉及刻板印象而面临批评[16] - 谷歌实验室的早期突破性产品是Project Tailwind,后演变为NotebookLM,该产品可分析用户上传的文件并提供摘要[19][20] 公司财务与市场表现 - 2025年第一季度,Alphabet股价下跌18%,为2022年以来最差季度表现[6] - 但截至报道时,Alphabet股价年内累计上涨62%,表现优于上涨13%的Meta等所有超大型同行[11] - 公司2025年10月财报将全年资本支出预期从之前的850亿美元上调至910亿至930亿美元,以投资AI基础设施[10] 公司产品开发与管理文化 - 伍德沃德帮助建立了名为“block”的系统,员工可上报障碍,由实验室内部团队处理,以规避公司官僚体系[31] - 其创立了“Papercuts”流程来解决产品中的小问题,例如在GeminiApp中实现无需重启即可在对话中途切换模型[33] - 其直接通过X和Reddit回应用户反馈,并将意见带给员工以解决问题[34] - 其提议并推动了面向员工的内部展示活动“Demo Slam”,该活动大获成功并于2025年5月举办了第二届[36][37] 行业竞争格局 - 行业专家预测消费者行为将从传统搜索转向AI应用,谷歌正努力将用户保留在其生态系统内[3] - OpenAI的ChatGPT在三年前推出,开启了生成式AI热潮,是谷歌的主要竞争对手[2] - OpenAI在2025年10月表示,ChatGPT每周用户达到8亿[11] - AI生成内容(如2024年底OpenAI发布的Sora)的激增,使普通消费者难以区分事实与虚构[13][14]
Andrej Karpathy年度复盘:AI大模型正在演变成一种新型智能,今年出现6个关键拐点
华尔街见闻· 2025-12-20 04:41
文章核心观点 - 2025年是大型语言模型领域蓬勃发展的关键一年,出现了六个改变行业格局的“范式转变”拐点,揭示了LLM正在演变成一种全新的智能形态 [1][3] - LLM展现出独特的“锯齿状”智能特征,既是博学的天才,又像思维混乱的小学生,其潜力目前实现尚不足10%,预计未来将持续飞速进展 [1][3] - 从训练范式、智能形态到应用层、交互界面,LLM技术栈的各个层面均发生根本性变革,标志着AI应用进入新的发展阶段 [3] 技术范式转变 - **拐点一:基于可验证奖励的强化学习成为训练新阶段**:传统的LLM生产流程(预训练、指令微调、基于人类反馈的强化学习)被改变,基于可验证奖励的强化学习成为新阶段 [4][5] - RLVR通过在数学题、代码谜题等可自动验证的环境中训练,使LLM自发演化出类似“推理”的策略,如将问题拆解为中间步骤并掌握多种解决方法 [5] - 与指令微调和基于人类反馈的强化学习不同,RLVR针对客观且不可作弊的奖励函数,允许更长周期的优化,具有极高的“能力/成本比” [5] - 2025年大部分能力提升源于各实验室将原本用于预训练的算力转向消化RLVR这一新阶段的“算力积压” [5] - OpenAI o3的发布是真正的拐点,RLVR带来了通过增加“思考时间”来控制推理能力的新调节旋钮 [6] LLM智能形态认知 - **拐点二:“幽灵智能”展现锯齿状性能特征**:业界开始理解LLM是一种与生物智能完全不同的全新智能实体,其神经架构、训练数据、算法和优化压力均不同 [7] - LLM展现出“锯齿状”性能特征:在可验证领域附近能力“激增”,但整体表现极不均衡,既是博学天才,又可能被简单提示词破解 [3][7] - 这种现象导致对基准测试产生信任危机,因为基准测试本质是可验证环境,极易受到RLVR攻击,“面向测试集训练”成为新艺术形式 [7] 应用层与交互范式革新 - **拐点三:Cursor引领新一代LLM应用层崛起**:Cursor的成功揭示了“LLM应用”的全新层级,标志着垂直领域LLM应用的兴起 [8] - 此类LLM应用为特定垂直领域封装并编排LLM调用,核心功能包括处理上下文工程、编排多个LLM调用串联成复杂有向无环图、提供特定图形界面以及提供“自主程度调节滑块” [8] - LLM实验室倾向于培养通用能力的“大学生”,而LLM应用则通过提供私有数据、传感器、执行器和反馈闭环,将这些“大学生”组织成特定领域的专业从业者 [8] - **拐点四:Claude Code开创本地AI智能体新范式**:Claude Code成为LLM智能体的首次令人信服展示,它以循环方式串联工具调用和推理进行长时间问题解决,且运行在用户电脑上,使用私有环境、数据和上下文 [9] - 这种本地化、个性化的AI交互范式改变了AI的样貌,使其从被动访问的网站变为“住”在电脑里的灵体,强调了隐私保护和个性化体验的重要性 [9] - **拐点五:Vibe Coding让编程能力普及化**:2025年AI跨越关键能力阈值,使人们仅凭英语就能构建复杂程序,“Vibe Coding”概念的流行标志着编程门槛的彻底降低 [10] - 编程不再是专业人士专利,普通人从LLM中获益远超专业人士、企业和政府,代码变得免费、瞬时、可塑,用完即弃,将重塑软件生态并让创意实现的成本接近零 [11] - **拐点六:Nano Banana开启LLM图形界面时代**:谷歌Gemini Nano Banana被称为2025年最震撼、最具范式转移意义的模型,预示着LLM交互界面的根本变革 [12] - 文本并非人类偏好的信息消费格式,真正的“LLM GUI”需要以人类偏好的图像、信息图、幻灯片、白板、动画视频、网页应用等方式进行交流 [12] - Nano Banana的显著特征不仅是图像生成,更是文本生成、图像生成和世界知识在模型权重中的交织融合,提供了多模态融合能力的早期雏形 [12]
Meta To Reportedly Serve Up 'Mango' And 'Avocado' AI Models In 2026 To Rival Google's 'Nano Banana' - Meta Platforms (NASDAQ:META), NVIDIA (NASDAQ:NVDA)
Benzinga· 2025-12-19 07:37
Meta Platforms Inc. (NASDAQ:META) is reportedly working on a new AI model, which will be focused on image and video processing, led by the company’s Chief AI Officer, Alexandr Wang.Focus on Image And Word ModelsThe new AI model, “Mango,” is being developed alongside Meta’s next large language model, which is text-based, reported The Wall Street Journal on Thursday. Wang discussed these AI models during an internal company Q&A session on Thursday, along with Chris Cox, Meta’s Chief Product Officer.The models ...
OpenAI的困惑:全力提升ChatGPT“深度研究”能力,但C端用户“用不上”
华尔街见闻· 2025-12-19 01:35
OpenAI正面临一个深刻的战略困惑:尽管公司在推动人工智能模型向更深层次的科学和数学能力迈进,但这些尖端进展似乎并未有效转化为其核 心产品ChatGPT的大众吸引力,造成了研发与市场需求的脱节。 据The Information报道,这一困境已引发公司高层警觉。CEO Sam Altman本月早些时候向内部发布"红色警报"(code red),要求重新集中资源, 以提升ChatGPT对更广泛用户的吸引力。此举的背景是,公司内部员工注意到,尽管ChatGPT的用户基数在增长,但大多数用户并未利用其在复 杂推理方面取得的突破。 这一战略调整凸显了OpenAI面临的双重压力。一方面,其用户增长正面临挑战,可能难以实现年初设定的10亿周活跃用户(WAU)目标。据报 道,截至本月早些时候,其WAU不足9亿。另一方面,来自谷歌等巨头的竞争压力与日俱增,谷歌不仅在AI模型能力上迎头赶上,还拥有更强大 的分发渠道和成本优势。 然而,从财务角度看,OpenAI依然表现强劲。其年化收入已从今年1月的60亿美元飙升至超过190亿美元,主要得益于个人和企业用户的付费订 阅。公司正朝着年底达到200亿美元年化收入的目标迈进,并计划以 ...
GPT Image 1.5 上线:AI 图像开始走向真实生产
36氪· 2025-12-18 05:46
2025 年年底,OpenAI 再次更新了其图像生成能力,向公众开放了新一代模型 GPT Image 1.5。这次发布并未伴随激进的视觉宣传,也没有试图制造「下 一次颠覆创意行业」的宏大叙事。相反,OpenAI 把这项能力直接嵌入到 ChatGPT 的日常使用中,让图像生成成为对话流程的一部分。 从表面看,这依然是一次模型升级:速度更快,编辑能力更强,对指令的理解更加稳定。但如果结合近一年 AI图像领域的变化来看,会发现 GPT Image 1.5 所体现的重点,已经不再是单纯的「生成能力展示」,而是一次围绕使用方式和工作流的调整。 GPT Image 1.5 的革新,首先体现在产品形态的重构上。它并非独立的绘图应用,而是被深度整合进 ChatGPT 的图像功能模块。生成、修改、确认全流程 都在同一对话环境中完成,用户无需在多个工具间来回切换,省去了繁琐的跳转成本。 这种设计背后,是 OpenAI 对真实创作场景的深刻洞察。实际工作里,图片从来不是一次性成型的成品,而是需要反复打磨的过程。颜色校准、构图调 整、细节优化、文案排版,都可能在多轮沟通中不断修正。GPT Image 1.5 着重强化的,正是这种 「 ...
海外及传媒年度策略:算力飞轮、多极模型生态与Agent化生产力
华安证券· 2025-12-17 05:30
核心观点 - 生成式AI正从依赖单一算力供应商的“算力飞轮”阶段,演进为“多极大模型生态”与“全栈Agent化”并行的新阶段 这标志着底层算力架构、上层模型格局以及应用层生产力工具均发生结构性重塑 [3][22] 算力与大模型格局 - **算力体系从单一走向多元**:从2024到2025年,算力体系从“单一GPU体系”转向多架构并行 预计到2026年,NVIDIA通过Blackwell/Rubin、GB200继续提升算力与互联能力 同时,AMD Instinct、谷歌TPU、亚马逊Trainium及中国自研加速芯片通过技术和市场博弈,推动全球芯片市场结构性重塑 [3][22] - **大模型格局呈多极化**:OpenAI、Gemini、Anthropic在多模态、长上下文、Agent工作流等方向保持领先探索优势 DeepSeek、Qwen、kimi、豆包、文心等则在成本、开源、本地化与行业定制上形成差异化竞争 [3][23] - **企业采购策略变化**:企业侧开始根据“算力成本 + 模型能力 + 数据资产”进行组合采购与多云部署 [3][23] AI服务器互联架构 - **互联架构升级**:从“板内PCIe+铜缆”迈向整仓级光互联与可重构网络 NVIDIA通过NVLink/NVSwitch将单柜72卡GPU构建为高度耦合、近似“逻辑大GPU”的计算单元,并探索硅光与CPO [4][24][25] - **开放互联方案兴起**:超大规模云厂商加速采用Ultra Ethernet、UALink、CXL 3.0 +SuperNIC等方案,分别解决Scale-out、Scale-up、内存及IO解构等不同瓶颈 [4][25] - **光电分工重塑**:光承担中长距承载与拓扑重构,电聚焦近距互连与协议处理 谷歌将OCS封装为高性能网络服务 [4][25] - **速率与散热演进**:800G为主流速率,1.6T有望在2026年加速渗透 AI数据中心液冷渗透率预计将从2024年的约14%快速提升到2025年的30%+ [4][25] AI存储超级周期 - **全品类存储进入高景气周期**:AI服务器迈向“算力+存力+带宽”架构,带动存储产业 [4][27] - **HBM**:12-Hi HBM3e成为Blackwell主力 HBM4有望在2026年后引入16-Hi堆叠 [5][28] - **GDDR7 & LPDDR6**:推理GPU、AI工作站及端侧设备进入带宽升级周期 [5][29] - **DDR5 & CXL**:服务器迁移至DDR5、单机容量提升 CXL商用打破CPU通道限制 [5][30] - **NAND/QLC eSSD**:向量数据库与多模态训练数据湖驱动QLC企业级SSD加速替代近线HDD,支撑NAND量价稳健增长 [5][31] 多模态与视频生成进入生产级 - **视频生成模型成熟**:谷歌Veo 3.1支持1080p高质量视频与原生音频,推理成本显著下降 快手的可灵O1以统一多模态底座实现文本驱动的生成与视频编辑一体化,强化多镜头一致性 [7][32][33] - **应用场景落地**:类似Veo 3.1与Kling的组合已经开始在广告、短剧、游戏过场中承担部分“生产角色”,重塑影视、自媒体与广告电商等内容供应链 [7][33] AI Agent商用化与生产力度量 - **AI Agent进入可度量商业化阶段**:Cursor在2025年11月年化收入突破10亿美元 Salesforce Agentforce + Data 360 ARR接近14亿美元,其中Agentforce单独ARR超5亿美元,同比增长超300% AI Agent从试用转入“订阅+席位扩容”阶段 [8] - **数据云与安全基础设施受益**:Snowflake FY26 Q3产品收入11.6亿美元,同比增长29%,其Agentic AI上线首月吸引1,200家客户试用 Datadog通过LLM Observability、Agent监控等成为企业运行大模型/Agent的“安全网”,驱动ARPU提升 [8] 应用层:广告、游戏与自动化重构 - **广告投放流程重塑**:Meta Advantage+、Google Ads生成式创意与AppLovin Axon 2.x重塑广告投放流程 AI大幅降低游戏与内容制作成本 [9] - **游戏行业焕发新生**:2025年前三季度游戏公司收入流水表现亮眼 腾讯的《三角洲行动》、网易的《第五人格》和《永劫无间》等代表产品拉动业绩增长 利润侧费用管控效果显著,新游上线未大幅拉动销售费用增长 2026年产品储备充分,AI在制作、营销、玩法等环节持续赋能 [9] - **端侧AI演进**:生成式AI和端侧模型能力提升,正推动智能终端从“硬件堆料”向“AI原生入口”演进 [9] 影视行业 - **2026年内容储备充足**:部分影视公司已储备较为充足的2026年影片pipeline,涵盖商业大片、系列化作品及多元题材,内容供给确定性和可持续性增强 [9][11] - **AI赋能创作**:图片及视频生成模型持续成熟,AI正逐步渗透至概念设计、分镜制作、特效生成与后期剪辑等核心环节 AI漫剧在降低制作成本、缩短生产周期方面已有所验证 [11] - **商业模式IP化**:影视内容正加速向IP化、系列化与生态化演进,部分核心IP已实现跨电影、剧集、动画、衍生品及线下场景的多元商业化 [11] 出版行业 - **估值与股息优势**:板块整体PE处于历史低位,叠加教材教辅业务的刚需属性,构筑安全垫 出版企业账期较好且资本开支极低,普遍具备长期维持稳定股息率的能力 [12] 港美股行情复盘与投资主线 - **2025年美股走势**:纳斯达克综指全年录得22%的年度涨幅 谷歌(+70%)与英伟达(+32%)显著跑赢大盘,成为核心动能 [38][40][41] - **2025年港股走势**:恒生科技指数录得30%的年度涨幅 阿里巴巴(+95%)、快手(+73%)、百度(+50%)、腾讯(+48%)及哔哩哔哩(+48%)显著跑赢大盘 [61][64] - **投资主线一:高确定性的CSP厂商及产业链**:算力供需存在结构性错配,头部云服务提供商(CSP)凭借巨额资本开支和供应链议价权构建高壁垒 从现金流看,主要CSP厂商OCF/CapEx占比处于50%-80%健康水位 云业务收入与CapEx投入能见度高,如微软与OpenAI签下2500亿美元订单,AWS与OpenAI签署380亿美元协议 [87][88][90][94][97] - **投资主线二:多模态AI应用元年**:2025年是关键年份,谷歌、OpenAI等密集推出具备商业落地能力的迭代版本,如Veo 3、Sora2等,推动视频生成进入生产级 [104]
谷歌、马斯克紧逼下,OpenAI火线升级ChatGPT图像功能:生成速度提升4倍 编辑精度显著优化
智通财经· 2025-12-17 01:56
此次图像功能升级,旨在同时满足个人创作与专业生产需求。升级后的系统支持对上传图像进行多维度 编辑:例如将照片级写实风格转换为水彩画质感,或为画面中的人物添加新配饰,且所有编辑操作均能 保留原始图像的细节完整性。OpenAI特别强调,新模型在多次编辑过程中可稳定保持光线效果、人物 外观及场景构图的一致性——这一痛点曾导致前代图像模型在多轮编辑中频繁出现细节失真问题。 此外,新模型在文本生成能力上实现突破,支持创建包含更多小型文字的图像内容,例如根据用户提示 生成详细信息图表或多段落文本;同时在单张图像中生成多个清晰的小尺寸人脸图像方面,表现也更为 出色。 财经频道更多独家策划、专家专栏,免费查阅>> 责任编辑:栎树 智通财经获悉,在与谷歌(GOOGL.US)等公司的激烈竞争中,AI巨头OpenAI持续强化其旗舰聊天机器人 产品。该公司于周二宣布,将为ChatGPT的图像生成功能推出重大更新,不仅能提升图像生成的精准度 与编辑灵活性,生成速度更较前代模型最高提升4倍,同时还将在移动端应用及网页端增设独立图像生 成入口,无需通过聊天交互即可直接使用。 作为OpenAI打造"全能应用"战略的重要一环,ChatGPT正 ...
谷歌(GOOGL.US)、马斯克紧逼下 OpenAI火线升级ChatGPT图像功能:生成速度提升4倍 编辑精度显著优化
智通财经网· 2025-12-17 01:05
作为OpenAI打造"全能应用"战略的重要一环,ChatGPT正逐步整合搜索引擎、语音助手、图像及视频生 成等多元功能。然而,当前行业竞争日趋白热化:谷歌近期推出了重磅AI模型Gemini 3,其旗下热门图 像生成工具Nano Banana用户粘性持续提升;埃隆・马斯克创办的xAI公司推出的聊天机器人Grok,也已 上线类似图像生成功能,对ChatGPT形成围追堵截之势。 据此前的报道称,受Gemini 3发布冲击,OpenAI首席执行官萨姆・奥尔特曼在内部备忘录中宣布进 入"红色警报"状态,要求团队全力推进ChatGPT功能升级。就在上周,OpenAI刚刚发布了一款更先进的 AI模型,重点强化了ChatGPT在编程、科学计算及各类办公场景的应用能力。 智通财经APP获悉,在与谷歌(GOOGL.US)等公司的激烈竞争中,AI巨头OpenAI持续强化其旗舰聊天机 器人产品。该公司于周二宣布,将为ChatGPT的图像生成功能推出重大更新,不仅能提升图像生成的精 准度与编辑灵活性,生成速度更较前代模型最高提升4倍,同时还将在移动端应用及网页端增设独立图 像生成入口,无需通过聊天交互即可直接使用。 此次图像功能升级, ...