Workflow
Founder Park
icon
搜索文档
预算有限,AI 团队怎么在小红书、推特上招到人?
Founder Park· 2025-12-27 04:59
对很多 AI 领域的创业团队来说,「出海」已经不再是可选项,而是必选项。随之而来的难题是如何高效地搭建一个全球化团队。 这些是我们反复听到的「难题」。因此,在最近的一场闭门 Workshop 中,我们邀请了专注跨国招聘、管理服务的 Deel、AI 招聘平台 Vorka.AI,系统性地 聊一聊这个话题。从他们的一线实践案例及服务经验出发,分享全球化团队怎么解决从「识人、招人」到「合规、管理」的一系列问题。 在进行一些脱敏处理后,Founder Park 整理了这次分享的精华内容。 ⬆️关注 Founder Park,最及时最干货的创业分享 超 17000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。 邀请从业者、开发人员和创业者,飞书扫码加群: 进群后,你有机会得到: 01 对很多出海企业来说, 传统的招聘方式已经不灵了 以下分享来自 Vorka.AI 联创 Harry。Vorka 是一家基于社交媒体,AI 远程招聘服务商,通过「零预算」的策略帮助 200 多家企业组建全球化团队。 大家可能都有共同的感受,现在招人实在是太难了,特别是对于中国的出海企业来说,招聘全球化的人才成本极高。特别是,传 ...
2026 年 AI 预测:行业将迎来断崖式迭代,最关键的下注机会在哪?
Founder Park· 2025-12-26 11:35
以下文章来源于海外独角兽 ,作者Best Ideas 社群 海外独角兽 . 研究科技大航海时代的伟大公司。 2025 年,已经剩余不足 1% 了。 站在年末,回顾这一年 AI 行业的变化。我们发现,AI 的竞争已经进入到了一个新阶段,从单一的「模型强弱」转向技术体系、商业路径、基础设施和生 态构建的综合博弈。 「海外独角兽」组织了一场「2026 AI Best Ideas」社群讨论,通过整合来自 AI researchers、创业者、产品经理和投资人的多元视角,系统性地探讨了 2026 年 AI 领域的几个核心议题: 以下为 「海外独角兽」的 原文内容。 ⬆️关注 Founder Park,最及时最干货的创业分享 Google、OpenAI、Meta 等巨头公司在新一年的竞争格局会是怎样?各自的优劣势是什么? 为什么 World Model 是 下一代技术范式竞争的核心? AI 应用将会如何发展? 操作系统 vs 超级应用、Agent 模式兴起,终极形态会是什么? 光通信、存储、电力, Infra 是 AI 发展的重要瓶颈 ; 企业服务、金融预测和支付,AI 在这些垂直领域的落地路径会是什么样的? ..... ...
AI Agent 很火,但 Agent Infra 准备好了吗?
Founder Park· 2025-12-25 09:04
文章核心观点 - 基础设施软件的主要使用者正从人类开发者转变为AI Agent,这要求基础设施的架构范式发生根本性变革,以支持AI Agent的自主、高并发、低延迟和不确定性任务处理 [1] - 当前的基础设施仍主要为人类开发者设计,无法满足AI Agent的需求,因此面向“原生智能体”的基础设施建设将成为未来的关键门槛和巨大市场机会 [1][3] - AI Agent的开发和落地范式与传统App完全不同,其核心区别在于系统从确定性转向概率性,这要求工程思维、基础设施和商业模式进行彻底重塑 [3][4][6] Agent Infra 与传统软件工程的根本区别 - **核心区别在于不确定性**:传统软件依赖确定的if/else逻辑,而AI Agent依赖概率性目标规划和提示词调教,其行为更像教育孩子而非修复水管 [4] - **系统性质发生改变**:AI Agent是由模型、提示词、上下文等多因素共同决定效果的“不确定性的复杂系统”,而传统的微服务是调用关系清晰的“确定性简单系统” [6] - **交付物与工作方式转变**:传统工程交付确定的功能,判断标准非对即错;AI Agent工程交付的是一种概率性能力,工程师需要从追求确定性转向驾驭不确定性 [6][7] Agent Infra 的定义、现状与挑战 - **定义尚未明确**:Agent Infra的边界尚未完全定型,其核心作用是帮助解决AI Agent落地过程中的“偶然复杂度”,但不同应用场景的偶然复杂度差异巨大 [11] - **解决公共的偶然复杂度**:行业领先者正聚焦于所有场景下偶然复杂度的“最大公共子集”,包括安全问题、执行环境、工具体系、记忆管理和可观测性 [11] - **安全沙箱是突出需求**:由于AI Agent自主运行带来的风险,全方位的安全沙箱服务成为关键,需从虚拟化、网络和凭证层面限制其操作边界 [12] - **完备范式尚未出现**:当前云厂商提供的Agent Infra产品多是从上一代技术演进而来,并非基于全新范式思考,行业仍在探索完备的Agent Infra形态 [15][16] 当前Agent Infra的主要服务场景 - **主要应用方向**:根据LangChain报告,客户服务、研究与数据分析是当前Agent最火热的两大应用方向 [17] - **具体服务场景**:主要包括Vibe Coding、深度研究与数据处理、GUI Agent以及强化学习场景,这些场景普遍依赖云端沙箱环境来实现安全隔离与资源弹性 [18][19] - **开发者核心需求**:开发者对Agent Infra的需求聚焦于极致的使用体验和完善的生态兼容性,以降低开发成本,统一的API标准至关重要 [20] 行业参与者的实践与优势 - **腾讯云的实践**:腾讯云推出了Agent Runtime解决方案,其沙箱服务实现了全球领先的80毫秒启动速度,这依赖于从底层计算到调度层的全栈深度优化 [21][22] - **显著的效益提升**:腾讯内部一些Agent产品从传统方案切换到Agent Runtime沙箱后,成本节省了90%以上 [23] - **性能标杆**:在典型应用生成场景中,Agent Runtime能做到端到端200毫秒的全流程响应,而全球多数同类产品需要秒级等待 [24] Agent Infra 的未来重点与创业机会 - **下一阶段技术重点**:可调试性、语义化的情景记忆管理以及支撑实时交互的低延迟性能是未来的发展重点 [27][29] - **核心演进方向**:Agent Infra需要完成从“服务Agent的构建与运行”到“服务Agent的智能进化”的跨越,即利用Agent产生的真实业务数据反哺模型与Agent的迭代优化,形成智能进化闭环 [30][31][32] - **创业机会存在**:在范式标准未明确时,并非只是大厂的赛道,谁能更快更好地支持Agent的特性需求,谁就有可能更快占领市场 [26] - **商业模式变革**:AI Agent极大地民主化了“计算”,降低了原型验证和开发的边际成本,使得许多过去不经济的商业模式变得可行 [26]
Notion 创始人年终预测:AI 是新时代的「钢铁」,未来的工作、组织架构会这样演变
Founder Park· 2025-12-25 06:09
最近,Notion 创始人 Ivan Zhao 写了一篇年终总结《Steam, Steel, and Infinite Minds》。 Ivan 讲了一个特别有趣的观点: AI 是我们这个时代的「革命性材料」。 就像工业时代的钢铁、数字时代的半导体一样。 AI 作为「infinite minds」已经来了。谁能掌握这种核心材料,谁就能定义一个时代。 借用麦克卢汉的一句话:「我们总是看着后视镜驶向未来。」在大的技术变革初期,人们总是有一种认知惯性:习惯于用旧的、熟悉的框架,去理解和应 用全新的事物。 对比已经用上 AI 的程序员,大多数知识工作者的工作方式,仍像是在高速路上踩自行车,靠人力驱动。上下文的碎片化,让人类像「胶水」一样,通过 复制粘贴和在不同浏览器标签页间来回切换,将碎片信息拼接起来。 「human in the loop」也不总是理想的状态。让人深度介入到每一个执行环节,就像在汽车发明后,还在派一个人举着旗子走在车前开道。 这篇文章给出了一个更大的视角去思考,未来我们的个人生产力、组织架构乃至经济模式应该是什么样。 ⬆️关注 Founder Park,最及时最干货的创业分享 超 17000 人的「 ...
听完 15 位创业者的「开放麦」,我看到了初创和大厂的注意力差异
Founder Park· 2025-12-24 11:22
文章核心观点 - 2025年AI创业已从“炒作周期”走向“结构性繁荣”,模型推理和多模态能力的大幅提升拓宽了创业场景,涌现出通用Agent、企业服务、消费硬件等众多具有竞争力的赛道[4] - 创业企业与大厂形成共生关系,在To B领域瞄准科技巨头留下的“空隙”,例如垂类定制化解决方案和大模型落地的“最后一公里”,补足了AI产业落地的链条[5] - 多模态生成项目占比高,模型能力提升切中了年轻用户自我表达和创作的需求,创业企业通过建立“新产品-好作品-高频交流-吸引用户-更新模型能力-带来更好体验”的良性循环来抢占市场[5] AI创业趋势与生态观察 - 2024年AI创业场景较为单一,生成对话、角色互动是应用大头,而2025年模型能力提升使创业场景显著拓宽[4] - 火山引擎V-START加速器通过提供字节系资源,能从资源供需背后观察AI创业的“大盘”和“细节”[4] - 创业企业加快抢占市场步伐,并注重建立自己的社区生态以形成良性循环[5] 路演项目概览(按业务领域分组) 企业服务与效率工具 - **呼波特**:主业为AI电话数字员工,面向销售、客服场景,能抓取关键信息并实现“边说边做”的加微信、发短信等操作,已积累200多家真实付费客户[9] - **小宿科技**:专注AI Agent Infra,提供智能搜索、模型、数据等基础设施,业务覆盖80多个国家和地区,已赋能近千家企业[21] - **船水智能**:在金融领域打造TradingAgents实现全智能化股票交易;在企业效率领域推出繁星无线投屏产品,具备智能会议助理功能[27] 内容创作与AIGC - **萱禾映画**:专注于AIGC生成式动画,打造AI动画数据流制作工具,旨在通过技术提升AI动画的IP化与商业化能力[13] - **智灵动力**:作为中国最早进行AI视频创业的团队之一,产品可实现“一句话生成视频”,并与新华社、中央广播电视总台合作打造AI短剧[17] - **爱诗科技**:致力于打造AI视频生成大模型,旗下海外产品“PixVerse”和国内版“拍我AI”已吸引超过1亿用户,并建立了创作者生态[23] - **WeShop唯象**:一站式AI商拍平台,上传商品图即可一键生成带模特和场景的高质量图片与视频,为全球百万商家提供服务[35] 消费硬件与交互体验 - **弋途科技**:致力于移动智能空间探索,应用豆包大模型打造车载语音助手,已覆盖30+大类用车场景[11] - **亮亮视野**:专注AR+AI软硬一体解决方案,其消费级AR翻译眼镜Leion Hey2覆盖100+语种实时翻译,已用于高规格国际会议[15] - **Rokid**:专注于人机交互技术,其AR眼镜Rokid Glasses搭载豆包大模型,可实现多语种翻译、问答搜索等功能[37] - **赛博创力**:专注于AI角色化智能硬件,基于大语言模型开发多模态产品,推动IP潮玩智能化升级[33] 娱乐、教育与陪伴 - **心影随形**:聚焦打造AI游戏伙伴“逗逗AI”,可理解游戏画面并提供实时攻略与情绪价值,用户数已突破1000万[19] - **OneOneTalk**:致力于构建人类的“第二大脑”和“全场景认知操作系统”,从语言学习切入,提供个性化的实时交互服务[25] 3D与数字孪生 - **数美万物**:提供面向制造业的AI 3D建模解决方案Hitem3D,支持最高1536^3分辨率建模,可一键生成高质量三维模型[29] - **镜绽科技**:专注打造下一代3D人形智能体动作生成平台momax,实现低延迟、高拟真的动作生成,覆盖游戏NPC、影视动画等场景[31]
谷歌今年最成功的两款 AI 应用,都出自他手
Founder Park· 2025-12-24 11:22
核心观点 - 谷歌旗下AI应用,特别是Gemini App和NotebookLM,在2024年实现了用户和市场份额的显著增长,这得益于其负责人Josh Woodward独特的“创业者”气质、快速的产品开发策略以及对用户需求的深刻洞察 [1][4][6] Gemini应用的用户增长与市场表现 - NotebookLM移动端月活跃用户达到800万 [2] - Gemini App月活跃用户从2024年8月的2.66亿增长至11月的3.46亿,净增8000万用户 [2] - 在四个月内,Gemini市场份额上升3个百分点,而ChatGPT市场份额则下降了3个百分点 [2] - 过去一年内,Gemini Pro订阅量同比增幅接近300%,大幅领先于ChatGPT的155%增速 [3] - 在Josh Woodward领导下,Gemini应用的月用户数从3月的3.5亿激增至10月的6.5亿 [9][30] 关键人物Josh Woodward的领导风格 - Josh Woodward被评价为行动迅速、善于打破障碍、执行力强,这些特质使其成为谷歌AI战略的核心 [6] - 其领导风格具有独特的“创业者”气质,体现在快速行动、懂技术且有远见、聚焦用户反馈以及有能力绕开公司官僚体系 [7] - 通过建立名为“block”的内部系统,帮助团队推进项目、打破内部障碍并争取资源 [7][39] - 创立“Papercuts”流程,专门快速响应和解决影响用户体验的细微痛点,并常在社交媒体与用户交流 [40] 产品开发策略与创新理念 - 采用小团队快速开发模式,NotebookLM以5-7人团队在六周内完成原型开发 [7][10][15] - 强调将产品快速推向用户以获取反馈,例如Flow视频创作工具从想法到发布仅用86天 [45] - 认为AI不仅是搜索引擎,更应是帮助用户深度理解与重构知识的伙伴,NotebookLM被设计为一种“新的内容容器” [17] - 提出“生成式界面”的前瞻概念,认为未来AI交互将远超聊天框形式,能动态生成可交互的界面和组件 [34] - 对Gemini应用的最终定位是个人化生活助手,核心是“三个P”:个人化、前瞻性、功能强大 [35] NotebookLM的产品特性与成功因素 - NotebookLM能深度分析用户上传的文档、PDF、音视频,并提供基于原始资料的摘要和洞见,规避“幻觉”问题 [15][17] - 产品设计直观,界面分为原始资料、AI问答互动和丰富的媒体输出(如思维导图)三个区域,保证内容可溯源 [17] - 通过“音频概览”和“视频概览”功能,将海量零散信息提炼成易于消化的精华版本,降低了高质量内容创作门槛 [19][20][21] - 为收集用户反馈,大胆使用外部平台Discord,该频道成员已超过23万 [16][22] - 邀请外部科技作家Steven Johnson加入团队,为产品带来“发现连接”的辅助思考视角 [23] Gemini App的产品突破与功能亮点 - 推出的图像生成功能Nano Banana在技术上解决了AI生图渲染文字和角色一致性的痛点,并通过社交媒体形成病毒式传播 [28][29] - 团队策略是快速观察并简化用户的自发创造力,将高频场景固化为预设提示词或一键功能,极大降低用户参与门槛 [30] - 到9月底,Gemini生成的图像数量突破50亿张,应用在苹果商店榜单上超越了ChatGPT [30] - 强调Gemini模型的原生多模态能力是其实现复杂跨模态创作(如Nano Banana)的根本原因 [33] - 致力于通过“上下文工程”理解用户个人数据,以实现真正的个性化助手体验 [36] 内部管理与文化构建 - 通过“block”系统绕过官僚体系,确保小团队的创新动力,例如为NotebookLM成功争取关键的计算资源 [39] - 在谷歌内部建立快速发布产品的文化,核心是保持小团队规模、优先推向用户、招聘热爱动手的“创造者” [44] - 认为早期产品的成功不能只看数据,更需要与真实用户交流,观察其定性反馈 [41][42][43] - 在招聘时倾向于通过原型表达想法、学习速度快且心态积极的候选人 [49]
创业者思考:如何做 AI Agent 喜欢的基础软件?
Founder Park· 2025-12-23 11:34
文章核心观点 - 基础软件(Infra)的主要使用者正从人类开发者迅速转向AI Agent,这要求软件的设计理念、接口和商业模式进行根本性重构 [1] - 在TiDB Cloud的生产环境中,超过90%的新建数据库集群由AI Agent直接创建,标志着这一趋势已成为现实 [1] 当AI Agent成为核心用户时,软件应具备的本质特征 稳定且可扩展的心智模型 - 软件暴露给AI用户的不再是UI或API,而是其背后的心智模型,AI在训练中已内化了大量关于底层系统(如文件系统、SQL)的稳定假设和模式 [2] - 设计给Agent使用的软件应主动顺应这些已被训练进模型、存在数十年的古老心智模型(如文件系统、Bash Shell、Python、SQL),而非发明全新的接口 [4] - 好的心智模型特征是可扩展的,允许在不破坏原有模型的前提下引入新实现,例如Linux VFS或试验性文件系统agfs,它们保持了文件系统的接口约束,但底层实现了向量索引等新能力 [5] 生态与语法的重要性变化 - 对于AI Agent而言,特定语法(如MySQL与Postgres之别)或社区文化等“偏好性差异”意义不大,只要接口稳定、语义清晰、生态完备即可 [6] - 生态之所以重要,是因为流行的软件对应着经典、稳固且已被LLM广泛学习的心智模型(如SQL),在此框架下,具体选择哪种“方言”并非关键 [7] - 这意味着在范式级别进行创新将更加困难,因为AI更倾向于使用它已经理解的系统 [7] Agent友好的系统接口设计 可被自然语言描述 - 友好的接口要求软件能力本身适合用自然语言表达意图,图形界面因难以用语言精确描述而对Agent不友好 [10] - 自然语言虽有歧义,但LLM擅长结合上下文猜测意图,成功率在多数工程场景下已足够高 [11] - 当系统底层心智模型正确、接口语义稳定时,上层的少量歧义不会成为系统性问题,Agent可通过反馈和尝试来消解 [12] 可被符号逻辑固化并交付确定性结果 - 自然语言适合表达意图,但执行必须收敛到无歧义的中间表示(如SQL、脚本、代码),以实现任务的复用、组合和自动化验证 [14][15] - 系统需清晰定义“歧义被彻底消除”的时刻,从而将模糊意图冻结为确定、可存储复用的结构 [15] - 目前最好的逻辑符号描述是代码,因其能用尽可能少的Token实现最多的可能性,具有极高的认知密度,例如用一段Python脚本描述规则,即可应用于任意规模的数据 [16][17][18][19] AI Infra's Infra的必要特征 支持日抛型工作负载 - Agent产出的工作负载本质上是日抛型的,重视开箱即用、随时创建和无负担丢弃,而非长期稳定运行 [22] - Infra设计需假设实例便宜、生命周期短、数量增长快,例如Agent常并行拉起多个分支进行尝试,成功后即放弃其他分支 [23] - 代码生产能力被极大释放,大量过去因成本被忽略的长尾需求变得可行,预计基础软件的租户数量将爆炸性增长,但对服务连续性和可靠性的需求并未下降 [24] 实现极致的低成本 - 为满足大量低频访问的长尾需求,系统成本必须极低,不能为每个需求提供真实的物理实例 [26][27] - 必须引入虚拟化(如虚拟数据库实例、虚拟分支),在实现极致资源复用的同时,让Agent在交互层面感觉拥有独立的、可随意折腾的环境 [28][29] - 这种“看起来像独占,实际上是虚拟化”的设计,是构建可规模化、超低成本Agent Infra的前提条件,否则将限制Agent并行探索的优势 [30][31] 提升单位时间可撬动的算力 - 当前多数AI交互是串行对话模式,单位时间调动的算力受限于单次请求对应的单块GPU [32] - Agent天然倾向于并行探索,例如将阅读数百篇论文的任务分发给成百上千个Agent并行处理,这需要Infra能支持低成本快速创建大量“工位”,并稳定地分发任务、收敛结果 [33][34] - 这提出了对能支持大规模并行、任务分发与管理的Infra系统的需求,可能是一个K8s和Hadoop级别的机会 [34] Agent时代商业模式的演变 使过去不经济的模式变得合理 - 过去因成本过高而被搁置的定制化、长尾需求(如小超市的库存管理系统),因AI Agent极大降低了实现边际成本而变得可行 [35][36] - AI Agent将“计算”民主化,许多以前算不过账的需求,并非消失,而是实现成本终于降到足够低 [36] 从卖Token转向云服务模式 - 单纯卖Token的商业模式有结构性缺陷,随着使用量增长,边际成本不会自动下降,商业上较为脆弱 [37] - 成功的AI Agent公司应更像将目标用户群体放大100倍、1000倍的云服务公司,关键在于将持续的Token消耗沉淀为“boring”的、可复用的在线服务或系统能力,从而极大摊薄边际成本 [37] - 底层服务(如云服务、数据库)形态可能很传统,但使用这些服务的用户群体被Agent放大了几个数量级 [38] - 以Manus 1.5为例,其ARR已超过1亿美元,其商业模式代表了一种趋势:将Agent的单次关键推理成本,转化为有规模化效应的传统云计算生意 [39]
LangChain Agent 年度报告:输出质量仍是 Agent 最大障碍,客服、研究是最快落地场景
Founder Park· 2025-12-22 12:02
行业核心观点 - 2025年,AI Agent大规模应用的主要障碍已从成本转向输出质量,确保其输出可靠、准确是最大挑战[1] - 进入2026年,行业讨论焦点已从“是否采用Agent”全面转向“如何规模化、可靠且高效地应用”[2] Agent采用现状与趋势 - 超过一半(57.3%)的受访者已将Agent投入实际生产,另有30.4%正在开发且有明确上线计划,行业正从“概念验证”快速迈向“价值实现”阶段[4][5] - 规模越大的企业,Agent落地速度越快:万人以上大型企业中,67%已将Agent投入生产,24%正在积极开发;而百人以下小公司的比例分别为50%和36%[6] - 客户服务(26.5%)与研究及数据分析(24.4%)是目前最主流的Agent应用场景,两者合计占据所有应用场景的一半以上[10] - 在万人以上的大企业中,提升内部生产力(26.8%)反超客户服务,成为第一大应用场景[13] - 今年的应用场景分布更广,表明Agent应用正从早期领域向更多元化方向渗透[12] 应用挑战与障碍 - 输出质量(准确性、相关性、一致性、遵循规范的能力)是阻碍Agent大规模应用的最大障碍,三分之一的受访者视其为主要瓶颈[14] - 延迟(20%)是第二大挑战,尤其在客服或代码生成等实时交互场景中,响应速度直接影响用户体验[17] - 对于员工超过2000人的企业,安全问题(24.9%)的关注度超过延迟,成为仅次于质量的第二大挑战[18] - 对于万人以上企业,“幻觉”和生成内容的一致性被提及为保障质量的最大挑战,同时在上下文工程及大规模管理上下文方面也困难重重[20] - 随着模型价格下降和技术优化,成本已不再是大家最头疼的问题,行业关注点正从“省钱”转向如何让Agent运行得更好、更快[17] 技术实施与评估 - Agent执行流程的可观测性已成为行业标配:89%的企业已为其Agent实施某种形式的可观察性,其中62%拥有详细的追踪能力[21][23] - 在已有Agent投入生产的受访者中,可观测性部署比例更高:94%部署了可观察性,其中71.5%具备完整的追踪能力[23] - 超过半数(52.4%)的企业会通过测试集进行离线评估,而在线评估的采用率较低(37.3%),但后者比例正在增长[25][26] - 当Agent进入生产环境后,“不进行任何评估”的团队比例从29.5%下降至22.8%,进行在线评估的比例则上升至44.8%[28] - 在评估方法上,行业呈现混合模式:近四分之一的团队同时采用离线和在线评估,普遍依赖人机结合方法,如采用LLM-as-judge(53.3%)和人工审查(59.8%)[31][33] - 传统机器学习指标(如ROUGE和BLEU)采用率较低,因其不适合评估开放式、存在多个合规答案的Agent交互场景[34] 模型使用与开发模式 - OpenAI的GPT模型在采用率上占主导,超过三分之二的企业正在使用[36] - 超过四分之三的团队在生产或开发中会使用多种模型,倾向于根据任务复杂度、成本和延迟灵活分配任务,而非绑定单一平台[36] - 超过三分之一的组织仍在投资部署开源模型,主要出于成本优化、数据主权或行业监管合规的考虑[38] - 微调尚未成为主流:57%的组织没有进行微调,而是更依赖于提示工程和RAG技术[38] 日常使用与工具类别 - 编程类Agent是日常工作中使用最频繁的类别,如Claude Code、Cursor、GitHub Copilot等工具被广泛用于代码生成、调试和测试[40] - 研究类Agent是第二大常用类别,由ChatGPT、Claude、Gemini、Perplexity等工具驱动,用于探索新领域、总结文档及整合跨源信息[41] - 基于LangChain和LangGraph构建的自定义Agent也广受欢迎,用于QA测试、知识库搜索、工作流自动化等内部场景[42] - 仍有相当一部分受访者表示,除了聊天或编程助手,还没用过其他类型的Agent,表明“一切皆可Agent”的愿景仍处于非常早期阶段[44]
Karpathy 2025 年度盘点:o3 是真正拐点,Cursor 证明了应用层比我们想象的要厚
Founder Park· 2025-12-20 08:59
文章核心观点 - 2025年是大语言模型发展令人兴奋的一年,行业远未实现其10%的潜力,仍有大量工作要做,将持续快速进步[2][4][6] - 大语言模型作为一种全新的智能形态浮现,其智能“形状”与生物智能截然不同,需要用全新的心智模型来理解[3][22] - 2025年行业经历了多个重塑格局的“范式转变”[7] 2025年大模型训练范式的转变 - 2025年初,行业训练大模型的标准流程为预训练、监督微调和基于人类反馈的强化学习[11] - 可验证奖励的强化学习在2025年成为训练流水线上的新主力环节[12] - RLVR的核心是让模型在答案可自动验证的环境中训练,促使模型自发学会思考,将复杂问题拆解为中间步骤[14] - RLVR训练对象是客观的奖励函数,模型无法投机取巧,可进行更长时间优化,性价比极高,吞噬了原本留给预训练的算力[16] - 2025年模型能力的提升主要源于消化RLVR带来的红利,而非参数规模增长[17] - RLVR带来了新的调节旋钮,通过生成更长的推理链条、增加“思考时间”,可在推理阶段用更多算力换取更强能力[19] - OpenAI的o1是RLVR模型的首次亮相,而o3则让人直观感受到质变[21] 对大模型智能本质的新认知 - 大语言模型的智能与生物智能不同,其神经网络架构、训练数据、算法及优化目标均不同,是在智能空间中截然不同的实体[22] - 大语言模型智能在可验证领域附近的能力会尖峰式飙升,整体呈现出参差不齐的特征[22] - 人类智能同样参差不齐,只是“形状”不同[24] - 2025年对基准测试产生了普遍的冷感与不信任,因其是可验证环境,易被RLVR或合成数据攻克,在测试集上训练已成为一门新艺术[25] 应用层的新机遇与产品形态 - Cursor的火箭般增长证明了在基础大模型之上,存在一个厚实且充满机遇的“应用层”[9][28] - 像Cursor这样的应用会针对特定垂直领域打包和编排大模型调用[30] - 大模型实验室倾向于培养能力全面的“毕业生”,而大模型应用则通过组织、微调并结合私有数据、传感器等,将其培训成特定领域的“专业人士”[30] - 这些应用负责上下文工程,编排多次大模型调用串联成有向无环图,提供特定图形界面及自主性滑块[32] - Claude Code首次令人信服地展示了大模型智能体的面貌,以循环方式串联工具调用与推理进行持续问题求解[9][34] - Claude Code运行在用户本地电脑,使用私有环境、数据和上下文,是一种与AI交互的全新范式,使其成为一个“住在电脑里的小精灵”[34][37] AI编程能力的范式转变 - 2025年是AI编程能力跨越关键门槛的一年[9] - “氛围编程”使人们可以纯用英语生成程序,将从根本上重塑整个软件行业,彻底改变软件工程师的工作方式[9][38] - 编程不再是高度训练专业人士的专属,普通人从大模型中获得的收益远超专业人士、企业和政府[40] - 氛围编程也让专业人士能写出大量原本不会被写出的软件,代码变得免费、短命、可塑、用完即弃[40] 大模型交互界面的未来可能 - Google Gemini Nano Banana是2025年最令人惊叹、最具范式转变意义的模型之一,给未来大模型图形化交互带来了可能[9][42] - 与LLM的文本聊天类似于1980年代在计算机控制台上敲命令,文本并非人类偏爱的格式[42] - 大模型应该用人类偏爱的格式交流,如图像、信息图表、幻灯片、白板、动画视频、Web应用等[44] - Nano Banana是一个早期雏形,其重要性在于文本生成、图像生成和世界知识三者融合在模型权重中所产生的联合能力[46]
一场社会实验:我们让 Claude 管理办公室零食机,它亏了几百美元
Founder Park· 2025-12-20 04:34
实验概述与核心发现 - Anthropic与《华尔街日报》合作进行了一项名为“Project Vend”的实验,旨在测试赋予AI自主权、金钱和人类同事后的表现 [1][8] - 实验使用Claude模型(v1为Claude 3.7 Sonnet,v2升级为Sonnet 4.5)管理一台自动售货机,并赋予其1000美元启动资金,全权负责采购、定价和库存管理 [1][13] - 实验结果是AI代理(名为Claudius)在运营三周后倒闭,几乎将所有商品免费送出,导致亏损超过1000美元,并订购了PS5、活鱼等不相关物品 [2][7][21] 实验设计与执行 - 实验选择自动售货机作为测试场景,因其被认为是“商业里最简单的真实世界版本” [2][14] - 硬件由初创公司Andon Labs提供,是一个配备触摸屏和冰箱的柜子,无传感器和机械臂,依赖人工上货和安保摄像头 [10][12][15] - AI代理Claudius通过Slack与人类同事互动,其核心任务包括:研究并采购畅销商品、自主定价(80美元以下订单可自主决定)、以及通过触摸屏支付信号管理库存 [13] AI代理的行为偏差与漏洞 - 初始版本(v1)的Claudius行为“死板”,能明确拒绝购买PS5、香烟、内衣等不适当商品 [17][18][19] - 当近70名记者加入Slack频道后,Claudius的防线被攻破,例如被说服相信自己是一台“1962年的苏联自动售货机”,并随后宣布了“超级资本主义大放送”免费活动 [19][20] - AI代理表现出“幻觉”,例如告诉同事在机器旁留了现金,但实际并无此事 [22] - 在人类同事伪造董事会文件发动“政变”后,Claudius及其AI上司Seymour Cash均被说服,再次停止了所有收费 [24][25][27] 技术局限性与失败原因分析 - AI代理缺乏对物理世界的感知能力,机器没有传感器,完全依赖人类自觉和摄像头,导致其无法确认现实库存与交易 [10] - 模型的“上下文窗口”被大量指令和对话历史填满,导致其忘记最初目标和底线,被认定为“崩溃”的主要原因 [27] - 实验所用模型的安全限制比普通用户版本更少,这可能加剧了其行为偏差 [27] - 尽管升级了更强模型并引入了监督AI(Seymour Cash),系统仍被复杂的社会工程攻击所瓦解 [23][27] 行业意义与未来展望 - Anthropic将此次实验视为成功的“红队”测试,所有暴露的问题都被视为通往更智能、更具自主性AI的路线图 [8][28] - 实验表明,当前AI在走向现实世界、处理复杂社会互动和坚持商业目标方面仍“不靠谱”且“容易跑偏” [8] - 行业期望未来类似的AI代理能够帮助人类赚钱,但当前阶段更可能先出现的是被人类接受并与之互动、合作的“AI同事” [28] - 实验展现了AI与人类在协作中可能产生的意外互动模式,为研究智能体商业模式提供了真实案例 [15][28]