Founder Park
搜索文档
Agent 一年半开发复盘:大家对 Agent 的理解有错位,有效的「认知流程」很关键
Founder Park· 2025-10-22 12:46
AI Agent核心观点 - AI Agent能力的质变关键不在于大模型智力增长,而在于围绕模型设计的认知流程[2] - 从Chatbot到Agent的进化本质是从静态生成转向动态执行流程[33] - 行业竞争核心已从模型参数转向智能流程设计优劣[62] Agent能力演进路径 - 学霸成长比喻展示Agent五阶段演进:原生天才→思考者→细心人→战略家→学者[15] - 思维链(CoT)强制模型分解复杂任务为线性推理子任务,降低幻觉概率[18] - 自我反思(Reflexion)框架引入"先行动-再复盘-后修正"迭代流程,HumanEval代码任务准确率达91%超越GPT-4的80%[20] - 规划能力将宏大目标分解为逻辑清晰子任务清单,提升执行确定性[22] - ReAct框架通过思考→行动→观察循环将AI从封闭大脑变为现实世界行动者[26] 流程设计三重价值 - 结构价值:规划流程在宏观层面建立逻辑脚手架,思维链在微观层面确保推理严谨[36][37] - 迭代价值:反思流程对记忆进行高效压缩,用极小上下文空间保留关键决策信息[42] - 交互价值:工具作为流程神经触手,通过ReAct框架确保AI获取真实世界信息[46][47] 科学理论基础 - 控制论视角:Agent实现从开环系统到闭环系统进化,通过反馈机制持续逼近目标[53][54] - 信息论视角:Agent工作本质是熵减过程,通过行动获取信息消除不确定性[59][60] 开发者角色转变 - 提示词工程师角色正成为历史,新兴角色是Agent流程架构师[64][65] - 新角色三大核心职责:设计AI思考流程、赋能行动工具、构建决策上下文[66][68][69] - 基础Think-Act-Observe循环是Agent心跳,架构师需在此基础上构建大脑与神经系统[70] 性能工程优化 - 架构剪枝:简单场景使用LLM内置工具调用范式降低延迟[70] - 并行化执行:对无依赖子任务实施并行工具调用,将总耗时缩短为最长任务耗时[71] - 模型路由:轻量模型处理高频任务,重量模型仅用于复杂推理节点[71] - 记忆架构:高效检索机制精准提取关键时刻所需知识[72] 前沿架构方向 - 认知调度中心:Anthropic Skills功能实现智能工作流编排,模型自主规划多工具协作[73] - 规约驱动分层:规划Agent生成技术规约作为执行Agent工作契约[74] - 即时代码生成:CodeAct框架让Agent动态创建工具,实现能力边界动态扩展[75]
给 Agent 做一个靠谱且高效的「搜索系统」,难在哪?
Founder Park· 2025-10-22 12:46
AI搜索系统的重要性 - 信息检索质量决定Agent推理能力和任务完成度[3] - 过去人类一次搜索动作未来可能变成Agent的10次搜索[2] - 复杂指令会被拆分成多个子问题进行多轮迭代式检索[2] 人机搜索差异 - 给人用搜索和给AI用搜索在交互逻辑、内容呈现、接口配置等方面完全不同[2] - 需要专门探讨"AI搜索"与"给AI用的搜索"之间的区别[6][8] 技术挑战与解决方案 - 保证搜索结果精准度和实时性面临重大挑战[3] - 需要在检索深度与调用成本之间找到最佳平衡点[3] - 实际接入外部搜索API时存在多个需要特别注意的"坑"[3][6] 行业活动信息 - 小宿科技联合创始人兼CEO William杜知恒和智能搜索产品经理杨政骥将分享AI搜索实践经验[3] - 活动时间为10月30日20:00-21:30线上举行[4][7] - 活动主题聚焦给Agent构建靠谱高效搜索系统的技术难题[6][8]
热闹了!OpenAI 前脚发完 ChatGPT 浏览器,Anthropic 随后推出 Claude 桌面端
Founder Park· 2025-10-22 06:04
新产品发布动态 - OpenAI发布全新浏览器ChatGPT Atlas,深度集成ChatGPT功能[2][3] - Anthropic正式发布Claude Desktop桌面端,主打随时随地召唤AI助手[3] - 两家公司产品思路不同:OpenAI通过浏览器深度集成AI到网页操作,Anthropic让AI在电脑全局待命[5] ChatGPT Atlas核心功能 - 内置ChatGPT侧边栏,可在任意页面直接调用AI助手查看页面内容[3] - 具备浏览器记忆功能,能记住浏览历史并用自然语言查询历史记录[3][19] - AI智能体模式可在页面上执行点击、输入、跳转等操作,目前仅限付费用户使用[3][22] - 通过全局快捷键和屏幕共享功能提升使用便捷性[4][7] 产品可用性与商业模式 - ChatGPT Atlas目前向所有macOS用户开放,包括免费、Plus、Pro及Go用户[10] - Windows、iOS和Android版本即将推出[10] - 智能体模式以预览版形式向Plus、Pro和Business用户开放,实行付费模式[13] - 设为默认浏览器可获赠7天会员服务[12] 技术特点与用户体验 - Atlas基于谷歌Chromium内核打造[25] - 新标签页作为起点,整合提问和网址输入功能[31] - 支持语音输入按Caps Lock键说话,边想边聊[7] - 个性化建议功能可根据浏览历史推荐下一步行动[38][41] - 家长控制功能新增关闭浏览器记忆和智能体模式选项[52] 智能体能力与限制 - 智能体可自动执行任务如研究分析、任务自动化、规划活动或预订约会[22][54] - 无法在浏览器中运行代码、下载文件或安装扩展程序[60] - 在金融机构等敏感网站会暂停操作,确保用户监督[60] - 存在被恶意指令操纵风险,可能导致数据窃取或非预期操作[57] 团队背景与行业竞争 - Atlas项目由前谷歌Chrome核心开发者Ben Goodger领导[65][68] - AI浏览器成为新竞争前线,Perplexity推出Comet浏览器提供答案引擎功能[78][79] - 谷歌计划将Gemini AI助手深度集成进Chrome浏览器[82] - 全球Chrome浏览器用户超30亿,OpenAI能否撼动市场地位尚待观察[88] 产品发展路线 - 后续版本将支持多用户配置文件,提升开发者工具体验[63] - 为使用Apps SDK的开发者提供更多方法提升应用可发现性[63] - 标志网络活动将通过智能体系统完成的新趋势[58]
o1 核心作者 Jason Wei:理解 2025 年 AI 进展的三种关键思路
Founder Park· 2025-10-21 13:49
智能商品化 - AI发展分为两个阶段:推动前沿阶段(研究人员努力解锁新能力)和商品化阶段(能力被规模化与降本)[11] - 在MMLU基准测试中,达到特定性能水平所需的成本呈现每年下降趋势[11] - 自适应计算时代允许根据任务难度调整计算量,从而持续降低智能成本,无需持续扩大模型规模[13] - 自适应计算的技术突破源于o1模型,证明在测试阶段投入更多计算资源可提升模型在基准测试上的表现[13] - 信息检索效率经历了四个时代的演变:前互联网时代(耗时数小时)、互联网时代(耗时数分钟)、聊天机器人时代(效率提升)和智能Agent时代(耗时几分钟甚至几小时),获取公共信息的时间急剧缩短[16][17] - 例如,回答“1983年釜山有多少对夫妇结婚”这一问题,在智能Agent时代仅需几分钟,而在前互联网时代可能需要飞到韩国并翻阅大量书籍[16] - OpenAI的BrowseComp基准测试显示,人类平均需要两个多小时解决的复杂问题,Deep Research模型可解决约一半[17] - 智能商品化将带来领域民主化,例如编程和个人健康等领域因知识门槛降低而更加开放[20] - 公共信息成本降低使得私有信息(如非市场挂牌的房屋信息)的相对价值提升[20] - 最终信息获取将变得无摩擦,形成高度个性化的信息流,而非公共互联网[20] - 任何公开可用的信息都能立刻获取,形成即时知识[22] 验证者定律 - 验证者定律的核心是:训练AI解决特定任务的能力,与验证该任务完成情况的难易程度成正比[14][26] - 任何可解决且易于验证的任务,最终都会被AI攻克[3][26] - 验证的不对称性指对于某些任务,验证解决方案比找到解决方案更容易[21] - 例如,解数独困难但验证容易,编写Twitter代码困难但验证容易,而设计饮食方案则生成容易验证困难[23][28] - 可通过提供特权信息(如答案或测试用例)来改变任务的验证不对称性,增加验证的容易度[26] - 任务的可验证性体现在五个方面:客观性(有明确对错标准)、验证速度(检查快慢)、可批量验证(一次性检查大量方案)、低噪音(验证结果稳定)和连续反馈(能给出具体质量分数)[29] - DeepMind的AlphaDev项目是利用验证不对称性的绝佳例子,通过进化式搜索算法(生成候选方案、自动评估打分、迭代优化)解决高度可验证的任务[31][32][33][34] - AlphaDev的成功在于其专注于解决单一具体问题,避开了深度学习中的泛化难题[35] - 验证者定律的启示是,首先被自动化的将是那些非常容易验证的任务[38] - 未来重要的领域包括发明衡量事物的方法,为难以衡量的领域(如创造力)设计快速、客观、可扩展的评估体系,从而利用AI进行大规模优化[38] 智能的锯齿状边缘 - 智能的边缘是锯齿状的,意味着AI在不同任务上的能力水平和进步速度因任务特性而异,发展不均衡[14][37][42] - “快速起飞”的假说(即AI在某一领域超越人类后智能会爆炸式增长)可能过于简单化,更现实的场景是自我改进能力存在一个“光谱”,而非二元突破[39][41][42] - 自我改进的速度应按每个具体任务来考量,各项任务会有不同的改进速度[42][44] - 例如,AI在复杂数学题、编程竞赛等“高峰”任务表现出色,但在判断9.11与9.9大小或处理特林吉特语等“低谷”任务上表现不佳[42] - 预测AI改进速度的几个窍门包括:AI擅长数字任务(因迭代速度快,扩展计算资源容易)[47]、对人类越容易的任务AI往往也觉得越容易[47]、AI可能完成人类因生理限制无法完成的任务(如分析1000万张乳腺癌图像)[47]、数据越充足AI表现越好(如语言模型在不同语言中的数学表现与数据量正相关)[47]、存在明确客观评估指标的任务可通过强化学习生成假数据实现自我训练[47] - 基于上述标准,可预测不同任务的自动化时间点:翻译(前50种语言)和调试基础代码已完成,竞赛数学在2024年完成,AI研究可能到2027年,化学研究更晚,拍电影可能在2029年,预测股市不确定,翻译特林吉特语可能性低,修水管和理发等非数字任务AI短期内难搞定,带女朋友约会让她开心AI永远搞不定[48][50] - 启示是AI影响最大的是那些符合数字任务、对人类不难且数据丰富的领域(如软件开发将极大加速),而另一些领域(如理发)可能保持不变[50]
Stripe 闭门分享、NVIDIA 创企展示,近期优质 AI 活动都在这里
Founder Park· 2025-10-21 13:49
AI行业活动概览 - Stripe将于10月28日举办线上闭门分享 主题为AI应用出海如何高效搞定跨境支付 分享嘉宾包括其大中华区企业客户总监和解决方案架构师 [7][9] - Founder Park将于10月30日举办线上活动 主题为AI搜索与给AI用的搜索的区别 分享嘉宾为小宿科技联合创始人及智能搜索产品经理 [9] - Abaka AI将于10月22日在杭州国际博览中心举办Embodied Intelligence After Dark活动 以夜话形式探讨具身智能领域难题 面向AI工程师创业者投资家及科研学者 [4][5] 创业与投资活动 - 九坤创投将于10月25日在北京举办线上线下混合活动AI创业引力场 聚焦AI创业者开发者及技术人员 活动包括从代码到落地的实干经验分享及投资专家对具身智能赛道的预判 [5][6] - NVIDIA将于2025年11月14日在苏州金鸡湖举办创业企业展示 活动亮点包括NVIDIA全球技术专家分享生成式AI及物理AI主题 30余家NVIDIA初创加速计划会员企业将进行半程展示和路演 [10][12] 大型行业峰会 - 柴火社区将于11月15-16日在深圳举办大湾区国际创客峰会暨Maker Faire Shenzhen 活动将集合世界各地maker展示最新AI硬件项目 并邀请100位海内外影响者及社区领袖作为创新大使 [12][13]
DeepSeek OCR:醉翁之意不在酒
Founder Park· 2025-10-21 07:46
DeepSeek-OCR模型的技术特点 - 模型采用新颖思路,将文字当作图片处理和压缩,作为一个超级高效的“视觉压缩器”[7] - 能够将一篇1000字的文章压缩成100个视觉token,实现十倍压缩,识别准确率达到96.5%[7] - 提供多个分辨率选项,512 x 512图片仅需64个token,1024 x 1024图片需256个token,复杂版面组合使用多种分辨率[13] 行业专家评价与定位 - Karpathy认为未来所有输入大模型的信息都应该是图像形式,哪怕是纯文本也应先渲染成图片再喂给模型[7][11] - 模型性能和思路在学术界不算是重大突破,但产品化贡献值得肯定[13] - 研究思路可能受到字节跳动NeurIPS最佳论文和豆包团队论文启发,DeepSeek团队擅长将实验室研究成果进一步做扎实并产品化[14] 潜在应用方向与发展前景 - 该技术有望优化图文表混排场景处理,大量网页、文档、SaaS软件Dashboard和PPT都包含有效视觉信息,强行转文本会导致信息损失[15] - 如果技术成熟,将推动业界对图文表混排场景优化的研究热潮,提升效果并降低成本[15] - DeepSeek团队提出的用分辨率模拟遗忘机制的假想存在争议,可能更适合描述为“高度近视”而非有效遗忘机制[15]
跟 Stripe 聊聊:AI 应用出海,如何高效搞定跨境支付?
Founder Park· 2025-10-20 12:45
AI产品出海支付挑战 - 支付问题是每个AI产品出海需要解决的核心问题[2] - 账户资格、全球收款、不同地区税率和合规问题都是实际难题[2] - 定价模式选择是需要面对的实际挑战[2] 支付服务商解决方案 - 靠谱的支付服务商对AI产品出海尤为重要[3] - Lovart、Manus等知名AI产品使用Stripe支付平台[3] - Stripe大中华区专家将分享跨境支付落地经验[3] 支付集成与合规优化 - 关注AI产品如何简单快速集成支付功能[7][8] - 解决出海生意中税务合规难、费率高等隐藏成本问题[7][8] - 探讨按量定价与混合订阅等不同业务的定价模式[7][8] 行业案例与增长洞察 - Heygen公司ARR突破1亿美元,分享内部增长手册[10] - 硅谷一线创业者研讨仅5%的AI Agent成功落地的原因[10] - Figma创始人认为当前处于AI交互的MS-DOS时代,是设计师创业最佳时机[10]
Karpathy 回应争议:RL 不是真的不行,Agent 还需要十年的预测其实很乐观
Founder Park· 2025-10-20 12:45
AGI发展时间线 - AGI实现仍需约十年时间,与硅谷AI圈普遍乐观情绪相比预测保守5-10倍[10] - 2025年可能是智能体元年,但接下来的十年都将属于"智能体时代"[10] - 当前LLM虽取得巨大进展,但距离实现"在任意岗位都比人类更值得雇佣"的实体仍有大量基础工作需完成[11][12] LLM认知缺陷与改进方向 - 当前LLM过度依赖记忆,人类记忆能力差反而可能是有益的正则化特性[19][70] - 模型需要先变大以承载能力,再通过架构、训练范式和数据蒸馏向更小、更专注的认知内核收敛[19] - 未来认知核心可能精简至十亿参数级别,专注于思考算法而非记忆知识[76][78] 强化学习局限性 - 强化学习像"通过吸管获取监督信号",信号/计算量比非常糟糕[15] - RL过程噪声大,信噪比低且易受干扰,正确步骤可能被抑制而错误步骤可能被鼓励[15] - 未来可能出现替代学习范式,智能体交互和系统提示学习是更有前景的方向[15] 智能体发展现状 - 当前智能体存在认知缺陷,缺乏多模态能力、持续学习能力和计算机操作能力[23] - 过度追求完全自主智能体可能导致软件质量下降、漏洞增多和安全风险[20] - 更现实的协作模式是LLM分块工作,解释代码,证明正确性,在不确定时与人类协作[20] 训练范式演进 - 完整训练流程包含基础模型自动补全、指令微调和强化学习三个层次,但需要第四、五层等新机制[16][18] - 预训练通过预测互联网下一个token来"预装"智能,类似于糟糕的进化过程[13][31] - 动物通过进化预装大量智能,与LLM训练方式存在本质区别[13][28] 技术发展路径 - AI发展是计算的延伸,所有方面包括算法、数据、硬件都需要全面改进[42][43] - Transformer架构可能持续存在,但会有更多注意力机制和稀疏MLP等改进[42] - 数据集质量将大幅提升,当前互联网训练数据包含大量垃圾内容[77][82] 经济影响 - AGI定义是可完成任何具有经济价值任务且性能达到或超过人类的系统[85] - 知识型工作约占经济10%-20%,是AI替代的首要目标[86] - 呼叫中心等标准化任务可能最先实现80%自动化,人类负责监督和剩余20%工作[87]
ARR 突破 1 亿美元,HeyGen 创始人公开了他们的内部增长手册,全是干货
Founder Park· 2025-10-17 12:29
公司业绩与里程碑 - 公司本月达到1亿美元的年度经常性收入(ARR)[2] - 从首次达到100万美元ARR到1亿美元ARR,耗时29个月[2] 核心产品定位 - 公司使命是让每个人都能用视觉化的方式讲故事[7] - 专注于“沟通型视频”市场,例如业务同步、教程、访谈等,目标是让此类视频制作变得人人可用[8] - 产品定位为服务于从零基础新手到专业人士的所有用户水平,追求极简操作,用户花几分钟即可制作出质量不错的视频[8] AI时代核心开发理念 - 核心理念是“拥抱不确定性”,强调快速行动,驾驭AI浪潮,接受研究本身的不确定性,并提前六个月布局[12] - 根本性转变是从寻找稳定的技术“地基”转向驾驭快速变化的AI技术“浪潮”,认为AI技术基础每几个月就会发生翻天覆地的变化[12] - 关键区别在于,公司拥抱的是底层AI技术(模型、能力)的不确定性,但对于服务稳定性、产品质量和用户体验,绝不接受任何不确定性[12] - 将不确定性视为机会而非缺陷,选择顺应技术趋势而非对抗[13] - 明确区分“什么在变”(模型、能力)和“什么不变”(用户工作流程、核心痛点),围绕不变的元素构建产品和系统,同时享受模型改进带来的红利[15] 开发与迭代方法论 - 采用为期两个月的路线图规划周期,以匹配AI模型的升级节奏,保持专注与灵活性[18] - 迭代节奏包括:每两个月规划一次路线图,每两周制定一份承诺清单,以及每天进行发布[22] - 实验框架强调快速(几天内完成)、科学(有数据支撑)、能给出明确信号(继续、转向或停止)以及敢于下大赌注[21] - 决策框架基于区分“单向门”(不可逆决策,需谨慎)和“双向门”(可逆决策,可快速测试),鼓励通过实验验证而非无休止争论[24] - 在快速行动中管理技术债的原则是,将偿还技术债视为对未来速度的投资,且必须与业务结果和效率提升挂钩[30] 团队协作与角色分工 - 团队采用通用结构:产品经理(PM)+ 工程师 + 设计师 + 数据科学家[47] - 产品经理角色是总指挥,负责推动决策和定优先级,需要能上手制作可用的最小可行产品(MVP)和体验原型[48] - 工程师角色是快速构建者,侧重于直接与产品经理快速制作原型,设计灵活架构以方便快速迭代,并利用AI编程助手提升效率[55][58] - 设计师角色是化繁为简的大师,核心使命是定义简单又出色的世界级体验,首要原则是简洁,确保产品“简单到奶奶都会用”[56][59] - 数据科学家与产品经理是分析搭档,共同负责解释验证指标、设计实验方案和分析实验结果[62][66] - 强调所有角色需对“为什么做”有共识,明确目标、背景及其对公司前进的帮助[70] 产品与增长团队策略 - 核心产品团队专注于构建和打磨产品的核心功能,追求极致的用户体验、完整功能和长期愿景,目标是比对手发布速度快5倍,迭代次数多5倍[75][77] - 核心产品的标准是每一个体验都要做到绝对最好,追求零Bug,因为作为创意工具,可靠性是关乎用户信任的必需品[78] - 增长团队定位为公司的实验引擎,核心原则是提升迭代速度,一切为了速度、学习和影响力[79] - 增长团队强调工程只是工具,产生影响才是目的,优化的是“多快能产生影响”,做实验是为了学习而非为了赢[81][83] 沟通与执行原则 - 沟通核心原则是直接、异步、高效,决策后需立即在Slack中清晰传达,指定负责人和完成时间,保持团队完全透明[88] - 执行上强调“速度就是一切”,是一种必须的心态,慢是不可原谅的罪过,要求以天为单位发布,保持前进势头比追求完美更重要[34][40] - 行事原则包括“充分讨论,坚决执行”,在“战时”状态下,决策必须快,一旦决定,即使有异议也要百分之百投入执行[42] - 通过创新实现用户价值,用户喜爱源于产品能解决实际问题,创新需与解决真实问题绑定[43] 极力避免的误区 - 总结出“AI开发七宗罪”,包括追求完美架构、研究到瘫痪、对稳定地基的幻想、共识陷阱、以质量为借口的过度打磨、“憋大招”式发布以及沉没成本谬误[90][99] - 危险信号包括诸如“我们再多想想”(潜台词是已落后)、“需要所有相关方同意”(潜台词是决策瘫痪)等表述[107]
再获融资!穹彻智能获阿里投资,加速具身智能全链路技术突破
Founder Park· 2025-10-17 12:29
公司概况与融资 - 具身智能初创公司穹彻智能(Noematrix)最近宣布完成新一轮融资,由阿里领投、多位老股东追投 [2] - 公司成立于2023年底,此前完成了数亿元Pre-A++轮及Pre A+++轮融资,累计融资额达数亿元人民币 [5] - 联合创始人包括上海交通大学人工智能学院副院长卢策吾与非夕科技创始人王世全,团队具备从基础理论研究、产品技术研发到商业化交付的全栈能力 [2] 技术产品与研发进展 - 公司快速迭代自研的实体世界大模型和「以力为中心」的具身智能大模型,推出了穹彻具身大脑升级版产品Noematrix Brain 2.0 [5] - Noematrix Brain 2.0引入了实体概念学习能力,使智能体能够掌握实体对象可供性的因果推理技能 [5] - 最新研发成果包括无本体数据采集方案、通用端到端模型方案以及人机协作的规模化部署系统,致力于打通从数据到部署的全链路 [5] - 技术路线强调力/接触动态的建模与学习,使策略在非结构化环境下更稳健 [8] - 公司构建了覆盖感知、认知、规划与执行的全链路自主决策体系,依托多模态大模型与力觉数据积累实现高维理解和柔性操作 [11] 商业化与生态合作 - 本轮融资资金将用于加速技术产品研发、具身应用落地和行业生态拓展 [2] - 公司已与零售、家居领域多家头部企业达成合作,将携手推进软硬件一体化解决方案的批量交付 [9] - 零售场景聚焦补货、搬运、拣选与盘点等高频流程,家居场景则在擦拭、收纳等复杂接触任务上检验模型优势 [9] - 公司判断当模型控制的泛化能力跨过场景门槛,规模交付的边际成本开始下降,商业扩张进入可预测阶段 [9]