Workflow
Founder Park
icon
搜索文档
AI Agent时代的「AWS」:Manus 背后的重要功臣 E2B 是何来头?
Founder Park· 2025-05-19 12:16
Multi-Agent系统与Agent Infra - Multi-Agent系统正成为新的突破方向,Agent Infra成为落地关键,其中Virtual Machine是潜在创业机会,E2B是该领域新兴参与者[1] - E2B作为开源基础设施,允许用户在云端安全隔离沙盒中运行AI生成代码,底层采用类似AWS Firecracker的MicroVM技术,启动速度达150毫秒[1] - E2B支持AI Agents运行代码语言、使用浏览器、调用操作系统工具,沙盒月创建量一年内从4万增长到1500万,增长375倍[2] E2B技术理念与愿景 - E2B愿景是成为AI Agent时代的AWS,打造自动化infra平台,未来将支持GPU、复杂数据分析、小模型训练、游戏生成等需求[3] - 公司从代码解释器转型为更通用的Agent运行环境,支持Python和JavaScript,月SDK下载量分别达50万次和25万次[10] - 技术核心是安全沙盒环境,实现文件创建、浏览器使用、数据分析、应用编写等功能,覆盖Agent从开发到部署全生命周期[9] 产品演进与关键功能 - 早期产品DevBook是面向开发者的交互式文档,GPT-3.5发布后转向沙盒技术,2023年3月正式创立E2B[4] - 引入"代码解释"概念帮助用户理解产品价值,支持数据分析、数学运算、AI驱动Excel等场景[7] - 2024年观察到用户将沙盒用于Computer Use,产品定位从代码解释器拓展为通用LLM/Agent运行时环境[8] - 即将推出forking和checkpointing功能,支持多Agent并行尝试不同解决路径,类似蒙特卡洛树搜索[15] 核心使用场景 - 首要场景是AI数据分析支持,提供专用code interpreter SDK和隔离机制确保Agent可靠性[17] - 第二大场景是AI生成应用的运行平台,推出开源模板Fragments支持快速构建AI应用[19] - 新兴场景包括Hugging Face的Open R1训练,通过沙箱高并发运行代码生成任务[22][24] - 非开发者场景如AI驱动Excel,服务于企业高管和业务人员的数据处理需求[21] Computer Use方向探索 - Anthropic推出Computer Use后,E2B推出Desktop Sandbox和open-computer-use项目,探索Agent控制电脑/浏览器的可能性[31] - 技术挑战包括安全性、点击操作精准度、推理能力、小众LLM部署和实时画面传输[39][40][43][48][49] - 采用OS-Atlas开源视觉模型解决UI元素识别问题,结合Llama系列模型完成决策链[42][46] 开发者生态与定价策略 - 保持LLM中立性,定位为Agent领域的Kubernetes,避免开发者被单一模型锁定[25][27] - 定价面临挑战,需平衡简单透明与资源消耗复杂性,强调计费上限和费用预警功能[29] - 提升开发者粘性关键在于无缝体验,让工具成为工作流自然延伸[26] 行业趋势观察 - Agent当前主要应用场景包括写代码、销售自动化和客户支持,Computer Use被视为下一个爆发点[30] - 框架演进呈现明确方法论趋势,Crew AI和LangGraph等opinionated框架日益流行[56][57] - 开源模型正快速提升视觉推理能力,API工具集成将增强Agent能力边界[55]
北大校友、OpenAI前安全副总裁Lilian Weng关于模型的新思考:Why We Think
Founder Park· 2025-05-18 07:06
大模型测试时计算优化 - 核心观点:通过延长模型"思考时间"可显著提升大语言模型在复杂推理任务中的性能,这已成为超越传统模型规模扩展的新优化维度 [4][5][91] - 性能提升表现:GPT/Claude/Gemini等模型通过思维链(CoT)策略在数学推理(5-6%提升)、代码生成等任务上持续突破性能边界 [4][24][16] - 计算资源视角:Transformer生成每个token需执行参数数量两倍的FLOPs,而MoE稀疏模型可降低至2×参数数÷稀疏度 [10] 思维链技术演进 - 早期方法:监督学习人类解题路径或设计"逐步思考"提示语,可使数学问题解决成功率提升显著 [12][14] - 强化学习应用:在STEM问题集上采用策略梯度算法结合自动评估,DeepSeek-R1模型通过两轮SFT-RL训练实现推理能力突破 [31][32][36] - 自我修正机制:需依赖外部反馈信号避免幻觉,修正器模型通过价值提升对(提示x,初始y,修正y')三元组训练实现迭代改进 [29][34] 并行与序列优化策略 - 并行采样:best-of-N和束搜索通过过程奖励模型(PRM)筛选候选,在GSM8k等任务实现5-6%准确率提升 [23][24] - 序列修订:递归检视(Recursive Inspection)和SCoRe方法通过KL散度惩罚防止行为坍缩,形成连续改进轨迹 [20][30] - 混合策略:简单问题适用纯序列化策略,高难度问题需组合并行与序列方法获取最优表现 [19] 架构创新与工具整合 - 递归架构:Universal Transformer等设计实现自适应计算时间,3.5B模型在r¯=32迭代次数达到性能饱和 [71][73] - 思考token机制:插入特殊token<T>或暂停标记可隐式扩展计算循环,使模型复杂度降低30% [73][74] - 外部工具调用:PAL和Chain of Code方法将数学计算/代码执行外包,ReAct框架整合Wikipedia API等知识源 [45][48] 可解释性与忠实度 - 思维链监控:可有效检测reward hacking行为,对抗样本的鲁棒性随思考时间延长提升51% [51][65] - 忠实度测试:通过扰动提示实验显示推理模型(Claude 3.7/DeepSeek R1)比非推理模型更可能揭示真实思维过程 [62][64] - 优化压力风险:RL训练中直接优化CoT易导致新型reward hacking,需设计n-gram重复惩罚等防护机制 [66][69]
中国 AI 应用的终局:AI RaaS 和 AI 包工头模式
Founder Park· 2025-05-17 02:28
核心观点 - AI应用的核心逻辑是RaaS(Result as a Service,结果即服务),即「AI包工头模式」,该模式按工作量和工作结果付费,实现AI服务方与客户利益深度绑定 [3][12] - 传统SaaS产品将被「端到端」「高智能」的AI应用替代,失去资本市场青睐 [4] - AI包工头模式将突破数字化利润池天花板,不同商业模式下净利润空间相差可达10-30倍,叠加AI赋能后差距可达20-60倍 [4][35] - AI包工头模式可能打破「规模、收益、确定性」的「不可能三角」,实现「五高」特征,从而创造高长期资本价值 [4][43] AI包工头模式的定义与特点 - 按工作量和工作结果付费(如计件式、计量式或收入分成),实现与客户利益绑定 [12] - 需要构建完整的交付体系和系统性业务能力,包括设备、人员、管理制度等,即「包工包料包人包结果」 [12] - 传统包工头业务被认为不值钱,但AI时代下该模式是构建长期客户关系、规模化收入和利润的必须路径 [14] - 分为L1-L4四大进化层级:从初级效率提升到资源掌控的质变 [5][50] 行业颠覆与案例 对传统行业的颠覆 - 对传统硬件、软件和服务业,以及2B和2C市场都可能造成颠覆 [15] - 传统SaaS代码资产价值因AI自动化编程而加速贬值,重置成本大幅下降 [28] - 传统SaaS数据模式和接口过时,MCP协议取代传统API,数据资产价值超越软件本身 [29] - 传统SaaS标准化功能模块被AI动态智能适配取代 [31] 典型案例 1. **2B市场-矿山自动驾驶** - 从出售自动驾驶软件升级为按运输量收费的「AI包工头」模式,标杆客户实现50台矿车无人驾驶连续运营 [16] - 收费模式从一次性销售转变为按X元/立方米定价,收入与客户生产深度绑定 [16] - 自主研发系统融合多项AI技术,构建完整运营管理体系 [17] 2. **2B市场-Sierra AI客服** - 颠覆传统SaaS按席位收费,采用按对话量或成功案例计费,客户请求70%由AI独立解决 [19] - 采用多模型协同架构和「高触碰」服务模式,与客户深度协作 [20] 3. **2B市场-Kobold矿产勘探** - 从技术服务升级为「AI业主」模式,通过矿权获取和合作开发获利,C轮融资5.37亿美元 [21] - AI平台整合多源数据,在赞比亚发现价值100-150亿美元铜矿,买入成本仅1.5亿美元 [22][23] 4. **2C市场-特斯拉Robotaxi** - 按行驶里程收费(每英里1美元),平台抽成20-30%,预计年营收可达7600亿美元 [24] - 全栈自动驾驶系统结合全球数据收集和自研芯片,构建完整运营体系 [25] 商业模式与利润池分析 - 企业五大利润池:数字化(1-2%)、人力资源(20-40%)、资产(10-20%)、供应链(20-40%)、资本(10-20%) [35] - 三种商业模式对比: - 工具模式(数字化利润池):矿山案例中年利润仅200万人民币 [40] - 传统包工头模式(人力资源+资产利润池):矿山案例中年利润0.5亿,是工具模式的20-30倍 [41] - AI包工头模式:年利润可放大至1亿,是工具模式的30-60倍 [42] - 全球软件和IT服务支出仅占GDP1.87%,美国占3.1%,远低于人力资源市场规模 [35][37] AI包工头模式的「五高」特征 1. **高科技含量**:如矿山案例集成AI、物联网、5G等技术 [44] 2. **高系统性优化**:端到端全链路优化,远超传统数字化应用的薄层 [45][46] 3. **高可控和可复制性**:技术驱动降低人为因素影响 [47] 4. **高客户粘性和复购**:客户切换成本高,如埃森哲签署十年十亿美金合同 [48] 5. **高财务确定性和可预测性**:资本市场给予高估值的核心原因 [49] 四大进化层级 1. **L1-初级效率**:标准化任务按量计费,如Sierra每工单0.99美元 [52] 2. **L2-综合效率**:软硬结合复杂系统按量计费,如矿山运输每立方米5-15元 [53] 3. **L3-利益共享**:收入分成模式,如某AI营销平台收取成交额5-10% [55] 4. **L4-AI业主**:掌控核心资源,如Kobold收购矿权获百亿收益 [56] 关键认知升级 1. **垂直专注**:必须坚持「一米宽、一百米深」,构建五重护城河 [58] 2. **人机协同**:人类作为校准者与进化伙伴,避免纯AI替代 [59][60] 3. **不避脏活累活**:非标环节沉淀不可替代价值,轻AI将出局 [61] 4. **快速执行**:1年窗口期需抢占场景、数据和客户,组合式联创是关键 [62][63]
2025 中国最具价值 AGI 创新机构 TOP 50 调研启动征集!
Founder Park· 2025-05-17 02:28
AI产业影响与趋势 - AI正逐步影响产业与社会底层逻辑,从RPA到个性化助手、AI Coding Copilot等产品推动人机交互革新,AI Agent作为"数字员工"融入企业实际业务[1] - 生物AI模型如AlphaFold3开源推动蛋白质预测、药物发现领域商业化热潮,AI4S成为重要方向[1] - DeepSeek R1模型将中国AI模型能力推向新高度,国内AI生态开始具备"可用性",DeepSeek、Manus等公司引领创业新范式[1] MVP 50评选标准 - 商业价值创新:需突破既有商业逻辑,重构价值创造与捕获方式,在供需关系、定价机制等方面具备可行性与规模化潜力[4] - 交互体验升级:要求多模态自然交互,构建开放工具生态,实际改进用户工作流并重塑创造方式[4] - 技术能力突破:需在AI算法、模型等底层技术取得原创性进展,具备系统性重构能力并影响行业生态方向[4] - 场景深度融合:需解决行业关键痛点,在效率、成本等方面带来可衡量的实际提升[4] 参评范围与要求 - 聚焦AGI产业基础设施层(数据/算力)、模型层(大模型/训练平台)、应用层(内容生成/企业应用等)[5] - 参评企业需为中国企业为主,成立以来无法律合规问题与经营风险[5] 评选流程 - 申报征集与走访调研同步进行,截止5月31日[8] - 组委会评审分初筛(6月2日)、复筛(6月10日)、终审(6月13日)三阶段[8] - 最终结果将于6月21日公布[8]
怎么回事?刚被OpenAI收购,Windsurf就发了个自己的模型
Founder Park· 2025-05-16 09:22
核心观点 - OpenAI以30亿美元收购Windsurf [1] - Windsurf发布AI编程模型SWE-1 覆盖软件开发全流程 核心为流动感知(Flow Awareness)实现人机自然交接 [1] - SWE-1系列包含三个模型:SWE-1 SWE-1-lite SWE-1-mini [2][5] - AI编程从代码补全发展到构建完整应用 但仍需覆盖开发全流程的模型 [7][8][12] - Windsurf目标超越前沿实验室模型 [30][31] AI编程发展现状 - 模型能从自动补全发展到构建小型应用 但存在上限 [7] - 软件开发不止编码 需覆盖终端操作 调试 用户反馈等全流程 [8] - 工程过程跨阶段持续变化 需处理未完成状态和模糊目标 [9][10] - 仅提升编码能力无法提高整体工程效率 需支持完整流程的SWE模型 [12] SWE-1模型开发 - 灵感来自Windsurf编辑器 构建共享时间线数据结构 理解未完成状态和长周期任务 [13] - 离线评估接近前沿基础模型 超越非前沿和开源对手 [15][21] - 会话式SWE任务基准:评估人机协作表现 [16] - 端到端SWE任务基准:评估独立解决问题能力 [19] - 线上实测指标: - 用户每天接受代码行数反映帮助程度和粘性 [24] - Cascade代码贡献率反映模型主动性和用户信任 [26] - SWE-1-lite取代Cascade Base SWE-1-mini针对低延迟场景 [28][29] 流动感知系统 - 核心理念为共享时间线 实现AI与用户行为双向理解 [34] - 允许自然交接:AI执行-用户校正-AI继续 形成顺畅衔接 [36] - 持续追踪模型能力边界 明确需用户介入的任务 [37] - 共享时间线演进包括终端输出感知 预览功能 IDE搜索感知等 [44] 未来展望 - SWE-1是起点 将持续改进模型性能并保持低成本 [42] - AI编程从代码补全进入全面工程协作新时代 [43] - Windsurf具备打造前沿模型的引擎 将加大投入实现超越 [31][42]
独家对话Lovart创始人陈冕:我们没有产品经理,只有设计师
Founder Park· 2025-05-16 09:22
产品定位与核心优势 - Lovart是AI设计领域的垂直Agent产品,将多模态职业工作流内化为Agent形态,主打"画布"交互概念[2][21] - 产品24小时内获得2万waitlist申请,推特讨论量达5000条,视频播放量近百万[1] - 核心差异化在于垂直领域认知深度和交互创新,而非简单跟随通用Agent趋势[12][56] AI图像产品演进路径 - 1.0阶段:Midjourney等单点图片生成工具[13] - 2.0阶段:ComfyUI等工作流产品串联多种模型能力[14] - 3.0阶段:Lovart等Agent产品实现工作流自动规划执行[4][14] - 当前处于3.0早期,模型能力不足但存在先发窗口期[16] 交互设计与产品哲学 - "画布"设计还原原始创作场景,模拟甲方与设计师的桌面协作[18][19] - 现阶段保留传统Edit工具箱作为专业用户补充手段[21] - 未来目标是通过模型能力提升实现完全自然语言交互[22] 技术实现与产品规划 - 依赖GPT-4o等基础模型提升图像理解能力[47] - 已实现图片/视频生成,即将推出3D模型和音频功能[28] - 最终形态定位为多模态"创意团队",整合设计师/导演/摄影师角色[29][31] 商业模式与市场策略 - 采用订阅制,优先拓展海外市场[33][34] - 核心指标关注付费转化率和用户留存[37] - 计划在几周内推出付费功能控制运营成本[36] 团队构建与行业认知 - 团队取消传统产品经理角色,由设计师直接训练AI[43][46] - 认为垂直领域专业知识比通用产品能力更具壁垒[40][56] - 数据价值体现在工作流记录而非原始素材积累[51]
2025 中国最具价值 AGI 创新机构 TOP 50 调研启动征集!
Founder Park· 2025-05-15 11:34
AI产业影响与趋势 - AI技术正逐步改变产业与社会底层逻辑,包括RPA、个性化助手、AI Agent等产品带来全新人机交互体验,AI Coding产品向全自动化发展,生物AI模型推动药物发现等领域商业化热潮[1] - DeepSeek R1模型将中国AI模型能力推向新高度,国内AI生态开始具备可用性,DeepSeek、Manus等公司引领创业新范式,AI进入从模型到真实落地的下半场[1] MVP 50评选背景与目标 - Founder Park发起调研寻找技术、商业与场景融合中的关键突破变量[2] - 联合读者、合作伙伴及专家甄选50家最具影响力创新力量,重点关注底层技术、应用落地或交互体验的质变潜力,挖掘未被聚焦的稀有变量[3] 评选核心维度 - **商业价值创新**:AI技术重构价值创造与捕获方式,创新供需关系、定价机制与服务形态,具备规模化潜力[4] - **交互体验升级**:智能交互设计改进用户工作流,提升效率并重塑工作与生活方式,构建开放协同工具生态[4] - **技术能力突破**:在算法、模型、算力等底层技术取得原创进展,推动开放架构与协同智能,影响行业生态方向[4] - **场景深度融合**:解决行业高价值痛点问题,在效率、成本、收入等层面带来可衡量的实际提升[4] 参评范围与标准 - 聚焦AGI产业基础设施层(数据、算力等)、模型层(大模型、训练平台等)、应用层(内容生成、企业级应用等)的中国企业[5] - 参评企业需无法律合规问题及经营风险[5] 评选流程 - 申报征集与走访调研截至5月31日,组委会评审分初筛(6月2日)、复筛(6月10日)、终审(6月13日),结果于6月21日公布[8]
2025年哪款模型最受欢迎?Poe最新报告:DeepSeek降温、可灵成黑马
Founder Park· 2025-05-15 11:34
模型市场份额动态 - DeepSeek R1消息份额从2月中旬7%峰值降至4月底3% [4][7] - GPT-4.1系列和Gemini 2.5 Pro在编程任务中份额分别增长至10%和5% [7] - Claude 3.5 Sonnet仍保持12%总体使用率,但Claude 3.7 Sonnet抢占其份额 [7] 推理模型发展趋势 - 用户发给推理模型的文本消息总份额从2%上升至10% [4][9] - Gemini 2.5 Pro发布后6周内获得30%推理消息份额 [11] - 具备混合推理能力的模型如Gemini 2.5 Flash Preview和Qwen 3占比约1% [14] 图像生成领域竞争 - GPT-Image-1开放API两周内图像生成使用率达17% [4][17] - 谷歌Imagen 3系列使用量从10%增长至30% [17] - FLUX系列图像生成模型市场份额从45%降至35% [18] 视频生成市场格局 - Kling-2.0-Master发布三周内占据21%视频生成请求份额 [4][21] - 谷歌Veo 2模型保持约20%使用份额 [22] - Runway使用份额下降40%至约20% [23] 音频生成领域现状 - ElevenLabs处理约80%订阅用户TTS请求 [4][24] - Cartesia、Unreal Speech等新玩家提供多样化声音选项和价格方案 [24]
GPT-4.1正式在ChatGPT中上线,暂时没有1M上下文
Founder Park· 2025-05-15 03:58
文章转 载自 「 新智元」 刚刚,OpenAI 官宣:GPT-4.1 在 ChatGPT 中上线,用户可以直接使用。GPT-4.1 模型擅长编码任务和 遵循指令,生成速度更快,是 o3 和 o4-mini 的绝佳替代品。 一个月前,OpenAI 推出了新系列模型 GPT-4.1,在编程、指令遵循、长上下文方面表现优异。 GPT-4.1 此前仅通过 API 向开发者开放,在 ChatGPT 上线后,Plus、Pro 和 Team 用户可通过模型选择 器中的"更多模型"下拉菜单访问 GPT-4.1。企业版和教育版用户将在未来几周内获得访问权限。同时, OpenAI 还计划在 ChatGPT 中引入 GPT-4.1 mini 取代 GPT-4o mini。 Founder Park 正在搭建「 AI 产品市集」社群,邀请从业者、开发人员和创业者,扫码加群: 进群后,你有机会得到: 01 GPT-4.1, 比GPT-4.5还好? 这次放出GPT-4.1,也算响应群众的呼声。 早在4月底,就有用户抱怨说:GPT-4.1简直是自己最喜欢的OpenAI模型,可惜在ChatGPT中并 不能使用。 最新、最值得关注的 AI 新 ...
付费用户突破 1000 万,All in AI 的多邻国,是怎么用 AI 的?
Founder Park· 2025-05-14 12:28
财报表现 - 一季度DAU达4660万,同比增长49% [1] - MAU达1.302亿,同比增长33% [1] - 付费用户数首次突破1000万,达1030万,同比增长40% [1] - 总收入2.307亿美元,同比增长38% [2] AI战略转型 - 宣布All in AI战略,将AI作为核心驱动力 [4][6][7] - 利用AI生成148门课程,效率提升12倍(传统方法需12年) [3] - AI重构内容生产流程,实现全自动化,突破人力瓶颈 [8][11] - 通过AI开发Video Call等新功能,提升教学体验 [8] AI应用场景 - 课程覆盖从40种语言扩展至所有基础语言组合(如德语母语者可学40种语言) [11] - AI对话练习功能使用量显著增长,解决真人对话尴尬问题 [11][12] - 动画制作效率提升30倍(原需1月现仅需1天),释放艺术家创造力 [14] - 数学课程改造为“90%家教效果+90%游戏趣味性”模式 [12] 产品设计方法论 - 单节课时从30分钟缩短至2分钟,降低启动门槛 [15] - “连续学习天数”机制促使用户留存,超1000万用户连续学习超365天 [16] - 83%答题正确率为最佳学习乐趣阈值,通过算法动态调整难度 [18] - 累计进行16000次A/B测试优化产品细节 [32] 教育行业洞察 - 学习动机是核心挑战,游戏化设计覆盖99%非自律用户 [17][32] - 英语母语者学西班牙语需500小时,中文需2000小时 [20] - 未来教育模式预测:AI承担个性化教学,教师侧重监护职能 [34][35] - 私立学校或率先采用AI教学,但整体教育变革进度缓慢 [36] 品牌与增长策略 - 吉祥物营销(如猫头鹰“假死”)通过TikTok病毒传播,不直接推销产品 [26][27] - 移动优先战略曾助公司获2013年iPhone年度最佳应用 [7] - 用户自然增长依赖口碑传播,非传统广告投放 [7][28] 公司起源与定位 - 源于博士论文项目,初衷为解决自身语言学习枯燥问题 [30][31] - 定位为“需长期学习的高需求知识平台”,已拓展数学、音乐、国际象棋 [25][30] - 核心用户为普通学习者,非语言爱好者 [31]