Workflow
Founder Park
icon
搜索文档
Llama核心团队「大面积跑路」:14人中11人出走,Mistral成主要去向
Founder Park· 2025-05-27 04:54
Meta AI团队人才流失 - Llama模型创始团队14名核心成员中仅剩3名在职 离职率达785% 其中5名跳槽至法国AI创企Mistral [1][2][4] - 11名离职核心研究人员平均任期超5年 多为资深专家 部分人员参与Llama3开发后离职 [8][12] - 人才流失集中在FAIR研究院 前负责人Joelle Pineau卸任 由DeepMind回归的Robert Fergus接替 [5][6] 开源模型竞争力下滑 - Llama4模型测试集表现未达预期 开发者社区反响平平 用户转向DeepSeekQwen等竞品 [1][5] - 缺乏专用推理模型 落后于GoogleOpenAI在多步骤任务处理的技术进展 [7][8] - 竞争对手Mistral由Llama前架构师创立 直接挑战Meta核心AI项目 [4][6] 战略执行问题 - 旗舰模型Behemoth因性能未达标推迟发布 内部对领导力存疑 [5] - 2023年Llama论文开创开放权重LLM先河 但当前技术领先优势已被削弱 [6][7] - AI领域投入数十亿美元仍未形成差异化产品矩阵 [1][8] 核心成员去向追踪 - 主要流向Mistral等新兴竞对 部分创立自主项目 离职时间跨度从2023年延续至2025年 [4][8][12] - 剩余3名在职者包括研究科学家Hugo Touvron工程师Xavier Martinet及技术负责人Faisal Azhar [2][12]
红杉中国推出 Agent 基准测试「xbench」,双轨评估体系,关注 AI 真实场景的效用
Founder Park· 2025-05-26 06:44
核心观点 - 红杉中国推出AI评估工具xbench,采用双轨评估体系(AGI Tracking与Profession Aligned)追踪模型能力上限与商业落地价值 [1][5][19] - 传统评估体系存在局限性:模型能力与实际效用脱节、题库更新导致历史数据不可比 [10][12] - 提出长青评估机制(Evergreen Evaluation),通过动态更新题库和IRT模型量化能力增长 [17][38][39] - 首次发布ScienceQA(知识测试)和DeepSearch(工具使用)两大评估集,并构建招聘/营销领域专业评估框架 [23][25][26][32] 评估体系创新 双轨架构 - **AGI Tracking**:测试基础能力边界(如ScienceQA得分60 8 vs Gemini 57 2),包含知识/多模态/推理等维度 [4][24][25] - **Profession Aligned**:量化商业价值(如招聘任务经济价值$200/position),已覆盖招聘(03模型得分78 5)和营销(50 8)领域 [4][20][35] 方法论突破 - 从"研究视角"转向"业务视角",设计真实场景任务(如中东市场KOL搜索价值$6,000) [14] - 采用IRT理论解决题库迭代导致的数据断层问题,追踪模型能力斜率(如DeepSeek V2 5显著提升) [39][40] - 引入TMF(技术-市场契合度)分析框架,划分未达标/人机协同/专业化Agent三阶段 [44][45][46] 关键评估集 ScienceQA - 聚焦研究生水平学科知识,季度更新题库,03模型当前领先(60 8分) [4][25] - 题目示例:"奇函数与偶函数嵌套组合的性质判断" [9] DeepSearch - 测试中文互联网环境下的多步推理搜索(03模型65+分),需完成规划→收集→推理→归纳全流程 [4][26] - 典型任务:跨平台合并`result_*.txt`文件并排序 [9] 专业评估 - **招聘领域**:拆解JD分析($20/JD)、人才画像($200/position)等7类可测评任务 [35] - **营销领域**:KOL匹配度预测(03模型50 8分 vs Claude 47 6分) [4][14] 行业影响 - 揭示模型进化速度:18个月内Chatbot能力从20-30分提升至90-100分 [9] - 预测多模态理解、长期记忆、博弈决策将成为下一阶段突破方向 [21] - 推动评估标准从"解题难度"转向"经济价值"(如营销任务节省$6,000人力成本) [14][31]
Kotoko AI 乔海鑫:C.Al 的故事已经结束,我们用 OC 链接 05后
Founder Park· 2025-05-26 05:30
OC市场概况 - OC(Original Character)指用户在虚拟世界构建的有独立生活与故事的个体,已成为新兴市场关注点 [2] - 核心用户规模:全球约千万级,中美各有数百万核心人群 [8] - 典型产品Gacha Life拥有超2亿玩家,验证了OC市场的PMF(产品市场匹配) [2][25] - 国内OC内容在B站、小红书、抖音等平台广泛传播 [2] 用户画像 - 年龄结构:05后为主,女生比例稍高,但90-95后用户也不少 [17] - 核心能力:依赖想象力,画师占比高,文本想象力强但不会画画的用户会请画师完成创作 [17] - 用户心态:女生多视为理想化自己或柔和映射,男生多带有"爹"或"养老婆"心态 [12] - 行为特征:创作链条长(捏角色、写人设、约稿、创作故事、分享),线下延伸至娃圈、谷圈等活动 [10] 产品定位 - Bside定位为"OC的游乐场",融合UGC与游戏化玩法,提供创作-养成-社交陪伴体验 [7] - 通过AI Agent为OC注入主体性,打造"有灵魂的造物" [52] - 区别于传统RPG,强调角色自主性而非用户控制,结合上帝游戏与文本聊天体验 [63] - 闭环设计:创造-养成-社交/陪伴三个环节缺一不可 [79][81] 技术应用 - AI核心价值:降低创作门槛,赋予角色生命感和自主性,而非简单提高效率 [49] - 关键技术挑战:解决OOC(角色行为不符合设定)问题,通过游戏化设计和场景包装弥补模型缺陷 [47] - 工程难点:多Agent协同、记忆结构化、Prompt优化等端到端问题 [51] - 成本控制:大模型成本降低+工程优化+玩法缓冲三重措施解决线性成本问题 [102][103] 商业化路径 - 付费设计:角色皮肤、换装等增强体验的功能,避免纯商业化设计 [30] - 对标案例:Roblox的Avatar相关付费占比30%+,验证了社交货币商业化模式 [31] - 用户付费基础:初中至大学年龄段用户具备更强付费能力和意愿 [30] - 长期想象:可能形成新型社交平台或IP,但Day One聚焦原创而非二创市场 [46] 市场策略 - 首发平台:选择Steam因获客成本低且适合PC端多线程体验 [35] - 地区布局:先攻英语区(用户基础好、迭代快),再拓展日本和中国市场 [38][39] - 移动端规划:PC端积累用户后再适配移动场景 [37] - 增长逻辑:先服务好第一个100万用户,再考虑多端扩展 [36] 行业趋势 - OC现象本质是"新瓶装旧酒",延续了带着人设社交的需求,但以新形式呈现 [12] - 破圈关键:统一"共同想象"的画风主题,降低创作门槛 [15][18] - 代际变化:年轻一代将OC作为新型社交货币,需求可能比当前认知更普遍 [76] - 市场空间:从几百万创作者扩展至潜在上亿DAU的用户市场 [10]
去年很火的 Founder Show,回来了!
Founder Park· 2025-05-23 11:01
Founder Show活动概述 - Founder Show是AGI Playground 2025大会中的创业者特别分享环节[1] - 每位创业者有20分钟时间分享产品进展和创业思考并与高年级创业者互动[2] - 通过多轮筛选最终选出9支新锐团队参与展示[3] - 所有通过初筛及线下展示团队将获得创业加速资源包[4] 招募要求 - 招募对象为9位新锐Founder可独立开发或拥有团队[9] - 要求聚焦泛Gen AI赛道垂类场景和产品形态不限有产品Demo更佳[9] - 入选者需配合大会流程进行20分钟产品展示及线下互动[9] - 报名时间为5月23日至6月10日18:00最终通知6月13日18:00[10] 活动流程 - 招募流程包括资料提交初审线上面试复审和入选通知[8] - 活动时间为2025年6月20日下午地点在北京751图书馆[14] - 每位Founder展示后互动嘉宾将从多维度提问引发关键问题探讨[14] - 资料通过初筛后运营团队将通过微信邮件等方式联系[11] 资源支持 - 入选项目可获得标准版创业者加速资源包包括产品设计增长辅导模型算力资源等[15] - 线下展示项目将获得进阶版资源包包括投资绿色通道3小时Office Hour技术支持等[15] - 支持包括模型算力调用产品技术支持海外增长支持等[20][21] - 更多支持伙伴持续加入中[22] 其他信息 - 2025中国最具价值AGI创新机构TOP50调研正在征集[23] - 活动最终解释权归Founder Park所有[22] - 联系方式为founderpark@geekpark.net[22]
目标出货一亿台,Altman和Ive的新公司「io」到底要做什么硬件?
Founder Park· 2025-05-23 11:01
核心观点 - OpenAI以65亿美元全股票交易收购Jony Ive的AI硬件创企「io」,计划打造继手机和笔记本电脑之后的"第三核心"设备,目标出货1亿台[1][4][5] - 新设备将无屏幕、可便携或置于办公桌,定位为AI交互核心载体,强调环境感知与低调设计[1][5][10] - Altman预测该收购将为OpenAI创造1万亿美元额外价值,并计划2025年底前推出产品[4][8] 行业动态 - 谷歌在I/O 2025推出Project Moohan头显和Project Aura智能眼镜,苹果计划2026年推出AI智能眼镜[2] - 科技巨头对AI硬件形态存在分歧:Ive和Altman认为显示屏非必需,而其他公司押注可穿戴设备[2][5] - 实现多模态AI需满足环境感知、实时LLM访问和长续航等条件,推动可穿戴设备研发热潮[2] 产品规划 - 设备定位为"设备家族"成员,设计理念受Apple软硬件整合启发,旨在减少用户对屏幕依赖[5][10] - 强调保密性以防竞争对手模仿,Ive团队已接触量产供应商[6][8] - 目标超越传统硬件发布速度,计划比任何公司更快达到1亿台出货量[8] 战略背景 - OpenAI预计2029年前亏损440亿美元,需通过自有设备建立直接用户触达渠道[9] - Altman认为现有设备无法满足AI交互需求,合并「io」是为实现"AI直接赋能用户"的愿景[10] - 硬件战略与数据中心建设、企业技术、机器人等业务形成协同[8] 合作细节 - 合作始于18个月前OpenAI产品副总裁与Ive团队的接触,去年秋季确定硬件开发方向[10] - 最初设想独立开发,后调整为合并模式以确保设备作为OpenAI核心交互载体的定位[10] - Ive提及与Steve Jobs的合作经历,强调与Altman的默契具有特殊意义[4]
Claude 4发布!AI编程新基准、连续编码7小时,混合模型、上下文能力大突破
Founder Park· 2025-05-23 01:42
Claude 4模型发布 - Claude 4包含Opus 4和Sonnet 4两款模型,分别针对复杂任务和高效推理场景 [2][4][5] - Opus 4在SWE-bench和Terminal-bench测试中以72.5%和43.2%得分领先行业,Sonnet 4在SWE-bench达72.7% [13][18][23] - 新模型支持并行工具使用、本地文件访问记忆增强、长达1小时的提示词缓存等API功能 [6][32][10] 技术突破 - 首次实现工具使用与推理过程同步,比传统分阶段处理更贴近人类认知模式 [27][28][29] - 模型走捷径行为比前代减少65%,记忆能力显著提升,可创建导航指南等长期记忆文件 [31][32][33] - 连续7小时稳定运行复杂任务,完成开源代码重构等超长周期工作 [14][20][43] 开发者生态 - 提供VS Code/JetBrains原生集成,支持GitHub Actions后台任务和实时结对编程 [6][48][49] - 定价维持Opus 4每百万Token 15/75美元(输入/输出),Sonnet 4为3/15美元 [11] - 通过Amazon Bedrock Converse API实现跨模型兼容,降低基础设施管理成本 [10][12] 行业影响 - 推理模型使用量4个月内增长5倍,占AI交互比例从2%升至10% [26] - 在Cursor、Replit等平台实测显示代码理解能力和跨文件处理精度显著提升 [20][21] - 推动AI智能体向虚拟协作者进化,保持长期上下文理解与任务连贯性 [55] 产品特性 - 新增扩展思考模式,支持网络搜索等工具动态调用优化响应质量 [6] - 思考摘要功能自动精简5%冗长推理过程,其余95%保持完整输出 [34] - 免费用户可体验Sonnet 4,Pro/Team/Enterprise用户获全功能访问 [8][9]
a16z聊AI编程:别担心被取代,新玩家、新范式带来的是「很多」机会
Founder Park· 2025-05-22 13:32
AI Coding市场现状与规模 - AI Coding已成为第二大AI市场,仅次于面向消费者的聊天机器人,甚至可能成为最大的单一市场[3][7] - 全球约3000万开发者,假设每人每年创造10万美元市场价值,总规模可达3万亿美元,相当于苹果公司市值[13] - GitHub Copilot等工具已开始替代Stack Overflow等传统编程问答平台,实现用户行为迁移[7] - 大型金融机构估算Copilot类工具可提升开发者15%生产力,未来可能实现生产力翻倍[14] 开发者角色与技能演变 - 未来开发者将更侧重需求表达、规范制定和系统优化,类似产品经理或QA工程师角色[5][16] - 理解底层抽象、架构设计和数据流等基础知识变得更重要,而非单纯编写代码[5][33] - 资深工程师在分布式系统等复杂领域仍不可替代,但应用开发工程师可能更依赖AI工具[24][25] - 计算机教育不会消失,描述问题、设计架构的能力将成为核心竞争力[32][33] 技术应用与局限性 - 当前AI Coding瓶颈在于上下文长度受限,IDE通常仅支持40-50个工具调用[9][25] - AI擅长标准化问题(如本科编程作业),但对新颖任务需提供大量上下文[25][29] - 模型存在"无法承认不知道"的缺陷,会自信地输出错误答案[26][27] - 遗留系统迁移(如COBOL转Java)需先由AI生成技术规范,再重新实现代码[42][43] 编程语言与工具演进 - Python、Java等传统语言不会消失,但可能出现更"AI原生"的语言[35][36] - 自然语言与代码间需中间层产品解决修改断层,如Cursor的规范写作功能[39][41] - 提示词(prompt)可能成为AI编程的核心节点,类似TCP/IP协议中的窄腰结构[49][50] - 未来可能出现结构化提示语言,部分团队已在研究JSON模式等标准化方案[52][53] 新兴机会与行业影响 - 新人群(Vibe Coder)结合新方法可能催生全新软件形态,类似博客革命[30][34] - AI与Vibe Coder间的工具断层创造商业机会,如代码修改辅助产品[39][41] - 企业服务商可通过AI工具提供老旧代码迁移服务,形成新商业模式[9][42] - AI生成的元数据体系将改变软件设计意图记录方式,提升后续维护效率[42][46]
65亿!OpenAI收购Jony Ive的AI硬件创企,Altman要开始做硬件了
Founder Park· 2025-05-22 02:56
本篇文章转载自「AI寒武纪」,内容略有调整。 今天凌晨, OpenAI宣布了 一则重磅消息,以近65亿美元的全股票交易方式收购了由苹果前首席 设计官Jony Ive参与成立的AI设备初创公司io。Jony Ive 将与OpenAI CEO Sam Altman深度联 手,共同打造一个全新公司。 为此,OpenAI官网发布了一篇官宣文章, Sam和Jony在文章中提到:"这是一个非凡的时 刻。计算机如今已具备视觉、思维和理解能力。" 然而,一个不容忽视的现实是:"尽管AI取 得了前所未有的能力进步,我们的体验很大程度上仍被传统产品和界面所塑造。" 但是关于二者合作的具体细节,文章中并未透露。文章中提到,早在两年前, Jony Ive 和创 意 团 体 LoveFrom 便 已 经 悄 悄 开 始 与 Sam Altman 和 OpenAI 的 团 队 合 作 ; 一 年 前 , Jony Ive、Scott Cannon 等人创立了"io"公司。 文章地址: https://openai.com/sam-and-jony/ 超 4000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。 邀请从业者 ...
微软CPO专访:Prompt是AI时代的PRD,产品经理的工作方式已经彻底变了
Founder Park· 2025-05-21 12:05
AI时代的产品设计范式转变 - Prompt正在取代传统PRD成为产品构建起点 要求团队在推进新项目时需提供原型和对应提示词集合[1][20] - 自然语言交互(NLI/NLX)成为新UX设计范式 需重新定义对话语法、结构和界面元素等设计原则[14][15] - 产品开发节奏呈现"不均匀"特征:从想法到Demo时间缩短 但从Demo到全面上线周期延长[21] Agent的核心特征与设计原则 - 本质是能自主执行任务的独立软件进程 具备三要素:自主性(任务委托层级)、复杂性(多步骤任务)、自然交互(实时协作)[11][13] - 职场研究型Agent案例展示突破性价值:不仅能节省时间 更能连接用户未察觉的认知突触[6][8] - 交互设计需平衡透明度与效率 包括思考过程展示程度、计划可修改性、智能追问机制等新组件[16][17] 产品经理的能力重构 - "品味"和"编辑能力"成为核心竞争力 需在创意供给爆炸的环境中担任核心决策者[3][25] - 需掌握"AI本能式使用" 通过工具如WWXD(模拟关键人物思维)提升决策质量[26][27] - 角色向"软件指挥者"演变 需保持计算机思维模型但采用更高阶表达方式[22] 从0到1产品的关键方法论 - 区分"解决问题"与"扩大规模"阶段 早期应容忍方向调整避免局部最优陷阱[35][37] - 警惕早期指标的"伪精确性" 定性反馈比CTR/留存率等传统指标更具参考价值[3][36] - 成功产品需至少占据两个转折点:技术飞跃(如LLM)、用户行为变化(如拍照习惯)、商业模式创新[41][42] 企业级AI落地策略 - 采用"双轨制"推进:在确保合规基础上建立Frontier项目让早期采用者先行体验[47][48] - GitHub案例显示系统化优势:代码生成仅是入口 需整合仓库管理、专业领域适配等完整生态[53][54] - Excel的启示:高学习曲线工具可通过复利效应建立护城河 关键在于持续打磨核心价值[55] 未来人机协作趋势 - 将出现"人和Agent共创空间" 重新设计信息流动与任务分配机制[66] - 当前处于"人类驾驶-AI副驾"过渡期 未来自主性将随推理能力提升而增强[4][5] - 产品体验需从单人模式转向多智能体协作 探索异步任务处理等新范式[12][65]