Founder Park

搜索文档
DeepSeek-R1 重磅更新:幻觉降低近 50%,深度思考、推理能力提升
Founder Park· 2025-05-29 14:53
DeepSeek-R1-0528 模型升级 - 最新版本 DeepSeek-R1-0528 参数量高达 6850 亿,思维深度和推理能力显著提升 [1] - 模型在数学、编程与通用逻辑等多个基准测评中表现亮眼,整体表现接近 OpenAI o3 与 Gemini-2.5-Pro [1][6] - 在 AIME 2024 数学竞赛 pass@1 中得分 91.4,接近 OpenAI o3 的 91.6 和 Gemini-2.5-Pro 的 90.8 [2][7] 基准测试表现 - AIME 2025 数学竞赛 pass@1 得分 87.5,较旧版提升 17.5 个百分点(旧版 70.0)[8] - GPQA Diamond 科学测试 pass@1 得分 81.0,与 Gemini-2.5-Pro 的 83.0 接近 [2][7] - LiveCodeBench 代码生成 pass@1 得分 73.3,优于 Gemini-2.5-Pro 的 71.8 [2][7] - Humanity's Last Exam 推理与百科知识 pass@1 得分 17.7,优于 Qwen3-235B 的 11.75 [2][7] 模型优化与能力提升 - 幻觉率降低 45~50%,在改写润色、总结摘要、阅读理解等场景表现更可靠 [3][13] - 在 AIME 2025 测试中,新版模型每题使用 23K tokens(旧版 12K),思维深度显著增强 [8] - 创意写作能力优化,可输出更长篇幅、结构更完整的议论文、小说、散文 [13] - 支持工具调用,Tau-Bench 测评成绩为 airline 53.5% / retail 63.9%,与 OpenAI o1-high 相当 [12] 模型开源与 API 更新 - 开源 DeepSeek-R1-0528 模型权重,提供 Model Scope 和 Huggingface 下载链接 [16][17] - API 同步更新,支持 Function Calling 和 JsonOutput,调用方式不变 [17] - 蒸馏 DeepSeek-R1-0528 的思维链训练出 8B 模型,AIME 2024 测试表现超越 Qwen3-8B(+10.0%)[8][10] 应用与生态 - 模型已在网页端、APP 和小程序上线,用户可通过「深度思考」功能体验 [4] - 在前端代码生成、角色扮演等领域能力均有更新和提升 [15]
23 天后,你在做什么?这个世界会变得怎样?
Founder Park· 2025-05-29 08:00
活动概述 - 活动名称为AGI Playground 2025 由Founder Park主办 聚焦AI领域创业与创新 [1][2] - 活动联合22个AI创业社区 涵盖开发者社区 媒体 VC等机构 [1] - 活动包含主题分享 深度对话 专题研讨等多种形式 [3][6][9] 活动议程 6月20日 - 18:00举行Founder Show 新锐与成熟创业者深度探讨 [3][6] 6月21日 - 上午9:00-12:30主题分享"超越SoLoMo: AI时代如何交付前所未有的用户价值" 由极客公园创始人张鹏主持 [6] - 下午14:00-15:30专题研讨"AI行业最优秀的年轻人在做什么" 高瓴创投合伙人王蓓参与 [8] - 15:30-17:30主题分享"构建AI原生的软件研发协作生态" 由TRAE负责人石扬主讲 [10] - 晚间有AI硬件 垂直Agent 全球化等主题分享 [3] 6月22日 - 上午9:00-12:30发布"2025中国AI Cloud行业趋势报告" 靖亚资本创始合伙人何沛主持 [13] - 下午14:00-15:30深度对话"当我们聊AI时我们在渴望和恐惧什么" 多位播客主播参与 [16] - 15:30-17:30主题分享"GenAI如何给SaaS超级加倍" Linkloud联合创始人钱靓开主讲 [19] 参与机构 - 主办方包括极客公园 变量资本等 [28][31] - 联合主办单位包括751园区 靖亚资本等 [34][35][37] - 创新内容合作平台包括小宇宙 小红书科技等 [40] - 先锋创新伙伴包括Google 火山引擎 纳米AI等 [42][43] 票务信息 - 早鸟单日票199元 限时发售 [25] - Founder Show特别活动票1299元 含两张单日票兑换券 [26]
Claude 4 核心成员访谈:提升 Agent 独立工作能力,强化模型长程任务能力是关键
Founder Park· 2025-05-28 13:13
强化学习在大语言模型中的应用 - 2025年最大的变化是强化学习在语言模型训练上真正奏效 通过可验证奖励的强化学习 模型在竞技编程和数学领域达到专家级人类表现 [1][4][6] - 强化学习主要作用是激活模型已有知识并将其组织成解决方案 而非从零学习 [4][27] - Gemini 2 5 Pro和Claude Opus 4的发布验证了这一趋势 模型在长期任务和多步动作管理上表现突出 [2][31][32] 模型训练与能力提升 - 当前行业普遍采用"算力优先 数据其次"的预算分配策略 但未来可能转向更平衡的方式 [4][21] - 模型规模越大学习效率越高 所需示范越少 大模型能将不同语言表示整合在统一共享子空间中提升泛化能力 [25][26] - Opus 4最大突破是时间跨度扩展 能处理数小时工作量任务而无需频繁用户介入 [31][32] 模型可解释性与安全研究 - 机制可解释性是对神经网络进行逆向工程 找出其计算基本单元 模型是"生长"而非"建造"出来的 [47][48] - 目前已识别出3000万个特征 包括抽象概念如"代码漏洞" 并能追踪模型内部推理回路 [49][50][51] - 模型安全研究需要多管齐下 包括宏观探针和微观机制分析 [52][53] AI Agent发展趋势 - 未来用户可能同时管理多个模型执行任务 交互方式类似"模型舰队管理" [34][37] - 用AI操作电脑执行复杂任务并不难 核心限制在于上下文和记忆系统管理 [4][5] - 预计2025年底出现能完成初级工程师一天工作量的高效软件Agent系统 [9][36] 行业竞争与技术突破 - DeepSeek在模型研发上展现出优秀"品味" 其设计体现"硬件-算法共舞"思维 [63][64] - DeepSeek从落后位置快速跃升为有力竞争者 成功吸收行业效率提升红利 [61][62] - 模型发布节奏预计将远超去年 2025年进展速度明显加快 [38] 模型自我意识与沟通 - 当前模型没有哲学意义上的自我意识 但能模拟特定身份和记忆 [40][42] - Agent之间可能发展出人类无法理解的Neuralese沟通方式 文本渲染可隐藏信息 [75][83] - 模型已具备一定元认知能力 能表达不确定性 但缺乏持续身份感 [39][44] 算力与推理瓶颈 - 推理计算可能成为AGI发展瓶颈 当前全球约1000万张H100等效算力 2028年或达1亿张 [84][88] - 人类思维速度约每秒10个token 一张H100每秒可处理约100个"人类思维" [86][87] - 模型规模与推理效率需平衡 存在帕累托前沿最优解 [90] 模型优化方向 - 现阶段重点应是提高模型底线质量 而非追求极致表现 [93][95] - 通过排除明显低质量输出来提升整体表现 类似人类写作训练过程 [94] - 大语言模型被视为"雏形AGI" 因其具备对真实世界的概念性理解 而AlphaZero缺乏这一基础 [97]
Google搜索转型,Perplexity入不敷出,AI搜索还是个好赛道吗?
Founder Park· 2025-05-27 12:20
行业趋势 - Google在2024年开发者大会上推出由Gemini驱动的AI搜索模式AI Mode,标志着从传统"关键词+链接列表"转向"自然语言交互+结构化答案"的新范式 [2] - 2024年Google搜索业务贡献1750亿美元收入,占总收入50%以上,但AI搜索转型可能冲击这部分核心收入 [4] - 研究机构伯恩斯坦数据显示,算上AI ChatBot后Google搜索市占率从90%+降至65%-70%,迫使Google加速转型 [4] 市场竞争格局 - 前小度CEO景鲲开发的AI搜索引擎Genspark于2025年4月宣布关闭搜索产品线,转型AI Agent [6] - Perplexity在2024年用户访问量增长186%至1.29亿,但实际订阅收入仅3400万美元,净亏损6800万美元 [9] - 2024年8月至2025年4月AI搜索赛道融资总额8.93亿美元,较前期下降30%,其中Perplexity和Glean合计占比85% [11][12] 产品发展动态 - 通用AI搜索产品数量从15款减少至10款,融资向头部集中,中小创企生存环境恶化 [11] - 行业转向垂类搜索场景,如医疗(Consensus)、法律(Qura)、视频(Twelve Labs)、求职(Micro1)等专业领域 [26][27][30][32] - LlamaIndex作为RAG基础设施获得2750万美元融资,支持企业私域数据搜索应用 [31] 技术演进影响 - OpenAI o1推理模型显著降低AI搜索幻觉率,使ChatGPT等通用产品能整合搜索功能 [22][23] - Twelve Labs开发多模态视频理解技术,实现自然语言搜索视频内容并自动标记关键片段 [39] - Infactory采用混合架构,仅用大模型解析用户意图,后续搜索环节规避幻觉问题 [42] 商业化挑战 - Google尝试在AI Mode中嵌入"Sponsored"广告,但初期数据显示可能降低广告点击率(CTR) [43] - Perplexity等产品面临"补贴无法转化收入"困境,付费用户占比仅16% [9] - 垂类搜索通过专业场景(如法律条文检索、医学论文查询)构建差异化壁垒 [27][30]
Arc浏览器创始人复盘:为何放弃百万用户及产品,押注AI浏览器?
Founder Park· 2025-05-27 12:20
核心观点 - Arc浏览器因过于复杂偏离大众化初衷,转型开发AI-Native浏览器Dia以回归简洁优先战略 [11][24][30] - 传统浏览器将被AI重构,未来桌面端主流界面将是融合网页与AI聊天的混合形态 [35][36][37] - 创业公司需敢于承认战略错误并及时止损,技术调整无法弥补战略偏差 [14][16][31] Arc浏览器发展历程 - 2023年推出创新功能吸引百万用户,但新功能使用率极低(Space使用率5.52%,Live Folders 4.17%)[11][24] - 2024年10月宣布开发Dia,Arc进入维护状态,引发用户质疑 [4][5] - 产品存在"新颖性税"问题,D1留存率高但更像专业工具而非大众产品 [23][24] 战略转型原因 - 数据早显示Arc偏离目标:仅0.4%用户使用日历悬停预览功能 [24] - ChatGPT重塑搜索、Cursor重构IDE的案例证明浏览器重构时机成熟 [27][35] - Dia核心功能使用率显著更高(标签页聊天40%,个性化设置37%)[24] 产品设计差异 - Arc:功能复杂如"萨克斯风",适合专业用户 [30] - Dia:设计简洁如"钢琴",架构速度提升且安全性强化(安全团队扩至5人)[30][33] - ADK开发框架成为公司核心技术资产,支撑两款产品开发 [33][34] 行业趋势判断 - 未来5年AI界面将取代传统浏览器,但网页不会消失 [35][37][40] - AI产品成功路径:在传统形态中植入革新(如Cursor基于IDE改造)[39] - 云服务激增和SaaS普及加速浏览器作为操作系统的发展 [18][20] 创业公司启示 - 过度透明与不够透明的沟通都需避免 [16] - 应更果断追随技术趋势(如提早1年拥抱AI)[14] - 构建能规模化的产品比经营小型盈利公司更具价值 [28]
Llama核心团队「大面积跑路」:14人中11人出走,Mistral成主要去向
Founder Park· 2025-05-27 04:54
Meta AI团队人才流失 - Llama模型创始团队14名核心成员中仅剩3名在职 离职率达785% 其中5名跳槽至法国AI创企Mistral [1][2][4] - 11名离职核心研究人员平均任期超5年 多为资深专家 部分人员参与Llama3开发后离职 [8][12] - 人才流失集中在FAIR研究院 前负责人Joelle Pineau卸任 由DeepMind回归的Robert Fergus接替 [5][6] 开源模型竞争力下滑 - Llama4模型测试集表现未达预期 开发者社区反响平平 用户转向DeepSeekQwen等竞品 [1][5] - 缺乏专用推理模型 落后于GoogleOpenAI在多步骤任务处理的技术进展 [7][8] - 竞争对手Mistral由Llama前架构师创立 直接挑战Meta核心AI项目 [4][6] 战略执行问题 - 旗舰模型Behemoth因性能未达标推迟发布 内部对领导力存疑 [5] - 2023年Llama论文开创开放权重LLM先河 但当前技术领先优势已被削弱 [6][7] - AI领域投入数十亿美元仍未形成差异化产品矩阵 [1][8] 核心成员去向追踪 - 主要流向Mistral等新兴竞对 部分创立自主项目 离职时间跨度从2023年延续至2025年 [4][8][12] - 剩余3名在职者包括研究科学家Hugo Touvron工程师Xavier Martinet及技术负责人Faisal Azhar [2][12]
红杉中国推出 Agent 基准测试「xbench」,双轨评估体系,关注 AI 真实场景的效用
Founder Park· 2025-05-26 06:44
核心观点 - 红杉中国推出AI评估工具xbench,采用双轨评估体系(AGI Tracking与Profession Aligned)追踪模型能力上限与商业落地价值 [1][5][19] - 传统评估体系存在局限性:模型能力与实际效用脱节、题库更新导致历史数据不可比 [10][12] - 提出长青评估机制(Evergreen Evaluation),通过动态更新题库和IRT模型量化能力增长 [17][38][39] - 首次发布ScienceQA(知识测试)和DeepSearch(工具使用)两大评估集,并构建招聘/营销领域专业评估框架 [23][25][26][32] 评估体系创新 双轨架构 - **AGI Tracking**:测试基础能力边界(如ScienceQA得分60 8 vs Gemini 57 2),包含知识/多模态/推理等维度 [4][24][25] - **Profession Aligned**:量化商业价值(如招聘任务经济价值$200/position),已覆盖招聘(03模型得分78 5)和营销(50 8)领域 [4][20][35] 方法论突破 - 从"研究视角"转向"业务视角",设计真实场景任务(如中东市场KOL搜索价值$6,000) [14] - 采用IRT理论解决题库迭代导致的数据断层问题,追踪模型能力斜率(如DeepSeek V2 5显著提升) [39][40] - 引入TMF(技术-市场契合度)分析框架,划分未达标/人机协同/专业化Agent三阶段 [44][45][46] 关键评估集 ScienceQA - 聚焦研究生水平学科知识,季度更新题库,03模型当前领先(60 8分) [4][25] - 题目示例:"奇函数与偶函数嵌套组合的性质判断" [9] DeepSearch - 测试中文互联网环境下的多步推理搜索(03模型65+分),需完成规划→收集→推理→归纳全流程 [4][26] - 典型任务:跨平台合并`result_*.txt`文件并排序 [9] 专业评估 - **招聘领域**:拆解JD分析($20/JD)、人才画像($200/position)等7类可测评任务 [35] - **营销领域**:KOL匹配度预测(03模型50 8分 vs Claude 47 6分) [4][14] 行业影响 - 揭示模型进化速度:18个月内Chatbot能力从20-30分提升至90-100分 [9] - 预测多模态理解、长期记忆、博弈决策将成为下一阶段突破方向 [21] - 推动评估标准从"解题难度"转向"经济价值"(如营销任务节省$6,000人力成本) [14][31]
Kotoko AI 乔海鑫:C.Al 的故事已经结束,我们用 OC 链接 05后
Founder Park· 2025-05-26 05:30
OC市场概况 - OC(Original Character)指用户在虚拟世界构建的有独立生活与故事的个体,已成为新兴市场关注点 [2] - 核心用户规模:全球约千万级,中美各有数百万核心人群 [8] - 典型产品Gacha Life拥有超2亿玩家,验证了OC市场的PMF(产品市场匹配) [2][25] - 国内OC内容在B站、小红书、抖音等平台广泛传播 [2] 用户画像 - 年龄结构:05后为主,女生比例稍高,但90-95后用户也不少 [17] - 核心能力:依赖想象力,画师占比高,文本想象力强但不会画画的用户会请画师完成创作 [17] - 用户心态:女生多视为理想化自己或柔和映射,男生多带有"爹"或"养老婆"心态 [12] - 行为特征:创作链条长(捏角色、写人设、约稿、创作故事、分享),线下延伸至娃圈、谷圈等活动 [10] 产品定位 - Bside定位为"OC的游乐场",融合UGC与游戏化玩法,提供创作-养成-社交陪伴体验 [7] - 通过AI Agent为OC注入主体性,打造"有灵魂的造物" [52] - 区别于传统RPG,强调角色自主性而非用户控制,结合上帝游戏与文本聊天体验 [63] - 闭环设计:创造-养成-社交/陪伴三个环节缺一不可 [79][81] 技术应用 - AI核心价值:降低创作门槛,赋予角色生命感和自主性,而非简单提高效率 [49] - 关键技术挑战:解决OOC(角色行为不符合设定)问题,通过游戏化设计和场景包装弥补模型缺陷 [47] - 工程难点:多Agent协同、记忆结构化、Prompt优化等端到端问题 [51] - 成本控制:大模型成本降低+工程优化+玩法缓冲三重措施解决线性成本问题 [102][103] 商业化路径 - 付费设计:角色皮肤、换装等增强体验的功能,避免纯商业化设计 [30] - 对标案例:Roblox的Avatar相关付费占比30%+,验证了社交货币商业化模式 [31] - 用户付费基础:初中至大学年龄段用户具备更强付费能力和意愿 [30] - 长期想象:可能形成新型社交平台或IP,但Day One聚焦原创而非二创市场 [46] 市场策略 - 首发平台:选择Steam因获客成本低且适合PC端多线程体验 [35] - 地区布局:先攻英语区(用户基础好、迭代快),再拓展日本和中国市场 [38][39] - 移动端规划:PC端积累用户后再适配移动场景 [37] - 增长逻辑:先服务好第一个100万用户,再考虑多端扩展 [36] 行业趋势 - OC现象本质是"新瓶装旧酒",延续了带着人设社交的需求,但以新形式呈现 [12] - 破圈关键:统一"共同想象"的画风主题,降低创作门槛 [15][18] - 代际变化:年轻一代将OC作为新型社交货币,需求可能比当前认知更普遍 [76] - 市场空间:从几百万创作者扩展至潜在上亿DAU的用户市场 [10]
去年很火的 Founder Show,回来了!
Founder Park· 2025-05-23 11:01
Founder Show活动概述 - Founder Show是AGI Playground 2025大会中的创业者特别分享环节[1] - 每位创业者有20分钟时间分享产品进展和创业思考并与高年级创业者互动[2] - 通过多轮筛选最终选出9支新锐团队参与展示[3] - 所有通过初筛及线下展示团队将获得创业加速资源包[4] 招募要求 - 招募对象为9位新锐Founder可独立开发或拥有团队[9] - 要求聚焦泛Gen AI赛道垂类场景和产品形态不限有产品Demo更佳[9] - 入选者需配合大会流程进行20分钟产品展示及线下互动[9] - 报名时间为5月23日至6月10日18:00最终通知6月13日18:00[10] 活动流程 - 招募流程包括资料提交初审线上面试复审和入选通知[8] - 活动时间为2025年6月20日下午地点在北京751图书馆[14] - 每位Founder展示后互动嘉宾将从多维度提问引发关键问题探讨[14] - 资料通过初筛后运营团队将通过微信邮件等方式联系[11] 资源支持 - 入选项目可获得标准版创业者加速资源包包括产品设计增长辅导模型算力资源等[15] - 线下展示项目将获得进阶版资源包包括投资绿色通道3小时Office Hour技术支持等[15] - 支持包括模型算力调用产品技术支持海外增长支持等[20][21] - 更多支持伙伴持续加入中[22] 其他信息 - 2025中国最具价值AGI创新机构TOP50调研正在征集[23] - 活动最终解释权归Founder Park所有[22] - 联系方式为founderpark@geekpark.net[22]
目标出货一亿台,Altman和Ive的新公司「io」到底要做什么硬件?
Founder Park· 2025-05-23 11:01
核心观点 - OpenAI以65亿美元全股票交易收购Jony Ive的AI硬件创企「io」,计划打造继手机和笔记本电脑之后的"第三核心"设备,目标出货1亿台[1][4][5] - 新设备将无屏幕、可便携或置于办公桌,定位为AI交互核心载体,强调环境感知与低调设计[1][5][10] - Altman预测该收购将为OpenAI创造1万亿美元额外价值,并计划2025年底前推出产品[4][8] 行业动态 - 谷歌在I/O 2025推出Project Moohan头显和Project Aura智能眼镜,苹果计划2026年推出AI智能眼镜[2] - 科技巨头对AI硬件形态存在分歧:Ive和Altman认为显示屏非必需,而其他公司押注可穿戴设备[2][5] - 实现多模态AI需满足环境感知、实时LLM访问和长续航等条件,推动可穿戴设备研发热潮[2] 产品规划 - 设备定位为"设备家族"成员,设计理念受Apple软硬件整合启发,旨在减少用户对屏幕依赖[5][10] - 强调保密性以防竞争对手模仿,Ive团队已接触量产供应商[6][8] - 目标超越传统硬件发布速度,计划比任何公司更快达到1亿台出货量[8] 战略背景 - OpenAI预计2029年前亏损440亿美元,需通过自有设备建立直接用户触达渠道[9] - Altman认为现有设备无法满足AI交互需求,合并「io」是为实现"AI直接赋能用户"的愿景[10] - 硬件战略与数据中心建设、企业技术、机器人等业务形成协同[8] 合作细节 - 合作始于18个月前OpenAI产品副总裁与Ive团队的接触,去年秋季确定硬件开发方向[10] - 最初设想独立开发,后调整为合并模式以确保设备作为OpenAI核心交互载体的定位[10] - Ive提及与Steve Jobs的合作经历,强调与Altman的默契具有特殊意义[4]