Founder Park

搜索文档
前 OpenAI 研究员 Kevin Lu:别折腾 RL 了,互联网才是让大模型进步的关键
Founder Park· 2025-07-11 12:07
核心观点 - 互联网是推动人工智能进步的核心技术,而非Transformer等模型架构,互联网提供了海量、多样化的数据,是next-token预测的完美补充 [1][5][55] - 自GPT-4以来,基础模型能力未显著提升,优化模型结构或手工制作数据集难以带来质的飞跃,研究者应转向互联网数据研究而非RL [1][13][16] - 互联网具备四大关键特性:数据多样性、自然学习路径、产品市场契合度、经济可行性,这些特性使其成为AI训练的终极数据源 [54][60] Transformers的局限性 - Transformer架构并非AI进步的关键,自GPT-4后更好的架构(如SSMs、Mamba)未带来显著性能提升,因当前范式已转向数据受限时代 [11][13][14] - 若无互联网,仅依赖书籍或教科书训练模型会导致知识面狭窄,如phi模型虽在小规模任务表现优异,但世界知识储备和创造性不足 [28][30][31] - 数据质量与数量之争:教科书代表高质量但窄领域数据,互联网则提供行星级规模的自然数据分布,后者更利于模型泛化能力 [23][24][28] 互联网作为AI训练基石的四大优势 数据多样性 - 互联网包含多语言、多文化、多视角数据,去中心化结构保障了数据多样性,删除特定数据会导致模型认知版图缺失 [36][43][52] - 对齐研究显示,预训练需同时接触对齐与非对齐数据(如4chan有毒数据),模型才能理解边界,纯净化数据反而损害性能 [37][38][39] 自然学习路径 - 互联网数据天然形成难度梯度(如从Khan Academy到arXiv),为模型提供渐进式学习课程,避免手动设计数据集的低效 [43][44][47] - RL依赖密集课程学习,互联网用户贡献行为(如点赞、创作)自发形成类似AlphaZero自我博弈的进化压力 [44][46][47] 产品与研究的协同 - 互联网用户真实需求驱动数据生产,与研究者手动策划数据集存在本质差异,决定模型能力的应是用户而非研究者 [48][51][52] - AGI应记录人类完整文化演变(如Wikipedia、GitHub、社交媒体),而非理想化片段,模型偏差反映的是真实人类认知偏差 [52][53] 经济可行性 - 互联网低成本特性使其规模化成为可能,高昂订阅费会抑制用户数据贡献,经济可行性是数据扩展的前提条件 [51][54][60] RL与next-token预测的对偶性 - next-token预测与互联网存在隐喻性对偶关系(如序列数据对应HTML文件,推理成本对应经济可行性),RL尚未找到类似对偶 [55][57] - RL当前数据源(人类偏好、可验证奖励)存在噪声大、领域窄等问题,需探索如机器人学、推荐系统等新场景,但均面临规模化挑战 [61][62][63] - 用RL优化困惑度是方向性错误,应寻找全新数据源而非改造旧目标,RL流形(对偶系统)的发现将是重大突破 [58][65][67]
GenAI 时代,内容消费形态会发生哪些变化?
Founder Park· 2025-07-10 12:34
GenAI时代的内容消费生态 - ChatGPT作为通用助手主打生产力、搜索和获取认知场景,但市场缺乏能释放创意和重构商业模式的AI原生内容平台[4][5] - AI时代内容消费将呈现信息爆炸、内容无限的特点,创意产生和实现成本因GenAI降至极低[9] - 内容呈现方式多元且格式边界模糊,Webpage/Doc/Slides/PDF等格式可互相转换,engage比format更重要[9] 全新内容形态特征 - 内容将呈现拟人化、有自主性和可交互的特点,模型本质是对人的模拟[9][11] - 极致个性化和实时内容生成将实现生产与消费场景的统一,用户可通过语音指令生成个性化短剧等[11] - 世界模型可生成实时、可互动的视频,带来全新内容体验[13] 新内容时代价值判断标准 - 用户时间与注意力、内容消费平台和网络效应依然重要[15] - 独特性内容如专有数据、新奇想法和品牌/IP将更具价值[15] - 垃圾内容和平平无奇的内容将失去价值,因其生产边际成本趋近于0[15] 打造新内容平台方向 - 需押注因GenAI才出现的新内容形态,而非简单生成现有格式内容[16] - 拟人化、可交互的虚拟形象是关键,可涵盖伴侣/偶像/玩偶等多种形态[17] - 虚拟形象可输出歌曲/MV/影片/直播等多种内容形式,并实现实时生成[17] 潜在应用场景 - 乙女游戏、真人偶像团体等现有内容形式可通过AI实现体验升级[20] - 设想中的DikDok平台可提供1v1语音私聊、实时演唱会等创新交互[23] - 虚拟形象可构建metaverse世界,对年轻用户有强烈吸引力[22]
AI Coding 赛道,Solo 创业、6 个月 8000 万卖掉,独立开发的新传奇
Founder Park· 2025-07-10 12:34
核心观点 - AI Coding赛道独立开发者Maor Shlomo在6个月内开发全栈无代码平台Base44并以8000万美元出售[1][2] - 产品90%代码由AI生成,半年内获25万用户,三周达成100万美元ARR[2][7] - 通过解决个人真实需求切入市场,采用Build in Public策略实现病毒式增长[2][17][19] - 强调"顿悟时刻"比产品完善更重要,需让用户快速感知价值[14] - 独立开发模式下开发速度成为增长引擎,AI工具显著提升效率[22][30] 产品开发 - 产品定位为"自带电池"的全栈AI应用构建平台,内置数据库/用户管理/数据分析功能[6] - 技术栈采用Render管理基础设施,MongoDB处理动态数据结构,Python+JSX实现前后端[33][34] - 模型组合策略:Claude 4负责UI设计,Gemini处理复杂算法,小型模型做代码修补[35][37] - 开发流程优化:20-30%时间用于代码库优化,AI生成代码量控制在最小范围[33] 增长策略 - 冷启动阶段通过3个核心用户深度测试迭代产品,自然传播至10人后开始营销[15][16] - Product Hunt两次发布分别带来15和50个用户,首个付费用户来自自然转化[17] - Build in Public策略在LinkedIn实现突破,分享技术细节和真实增长数据[23][24] - 推出用户激励计划:分享作品可获额外额度,带动社区内容爆发[19] - 举办3000队规模的公益黑客马拉松,吸引亚马逊/谷歌等企业赞助[27][28] 商业模式 - 启动资金仅数万谢克尔(约数万美元),保持盈利状态下月利润达20万美元[7][40] - 被收购前已实现正向现金流,五个月单月利润近20万美元[40] - 收购方Wix看中产品与现有业务的协同效应,创始人加入后继续运营[45][46] - 交易包含earnout条款,根据未来业绩支付对价,保持创始人动力[47] 行业趋势 - AI降低开发门槛,个人开发者可快速构建复杂应用并实现规模收益[2][42] - 模型能力提升使工程师效率可能提高10-100倍,团队规模优势减弱[42] - 自然流量和公开建设取代传统营销,Base44零付费推广预算实现增长[43] - 行业知识比编码能力更重要,专业领域见解成为竞争壁垒[43]
马斯克发布 Grok 4 模型:推理能力较前代提升 10 倍,各学科测试接近满分
Founder Park· 2025-07-10 07:59
模型发布与性能 - xAI发布新一代大模型Grok 4和Grok 4 Heavy两个型号,推理能力较前代提升10倍 [3] - Grok 4在SAT和GRE等高难度考试中取得接近满分成绩 [3] - 训练量是Grok 2的100倍,强化学习计算量是现有任何模型的10倍 [5] - 在Humanity's Last Exam测试中,Grok 4得分38.6%,Grok 4 Heavy提升至44.4% [5][15] - 在GPQA、AIME25等学科赛题中,Grok 4 Heavy获得4项冠军,其中AIME25和HMMT25分别取得100%和96.7%的成绩 [5] 技术能力与基准测试 - Grok 4在Vending-Bench商业模拟场景中平均净资产达$4684.15,是第二名Claude 4的两倍 [5] - 在ARC-AGI v2评测中达到SOTA,准确率15.9%,是第二名Claude 4的8.6%的近两倍 [5][31] - 在Artificial Analysis全套基准测试中总成绩73分,领先o3、Gemini 2.5 Pro等竞争对手 [20] - 语音能力较上代快2倍,支持5种语音,单日用户总停留时长提升10倍 [27] - 新增角色Eve和Sal,支持多种性格和唱歌功能 [29] 产品规划与定价 - 定价分为Free(仅Grok 3)、SuperGrok(30美元/月)和SuperGrok Heavy(300美元/月)三档 [7] - 后续计划8月推代码模型、9月上线多模态智能代理、10月发视频生成模型 [7][46] - API提供256K tokens上下文窗口,版本号为grok-4-0709,价格与Grok 3相同 [37] - API服务速度为每秒75个token,优于Claude 4 Opus Thinking的66个token [40] 应用案例与演示 - 演示了基于物理原理的黑洞碰撞引力波模拟效果,完整呈现计算步骤和论文引用 [24][26] - 用户DannyLimanseta在4小时内用Grok 4制作了一款FPS射击游戏,并能运行和改进游戏 [43] - 在游戏制作方面展现出实际运行能力和改进建议能力 [43]
垂直赛道 Agent 闷声发财指南:如何实现一年超千万营收?
Founder Park· 2025-07-10 03:54
垂直Agent赛道现状 - 国外2B垂直Agent领域已进入商业化阶段,企业通过解决具体业务痛点实现可量化的效率提升或成本节约[1] - 垂直Agent正成为企业的"特种兵",瞄准高频业务痛点,让企业持续付费[1] - 行业关注如何构建"高价值闭环"场景,挖掘垂直Agent的商业价值[2] 语核科技的产品理念 - 聚焦企业核心业务流程中的核心阻塞点,直接创造营收或大幅降低成本(1/5-1/10)[16][18] - 采用RaaS(Result as a Service)模式,让Agent数字员工背KPI上岗[18] - 从demo玩具转变为生产场景中可控落地的产品是2B垂类Agent落地的关键[7][30] - 未来Agent一定是垂直Agent而非通用型,聚焦特定岗位职能[41][42] 行业选择与客户开发 - 选择中高端制造业作为重点赛道,因其数字化程度高、客户预算充足、转型需求强烈[24][25] - 一个季度建联100+客户,通过深度访谈挖掘核心业务流程痛点[19] - 案例:汽车零配件企业用Agent解决中转仓数据获取和核对问题,提升数据处理时效[21] - 避开医疗和政企等门槛高或现金流风险大的行业[22] 产品开发方法论 - 创始人深度参与每个PoC,亲自调研客户场景获取真实需求[28] - 产品开发需做三层抽象:场景共性、标准化程度、核心竞争力[30] - 交付90%+准确率的可控生产力是关键,避免业务弃用[31] - 与客户共创迭代核心技术能力:复杂文档解析和结构化内容提取[33][34] 客户选择与战略定力 - 拒绝KPI驱动型项目,专注业务价值显性的场景[39] - 通过项目迭代产品内核和PMF,而非追求短期营收[40] - 建立"端到端"Agent数字员工,未来靠垂直Agent数量取胜[44] 客户实践案例 - 华宝国际在研发、销售、运营环节部署Agent,实现定制化香精开发等应用[50] - 上海马勒热部署28个智能体,提升研发生产效率和销售预测准确性[51] - 制造业优先选择非保密信息场景,如专利和知识库应用[56] 行业趋势与SaaS对比 - 未来企业将分为深度整合AI的企业和被淘汰的企业[51] - Agent与SaaS的本质区别:前者是能独立思考的"员工",后者是工具模块[54] - 制造业数字化和AI冲击显著,核心是"增效"而非单纯降本[52] 供应商选择标准 - 需真正理解业务场景,具备行业经验,团队稳定[61] - 优先选择创业公司而非巨头,因其更专注垂直领域[62] - 平台集成性是企业快速落地的关键因素[60]
未来,你的 Agent 怎么付钱?
Founder Park· 2025-07-09 13:24
Agent Payment 行业进展 - 3D AI 伴侣 EVE 实现用户下单奶茶功能,引发对 Agent payment 方向的关注[1] - Mastercard 和 Visa 推出 AI 代理支付解决方案,PayPal 推出首个 MCP 服务器[9] - 过去一个月支付行业加速布局智能代理商业,包括虚拟卡、tokenization 等技术应用[9] 实现自主支付的关键步骤 - 研究进货与销售的真实网络搜索工具[7] - 请求人力协助及联系批发商的电子邮件工具[7] - 记录店铺财务数据(余额、现金流)的笔记系统[7] - 通过 Slack 与客户互动的通讯能力[7] - 自动结账系统价格修改功能[7] 现有 AI 支付集成产品 - **Perplexity Pro Shopping**:聊天机器人内一键购买功能[11] - **Stripe Agent Toolkit**:提供一次性虚拟卡,自定义消费限制[12] - **Shopify Sidekick**:自动处理订单、退款等商家运营自动化[13] - **Adyen Uplift**:支付链路优化(路由选择、失败重试)[14] - **Operator**:OpenAI 发布的通用 Agent 框架[15] - **Mastercard/Visa**:虚拟卡分发、网络 token 支付及预算控制[15] - **PayPal MCP**:自动生成发票与支付链接,降低开发复杂度[18] 核心挑战 - **角色与范围界定**:缺乏人类与商家对 Agent 权限的共识标准[23] - **欺诈防范**:2023 年全球诈骗损失超 1 万亿美元,需建立 KYA(了解你的 Agent)机制[24] - **责任归属**:交易撤销时第三方 Agent 导致责任分配模糊[26] 未来支付模式 - 代理与人类协同结账(如 Paidai 构建的计费系统)[27] - 代理从用户钱包获取授权(类似 Apple Pay)[27] - 有限支付能力代理(如虚拟卡)[27] - 代理独立钱包(如稳定币钱包)[27]
The Information:硅谷投资人都在看华人 Agent 公司
Founder Park· 2025-07-09 13:24
华人创办的AI Agent公司受关注 - 由华人创业者开发的AI Agent产品如Manus、Genspark、Lovart、Flowith和Fellou正引起硅谷关注,包括OpenAI在内的投资者对这些公司表现出兴趣[4] - 这些AI Agent产品专注于任务自动化,如处理分析研究并转换为Excel和PPT,管理日程、预约和规划行程等[4] - 部分产品专注于创意领域,如Lovart可帮助咖啡馆老板构思品牌概念、设计标志、室内设计、商品包装和营销内容[5][7] 主要公司及产品表现 - Manus由华人创始人开发,能使用浏览器,曾短暂爆红并获得Benchmark资金支持[4] - Lovart在五月发布测试版后五天内吸引超过10万名注册用户,计划本月发布正式版[7] - Genspark的Super Agent发布后45天内年度经常性收入达3600万美元,至少有14.4万名付费客户[8] - Genspark成立两年已融资1.6亿美元,使用OpenAI的GPT-4.1和实时语音模型[8] 公司背景与战略 - Lovart创始人陈冕曾是字节跳动高管,帮助CapCut成为全球爆款[7] - Genspark由百度前高管创立,其Super Agent能分析数据制作PPT,甚至可代表客户打电话处理事务[7] - 这些公司为避免审查风险,选择在新加坡等地设立总部,如Manus总部已迁至新加坡[9][10] - Genspark总部设在新加坡和加州Palo Alto,目前有24名员工[11] 行业观点 - 明势创投董事总经理杨慕融表示生成式AI正从前沿科学转向工程落地,这正是华人的优势所在[9] - 行业认为华人团队在AI Agent领域展现出强大竞争力,产品已获得市场认可和投资者青睐[4][8][9]
2025上半年大模型使用量观察:Gemini系列占一半市场份额,DeepSeek V3用户留存极高
Founder Park· 2025-07-09 06:11
大模型API市场总览 - 2025年第一季度OpenRouter总Token使用量环比增长4倍,之后稳定在每周2T Token水平[7] - 谷歌以43.1%市场份额居首,DeepSeek和Anthropic分别占19.6%和18.4%[8] - 其他模型合计份额不足10%,Llama系列已萎缩至峰值1/5[11] 头部模型表现 - Gemini-2.0-Flash凭借0.4美元/百万Token低价稳居前三,Gemini-2.5-Flash有望接替其位置[7] - DeepSeek-V3发布后持续Top 10,用户留存率极高,合并免费/付费版使用量可达第二[3][7] - Claude-Sonnet-4接替旧版但增长停滞,OpenAI无稳定Top 10模型[7][8] 细分领域格局 编程领域 - Claude-Sonnet-4占据44.5%绝对优势,Gemini-2.5-Pro以17.6%居次[14] - 前20名中GPT-4o-mini增速达139%,Qwen2.5 Coder增速107%[15] 文本翻译 - Gemini-2.0-Flash以45.7%领跑,前10名中7款为谷歌模型[17] - 第二名"Others"类别占比20.1%,显示长尾需求显著[17] 角色扮演 - 市场高度碎片化,26.6%份额由小众模型占据[21] - DeepSeek-V3以25.2%居首,Gemini-2.0-Flash占18.5%[21] 营销领域 - GPT-4o以32.5%绝对领先,Llama-3.3-70B增速达1,454%[23][24] 技术接口趋势 - 代码编写工具主导接口使用,Cline和RooCode位列前二[25] - liteLLM路由库排名第三,反映开发者生态活跃[25] 厂商战略差异 - 谷歌通过多价位产品矩阵覆盖全场景,Gemini系列价格优势明显[26] - Anthropic专注编程领域实现版本平稳过渡[26] - OpenAI因准入限制和定价问题市场表现弱势[26] - DeepSeek-V3因响应速度优势超越R1版本[26]
Manus 对谈 YouTube 联创陈士骏:两代创业者聊 AI 创业和长期主义
Founder Park· 2025-07-08 12:57
核心观点 - YouTube联合创始人陈士骏分享硅谷创业经验,强调快速试错、承担风险、长期主义的重要性 [3][4][6] - Manus作为AI初创公司,面临技术快速迭代和巨头竞争,需灵活决策并关注技术网络效应 [9][10][20] - 创业公司应利用先发优势构建用户粘性,通过产品设计提升迁移成本 [22][23] - 硅谷生态系统的独特之处在于鼓励尝试、容忍失败,并拥有完整的支持体系 [45][50][67] YouTube创业经验 - 早期核心指标透明化:每天向团队和投资人发送包含25个指标的报告,重点关注视频上传量和用户注册量 [13] - 团队文化:通过数据共识激发主人翁意识,工程师自愿凌晨处理问题 [14] - 竞争策略:与Netflix在网络层面合作,2007年两家共占全球40%网络流量 [16] - 收购决策:法律风险是主要推动因素,而非规模考量 [16][29] - 推荐系统:构建"被动体验",50%用户时间用于寻找下一个视频 [30][31] 初创公司竞争策略 - 灵活优势:可尝试大公司不敢做的实验性功能,如YouTube未审核即时上传 [20] - 用户留存:通过生态绑定(上传/评论/订阅)提高迁移成本,创作者分成55%的机制增强粘性 [22][24] - 发展眼光:避免短期解决方案,关注技术演进趋势 [11][12] - 技术网络效应:新增功能应与现有功能产生复合效应,如图像读取帮助调试可视化代码 [10] 产品与增长 - 带宽类比:将token数比作新时代带宽,价格下降趋势类似早期网络流量 [17] - 激进平衡:产品方案设计激进但上线标准严格 [12] - 增长哲学:延迟变现优先获取用户心智,YouTube现为全球第二大搜索引擎 [23] - 广告设计:通过相关性提升体验,创作者优先的分成机制 [24] 硅谷创业生态 - 试错文化:YouTube最初是视频交友网站,后转型为开放平台 [45] - 人才网络:PayPal黑帮成员后续创建多家明星公司,内推文化盛行 [47][49] - 环境支持:法律、资本、人脉资源高度集中,降低创业门槛 [50][67] - 核心特质:身处创新网络比单打独斗成功率更高 [44][50] AI行业展望 - 技术拐点:AI可能成为继智能手机后的重大技术变革 [51] - 实验阶段:需通过大量试错验证可行性,类似早期互联网 [52] - 商品化趋势:技术快速普及,大公司陆续入局 [18][20] - 未来可能:生成式AI或改变推荐逻辑,直接生成定制内容 [43]
Google线下AI工作坊、AI硬件开发大赛,7月不可错过的AI活动!
Founder Park· 2025-07-08 12:57
AI行业活动 - Founder Park联合Google推出「从模型到行动」系列AI工作坊 覆盖深圳、上海、北京三地 包含沉浸式动手实操环节 [1][7] - 活动提供Google团队技术反馈通道 面向AI产品开发者、出海技术团队及多模态工程师等群体 [7] - 深圳站7月12日举办 上海站7月20日 北京站7月26日 报名截止日期分别为活动前2天 [7] 人工智能硬件竞赛 - 外滩大会联合蚂蚁集团、将门创投发起AI硬件科创大赛 总奖金近30万元 [1][6][8] - 参赛者可获得头部资源对接与创业扶持礼包 面向AI硬件领域开发者及创业团队 [8][9] - 报名截止8月4日 需通过官网提交材料并联系小助手加速审核 [6][9] NVIDIA生态计划 - NVIDIA初创加速计划提供免费深度学习课程、GPU云折扣及投融资对接服务 [9][10] - 杭州站活动聚焦AI智能体与3D大模型 展示RTX 5880 Ada技术 提供算力试用与培训课程 [10][11] - 参与企业需应用NVIDIA CUDA/Omniverse等技术 或使用GPU/DPU作为运算基础 [11] Google出海生态 - Google将于8月14日在上海举办出海领袖研讨会 解读AI驱动的一体化出海解决方案 [12] - 活动针对出海企业高管 涵盖全球化增长策略与产品落地实践 [12][13] - 报名通过链接直达 与Google多产品线专家直接交流 [12]