Founder Park

搜索文档
万字对谈 Physical Intelligence(π):具身智能的卡点和下一步突破,到底在哪?
Founder Park· 2025-07-25 13:38
具身智能技术进展 - 公司Physical Intelligence(π)由OpenAI和红杉资本领投,估值达20亿美元,已开源π0 VLM模型并展示机器人自动叠衣服案例[1] - 2023年发布π0模型展示复杂任务执行能力,2024年4月推出π0.5模型实现开放世界泛化能力,可在陌生家庭环境完成整理房间等任务[1][8][9] - 技术发展轨迹类似自动驾驶,预计将经历长期积累后突然实现突破性应用[14] 技术瓶颈与突破 - 当前主要瓶颈在于智能软件而非硬件,硬件早在十多年前就已"准备就绪"[17][19][20] - 三大技术难关:复杂任务能力(已突破)、环境泛化能力(已突破)、高可靠性性能(当前最大障碍)[6][8] - 模型在约100个多样化家庭环境训练后即可实现良好泛化,环境共性被低估[6][51] 技术实现路径 - 采用"大模型+大数据"模式,但需解决真实数据收集、硬件适配等复杂系统问题[23] - 创新性使用"知识绝缘"技术,将机器人动作标记化处理,训练速度提升10倍[44][45] - 利用图像修复技术解决推理延迟问题,实现动作预测与执行的同步[47] 行业认知与展望 - 通用机器人基础模型价值被严重低估,形态不重要而智能是关键[52][53] - 预计5年内实现家庭机器人普及,5-10年达到百万家庭应用规模[55] - 行业仍处早期阶段,开源策略有助于推动整体技术进步[60][61] 数据与评估挑战 - 机器人数据量巨大且持续增长,数据基础设施成为关键挑战[34][35] - 评估依赖真实世界测试,需大量重复运行和统计分析,操作繁重[40][41] - 采用新旧模型同步测试的相对评估方法,避免环境变量干扰[40]
保姆级教程:讲真,从零开始创办一家 AI 初创公司,要怎么做?
Founder Park· 2025-07-24 08:28
创业筹备与启动 - 创业初期不建议立即辞职 可考虑边工作边创业 通过自动化日常任务腾出时间 例如作者通过自动化将每日工作时长压缩至2小时[6] - 建议通过接咨询项目积累启动资金 同时保持全职身份更稳妥 购房可作为保值资产和未来融资筹码[6] - 个人品牌建设至关重要 可通过开源项目、出版书籍、技术会议发言等方式建立影响力 作者通过生成式AI通讯积累20万订阅者并与Nvidia合作[7] 团队组建与管理 - 技术创业者不必担任CEO角色 应聚焦专业领域 作者团队由财富100强企业AI负责人和资深销售高管组成 采用股权激励模式[8] - 采用全球远程协作模式 从主动联系的技术人才中选拔 分布在印度、巴西等地 薪酬采用现金+股权组合 资金消耗仅为竞争对手十分之一[9] - 避免招聘技术背景过于接近竞品的员工 防止其固守原有工具而非创新 同时优化税务结构 在税务友好地区设立公司[10] 资金与运营策略 - 初创公司应严格控制成本 实现100%线上办公 不设实体办公室和HR部门 使用AI工具自动化工作[10] - 专利投入控制在总支出的3%以内 可自行提交临时专利 避免高额法律支出[11] - 通过多种渠道增加现金流 包括房产出租、写书收入、广告分成、企业内训等 这些客户可能成为产品早期用户[12] 融资与人脉建设 - 做好2-3年无法获得VC融资的准备 建议先实现10万美元年收入再接触VC 早期可尝试天使投资或自筹资金[15] - 构建专业人脉网络至关重要 优先通过LinkedIn寻找活跃用户 初次接触应提供价值而非推销 警惕动机不纯的VC套取商业情报[14] - 海外客户和投资人可能比美国市场更具吸引力 应等待投资人主动接洽 警惕要求预付"服务费"的虚假投资者[16] 创业者特质 - 成功创业者需具备"风险智商" 能在不确定性中持续推进 适应收入波动并构建长期安全感[17] - 关键能力包括抗挫力、多路径尝试能力、资源优化能力等 年龄不是障碍 可与年轻人合作互补[17] - 健康问题常与长期高压相关 创业者需平衡风险与安全线 提前预判行动后果的能力可减少弯路[17]
面向 AI Agent 的搜索服务,小宿科技有机会成为百亿美金的新巨头吗?
Founder Park· 2025-07-24 08:28
AI搜索行业现状与趋势 - AI搜索已成为日常高频使用工具,但存在数据来源模糊、学术论点无依据、信息滞后等技术瓶颈 [1] - 微软Bing Search API停用事件暴露市场缺口,AI搜索从"边缘需求"升级为"核心基建",需满足全球化服务、数据多样化、响应稳定性三大硬指标 [3][7] - 行业竞争格局类似云计算早期,大厂聚焦C端入口,创业公司面临高资金门槛(需投入数千万至上亿级资金)[8] 微软Bing战略调整动因 - 流量入口防御:API客户如Perplexity等AI Agent可能成为新流量入口,威胁Bing核心价值 [4] - 数据资源控制:实时数据是AI时代战略资源,微软通过限制API巩固信息主导权 [7] - 业务升级转型:转向"搜索+AI处理"捆绑式高客单价服务,增强客户粘性 [7] 小宿科技竞争优势 - **技术能力**: - 全球2800+边缘节点,支持35+语言,国内语种覆盖最全 [9] - 全文抓取、多模态检索、Agent场景化工具等深度优化能力 [10][15] - **商业模式**: - 定价仅为Bing API的1/3(5美元/千次请求 vs 15美元)[17] - 覆盖国内超50%头部AI原生应用,形成需求共创闭环 [16][22] - **基础设施**: - SkyRouter.ai模型聚合平台可接入100+大模型 [14] - 分布式网络覆盖北美、欧洲、东南亚,实现本地化合规+低时延 [14][20] 行业竞争壁垒分析 - **人才壁垒**:30+核心团队来自百度/360,具备千亿级数据处理能力,组建周期需1-2年 [14] - **技术壁垒**:需同时实现多语言支持、多模态检索、全球化合规等复合能力 [16] - **时间窗口**:小宿提前3个月布局,在Bing退场时快速承接流量 [19][20] AI搜索未来发展方向 - 评估标准变革:从人类点击率转向机器可处理的"反馈链优化" [22] - 市场重心转移:从C端流量争夺转向B端基础设施竞争 [22] - 基础设施价值凸显:AI企业隐性痛点(如实时数据获取、模型调用)催生新商业机会 [23]
ChatGPT Agent 团队专访:基模公司做通用 Agent,和 Manus 有什么不一样?
Founder Park· 2025-07-23 13:23
ChatGPT Agent技术架构 - 结合深度研究和Operator两大方向,创造具备文本浏览器、图形界面浏览器及终端权限的多工具集成Agent,实现工具间状态共享[6][7] - 通过强化学习在数千个虚拟机训练,模型自主探索工具使用策略而非预设编程模式,完成需1小时执行的复杂任务[10][11][18] - 技术突破包括突破上下文长度限制的扩展能力,以及实时观察/干预的虚拟计算机界面设计[19][21] 核心功能与应用场景 - 典型任务覆盖深度研究报告生成、商业操作(预订/采购)、幻灯片/表格制作及数据分析,支持B2C/B2B混合的"专业消费者"场景[13][16] - 演示案例包括自动搜集OpenAI财务数据生成估值模型幻灯片(耗时28分钟),以及古代DNA研究资料整合[16][15] - 代码处理能力表现为交互式函数建议而非全量重写,与Codex形成互补[24][25] 训练方法与工程挑战 - 训练数据采用小规模高质量数据集,强化学习数据效率比预训练高数个量级[29][32] - 关键难点在于维持数千虚拟机同时联网训练的稳定性,以及"比特世界2"项目鼠标路径识别等历史难题的算力突破(计算量增长约10万倍)[22][29] - 安全机制包含多层监控体系,针对金融操作/生物危害等风险进行专项红队演练[36][39] 未来发展方向 - 目标构建通用型Agent框架,覆盖人类计算机操作全任务集,通过迭代提升准确率[23][33] - 探索个性化/记忆功能、主动任务触发等新型人机交互范式[26][34] - 技术路线倾向于单一底层模型支持多技能迁移,而非垂直领域子Agent分化[27]
小扎疯狂撬人,「HALO」正成为硅谷收购新形态
Founder Park· 2025-07-23 13:23
以下文章来源于投资实习所 ,作者StartupBoy 投资实习所 . 以产品视角洞察趋势 在过去的一年中,AI 行业正在出现一种全新的交易形态: HALO(Hire And License Out,雇佣 并授权)。 Kevin Kwok 近期写了一篇文章《The HALO Effect》,针对 HALO 这种新型的交易形态以及 过 去一年中 AI 领域独特的"收购"案例进行了解读。 HALO 是一种介于收购与招聘之间、同时具备两者特征却又不完全相同的替代方式。Inflection、 Character AI、Adept、Covariant,以及最近的 Windsurf 等公司,都以类似的模式使用了这种 新结构。 创业公司的核心团队——通常包括创始人和研究团队——被另一家公司雇佣,同时这家公司获得该 创业公司知识产权的非独家授权。作为交换,创业公司收到可观的授权费用,并将这些费用以分红 形式分配给其投资人和员工。但让外界困惑的是,这家创业公司在新的领导下依然继续运营。 但这并不是"人才收购"(acquihire)。收购方没有收购公司本身,而是雇佣了人员并获得了知识 产权授权。 同时,这些交易还有一些其他共同特征 ...
阿里开源最强编码模型 Qwen3-Coder:1M上下文,性能媲美 Claude Sonnet 4
Founder Park· 2025-07-23 08:21
模型发布与性能 - 阿里通义团队发布并开源Qwen3-Coder系列代码模型,其中Qwen3-Coder-480B-A35B-Instruct是最强版本,拥有480B参数激活35B参数的MoE结构,原生支持256K token上下文并可通过YaRN扩展到1M token [3][4] - 该模型在Agentic Coding、Agentic Browser-Use和Agentic Tool-Use等任务上达到开源模型SOTA水平,性能媲美Claude Sonnet4 [5] - 在Terminal-Bench测试中得分为37.5分,优于Claude Sonnet4的35.5分和OpenAI GPT-4.1的25.3分 [6] - SWE-bench Verified测试中达到69.6分(500轮交互)和67.0分(100轮交互),接近Claude Sonnet4的70.4分和68.0分 [6] 技术架构与训练 - 预训练数据总量达7.5T,其中代码数据占比70%,在保持通用与数学能力的同时强化编程能力 [12] - 采用Code RL训练方法,通过自动扩展测试样例构建高质量训练实例,显著提升代码执行成功率 [15] - 实现Long-Horizon RL训练系统,可同时运行20k独立环境,在SWE-bench Verified上取得开源模型SOTA效果 [16] - 利用Qwen2.5-Coder对低质数据进行清洗与重写,提升整体数据质量 [12] 产品应用与集成 - 模型已在Qwen Chat网页版上线供免费体验 [6] - 推出开源命令行工具Qwen Code,基于Gemini Code二次开发,优化了Agentic Coding任务表现 [17] - 支持通过OpenAI SDK调用,只需配置环境变量即可接入 [20][21] - 可与Claude Code集成使用,通过阿里云百炼平台申请API Key实现 [22][23] - 支持与社区工具如Cline结合,通过OpenAI兼容模式接入 [27] 性能对比数据 - WebArena测试得分49.9分,优于DeepSeek-V3的40.0分,接近Claude Sonnet4的51.1分 [6] - Mind2Web测试得分55.8分,优于Claude Sonnet4的47.4分和OpenAI的49.6分 [6] - BFCL-v3测试得分68.7分,优于OpenAI的62.9分,接近Claude Sonnet4的73.3分 [6] - TAU-Bench Retail测试得分77.5分,优于DeepSeek-V3的59.1分,接近Claude Sonnet4的80.5分 [6]
Trae 核心成员复盘:从 Cloud IDE 到 2.0 SOLO,字节如何思考 AI Coding?
Founder Park· 2025-07-23 04:55
产品迭代与定位 - TRAE 2 0 推出SOLO模式 实现全流程自主开发功能 覆盖规划 编码 测试 部署等环节 用户仅需自然语言或语音输入需求即可完成开发[1] - 产品定位从Cloud IDE转向AI Native IDE 原MarsCode团队通过半年技术优化发现商业天花板后转型[3] - SOLO模式标志着AI从辅助角色转向主导角色 IDE Terminal等工具成为AI的执行载体[36][38] 技术架构与性能 - Cloud IDE技术实现端到端启动性能P90达5秒 远超GitHub Codespace(30秒)和Google IDX(1分钟)[9] - 技术架构分为前端交互层与业务逻辑层 支持本地 远端K8S容器 WebContainer等多种部署方式[8][12] - Cloud IDE面临实时调度+有状态的独特挑战 需处理磁盘代码数据依赖且无法负载均衡[12] AI编程发展阶段 - 划分为三阶段:AI辅助编程→AI结对编程→AI自驱编程 当前主流产品聚焦结对编程阶段[16] - 辅助编程阶段实现代码补全→超级补全→代码生成的跃迁 补全效率从字符预测升级为编辑位置预测[17][18][19] - 结对编程阶段通过Agent架构实现 1 0版本采用固定Workflow 2 0版本赋予LLM更大自主权[25][29][33] 产品理念与未来方向 - 定义AI为"高潜实习生" 强调需匹配任务难度与模型能力 管理预期[44] - 预测未来IDE将颠覆"以代码为中心"形态 3年内可能发生范式变革[46] - 正在研发Trae Agent 3 0架构 支持Multi Agent和Remote Agent等前沿探索[46] 技术细节与优化 - 代码生成依赖项目理解 Context裁剪和模型能力 Cursor凭借Claude Sonnet 3 5优势脱颖而出[21] - Fast Apply代码合并采用全文重写 Search Replace Diff合并等多种技术方案[21][23] - 通过PUA策略优化AI执行效率 Claude 3 5轮次显著下降 但需针对3 7版本调整激励方式[37]
8 月、上海,每年一度的谷歌开发者大会来了
Founder Park· 2025-07-22 12:27
AI创业者大赛 - 本月有三场AI创业者大赛值得关注 包括两场AI低代码大赛和一场人工智能硬件科创大赛 [1] - 美团NoCode社区举办「晒作品 赢奖励」比赛 提交创意应用或实用工具可赢取美团卡 活动时间为2025年7月 [6] - YouWare举办AI App Challenge 设置2000美金奖金池 活动时间为2025年7月10日至7月31日 [7][8] - 外滩大会人工智能硬件科创大赛由蚂蚁集团主办 提供近30万奖金和头部资源链接机会 报名截止时间为8月4日 [8][9] Google开发者活动 - 2025 Google开发者大会将于8月13日至14日在上海举办 聚焦Android AI web和cloud技术领域的创新成果 [8][10] - Founder Park联合Google推出「从模型到行动」AI工作坊 最后一站北京站活动将于7月26日举办 [2][4] - 工作坊活动面向AI产品开发者 技术决策者和工程师 提供Gemini技术落地实践和多模态融合方式解析 [7][10] 活动参与信息 - NoCode社区比赛作品提交链接为https://feedback.nocode.cn/posts/_y0pzfAQjVM3PyTnFRwP [6] - YouWare挑战赛报名链接为https://www.youware.com/project/youware-ai-app-challenge-nlop1gtqlv [8] - 外滩大会官网报名通道为https://www.inclusionconf.com/aiCompetition 提交后截图可加速审核 [8] - Google开发者大会专属报名链接为https://googleads.link/25iopucngeekpark [10]
4个月11万用户、Claude Code成了,Dogfooding该被AI公司重视起来了
Founder Park· 2025-07-22 12:27
核心观点 - AI创业公司应重视Dogfooding(内部试用),通过解决自身问题开发突破性产品[1][47] - Claude Code的成功证明内部真实需求驱动的产品具有不可复制的竞争优势[1][6][47] - 产品开发应从市场研究导向转向真实问题解决导向,形成"模型飞轮"和"数据飞轮"[26][41][47] 产品起源与开发路径 01 产品源于内部真实需求 - Claude Code最初是Anthropic内部工具,为解决团队效率痛点而开发[6][7] - 设计初衷非抢占市场,而是提升内部开发效率(如安全工程事件响应时间从15分钟缩短至5分钟)[7][13] - 50%自定义斜杠命令由团队自主开发,深度融入工作流[14] 02 第一批用户是内部开发者 - 开发团队使用Claude Code自建产品,形成紧密反馈循环[9] - 采用"自动接受模式"实现快速原型开发(如Vim键位绑定功能70%代码由AI自主完成)[10][11] - 开发流程变革:从设计文档主导转向快速生成3个原型版本比较[12] 跨部门应用场景 03 意想不到的应用场景 - **法务团队**:零编码开发预测文本应用(1小时内完成),创建电话树系统/G Suite自动化工具[17][18] - **增长营销**:广告文案创作时间从2小时缩短至15分钟,创意输出效率提升10倍[19][21][22] - **产品设计**:设计-工程协作效率提升2-3倍,复杂项目协调时间从1周缩短至1小时[24][25] - **数据基础设施**:实现非技术团队自助数据查询(如财务团队纯文本描述自动生成Excel报表)[16] 产品迭代机制 04 模型与数据飞轮效应 - 内部自动使用最新模型快照,实时反馈驱动模型改进[26] - 真实使用模式揭示两类核心用户:开发者(效率工具)和非技术用户(能力拓展)[27][28] - 工程师通过Claude Code每日创造数千美元价值,验证密集工作流潜力[27][36] 05 内部试用到公开上线 - 2025年2月以研究预览版发布,功能已通过数月内部验证[29] - 外部用户获得与内部一致的效率提升(45分钟任务一次完成)[29] - 2025年5月全面上线新增功能均源自内部需求(VS Code/JetBrains集成、GitHub Actions后台任务)[30][31] 成功因素分析 06 关键成功要素 - 解决真实痛点:安全/法律/营销等跨部门需求验证产品普适性[32][34] - 高强度使用:团队每日投入数千美元测试极限能力[36] - 持续改进机制:开发者即用户确保需求优先级准确[37][38] - 真实案例背书:内部成功故事比营销更具说服力(如事件响应效率提升67%)[39][45] 行业范式创新 07 AI产品开发新范式 - 重新定义开发路径:从市场机会导向转向问题-解决方案验证导向[41][42] - 内部创新溢出:法务/设计等非技术团队催生意外应用场景[43][44] - 透明度构建信任:公开内部使用数据增强产品可信度[45][46] - 核心方法论:自身作为首任客户可降低产品失败风险[47]
现在全世界最好的开源模型,是 Kimi、DeepSeek 和 Qwen
Founder Park· 2025-07-21 13:26
中国开源模型全球竞争力 - Kimi K2成为全球最强开源模型 在LMArena开发者盲测榜单中占据榜首 中国开源模型包揽前三名 包括Kimi K2、DeepSeek R1和Qwen 3 [1] - Hugging Face平台数据显示 Kimi K2发布后迅速登顶热门模型榜首 并持续超过一周 [5] - 发布仅3天 Kimi K2的第三方token调用量已飙升至开源模型第二 仅次于DeepSeek [4] 技术性能与社区反响 - Kimi K2是1T参数的MoE模型 发布后一周内基于其fine-tune和量化的衍生模型达20个 下载量超14万 超越Llama-4-Maverick-17B等竞品 [7] - 在Imarena竞技场排名中 Kimi K2位列第五 是评分最高的开源模型 超越DeepSeek R1 前四均为闭源旗舰模型如Gemini 2.5和GPT-4.5 [9] - Perplexity CEO宣布基于K2进行post-train 成为继Llama 3.3后第二个获此待遇的非推理模型 [9] 行业生态应用 - VS Code、Cline、Cursor等主流AI Coding软件已官方接入K2模型 在Claude和Gemini被封锁的大陆市场成为关键替代方案 [10] - OpenRouter平台数据显示 K2发布后周调用量迅速超越Grok 4 位列第十 [10] - 硅谷科技媒体将K2发布比作"下一个DeepSeek时刻" 认为其编程和工具使用得分亮眼 具备实际应用潜力 [11][13] 国际行业评价 - Anthropic联创Jack Clark评价K2为"目前全球最佳开源权重模型" 性能接近西方顶级闭源模型 [12][13] - Exponential View认为K2标志着中国AI技术的"东方红一号时刻" 其MuonClip优化器实现算法突破 训练效率达AdamW的两倍 [14] - 艾伦研究所指出 美国开源模型已落后 中国形成DeepSeek、Qwen和Kimi三驾马车引领格局 [16][17] 开源战略价值 - 开源成为国内基模公司的必选模式 通过社区协作加速迭代 同时获得技术认可和资源支持 [19][21] - 模型公司通过开源建立技术标杆 吸引开发者生态 形成不同于DAU/ARR的新价值评估体系 [20][22] - 月之暗面团队认为开源能降低研发成本 使公司更专注于下一代模型开发 形成正向循环 [22]