Founder Park
搜索文档
95 后团队做 3D 大模型,拿下头部游戏重磅合作,正在定义 3D 生成的新规则
Founder Park· 2025-11-18 11:06
公司技术与产品进展 - 公司主攻3D生成方向,其Rodin模型支持的Hyper3D.AI在移动端游戏环境中实现3D生成技术大规模即时应用[2] - 公司推出全新升级的新一代模型Rodin Gen-2,以全球最大规模的百万级别数据与百亿级参数实现生成质量的质的飞跃[6] - Rodin Gen-2支持百万级面数高精度生成,并能通过法线烘焙让低面数模型呈现高清纹理效果,同时兼容更高分辨率材质输出[6] - 模型生成更平滑、干净的几何表面,大幅减少后期修复成本,提升生产可用性[6][8] - Rodin Gen-2引入"Bang to Parts"功能,可将生成的3D模型按原有结构分件爆炸开来,支持局部重建和编辑[9][12][13] - 公司独有的3D ControlNet实现边框盒控制、体素控制、点云控制,降低生成抽卡率,提升可控性[20][25] - 模型矩阵提供四种生成模式:Zero(低面数优化)、Focal(高细节表现)、Speedy(快速预览)、Default(平衡细节与平滑度)[24] - Hyper3D.AI平均每9天上线一个新功能,部分重做功能实现用户对3D生成模型的局部编辑[21] - 在手机硬件端,公司将整体生成速度压缩到10秒以内,实现与生图相近的速度[24] 行业趋势与竞争格局 - 3D生成迎来大年,大厂开始布局:Roblox开源CUBE 3D并开放Mesh Generator API,字节发布基于DIT架构的3D大模型Seed3D 1.0,腾讯混元发布3D v2.5版本模型将参数量级从十亿提升到100亿[6] - 3D生成领域出现与文字/图像/视频生成领域一样的规律,实现"Understanding by Generation"[14] - 消费级3D打印机快速增长为3D内容增加C端可感知渠道,公司成为头部3D打印厂商的首批合作企业[27] - 3D形态在长期内仍是"藏在后面的形态",而非被广泛C端直接消费的内容,但作为标准化中间载体在空间一致性控制上具有不可替代优势[28][29] - 3D生成是支撑下一代智能应用落地的核心拼图与底层基座,对数字内容创作、工业设计、AR/VR交互、具身智能等领域至关重要[29] 研发成果与学术认可 - 公司研究论文《CLAY:用于创建高质量3D资产的可控大规模生成模型》和另一项研究同时入选计算机图形学顶级会议SIGGRAPH的最佳论文提名[2] - 在SIGGRAPH 2025上,公司凭借单图生成3D场景生成的研究CAST获得最佳论文(Best Paper),其BANG研究获选"Top 10技术论文速览"[14][15] - CLAY是完全基于原生3D数据训练的大模型,用远低于图像领域的3D原生数据规模和参数实现Scaling Law,首次在3D生成领域出现"涌现"现象[3] - BANG功能基于跨领域哲学思考实现,将大语言模型底层思维迁移至3D领域,使模型能理解物件内部部件之间的关系[13][18] 商业化与市场应用 - 公司完成由蓝驰创投领投的数千万美元融资,跟投方包括字节跳动和红杉中国种子基金等老股东[2] - Hyper3D.AI在某款大型UGC游戏中支持千万人实时在线生成萌宠或其他物品,对游戏产业而言很罕见[26] - 公司重点打通对不同领域的服务,以核心模型算法实现软件的SaaS化,横向拓展游戏、影视建模及更多工业场景[28] - 团队风格以市场需求为第一原则,将行业前沿技术与市场需求耦合,确保生成的3D模型在质量和使用习惯上符合生产方式[19][28]
从《塞尔达传说》理解 Agent 的上下文工程:Claude Skills 还是被低估了
Founder Park· 2025-11-18 07:59
Claude Skills的核心设计哲学 - Claude Skills是一种AI Agent能力扩展机制,通过将指令、脚本和资源组织成标准化技能包,让通用Agent转化为特定任务专家[4][8] - 其关键创新在于信息分层设计哲学,借鉴了3D游戏的细节分层(LOD)和按需加载技术,使Agent能够像人类一样先看索引、再看摘要、最后按需查原文[5][9] - 这种设计可节省高达95%的Token消耗,同时显著提升决策质量和响应速度[6][9] 信息分层架构的具体实现 - 采用三层架构:LOD-0摘要层(名称和描述,约20-50 tokens)、LOD-1核心层(完整功能说明,约1-3k tokens)、LOD-2原始层(完整原始信息,按需加载)[29][31][32] - 每层对应不同的加载时机和用途:LOD-0在启动时预加载构建全局认知,LOD-1在判断相关后按需加载支持核心工作,LOD-2在处理复杂场景时精确查询[31][36][44] - 架构深度耦合查询工具系统,LOD-0到LOD-1使用文件读取工具,LOD-1到LOD-2使用具备过滤能力的工具如SQL和grep[47][48][50] 实战应用效果 - 在企业数据分析场景中,传统方法消耗约150,000 tokens,而三层架构仅需约5,000 tokens,节省96.7%[60] - 响应时间从45秒缩短至5秒,提升9倍效率,调用成本降低30倍[60] - 通过预计算高质量摘要实现"计算换Token"策略,用一次性廉价计算资源换取每次调用的Token节省[56] 架构优势与挑战 - 优势在于处理大型复杂信息体时避免Agent"信息溺水",特别适合必须通过过滤、查询或聚合才能有效使用的场景[43][45] - 挑战包括高质量LOD-1摘要的构建成本需要专业工程师投入,以及信息同步的维护成本防止"信息漂移"[63][64] - 设计复杂度较高,需要系统性思考信息组织与查询工具的耦合,避免对简单信息过度分层[65] 通用设计原则 - 核心原则是用元信息替代完整信息,绝大多数决策初期只需元信息或摘要信息而非原始信息[67] - 按需加载而非预加载,只在明确需要时通过工具精确获取最少必要信息[71][72] - 架构具有分形特性,可递归嵌套应用于不同层级的信息系统管理[79][82]
Agent 如何用搜索?这家最懂 AI 搜索的团队,把踩过的坑都分享出来了
Founder Park· 2025-11-17 10:08
AI时代搜索的根本性变革 - AI搜索是动态、流式、可追问的过程,一个复杂任务可能引发多轮、数十次检索,与传统人类"一次性"静态检索截然不同[4][6] - AI搜索需求呈现三大变化:需要多语言内容索引构建、权威性重要性大幅提升、需要更完整的长摘要内容返回而非短摘要[6][7] - 评价标准从人类搜索的"黄金前三条"点击率转向AI搜索的"全员及格线",要求前10条甚至前50条结果整体质量高,覆盖全面且无虚假内容[8][9] - 搜索能够有效解决大模型的幻觉问题和数据时效性局限,成为AI应用必备能力[4][6][11] 小宿科技的业务定位与市场前景 - 公司定位为AI Agent基础设施提供商,主要业务包括智能搜索和内容读取两大块,服务国内超过一半头部AI原生应用[1][10][11] - 智能搜索基于自研搜索引擎,拥有千亿规模数据索引库,通过语义理解和召回排序技术为AI提供优化结果[12] - 内容读取功能像"AI时代的浏览器",能深度解析网页并将内容转化为干净格式如Markdown或纯文本[12] - 预计Token消耗量将以十倍、百倍甚至千倍速度增长,AI替代人类重复劳动比例将从当前0.01%大幅提升[11][41] 不同AI应用场景的搜索解决方案 - 办公类Agent需将复杂指令拆解成多个关键词,进行关系分析和结果聚合,而非简单将全部prompt丢给搜索[15][16][17] - 通用AI Agent需要一次性获得50条包含长摘要的结果,保证数据格式适配性,满足深度研究需求[12][20] - 金融、学术等垂直行业需解决公开数据质量参差不齐问题,通过站点指定和垂类搜索优化保证内容权威性[23][24] - AI硬件产品需平衡成本与响应速度,采用动态摘要技术和系统优化实现毫秒级响应,控制token消耗[28] 搜索技术路线与质量把控 - 在多数场景下搜索准确性比速度更重要,向量检索入手门槛低但上限有限,语义理解对多义理解和消歧更关键[4][29][30] - 通过算法能力保证时效性,如通过站点特征发现高热hub页,监测机制发现热点线索,而非简单高频监测[31] - 数据清洗采用自动化为主的方式,基于低质关键词、数据源、向量相似度等多维度提高数据纯度,必要时结合人工审核[39] - 针对AI生成内容污染问题,通过黑名单、白名单等机制剔除低质信息,保证给模型的结果真实有效[42][43] 竞争优势与行业洞察 - 与国内外竞品相比优势在于多语种支持、内容质量头部水平、性价比更高,有客户将90%搜索流量从Tavily切换过来[34] - 模型成本远高于搜索成本,多搜索几次来提升内容质量比减少搜索次数更经济[4][35] - 搜索未来将作为Agent的重要工具,随着Agent渗透率从当前十万级日活提升,搜索需求将同步增长[41] - 推荐良性GEO策略,通过提供高质量内容获得曝光,而非采用黑帽手段污染生态[44][45]
为什么在海外招到「对的人」这么难?
Founder Park· 2025-11-17 10:08
活动核心信息 - 活动主题为探讨AI企业在海外市场如何招聘到合适人才以及管理全球化团队[4][8] - 活动形式为线上闭门Workshop 采用筛选制 名额有限[5] - 活动时间为11月25日晚20点[5] 出海企业招聘挑战 - 出海公司普遍面临招聘难题 尤其是在海外市场招到“对的人”非常困难[2][4] - 许多出海AI产品的团队配置是开发团队在国内 增长团队大多在海外[3] - 在陌生海外市场 精准识别与团队文化及核心能力匹配的人才是一大挑战[7] 活动探讨议题 - 探讨如何调整传统招聘漏斗和评估体系以适应海外市场[7] - 讨论在预算有限情况下 如何利用小红书 X等社交平台运营雇主品牌[7][8] - 解决跨境薪酬支付 雇佣政策合规 远程团队协作等管理难题[7][8] 目标参会人群 - 活动欢迎有出海业务 计划或正在搭建全球化团队的科技类公司创始人及相关业务负责人参加[8]
AI Native 的影像公司们,颠覆赛道的机会来了!
Founder Park· 2025-11-16 03:05
文章核心观点 - AI计算能力的提升是新一代影像设备公司和硬件品类发展的关键驱动力,计算在用户价值中的占比提升驱动着影像大众化、场景化和产业价值的迭代[4][5][10] - 影像行业过去50年的发展暗线是光学与计算在最终价值交付中配比的变化,计算占比不断提升推动技术迭代和产业价值链重塑[5][6] - 大模型带来的高计算能力正在突破传统天花板,形成"本体算力+本地模型+云端大模型"的全新计算架构,为影像领域带来前所未有的想象空间[11] - 新一代AI Native影像公司必须是以AI为核心驱动,具备场景深度理解和数据飞轮能力的新物种[34] 影像行业发展历程 - 胶片时代价值锚点无限趋近光学端,好照片价值几乎百分之百由光学+机械决定[8] - 数码时代计算第一次关键介入,佳能、索尼通过自动对焦系统和CMOS传感器技术颠覆德系厂商,计算核心任务是优化光学+简化操作[8] - GoPro开创运动相机品类,用算法和算力取代笨重物理稳定器,但其后续在计算体验创新上乏力导致市值从巅峰跌落[9] - 大疆将计算推向舞台中央,无人机本质是飞行计算平台,交付的是稳定流畅的空中视角[9] - 影石凭借计算能力重构全景影像价值链,将年营收10%以上投入研发,获得近百亿美金市值认可[10] 计算能力突破带来的新价值层次 - 第一层"理解现实":摄像头成为AI感知器官,在像素上叠加认知图层,从记录扩展到理解与交互,如Dex智能放大镜[13] - 第二层"增强现实":AI深度参与创作与表达,从理解走向美化与再表达,如PhotaLabs用AIGC修复照片[15] - 第三层"生成现实":计算成为创造主体,光学捕捉的现实只是激发AI创造的引子,如Paragraphica无光学部件纯靠计算生成照片[23] AI Native影像公司的发展机遇 - 大疆Pocket系列通过极致便携和智能化体验重新定义便携影像设备,总销量破一千万台[29] - Plaud Note录音卡片销售突破一百万台,在特定场景下提供远胜手机的交互与交付体验[30] - 深空拍摄望远镜通过堆叠计算简化操作,让星云图片拍摄变得简单,替代过去十公斤以上设备[33] - AI Native影像公司应向着更专业、更场景化、更个性化方向发展,在垂直场景提供超额满足[30][34] - 高计算能力可以激活被压抑的潜在需求,将小众市场放大为更具普遍性的市场[29][30]
1亿ARR、21亿估值的新独角兽,Gamma创始人:只比PPT好一点,是活不下去的
Founder Park· 2025-11-15 03:04
核心观点 - Gamma公司通过AI Native方式重构PPT,采用“内容优先、设计在后”的理念,在竞争激烈的演示工具赛道中成功突围,成为估值21亿美元的新独角兽[5][6][8] - 公司以极精简的团队(最初不到10人)和仅2300万美元的初始融资,实现了连续两年盈利,并达到年营收突破1亿美元、用户数7000万的规模[5][16][40] 产品战略与定位 - 目标不是做另一个PPT,而是重构PPT,彻底跳出16:9画幅限制,让用户从文字和叙事出发构思幻灯片[6][8] - 采用“内容优先、设计在后”的内容创作方式,解决用户90%时间花在调格式、只有10%时间思考内容的痛点[8] - 产品定位为“Notion和Canva生的孩子”,用户只需像在Notion里打字,系统会自动像Canva一样美化内容[18] - 提出“卡片”概念作为核心基础模块,支持移动端适配、嵌入交互元素和多媒体[15] AI技术应用与产品化 - AI技术彻底改变了新用户引导流程,将用户激活率从95%的流失率转变为大规模采用[14][17] - 使用超过20个不同的AI模型驱动产品不同部分,协调文本、图像等模型打包成易用体验[25] - 通过大量A/B测试优化AI效果,已进行数百次实验,分析用户对生成结果的修改程度、分享行为及转化率[21][24] - 引入AI解决“空白页面问题”,将用户任务从创作转变为编辑,大大降低使用门槛[17] 增长策略与市场表现 - 从创业第一天就将“增长”刻入公司DNA,坚持让创作极其简单、分享极其简单的双信条驱动飞轮效应[28][29] - 口碑传播是最大增长动力,超过50%新用户来自口碑营销,红人营销每投入1美金能获得1.5个自然用户[29][36] - LinkedIn平台转化率惊人,比其他平台高4到5倍,成为最有效的营销渠道[37] - 在达到千万级ARR后进行了品牌重塑,为规模化营销奠定基础,现在每周测试数千个创意素材[33] 团队建设与运营效率 - 坚持“极其缓慢地招聘”原则,最初核心团队七八人均来自Optimizely,具备端到端交付能力[38] - 团队规模翻倍不代表速度翻倍,强调灵活调整能力比单纯扩张更重要[39] - 公司已实现现金流为正,银行现金比所有融资总额还多,累计净消耗为负[40] - 早期团队四分之一为设计师,强大产品设计团队是创造新交互体验的关键[41] 商业模式演进 - API业务扩大了品牌范畴,使公司能服务商业和开发者用户,实现与CRM、内部知识库等系统打通[26][27] - 从侧重PLG转向搭建销售团队,以抓住B2B市场机会,认为销售团队对开拓足够大市场必不可少[43][44][45] - 采用“用利润驱动增长”而非“靠大量融资”的模式,强调合理管理资金打造长久公司[40][46]
创业一年后,李飞飞推出首款可商用世界模型 Marble,任意模态都可生成 3D 世界
Founder Park· 2025-11-13 14:06
Marble产品核心能力 - World Labs发布首款可商用生成式多模态世界模型Marble,相较于两个月前的预览版,支持更多模态输入且生成的3D世界更丰富细致[2] - 核心能力是通过文本、单张图片、多张图片或视频直接生成完整、可探索的3D世界,并能“脑补”出描述中未提及或图片中不可见的细节[5][6][10][13] - 提供多图像输入功能,可将不同角度拍摄的照片无缝拼接融合成统一3D空间,使生成场景更贴近创作者构想[13][14] - 内置AI编辑工具,支持局部微调(如移除物体)和全局调整(如改变艺术风格或场景结构)[18][20] - 提供实验性工具Chisel,允许高级用户将世界“结构”和“风格”分离,实现对空间布局的精细控制[21] - 通过“扩展”模式自动生成更多内容扩大世界边界,或通过“组合”模式将多个独立世界拼接成复杂宏大场景[22][26] - 支持以Gaussian Splats(最高保真度)、三角网格(兼容Unity、Unreal Engine等)及视频(可添加动态元素)多种格式导出[23][24] 目标市场与商业模式 - 针对普通用户和专业用户分别提供免费版和Pro版,Pro版主要面向游戏开发、电影特效、建筑设计及机器人研究等领域的专业人士[8] 空间智能行业前景 - 李飞飞提出空间智能是人工智能的下一个前沿方向,将重塑叙事、创意、机器人学及科学发现等领域[27][29] - 当前最先进的多模态模型在物理世界中能力笨拙,表现为估算距离/方向/大小任务表现略高于随机水平、缺乏空间想象力、生成视频内容缺乏连贯性[33][35][36][37] - 空间智能能大幅降低3D世界创造门槛,赋能普通人及专业人士快速创建迭代虚拟世界,是实现具身智能让机器人理解并与物理世界安全互动的前提[41] - 该技术能在科学研究、医疗、教育等领域处理超越人类直观感知的复杂空间问题,如模拟实验及探索人类难以到达的环境[42] - 构建空间智能比训练语言模型困难得多,需要新算法及处理更复杂数据[44]
更会聊天、主打情绪价值,OpenAI 发布 GPT-5.1
Founder Park· 2025-11-13 02:35
模型升级核心 - 模型升级为GPT-5.1,主打更智能、更具对话性 [1][2] - 新模型分为两个版本:GPT-5.1 Instant面向日常对话和快速响应,GPT-5.1 Thinking用于复杂推理和深入问题 [5] - 升级核心是简单问题响应更快,复杂问题处理更智能 [5] 新模型性能与特性 - GPT-5.1 Instant默认设置更亲切自然,对话性更强,早期测试显示其回答在保证实用性同时更轻松有趣 [10][11] - 在指令遵循能力上显著提升,能严格遵守用户指令(如始终用六个字回复),而旧版本存在已读乱回现象 [20][21] - 首次运用自适应推理技术,能在回答挑战性问题前自主决定思考时机,从而在保持快速响应同时给出更全面准确的答案 [21] - 在AIME 2025和Codeforces等数学和编程评估测试中,自适应推理技术的优势体现更为明显 [22] 深度思考模型改进 - GPT-5.1 Thinking在处理典型任务时,速度比GPT-5 Thinking快两倍,但处理慢任务时会多花两倍时间思考 [24][25] - 回答专业问题时更加清晰,减少了专业术语和未定义词汇的使用,并会使用通俗比喻和补充背景介绍 [28][29] - 默认语气更加温暖和富有同理心,与GPT-5.1 Instant一致 [30] 个性化与用户体验 - 公司让自定义ChatGPT语气和风格变得更易操作,提供八种预先设定的人设选项,如专业、友好、直言、古怪、高效、讽刺及书呆子等 [32][33] - 用户可调整回复的简洁程度、亲切程度、易读性以及表情符号使用频率等特性 [33] - 公司正测试让ChatGPT在对话中主动询问用户是否希望使用特定语气或风格,无需用户预先设置 [34] 发布与推广计划 - 新模型将于本周内向所有用户免费开放,但首先提供给付费用户 [6] - 旧版本GPT-5将继续向付费用户开放三个月,作为过渡期,之后下架 [7] - 公司计划在本周晚些时候将GPT-5.1 Instant和GPT-5.1 Thinking都引入API [31]
段永平少有的深度访谈:买股票就是买公司,真懂这句话的人,可能不到 1%
Founder Park· 2025-11-12 11:51
投资理念 - 投资的核心是"买股票就是买公司",但真正理解并践行这一理念的人可能不到1% [5][31] - 投资简单在于需要看懂生意和未来现金流,困难在于大部分公司不容易看懂且难以保持理性 [10][11][19][31][33] - 安全边际取决于对公司的理解程度,而非价格便宜程度 [12][34] 投资实践与标的分析 - 真正重仓的投资标的数量有限,主要涉及网易、苹果、茅台、腾讯等少数公司 [22][27] - 网易投资成功源于对游戏商业模式的理解和公司现金高于市值的判断,6个月上涨20倍 [32] - 苹果投资基于对其用户导向文化和软硬件结合商业模式的认可,最高持仓占比超过90% [36][38][39][56] - 茅台投资看重其独特的口味文化和稳定的国营企业背景,认为其能维持长期价值 [56][72][73][78] - 对电动车行业持谨慎态度,认为差异化小、竞争激烈,大部分企业将被淘汰 [63][64][65] 企业文化与经营哲学 - 优秀的企业文化能引导公司在犯错后回归正道,强调"不做的事情"比"做过的事情"更重要 [15][43][44] - 企业管理中充分授权至关重要,CEO应该独立决策而非模仿创始人 [82][91][93] - 企业文化比管理更能决定公司长期发展,诺基亚等公司的衰落源于文化问题而非管理能力 [87][88][89] 行业趋势与技术创新 - AI被视为工业革命级别的变革,将提高效率并创造GDP增量,但会伴随泡沫 [96][101][102] - 英伟达在AI芯片领域具有强大生态和竞争力,台积电在半导体代工领域占据关键地位 [52][55] - 技术创新行业需要持续创新满足用户需求,而传统行业如茅台则应保持核心产品不变 [56][57] 个人投资方法论 - 采用"打孔机"理论,真正重仓的投资机会很少,目前使用不到20个机会 [21][22][26] - 强调机会成本概念,投资决策需比较不同标的的未来现金流折现 [75][76] - 对于不懂的投资者,建议配置标普500指数或伯克希尔哈撒韦,而非盲目跟风 [51][67][69]
APP 上线 40 天后,Sora 核心团队分享了他们对于 AI 社交的关键思考
Founder Park· 2025-11-11 10:19
产品市场表现与用户数据 - 上线不到5天实现100万次下载,速度超越ChatGPT [1][2] - 周活跃用户近200万,其中70%为内容创作者,远超传统互联网90-9-1规则 [3] - 每日视频生成量接近700万次 [28] 产品核心定位与设计理念 - 产品定位为AI时代的社交产品,核心是真实的人际关系而非单纯的内容消费 [4][5][23] - 与ChatGPT的单人私密体验形成鲜明对比,Sora强调多人协作与社交共创 [10] - 团队核心假设是“和朋友一起玩才最有趣”,产品形态是一种全新的视频媒介,但核心是社交属性 [24] 核心社交功能与玩法 - Cameo功能允许用户通过录制一小段视频将自己和朋友融入任意生成场景,使内容充满人情味 [13][14][16] - Remix功能支持用户对内容进行二次创作,每次二创都会留下可追溯的信号,形成模因链 [13][18] - 推荐算法有意识地向“有二创价值”的视频倾斜,旨在激励创作灵感而非最大化消费时长 [17][26] 产品迭代与用户洞察 - 内部原型测试发现,在社交信息流中AI能实现即时、低成本的共创行为,形成模因链 [11] - 用户群体极为广泛,远超最初设定的AI爱好者或专业电影人小圈子 [28] - 通过大幅简化Cameo录制步骤(如仅需转动头部)来降低创作门槛,促进普及 [29][30] 技术、产品与生态协同 - 采用基础模型与产品“双线并行”策略,随着模型能力增强不断发现产品新能力 [31] - 通过gateway drug式设计平衡不同用户需求,为初学者提供Remix机制,为高阶创作者提供故事板等工具 [33] - 团队规模相对较小(约50人),通过开发Store API鼓励外部开发者基于模型能力进行创新 [35][36] 商业化探索 - 开启收费模式,每日免费生成30个视频,超出部分需付费 [36][37] - 采用积分制作为初期变现方式,认为其灵活便于调整,并非最终模式 [38] - 旨在构建平衡平台方(覆盖GPU算力)、创作者(获得成功)和版权方(从IP再创作获益)的生态系统 [38]