Workflow
海外独角兽
icon
搜索文档
深度讨论 Pulse:OpenAI 超越 Google之路的开始 |Best Ideas
海外独角兽· 2025-09-28 13:15
讨论主题: OpenAI Pulse 参与嘉宾: 拾象 Best Ideas 社群 OpenAI 最新发布的 "AI 版今日头条" ChatGPT Pulse,把 LLM 交互从被动拉向主动,这种 基于用户 个性化 context、主动识别出用户潜在需求并推送内容、提出建议的产品给 ChatGPT 提供了新的想象 力空间。 OpenAI CEO Sam Altman 更是说 Pulse 是他本人最爱的功能。 在 Pulse 发布当天,海外独角兽组织了一场「Best ideas 深度讨论」 。和一线 AI researcher、产品经 理、创业者和以及投资人们共享认知,从 ChatGPT Pulse 切入,对主动 Agent 交互变革背后潜藏的趋 势和机会展开想象。本篇文章是我们对讨论会精华的总结及开源。 注:本次讨论属于拾象社群内的技术交流,不代表任何具体个人及机构的观点立场。同时再次感谢 每一位在讨论中贡献观点的朋友:) 01 . Pulse 是 ChatGPT 走向国民应用的开始 1. Pulse 让 ChatGPT 从被动变成主动,ChatGPT 的使用门槛会大幅降低。今天用户想要让 ChatGPT 完 ...
AI X 用户研究:能并行千场访谈的“超级研究员”,正重塑产品决策的未来
海外独角兽· 2025-09-26 06:15
但现在,游戏规则正在被彻底改写。想象一下,一个不知疲倦、全天候在线的"全球研究团队"。它 可以在 8 小时内,跨越 50 多种语言,同时与上千名用户进行深度对话,并在你第二天走进办公室 时,将一份附带视频佐证、可直接用于决策的 PPT 报告放在你的桌上。 这不是未来,AI 正将用户研究从一种少数公司才能负担的"奢侈品",变成所有公司都能集成的"基础 设施" 。 作者:zirong,haina 凌晨两点,产品经理 Sarah 的屏幕上还亮着几十个用户访谈的视频文件。为了即将上线的新功能,她 的团队在过去三周紧锣密鼓地完成了 50 场用户访谈。然而,真正的噩梦才刚刚开始:将近 50 个小 时的录音需要转录、翻译、编码,再从中大海捞针般地寻找那些能决定产品生死的"金句"。最终的 洞察报告,可能在一个月后才能交到决策者手中,而那时,市场的风向或许早已改变。 这是无数产品团队在传统用户体验研究(UXR)中面临的日常困境:一个长期被"深度"与"速度"的 致命权衡所困扰的领域 。要么选择耗时数月、成本高昂的深度定性研究,要么为了速度牺牲洞察质 量,依赖肤浅的定量数据做出决策。 传统 UXR 市场被昂贵、低效且难以规模化的人 ...
Notion、Stripe 都在用的 Agent 监控,Braintrust 会是 AI-native 的 Datadog 吗?
海外独角兽· 2025-09-25 10:33
作者:徐萌宏Matt 编辑:Cage 当 Agent 从 Demo 迈向真正的产品化,开发者迎面而来的最大挑战不是模型本身,而是如何观测、 评估并持续优化这些黑箱的系统。如果说传统软件时代的 Observability 是帮助工程师定位"代码为什 么挂了",那么在 AI 时代,它必须回答的是:模型为什么答错了?Agent 的链路为什么失效?产品的 输出质量如何验证? 这正是 Braintrust 和一众新的可观测性公司崛起的背景。由 Ankur Goyal 于 2023 年创立的 Braintrust,正在尝试把 Observability 从"监控指标与日志"重塑为"模型评估与行为追踪"。它提供 Eval (实验评估)和 Ship(线上监控)两大核心模块,让团队既能在实验阶段大规模测试不同模型与提 示词的组合,又能在生产环境持续跟踪模型表现。凭借灵活的 Scorer 系统和优质的开发者体验, Braintrust 已成为 Notion、Zapier、Stripe 等头部公司的首选工具,并获得 a16z 与 Greylock 的投资加 持。 今天 Observability 赛道是否正在重演 Datadog ...
RL Infra 行业全景:环境和 RLaaS 如何加速 RL 的 GPT-3 时刻
海外独角兽· 2025-09-24 05:02
作者:Cage RL Scaling 正在把 AI 从"人类数据时代"推向"Agent 体验时代",带来真正能够胜任复杂、长链条任务 的 Agent 新范式。从静态数据到动态交互的学习范式变化,亟需一套全新的基础设施,也因此新的 一批创业公司应运而生。RL Infra 的核心价值是弥合模拟训练与真实世界间的"sim-to-real"鸿沟,让 AI Agent 在部署前就能经历超人类强度的"压力测试"和"刻意练习",使其从实验室 demo 走向商业可 用。 我们对于 RL Infra 的行业图景梳理了三大模块: RL 环境、RLaaS、数据/评估 。版图的一端是致力 于将真实工作流"高保真化"的环境平台,另一端是为企业特定工作流深度优化的 RLaaS 解决方案, 而数据与评估则作为关键桥梁贯穿其中。两种主流路径也代表了不同的商业野心: "横向平台化"的 RL 环境,其目标是成为 AI 时代软件世界的"Unreal Engine";而"纵向一体化"的 RLaaS,则有望在特 定行业内,成为赢家通吃的"AI-native Palantir"。 随着新趋势的演进 , 我们将迎来 RL 的 GPT-3 时刻,把 RL ...
为 OpenAI 秘密提供模型测试, OpenRouter 给 LLMs 做了套“网关系统”
海外独角兽· 2025-09-23 07:52
编译: Xeriano 编辑:Haozhen 在 2025 Q2 的大模型季报 中,我们判断硅谷的各个模型公司已经开始分化到各个领域:Google Gemini 和 OpenAI 在做通用的模型;Anthropic 分化到了 Coding、Agentic;Mira 的 Thinking Machines Lab 分化到了多模态和下一代交互。 随着应用场景的不断细分,用户请求也需要被路由到最合适的基础模型上,模型路由逐渐演变为大模型市场重要的 infra。OpenRouter 就是这一领域的佼佼 者。 OpenRouter 成立于 2023 年初,为用户提供一个统一的 API Key,来调用各类模型,OpenAI 甚至在模型正式发布前,会先用其他名字在 OpenRouter 上秘密 上线,用来收集开发者使用反馈。 今年,OpenRouter 的周请求量从年初的 4050 亿 tokens,增长到 9 月的 4.9 万亿,增长超过 12 倍。 值得一提的是,OpenRouter 关于模型用量的报告在业内和社交媒体上都引发了广泛讨论,一度"出圈",成为开发者和投资人群体的必读内容。 为了更好了解 OpenRoute ...
Agentic Enterprise:生成式软件重新定义企业形态|AGIX PM Notes
海外独角兽· 2025-09-22 10:35
AGIX 指数诞生于我们对"如何捕获 AGI 时代 beta 和 alphas"这一问题的深度思考。毫无疑问,AGI 代表了未来 20 年最重要的科技范式转换,会像互联网那样重塑了人类社会的运行方式,我们希望 AGIX 成为衡量这一新科技范式的重要指标,如同 Nasdaq100 之于互联网时代。 「AGIX PM Notes」 是我们对 AGI 进程的思考记录,希望通过学习 Warren Buffett、Ray Dalio、 Howard Marks 等传奇投资者们的分享精神,与所有 AGIX builders 一同见证并参与这场史无前例的技 术革命。 | Ticker | 本周表现 | YTD | Return since 2024 | | --- | --- | --- | --- | | AGIX | 3.11% | 31.66% | 92.48% | | S&P 500 | 0.74% | 13.31% | 39.72% | | QQQ | 1.30% | 17.24% | 46.35% | | DowJones | 0.94% | 8.86% | 22.89% | | | 本周表现 | Index ...
Stripe x Cursor,硅谷两代“金童”对谈: 未来5年IDE里将不再是代码
海外独角兽· 2025-09-18 12:08
• LLM 对 IDE 的改变应该是一个真正的开发环境,不仅仅是一个文本编辑器,真正的 AI IDE 中将不 存在"编程语言",更多是开发者描述需求; 编译:Yangqi 本文是 Cursor CEO Michael Truell 和 Stripe CEO Patrick Collison 的深度对谈。 Patrick 和 Michael 都被 硅谷视为"天才少年":两位创始人都在大学辍学开始商业探索,Stripe 和 Cursor 又恰好都是他们在 22 岁时创立,并且都快速成为 cloud 和 AI 时代的重要公司。 作为成功创业者,Michael 和 Patrick 至今保持着一线技术视角。在本篇对谈中,他们也讨论了 Stripe 的技术实践、编程的未来。 • Patrick 很早就在技术前沿做探索:用 Lisp 语言写 AI chatbot,用 Smalltalk 搭建了第一家公司…… • 创业公司的早期技术选型往往很随意,但同时又会带来深远影响,Stripe 的技术核心是 Ruby(今天 仍是 Stripe 的主要语言) 和 MongoDB ,为了让 MongoDB 符合金融级别的响应和可靠性,St ...
超越 Prompt 和 RAG,「上下文工程」成了 Agent 核心胜负手
海外独角兽· 2025-09-17 12:08
编译:Haozhen 编辑:Cage 最近这段时间,context engineering(上下文工程)是 agent 开发者中的 buzzword。这个概念由 Andrej Karpathy 提出,引起了很多开发者的共鸣,直指当下 agent 开发的核心痛点:搭建流程看似简单,但在实际运行中,由海量工具调用和 long horizon reasoning 产生的冗长上下文,正成为 agent 性能和成本的巨大 瓶颈,甚至会导致模型能力的下降。 Context engineering 指的就是在正确时间为 agent 提供正确信息的方法论,这个概念覆盖并超越了 prompt engineering 和 RAG,成为了 agent 开发的核心胜负 手。如果把 LLM 类比为计算机的 CPU,那么 context window 就是计算机的 RAM,它处理信息的信噪比直接决定了产品的效果,因为在构建 agent 的过程 中,输入的 context 不仅来自人类指令,还来自 agent 运行中的工具调用和思维链,把内存空间压缩到最关键的信息上就至关重要。 为了深入探讨这一挑战,我们系统梳理了 LangChain 工 ...
一半美国医生都在用的AI产品,OpenEvidence 是医疗界的 Bloomberg
海外独角兽· 2025-09-16 12:04
文章核心观点 - 医疗是LLM最具潜力的应用场景之一 OpenEvidence通过AI驱动的临床决策支持工具 直击医生对高效实时循证医学知识的需求 解决了传统静态数据库如UpToDate在时效性和交互性上的滞后问题[2] - 公司采用消费级产品设计理念和PLG策略 绕过传统机构采购流程 实现病毒式增长 并成功将商业模式从工具提供转向情境感知的药品营销服务 成为医疗广告市场的直接竞争者[3] - 平台已覆盖超过40%的美国医生 月咨询量从2024年36万次飙升至2025年850万次 增长超过20倍 并获得2.1亿美元B轮融资 投后估值达35亿美元[3] 市场定位与需求 - 医疗差错是美国第三大死因 源于医学知识更新过快 毕业十年医生可能对最新疗法一无所知 且不同年龄段患者最佳疗法差异巨大[2] - 传统静态数据库如UpToDate依赖数千作者手动更新 存在信息滞后问题 而OpenEvidence通过每晚LLM再训练吸收最新文献 提供秒级响应的互动式精准答案[5] - 公司切入临床决策中最复杂关键问题 而非低风险文书工作 重塑医疗技术分发模式 将医生作为个体用户对待[3] 用户增长与参与度 - 平台月活跃医生用户达30-40万 覆盖美国约100万执业医生的40% 每月新增6.5万名认证临床医生注册 已渗透超1万家医院和医疗中心[41] - 月处理医生咨询量达850万次 2025年7月数据较2024年36万次增长超过20倍 过去一年查询量增长37倍[16][3] - 医生平均每次会话停留13.3分钟 比Doximity长4倍 比传统药企代表互动时间长7倍 树立医生参与度新标杆[14] 竞争优势与技术壁垒 - 拥有高质量专有医学知识库 与《新英格兰医学杂志》《美国医学会杂志》及专科期刊建立内容合作 合法使用受版权保护的同行评审内容进行模型训练[18] - 采用更小更专业的模型策略 在USMLE考试中错误率比通用LLM低77% 减少幻觉问题 首个得分超过90%的AI系统[38][40] - 数据来源仅限政府机构、顶级期刊和专业协会指南 建立质量分级系统 每日更新知识库 避免连接公共互联网确保信息纯净性[40] 商业模式与商业化 - 收入主要来自情境感知的药品营销 广告基于医生实时临床问题投放 价值指数级高于社交平台信息流广告[19] - 广告位eCPM高达80-100美元 是标准展示广告的3-5倍 能带来10-30%的处方量增长[32] - 已开始试点基于席位的许可证 价格比UpToDate低20-30% 以及按使用量计费的API接口 未来向广告订阅双轮驱动演进[19][47] 市场格局与TAM - 目标市场是美国每年超200亿美元的HCP营销预算和全球166亿美元的CDS市场份额[22] - 美国2024年面向医生的推广预算约280亿美元 其中数字渠道占18% 预计2029年升至30%[23][25] - Doximity2025财年收入5.7亿美元 覆盖80%美国医生 OpenEvidence流量已是其AI工具的12倍 使用量全面超越[10] 产品功能与应用 - 提供双响应模式 Care Guidelines和Clinical Evidence 每个答案附交叉引用编号和文献列表 确保可追溯性[35] - 支持临床诊疗、复杂病例证据综合、行政工作流辅助和医学知识追踪等功能 包含50+临床计算器覆盖高频场景[36] - 2025年7月推出DeepConsult 首个为医生设计的AI助手 可自主分析数百篇同行评议研究 尽管计算成本是标准搜索的100倍 但仍向全美医生免费提供[37] 竞争环境 - 面临传统临床内容平台如UpToDate的竞争 其拥有1.2万篇专家撰写文章 与Epic/Cerner深度集成 但价格昂贵且AI功能响应慢[51] - AI原生挑战者如Abridge、Ambience竞争医生工作流程和注意力 若成功掌控临床工作流核心环节 OpenEvidence可能被边缘化为参考工具[53] - 科技巨头如Google、Microsoft拥有强大模型能力和云渠道 若将临床助手与EHR集成捆绑 用户采用速度可能非常快[55]
Vibe Working:AI Coding 泛化的终局想象 |AGIX PM Notes
海外独角兽· 2025-09-15 12:05
AGIX指数与市场表现 - AGIX指数旨在衡量AGI新科技范式 如同Nasdaq100之于互联网时代[1] - AGIX本周上涨3.15% 大幅跑赢S&P 500(1.37%)和QQQ(1.35%)[2] - 年初至今AGIX累计上涨25.69% 显著高于S&P 500(11.95%)和QQQ(14.75%)[2] - 自2024年以来AGIX累计回报达69.95% 超越S&P 500(38.04%)和QQQ(43.26%)[2] 行业板块表现 - 半导体与硬件板块本周上涨0.93% 占指数权重23%[3] - 基础设施板块本周上涨2.23% 占指数权重45%[3] - 应用板块本周微跌0.01% 占指数权重32%[3] Vibe Working概念 - Vibe working强调用自然语言描述目标 AI自动产出可用代码[6] - 需要可追溯的上下文和低延迟反馈作为前提条件[7] - 推广到开放环境需要环境状态可读 具备可判定性和可控执行[7] - 依赖代码化工作流管理和企业Context数字孪生[7] 工作流自动化工具 - Zapier支持AI Agent协作管理 通过自然语言构建工作流[8] - n8n专注于无人自动化工作流 面向技术化团队[9] - Glean和Decagon从单点功能切入工作流协同[9] - 未来可能向多态工具平台发展 支持所有AI Agent用例[9] 技术发展挑战 - 语言模型存在输出非确定性问题[10] - 需要确定性工作流平台作为代理能力枢纽[10] - LLM应作为基础设施而非工作流核心[10] - Claude File Creation与两年前Juliusai能力相似[11] 市场动态与公司表现 - 美股三大指数创新高 受益于美联储降息预期[12] - 亚洲市场表现积极 沪深300创3月以来最大单日涨幅[12] - Nebius与Microsoft签署174亿美元GPU基础设施协议[14] - Microsoft为Office 365引入Anthropic技术部分替代OpenAI[15] - Microsoft与OpenAI达成非约束性重组协议[16] - Nvidia发布Rubin CPX GPU 性能提升75倍[16] - TSMC 8月营收同比增长34%达111亿美元[17] - Adobe上调业绩预期 AI产品年经常性收入超50亿美元[18] - Micron目标价被上调至175美元 潜在涨幅25%[19] ETF分红机制 - ETF分红来源于持有股票派发的股息[20] - 分红流程包括股息收取 费用扣除和按比例分配[21] - 分红频率多为季度 也可年度或月度[21] - 除息日前持有才能获得分红[22] - 股息率因标的资产组合不同而差异较大[22]