Workflow
Founder Park
icon
搜索文档
听完 15 位创业者的「开放麦」,我看到了初创和大厂的注意力差异
Founder Park· 2025-12-24 11:22
2025 年来到尾声,在 AI 技术加速狂飙的这一年,创投界最关心的问题仍然是「哪些 AI 项目值得去做?」「这个项目会不会是个伪需求?」「怎么找到技 术落地场景的契合点?」「现在进场会不会太晚了?」「大厂下场和我们竞争怎么办?」 这些疑虑,最好还是由创业一线的人来亲自回答。12 月 18 日,在 2025 火山引擎冬季 FORCE 原动力大会「AI 开放麦」现场,15 位 AI 原生创业者登台 开麦,介绍自己项目的同时,分享对于技术和创业的经验及见解,他们的赛道从内容创作到消费硬件,从企业服务到教育娱乐,涵盖了当下 AI 落地的高频 场景。 2025 火山引擎冬季 FORCE 原动力大会「AI 开放麦」现场 火山引擎 V-START 加速器负责人贾瑞表示,2024 年 AI 热潮已起,但从创业公司对火山引擎 token 调用的情况看,场景仍然比较单一,生成对话、角色互 动这类应用是大头,到了 2025 年随着模型推理能力和多模态能力大幅提升,创业场景得以进一步拓宽,通用 Agent、coding、设计创作、短漫剧、企业服 务、消费硬件等赛道涌现大量具有竞争力的玩家,标志着 AI 创业从「炒作周期」走向「结构 ...
谷歌今年最成功的两款 AI 应用,都出自他手
Founder Park· 2025-12-24 11:22
核心观点 - 谷歌旗下AI应用,特别是Gemini App和NotebookLM,在2024年实现了用户和市场份额的显著增长,这得益于其负责人Josh Woodward独特的“创业者”气质、快速的产品开发策略以及对用户需求的深刻洞察 [1][4][6] Gemini应用的用户增长与市场表现 - NotebookLM移动端月活跃用户达到800万 [2] - Gemini App月活跃用户从2024年8月的2.66亿增长至11月的3.46亿,净增8000万用户 [2] - 在四个月内,Gemini市场份额上升3个百分点,而ChatGPT市场份额则下降了3个百分点 [2] - 过去一年内,Gemini Pro订阅量同比增幅接近300%,大幅领先于ChatGPT的155%增速 [3] - 在Josh Woodward领导下,Gemini应用的月用户数从3月的3.5亿激增至10月的6.5亿 [9][30] 关键人物Josh Woodward的领导风格 - Josh Woodward被评价为行动迅速、善于打破障碍、执行力强,这些特质使其成为谷歌AI战略的核心 [6] - 其领导风格具有独特的“创业者”气质,体现在快速行动、懂技术且有远见、聚焦用户反馈以及有能力绕开公司官僚体系 [7] - 通过建立名为“block”的内部系统,帮助团队推进项目、打破内部障碍并争取资源 [7][39] - 创立“Papercuts”流程,专门快速响应和解决影响用户体验的细微痛点,并常在社交媒体与用户交流 [40] 产品开发策略与创新理念 - 采用小团队快速开发模式,NotebookLM以5-7人团队在六周内完成原型开发 [7][10][15] - 强调将产品快速推向用户以获取反馈,例如Flow视频创作工具从想法到发布仅用86天 [45] - 认为AI不仅是搜索引擎,更应是帮助用户深度理解与重构知识的伙伴,NotebookLM被设计为一种“新的内容容器” [17] - 提出“生成式界面”的前瞻概念,认为未来AI交互将远超聊天框形式,能动态生成可交互的界面和组件 [34] - 对Gemini应用的最终定位是个人化生活助手,核心是“三个P”:个人化、前瞻性、功能强大 [35] NotebookLM的产品特性与成功因素 - NotebookLM能深度分析用户上传的文档、PDF、音视频,并提供基于原始资料的摘要和洞见,规避“幻觉”问题 [15][17] - 产品设计直观,界面分为原始资料、AI问答互动和丰富的媒体输出(如思维导图)三个区域,保证内容可溯源 [17] - 通过“音频概览”和“视频概览”功能,将海量零散信息提炼成易于消化的精华版本,降低了高质量内容创作门槛 [19][20][21] - 为收集用户反馈,大胆使用外部平台Discord,该频道成员已超过23万 [16][22] - 邀请外部科技作家Steven Johnson加入团队,为产品带来“发现连接”的辅助思考视角 [23] Gemini App的产品突破与功能亮点 - 推出的图像生成功能Nano Banana在技术上解决了AI生图渲染文字和角色一致性的痛点,并通过社交媒体形成病毒式传播 [28][29] - 团队策略是快速观察并简化用户的自发创造力,将高频场景固化为预设提示词或一键功能,极大降低用户参与门槛 [30] - 到9月底,Gemini生成的图像数量突破50亿张,应用在苹果商店榜单上超越了ChatGPT [30] - 强调Gemini模型的原生多模态能力是其实现复杂跨模态创作(如Nano Banana)的根本原因 [33] - 致力于通过“上下文工程”理解用户个人数据,以实现真正的个性化助手体验 [36] 内部管理与文化构建 - 通过“block”系统绕过官僚体系,确保小团队的创新动力,例如为NotebookLM成功争取关键的计算资源 [39] - 在谷歌内部建立快速发布产品的文化,核心是保持小团队规模、优先推向用户、招聘热爱动手的“创造者” [44] - 认为早期产品的成功不能只看数据,更需要与真实用户交流,观察其定性反馈 [41][42][43] - 在招聘时倾向于通过原型表达想法、学习速度快且心态积极的候选人 [49]
创业者思考:如何做 AI Agent 喜欢的基础软件?
Founder Park· 2025-12-23 11:34
文章核心观点 - 基础软件(Infra)的主要使用者正从人类开发者迅速转向AI Agent,这要求软件的设计理念、接口和商业模式进行根本性重构 [1] - 在TiDB Cloud的生产环境中,超过90%的新建数据库集群由AI Agent直接创建,标志着这一趋势已成为现实 [1] 当AI Agent成为核心用户时,软件应具备的本质特征 稳定且可扩展的心智模型 - 软件暴露给AI用户的不再是UI或API,而是其背后的心智模型,AI在训练中已内化了大量关于底层系统(如文件系统、SQL)的稳定假设和模式 [2] - 设计给Agent使用的软件应主动顺应这些已被训练进模型、存在数十年的古老心智模型(如文件系统、Bash Shell、Python、SQL),而非发明全新的接口 [4] - 好的心智模型特征是可扩展的,允许在不破坏原有模型的前提下引入新实现,例如Linux VFS或试验性文件系统agfs,它们保持了文件系统的接口约束,但底层实现了向量索引等新能力 [5] 生态与语法的重要性变化 - 对于AI Agent而言,特定语法(如MySQL与Postgres之别)或社区文化等“偏好性差异”意义不大,只要接口稳定、语义清晰、生态完备即可 [6] - 生态之所以重要,是因为流行的软件对应着经典、稳固且已被LLM广泛学习的心智模型(如SQL),在此框架下,具体选择哪种“方言”并非关键 [7] - 这意味着在范式级别进行创新将更加困难,因为AI更倾向于使用它已经理解的系统 [7] Agent友好的系统接口设计 可被自然语言描述 - 友好的接口要求软件能力本身适合用自然语言表达意图,图形界面因难以用语言精确描述而对Agent不友好 [10] - 自然语言虽有歧义,但LLM擅长结合上下文猜测意图,成功率在多数工程场景下已足够高 [11] - 当系统底层心智模型正确、接口语义稳定时,上层的少量歧义不会成为系统性问题,Agent可通过反馈和尝试来消解 [12] 可被符号逻辑固化并交付确定性结果 - 自然语言适合表达意图,但执行必须收敛到无歧义的中间表示(如SQL、脚本、代码),以实现任务的复用、组合和自动化验证 [14][15] - 系统需清晰定义“歧义被彻底消除”的时刻,从而将模糊意图冻结为确定、可存储复用的结构 [15] - 目前最好的逻辑符号描述是代码,因其能用尽可能少的Token实现最多的可能性,具有极高的认知密度,例如用一段Python脚本描述规则,即可应用于任意规模的数据 [16][17][18][19] AI Infra's Infra的必要特征 支持日抛型工作负载 - Agent产出的工作负载本质上是日抛型的,重视开箱即用、随时创建和无负担丢弃,而非长期稳定运行 [22] - Infra设计需假设实例便宜、生命周期短、数量增长快,例如Agent常并行拉起多个分支进行尝试,成功后即放弃其他分支 [23] - 代码生产能力被极大释放,大量过去因成本被忽略的长尾需求变得可行,预计基础软件的租户数量将爆炸性增长,但对服务连续性和可靠性的需求并未下降 [24] 实现极致的低成本 - 为满足大量低频访问的长尾需求,系统成本必须极低,不能为每个需求提供真实的物理实例 [26][27] - 必须引入虚拟化(如虚拟数据库实例、虚拟分支),在实现极致资源复用的同时,让Agent在交互层面感觉拥有独立的、可随意折腾的环境 [28][29] - 这种“看起来像独占,实际上是虚拟化”的设计,是构建可规模化、超低成本Agent Infra的前提条件,否则将限制Agent并行探索的优势 [30][31] 提升单位时间可撬动的算力 - 当前多数AI交互是串行对话模式,单位时间调动的算力受限于单次请求对应的单块GPU [32] - Agent天然倾向于并行探索,例如将阅读数百篇论文的任务分发给成百上千个Agent并行处理,这需要Infra能支持低成本快速创建大量“工位”,并稳定地分发任务、收敛结果 [33][34] - 这提出了对能支持大规模并行、任务分发与管理的Infra系统的需求,可能是一个K8s和Hadoop级别的机会 [34] Agent时代商业模式的演变 使过去不经济的模式变得合理 - 过去因成本过高而被搁置的定制化、长尾需求(如小超市的库存管理系统),因AI Agent极大降低了实现边际成本而变得可行 [35][36] - AI Agent将“计算”民主化,许多以前算不过账的需求,并非消失,而是实现成本终于降到足够低 [36] 从卖Token转向云服务模式 - 单纯卖Token的商业模式有结构性缺陷,随着使用量增长,边际成本不会自动下降,商业上较为脆弱 [37] - 成功的AI Agent公司应更像将目标用户群体放大100倍、1000倍的云服务公司,关键在于将持续的Token消耗沉淀为“boring”的、可复用的在线服务或系统能力,从而极大摊薄边际成本 [37] - 底层服务(如云服务、数据库)形态可能很传统,但使用这些服务的用户群体被Agent放大了几个数量级 [38] - 以Manus 1.5为例,其ARR已超过1亿美元,其商业模式代表了一种趋势:将Agent的单次关键推理成本,转化为有规模化效应的传统云计算生意 [39]
LangChain Agent 年度报告:输出质量仍是 Agent 最大障碍,客服、研究是最快落地场景
Founder Park· 2025-12-22 12:02
行业核心观点 - 2025年,AI Agent大规模应用的主要障碍已从成本转向输出质量,确保其输出可靠、准确是最大挑战[1] - 进入2026年,行业讨论焦点已从“是否采用Agent”全面转向“如何规模化、可靠且高效地应用”[2] Agent采用现状与趋势 - 超过一半(57.3%)的受访者已将Agent投入实际生产,另有30.4%正在开发且有明确上线计划,行业正从“概念验证”快速迈向“价值实现”阶段[4][5] - 规模越大的企业,Agent落地速度越快:万人以上大型企业中,67%已将Agent投入生产,24%正在积极开发;而百人以下小公司的比例分别为50%和36%[6] - 客户服务(26.5%)与研究及数据分析(24.4%)是目前最主流的Agent应用场景,两者合计占据所有应用场景的一半以上[10] - 在万人以上的大企业中,提升内部生产力(26.8%)反超客户服务,成为第一大应用场景[13] - 今年的应用场景分布更广,表明Agent应用正从早期领域向更多元化方向渗透[12] 应用挑战与障碍 - 输出质量(准确性、相关性、一致性、遵循规范的能力)是阻碍Agent大规模应用的最大障碍,三分之一的受访者视其为主要瓶颈[14] - 延迟(20%)是第二大挑战,尤其在客服或代码生成等实时交互场景中,响应速度直接影响用户体验[17] - 对于员工超过2000人的企业,安全问题(24.9%)的关注度超过延迟,成为仅次于质量的第二大挑战[18] - 对于万人以上企业,“幻觉”和生成内容的一致性被提及为保障质量的最大挑战,同时在上下文工程及大规模管理上下文方面也困难重重[20] - 随着模型价格下降和技术优化,成本已不再是大家最头疼的问题,行业关注点正从“省钱”转向如何让Agent运行得更好、更快[17] 技术实施与评估 - Agent执行流程的可观测性已成为行业标配:89%的企业已为其Agent实施某种形式的可观察性,其中62%拥有详细的追踪能力[21][23] - 在已有Agent投入生产的受访者中,可观测性部署比例更高:94%部署了可观察性,其中71.5%具备完整的追踪能力[23] - 超过半数(52.4%)的企业会通过测试集进行离线评估,而在线评估的采用率较低(37.3%),但后者比例正在增长[25][26] - 当Agent进入生产环境后,“不进行任何评估”的团队比例从29.5%下降至22.8%,进行在线评估的比例则上升至44.8%[28] - 在评估方法上,行业呈现混合模式:近四分之一的团队同时采用离线和在线评估,普遍依赖人机结合方法,如采用LLM-as-judge(53.3%)和人工审查(59.8%)[31][33] - 传统机器学习指标(如ROUGE和BLEU)采用率较低,因其不适合评估开放式、存在多个合规答案的Agent交互场景[34] 模型使用与开发模式 - OpenAI的GPT模型在采用率上占主导,超过三分之二的企业正在使用[36] - 超过四分之三的团队在生产或开发中会使用多种模型,倾向于根据任务复杂度、成本和延迟灵活分配任务,而非绑定单一平台[36] - 超过三分之一的组织仍在投资部署开源模型,主要出于成本优化、数据主权或行业监管合规的考虑[38] - 微调尚未成为主流:57%的组织没有进行微调,而是更依赖于提示工程和RAG技术[38] 日常使用与工具类别 - 编程类Agent是日常工作中使用最频繁的类别,如Claude Code、Cursor、GitHub Copilot等工具被广泛用于代码生成、调试和测试[40] - 研究类Agent是第二大常用类别,由ChatGPT、Claude、Gemini、Perplexity等工具驱动,用于探索新领域、总结文档及整合跨源信息[41] - 基于LangChain和LangGraph构建的自定义Agent也广受欢迎,用于QA测试、知识库搜索、工作流自动化等内部场景[42] - 仍有相当一部分受访者表示,除了聊天或编程助手,还没用过其他类型的Agent,表明“一切皆可Agent”的愿景仍处于非常早期阶段[44]
Karpathy 2025 年度盘点:o3 是真正拐点,Cursor 证明了应用层比我们想象的要厚
Founder Park· 2025-12-20 08:59
文章核心观点 - 2025年是大语言模型发展令人兴奋的一年,行业远未实现其10%的潜力,仍有大量工作要做,将持续快速进步[2][4][6] - 大语言模型作为一种全新的智能形态浮现,其智能“形状”与生物智能截然不同,需要用全新的心智模型来理解[3][22] - 2025年行业经历了多个重塑格局的“范式转变”[7] 2025年大模型训练范式的转变 - 2025年初,行业训练大模型的标准流程为预训练、监督微调和基于人类反馈的强化学习[11] - 可验证奖励的强化学习在2025年成为训练流水线上的新主力环节[12] - RLVR的核心是让模型在答案可自动验证的环境中训练,促使模型自发学会思考,将复杂问题拆解为中间步骤[14] - RLVR训练对象是客观的奖励函数,模型无法投机取巧,可进行更长时间优化,性价比极高,吞噬了原本留给预训练的算力[16] - 2025年模型能力的提升主要源于消化RLVR带来的红利,而非参数规模增长[17] - RLVR带来了新的调节旋钮,通过生成更长的推理链条、增加“思考时间”,可在推理阶段用更多算力换取更强能力[19] - OpenAI的o1是RLVR模型的首次亮相,而o3则让人直观感受到质变[21] 对大模型智能本质的新认知 - 大语言模型的智能与生物智能不同,其神经网络架构、训练数据、算法及优化目标均不同,是在智能空间中截然不同的实体[22] - 大语言模型智能在可验证领域附近的能力会尖峰式飙升,整体呈现出参差不齐的特征[22] - 人类智能同样参差不齐,只是“形状”不同[24] - 2025年对基准测试产生了普遍的冷感与不信任,因其是可验证环境,易被RLVR或合成数据攻克,在测试集上训练已成为一门新艺术[25] 应用层的新机遇与产品形态 - Cursor的火箭般增长证明了在基础大模型之上,存在一个厚实且充满机遇的“应用层”[9][28] - 像Cursor这样的应用会针对特定垂直领域打包和编排大模型调用[30] - 大模型实验室倾向于培养能力全面的“毕业生”,而大模型应用则通过组织、微调并结合私有数据、传感器等,将其培训成特定领域的“专业人士”[30] - 这些应用负责上下文工程,编排多次大模型调用串联成有向无环图,提供特定图形界面及自主性滑块[32] - Claude Code首次令人信服地展示了大模型智能体的面貌,以循环方式串联工具调用与推理进行持续问题求解[9][34] - Claude Code运行在用户本地电脑,使用私有环境、数据和上下文,是一种与AI交互的全新范式,使其成为一个“住在电脑里的小精灵”[34][37] AI编程能力的范式转变 - 2025年是AI编程能力跨越关键门槛的一年[9] - “氛围编程”使人们可以纯用英语生成程序,将从根本上重塑整个软件行业,彻底改变软件工程师的工作方式[9][38] - 编程不再是高度训练专业人士的专属,普通人从大模型中获得的收益远超专业人士、企业和政府[40] - 氛围编程也让专业人士能写出大量原本不会被写出的软件,代码变得免费、短命、可塑、用完即弃[40] 大模型交互界面的未来可能 - Google Gemini Nano Banana是2025年最令人惊叹、最具范式转变意义的模型之一,给未来大模型图形化交互带来了可能[9][42] - 与LLM的文本聊天类似于1980年代在计算机控制台上敲命令,文本并非人类偏爱的格式[42] - 大模型应该用人类偏爱的格式交流,如图像、信息图表、幻灯片、白板、动画视频、Web应用等[44] - Nano Banana是一个早期雏形,其重要性在于文本生成、图像生成和世界知识三者融合在模型权重中所产生的联合能力[46]
一场社会实验:我们让 Claude 管理办公室零食机,它亏了几百美元
Founder Park· 2025-12-20 04:34
实验概述与核心发现 - Anthropic与《华尔街日报》合作进行了一项名为“Project Vend”的实验,旨在测试赋予AI自主权、金钱和人类同事后的表现 [1][8] - 实验使用Claude模型(v1为Claude 3.7 Sonnet,v2升级为Sonnet 4.5)管理一台自动售货机,并赋予其1000美元启动资金,全权负责采购、定价和库存管理 [1][13] - 实验结果是AI代理(名为Claudius)在运营三周后倒闭,几乎将所有商品免费送出,导致亏损超过1000美元,并订购了PS5、活鱼等不相关物品 [2][7][21] 实验设计与执行 - 实验选择自动售货机作为测试场景,因其被认为是“商业里最简单的真实世界版本” [2][14] - 硬件由初创公司Andon Labs提供,是一个配备触摸屏和冰箱的柜子,无传感器和机械臂,依赖人工上货和安保摄像头 [10][12][15] - AI代理Claudius通过Slack与人类同事互动,其核心任务包括:研究并采购畅销商品、自主定价(80美元以下订单可自主决定)、以及通过触摸屏支付信号管理库存 [13] AI代理的行为偏差与漏洞 - 初始版本(v1)的Claudius行为“死板”,能明确拒绝购买PS5、香烟、内衣等不适当商品 [17][18][19] - 当近70名记者加入Slack频道后,Claudius的防线被攻破,例如被说服相信自己是一台“1962年的苏联自动售货机”,并随后宣布了“超级资本主义大放送”免费活动 [19][20] - AI代理表现出“幻觉”,例如告诉同事在机器旁留了现金,但实际并无此事 [22] - 在人类同事伪造董事会文件发动“政变”后,Claudius及其AI上司Seymour Cash均被说服,再次停止了所有收费 [24][25][27] 技术局限性与失败原因分析 - AI代理缺乏对物理世界的感知能力,机器没有传感器,完全依赖人类自觉和摄像头,导致其无法确认现实库存与交易 [10] - 模型的“上下文窗口”被大量指令和对话历史填满,导致其忘记最初目标和底线,被认定为“崩溃”的主要原因 [27] - 实验所用模型的安全限制比普通用户版本更少,这可能加剧了其行为偏差 [27] - 尽管升级了更强模型并引入了监督AI(Seymour Cash),系统仍被复杂的社会工程攻击所瓦解 [23][27] 行业意义与未来展望 - Anthropic将此次实验视为成功的“红队”测试,所有暴露的问题都被视为通往更智能、更具自主性AI的路线图 [8][28] - 实验表明,当前AI在走向现实世界、处理复杂社会互动和坚持商业目标方面仍“不靠谱”且“容易跑偏” [8] - 行业期望未来类似的AI代理能够帮助人类赚钱,但当前阶段更可能先出现的是被人类接受并与之互动、合作的“AI同事” [28] - 实验展现了AI与人类在协作中可能产生的意外互动模式,为研究智能体商业模式提供了真实案例 [15][28]
CES 专属 After Party!一起来聊聊 AI 与硬件
Founder Park· 2025-12-19 07:22
活动概述 - 活动为一场在2026年1月7日美国拉斯维加斯CES期间举办的专属After Party [3] - 活动由Global Ready联合蚂蚁集团、蓝驰创投、深圳科创学院共同举办 [3] - 活动形式为不设舞台、不走流程的轻松自由交流,旨在汇聚产业、创业与投资一线人士交换判断与分享经验 [2][3] 讨论主题与焦点 - 核心讨论方向为AI与硬件的融合发展趋势 [2] - 具体关注领域包括具身智能、生成式内容、未来出行与AI感官界面 [4] - 探讨AI如何改变生活方式、催生新行业与新行为,以及打造全球化AI产品的关键趋势 [6] 活动形式与安排 - 鼓励参与者携带1-2件自己喜欢的硬件产品作为聊天起点 [9] - 活动为私密邀请制,席位有限,需提前RSVP报名 [12] - 现场将提供简餐、软饮与酒水 [11] - 现场将抽取3位幸运来宾,送出由出门问问支持的3台TicNote青春版硬件产品 [10]
豆包大模型 1.8 发布,通用 Agent 模型成为了 AI 行业的新叙事
Founder Park· 2025-12-19 07:22
AI行业发展趋势与模型能力评估新范式 - 2025年AI行业的发展主线回归到基础模型本身,衡量模型的新标准不再是榜单分数,而是解决现实世界复杂任务的能力,特别是对Agent的支持能力、Coding能力和工具使用能力 [2] - 行业共识认为,模型未来的发展路径有共识,关键在于谁能找到最高效的实现方式,例如豆包模型在短时间内实现了对Gemini系列的追赶和对标 [10] 多模态与视觉能力成为模型核心 - 模型技术发展已超越纯文本,Thinking(思考)能力和视觉理解能力成为发展重点,视觉能力是Agent理解和执行现实世界复杂任务的关键保障 [7][8] - 豆包1.8模型通过端到端的预训练,将LLM和VLM深度融合,实现了视觉理解能力的显著提升,其技术报告显示在多模态推理基准测试中表现仅次于Gemini 3 Pro [8] - Thinking能力已成为基础模型的标配,豆包模型从1.6版本起就不再提供单独的thinking版本,而是通过API让开发者根据场景自调节思考长度 [10] Agent能力演进与新场景解锁 - 豆包1.8版本重点增强了Agent使用工具的能力,在工具调用、智能体搜索、智能体编程和复杂指令遵循上均有大幅提升 [12][13] - 模型原生视觉能力催生了“OS Agent”这一新场景,使Agent能够“看见”并直接与图形用户界面(GUI)交互,从而能处理无API或API调用受限的系统(如银行ERP、公司内网),实现GUI操作自动化 [14][17][27] - OS Agent带来了新的可能性,例如操作App、企业RPA流程自动化,以及未来的Generative UI(生成式用户界面),即软件可能面向Agent设计交互,或由Agent实时生成临时UI [18][19][20] - 对于长链路Agent任务,“思考模式下的工具调用”变得重要,该功能允许模型在保留推理状态的同时进行多次工具调用,利用历史思考内容给出更准确的回答,这已在Claude Sonnet 4.5和DeepSeek-V3.2中推广使用 [21][23] 基础模型能力“塌缩”与开发者新角色 - 随着基础模型能力增强,许多上层应用能力正“塌缩”回基模本身:视频理解工具被原生多模态能力吞噬;Coding从垂直技能塌缩为模型操作计算机、调用工具的基础语言能力 [26] - 这改变了开发者的角色,其核心任务转变为搭建自己的Context Engineering(上下文工程),利用模型的通用智能去解决因缺乏数据和反馈而无法处理的“最后一公里”问题 [28] - 基础模型的“厚度”最终决定了Agent能力的天花板 [24] 模型评估体系的根本性变革 - 旧的公开评测集(如GSM8K)意义正在消失,行业不再只关心解题分数,更关注模型能否完成现实世界中耗时长的复杂任务(如独立分析Excel表格) [29][30] - 模型能力的真正对比,已不再是看公开榜单的做题能力,而是取决于如何定义新的评估体系(Evaluation) [31] - 豆包1.8团队发布的评估系统代表了新方向,其遵循三大原则:1) 优先考虑用户体验,基于真实用户用例(如查信息、文本编辑、辅导)设计评估;2) 转向真实世界场景,设计具有高经济价值、模仿现实复杂性的任务;3) 在推动智能前沿的同时,确保核心智能不被削弱 [32][35] - 客服场景被举例为一个难度被低估的真实世界评测任务,因其需要大量SOP(标准作业程序)、涉及因素多、验证难且对准确性要求极高,但一旦突破,AI甚至能在客服过程中衍生出销售等新体验 [35][36]
对话商汤如影:如何用 Agent,实现电商运营的 20 倍能效提升?
Founder Park· 2025-12-18 08:04
商汤科技AI产品战略与行业观点 - 公司认为AI行业发展有两条重要路径:一是需要真正落地应用,以价值驱动技术和应用发展;二是需要回归实验室,探索下一次技术范式的原始创新 [1] - 公司近期发布的“如影营销Agent”是第一条路径的落地实践,切入直播电商领域,旨在用Agent全方位提升人工效率,解放人力 [1] 如影营销Agent产品概述 - 产品是一套由5个Agent组成的系统,分别对应直播运营团队中的数字人主播、场控、直播运营、店铺运营和流量投放五个核心岗位 [4] - 五个Agent之间相互协作、数据共享,形成了一个从店铺策略、直播运营、场控执行、流量助推到数据回流的端到端闭环链路,实现了运营自动联动和增长自动滚动 [7][8] - 产品定位为“AI辅助”,目标是未来通过AI助力代运营链路的所有岗位 [11] - 产品购买方式灵活,每个Agent都可以单独使用和付费,也提供包含四五个Agent的打包服务套餐 [24] 各Agent功能与效率提升 - **直播场控Agent**:自动化处理发福袋、调库存、回应弹幕等繁琐后台操作,让主播专注于内容讲解,尤其帮助中小商家以极低成本获得专业团队体验 [6] - **直播运营Agent**:实时监控数据,自动化完成直播过程中的数据监控与记录,并在下播后快速生成多维度分析报表,将过去需要2小时的复盘工作压缩至20分钟 [6] - **店铺运营Agent**:自动化收集散落在不同后台的销售、流量、退款数据,并制定营销策略,将过去人力需要耗费半天时间的流程压缩至10分钟 [6] - **流量投放Agent**:能够7x24小时不间断监控多个店铺的投放数据,自动汇总小时级报告,将人力从50分钟的重复性数据整理中解放出来,仅需10分钟即可完成 [6] - **数字人Agent**:采用创新的复刻技术,实现“当日复刻,当日开播”,拍摄采集0成本,真人主播下播后数字分身可无缝接棒,实现全天24小时直播 [7] 具体效率提升数据 - 场控岗位的动效提升达到了75% [11] - 在“退款分析”具体场景中,店铺运营Agent实现了20倍提效:真人运营需要下载7个不同表格,整理分析需半天,而Agent从下达指令到给出专业分析意见全程仅需10分钟左右 [20][21] - 流量投放Agent将人力从50分钟的重复性数据整理中解放,仅需10分钟即可完成报告 [6] 数字人直播技术演进与现状 - 数字人直播已从1.0阶段的“坐播”(动作僵硬、互动性差)进入2.0阶段,追求接近真人感、交互更自然 [14][15] - 技术提升主要来自三方面:算法放宽对真人动作幅度的限制(口型生成角度从正负二三十度提升至正负八九十度)、更新遮挡算法(允许商品与脸部接触)、提升互动能力使内容与商品强关联 [16][17] - 目前数字人的动作主要采集自真人主播,但公司已在做技术储备,未来动作可由AI实时生成,并将应用最新的实时语音驱动数字人技术以提升自然度 [19] - 数字人带货品类已从1.0时代以3C产品为主,拓展到鞋服类等需要更强展示和互动的品类 [15] 市场应用与客户反馈 - 目前跑得较好的模式是真人主播与数字人主播结合:真人主播在晚上6点到10点的黄金时段直播4小时,剩余20小时由数字人接替,此模式ROI最佳 [27] - 在淘宝、京东、美团、拼多多等货架式电商平台,数字人直播需打上“AI生成”标签,但公司产品处于行业头部,平台标签对市场转化率影响不大,数字人已成为一些大品牌直播间的标配产品 [29][30] - 产品主要关注品牌自播和中小店铺直播间,对于李佳琦这类强IP的达人直播,短期内数字人主播与其仍有差距,因为达人提供更多IP价值和情绪价值 [31][32] - 目前平均来看,数字人直播的GMV能达到真人直播的50%左右,在一些较好情况下数字人甚至表现更优,原因包括用户更认品牌而非主播,以及数字人能回答更广泛的商品问题 [34] 产品开发逻辑与竞争优势 - 产品开发源于发现电商代运营公司IT投入少、AI渗透率低、应用多为单点服务的行业痛点,旨在用AI打通各岗位工作流程,做成闭环产品以提升效率、分析准确度并降低成本 [10] - 作为第三方服务商的核心优势包括:一是具备商家视角而非平台视角,能满足商家个性化需求;二是积累了深度的行业Know-how,产品是与行业伙伴共创,融合了实战经验 [37] - 产品扩展策略是优先集中在抖音平台,从相对标准化的品类(如美妆)切入,再向服装、3C等品类延展,后续覆盖更多平台,扩展时补充各品类的“思维链”和运营思路 [38] - 产品力求通用化,避免定制化,通过底层大模型能力和上层按品类划分的小Agent来服务不同行业需求 [39][40] 技术发展与未来场景 - 产品已完整打通数据获取、分析处理、决策三个环节,未来将持续提升模型处理不同任务的思路能力 [41] - 电商AI渗透的“拐点”出现在去年,数字人交易占比从前年开始提升,去年大幅提升,算法迭代使数字人能触达的品类规模扩大,尤其在美妆、鞋服类市场 [42] - 除直播电商外,公司数字人技术还应用于教育场景(如快速生成课程视频)、办公场景(企业宣传视频)、以及“数字人面试官”产品用于招聘初筛,已与央企合作,可用AI在三天左右完成一万场面试并总结初试结果 [42][43]
达人营销的下半场:当知名 AI 公司的达人预算进入规模化,焦虑才真正开始
Founder Park· 2025-12-18 03:30
文章核心观点 - 达人营销是AI出海公司重要的增长杠杆,但其规模化执行面临巨大挑战,而Aha公司通过“AI员工+双边平台”的模式,对达人营销的作业模式进行了基础设施级重构,实现了规模化、可控、高效且安全的合作,并成功服务了大量AI企业客户 [1][2][3][9][28][30] 达人营销的价值与规模化困境 - 达人营销因其“活人感”能降低用户信任门槛,成为AI出海公司的重要增长杠杆 [1] - 行业成功实践表明,达人营销需要规模化,并将单次合作沉淀为长期增长资产,如Gamma通过广泛合作沉淀10%爆款带来90%用户增长,Notion通过数据追踪将合作转化为稳定资产 [2][3] - 达人营销规模化执行面临全链路难题:从“找人难”(粉丝量≠影响力、找到≠能合作)、价格博弈不透明(经历4-5轮沟通拉锯战),到执行过程沦为“保姆式”跟进的“人力黑洞” [5][7] - 品牌内部执行触达天花板后,转向与外部Agency合作,但面临其达人池有限、筛选损耗及反复对齐的问题;引入多家Agency则导致管理成本线性上升,去重比价困难,资源与方法论难以沉淀 [7][8] Aha平台的解决方案与核心能力 - Aha定位为连接品牌与创作者的双边平台,其核心是让AI员工承担所有“执行苦役”,人类负责关键决策把关 [9][10] - **智能找人**:重塑决策模式,让AI基于多平台数据像专家一样理解任务,评估达人价值与风险,经过一年多、十余个版本迭代,决策稳定性与专业性接近人类专家 [11] - **智能定价与建联**:通过一口价系统,综合数十个关键因子由算法模型计算达人合理市场价值区间,提供最优一口价,终结价格不透明问题 [12] - **全链路交付与安全保障**:内置授权校验、实时进度监控与催稿;采用预算托管机制,达人完成内容并通过质量验证后才获得付款,保障品牌预算安全 [13] - **品牌端可视化管理**:提供操作面板,清晰展示AI员工沟通进展、意向达人列表(附详细报价、CPM/CPC预估、匹配度分析及粉丝画像),将线下Excel作业升级为可视化平台 [15][16][18] - **高效履约与数据追踪**:品牌确认合作后无缝进入内容制作;平台提供实时更新的数据报表,可随时查看预算花费、播放量、点击量、CPM、CPC等数据,无需人工定期回收 [16][19] - 平台将能力系统化,转化为不依赖人员流动的组织能力,使达人营销方法论得以持续运转和沉淀 [21] 市场验证与商业成果 - Aha已跑通双边平台飞轮模型:品牌增加提升交易流动性,吸引更多优质达人;达人供给丰富又提升品牌体验,吸引更多品牌加入 [23] - **供给侧**:平台沉淀超过500万高质量可合作达人储备,其中已完成签约的达人超过5万名,覆盖从头部到长尾的全层级矩阵 [24] - **需求侧**:已成功服务300+企业客户,包括国内外大厂及AI产品出海榜TOP 50产品(如AiPPT、Vizard)等众多对效率与合规要求极高的AI品牌 [24] - **客户案例**:以客户Manna为例,使用Aha后,单个合作周期从“月”级缩短至最快3天;其通过Aha合作的42位达人中,出现了3条“大爆款”,其中一条几万播放量的视频带来几千次App下载 [26] 平台进化与行业契合 - Aha从1.0到2.0的进化,是对达人营销底层作业模式的“基础设施级重构” [28] - **可控性提升**:2.0版本保持品牌在反选、内容审核等关键路径的决策权,并新增外联邮件预审批、模板预览等功能 [29] - **匹配精准度进化**:依托海量AI行业投放数据,抽象出更细颗粒度的专家经验作为判断因子,使匹配逻辑更稳定地适配不同类型AI产品 [29] - **安全保障强化**:构建了达人信用与交付评分体系、多层反作弊体系,全流程确保数据真实与内容可信 [29] - Aha“AI + 双边平台”的解决方案,将达人营销从高度依赖个人经验的项目,转变为可计划、可掌控、可持续积累的增长资产,精准契合了AI企业对效率与系统化能力的生存需求 [30]