Founder Park
搜索文档
Figma 创始人:我们正处于 AI 交互的「MS-DOS 时代」,现在是设计师创业的最好时机
Founder Park· 2025-10-16 11:20
AI产品核心竞争力转变 - AI产品的核心竞争力正从技术本身转向交互设计和体验,产品不仅是技术解决方案更是体验载体[1] - AI时代开发过程简化、软件迭代加速,设计成为产品脱颖而出的关键差异化因素[4][5] - 行业头部玩家已押注设计,轻率否定可能错过未来趋势[8] AI交互形态演进 - 当前AI交互处于"MS-DOS时代",未来回看将感叹仅靠聊天框操作AI的原始性[4][9] - AI交互形态将更"情境化",嵌入不同软件应用成为新"体验层"[4][10] - 未来界面超越手机电脑平板,眼镜等新型显示载体出现,交互界面倍增且AI贯穿其中[10] - 设计挑战在于多元触点间保持一致性,确保用户无缝切换场景[10] Figma产品战略与AI布局 - Figma上市后积极布局AI,推出Figma Make、Figma Draw等多款AI工具[1] - 公司目标不仅是设计工具,更要做AI时代的"前端协作开发操作系统"[1] - 产品哲学遵循"观察、抽离、再创造"路径,将频繁使用行为抽离为独立产品[11] - 避免功能臃肿拖慢体验,通过新产品承载特定功能如FigJam、Figma Slides、Figma Sites[11][12][15] - Figma Make可从提示词直接生成应用原型,改变内部工作方式,加速"试错-放弃-再创作"循环[15] 行业角色边界融合 - AI特性让"通才化"角色更重要,产品、设计与研发边界逐步消失[4][17] - 设计与开发、产品甚至研究环节交织,分割清晰流程收拢为整体[17] - AI在产品开发早期阶段更具优势,擅长快速搭建原型完成"从0到1"探索[4][17] - 设计师需嵌入研究团队,设计思维在应用型AI研究中至关重要[18] 设计师角色演变 - 设计师将拥有更大影响力,设计价值持续上升,YC征集设计师创始人提案体现趋势[20] - 设计师需要成为创始人,Airbnb的Brian Chesky等成功案例预示数量将继续增加[20] - 设计师将担任部门领导或总经理角色,成为公司内部专家负责探索思路迷宫和建立系统[20]
在极客公园大会上,给你的 AI 产品办一场千人发布会
Founder Park· 2025-10-16 07:44
文章核心观点 - 极客公园创新大会2026策划“AI产品快闪”环节,为AI创业者提供免费冷启动平台,旨在帮助创新产品获得核心用户和行业关注 [6][7][8] - 该活动面向早期、创新性强的AI产品,通过主会场舞台展示和全网传播资源,为产品提供曝光和合作机会 [10][12][15] - 活动强调产品的创新性和解决核心痛点的能力,而非团队规模或融资阶段,寻找AI领域的拓荒者 [13][14][16] 活动背景与目标 - 当前AI产品领域竞争激烈,市场快速发展,技术持续迭代,但资本持观望态度,优秀产品难以获得有效曝光 [4] - 极客公园致力于寻找和致敬创新者,活动旨在发现用户群小但足够好、有意义的AI产品 [4][5] - 活动并非传统的Demo Day或路演,而是为AI创业者量身定制的免费冷启动机会 [7] 活动形式与价值 - 参与者将在IF 2026主会场舞台上,面向数千名科技圈极客、投资人、行业领袖进行简短有力的产品展示 [8][9] - 活动提供免费的专属曝光舞台,是产品走向核心用户群的关键机会 [10] - 除现场展示外,还提供全网传播资源,包括录制剪辑精华视频、发布总结推文,以及推荐至15000+人的“AI产品市集”社群 [15] - 优秀产品团队将获得极客公园内容矩阵资源的主动支持,扩大产品声量 [15] 目标参与者要求 - 产品必须由AI技术驱动,并具有创新性,有效解决用户现实中的核心痛点或关键问题 [12][16] - 产品或其主要版本更新需在2025年11月6日之后发布,或选择在大会首发 [16] - 欢迎各类规模的团队参与,包括独立开发者和一人团队,不限融资轮次 [16] - 寻求用户群可能较小但足够好、有趣、有意义的早期创新产品 [13][14] 报名与参与方式 - 报名截止时间为2025年11月6日,需通过飞书扫描二维码提交完整产品信息 [15][20] - 活动坚信将出现令人惊艳的AI产品,为创业者提供改变命运的机会 [20][21][22]
瞄准 Sora 2,谷歌发布 Veo 3.1,功能大更新,但硬刚还差点儿
Founder Park· 2025-10-16 03:52
产品发布与定位 - 谷歌深夜发布了最新的AI视频生成模型Veo 3.1 [2] - 此次更新是在2025年5月发布的Veo 3基础上进行的升级 [7] 功能与技术升级 - Veo 3.1相比前代版本带来了更丰富的音频、叙事控制以及更逼真的质感还原 [3] - 模型进一步提升了提示词遵循度,并在以图生视频时提供更高的视听质量 [3] - 增强了对对话、环境音效以及其他音频效果的支持,在Flow的多个核心功能中已支持原生音频生成 [7][8] - 引入了对多种输入类型的支持,可接受文本提示、图像以及视频片段作为输入,并支持参考图像(最多三张)、首帧与末帧插值以及场景延展 [13] - 新功能包括插入(向场景中添加物体)和移除(删除元素或角色),但并非所有功能都能通过Gemini API即时使用 [14] - 新功能带来了对主体与环境的更精确控制,企业用户上传产品图片后,模型能在整个视频中保持其外观特征与风格一致性 [19] 性能与输出规格 - 模型支持输出720p或1080p分辨率的视频,帧率为24帧/秒 [16] - 基础生成时长为8秒,但可以延长至30秒甚至1分钟以上,使用Extend功能最长可扩展至148秒(超过两分半) [9][11][22] - 在视频延长时会产生音频不连贯问题,导致延长部分几乎不可用 [4] 市场评价与竞争对比 - 第三方测试显示,Veo 3.1在模型质量上相比前代提升不大,画面感觉更“油腻”和虚假 [4] - 此次更新更多体现在功能的增加上,核心模型质量并无质的飞跃,离竞争对手Sora2还有一段距离 [4] 部署与商业化 - 模型可通过谷歌旗下多项现有AI服务访问,包括Flow、Gemini API和Vertex AI [17] - Veo 3.1模型目前处于预览阶段,仅在Gemini API的付费层级中可用,收费结构与Veo 3保持一致 [15] - 标准模型收费为每秒视频0.40美元,快速模型收费为每秒视频0.15美元 [18] - 目前尚无免费层级,且仅在视频成功生成后才会计费 [15] 行业应用前景 - 原生音频的引入让用户能更好地掌控视频的情绪、节奏与叙事基调,这些能力以往只能通过后期制作实现 [12] - 在企业场景中,这种高层次的控制有望减少独立音频制作流程的需求,便于制作培训内容、营销视频或数字体验作品 [12] - 对品牌一致性的控制能力有助于简化创意生产流程,特别适用于零售、广告以及虚拟内容制作等需要视觉延续性的团队 [19]
对话 OPPO AI 姜昱辰:手机才是 Memory 最好的土壤,AI 一定会彻底改变智能手机
Founder Park· 2025-10-15 11:26
AI手机行业现状与OPPO的战略定位 - 当前许多前沿AI产品存在用户粘性低、注册即流失的问题,像"毛坯房"和"烂尾楼"[2] - 手机厂商在AI行业讨论中常被忽略,但其掌握着最重要的个人计算设备入口[5][7] - 手机厂商发展相对较慢但稳健,手机是积累个人数据和实现Context、Memory等功能的最佳载体[6] - OPPO作为主流手机厂商,拥有超过1亿用户基础,于2024年4月发布小布记忆功能,10月15日在ColorOS 16中升级[7] AI手机的定义与核心价值 - AI手机不应只是单点AI功能,而应是一个个人化的AI OS,即完全服务个人的超级助理或伙伴[12] - 核心价值在于利用手机中大量长期个人数据,通过感知、记忆和个性化提供贴心服务[15] - AI手机需要具备全天候服务能力、自然智能交互界面和自有生态,最终目标是成为通用personalized agent[18][19] - 用户每周除去睡觉约有120小时,在哪个设备花时间最长,哪个就会成为OS[18] 小布记忆产品的定位与演进 - 小布记忆定位为"碎片化信息的收纳师",而非情感化或字段化方向,避免不切实际的需求[26] - 产品经历了从基础收藏到"第二大脑"的演进,支持更多模态记忆,摘要质量大幅提升[43][47] - 当前人均每天通过手机接收信息量高达80G,是一个世纪前人的20倍,存在强烈碎片化信息处理需求[35] - 用户使用场景多样,包括医学生记题目、保险行业记报销单据、考驾照记错题等[57] 记忆系统的技术架构与挑战 - 手机系统实现Memory复杂度远高于Chatbot,需处理多模态、大规模、异质性和噪声数据[60][61] - 记忆系统框架包括记忆表征、更新、检索、应用和增强解码五个关键环节[80] - 行业对记忆分层已有共识(程序性记忆、短期记忆、长期记忆),但具体实现方式尚未收敛[74][75] - 记忆更新与遗忘机制是难点,需要精准的用户需求建模和场景驱动的问题定义[79] 小布记忆的核心功能与评估 - 产品四大价值点:轻松记、方便管、随心搜、主动推,其中主动推是未来重点[89][90] - 摘要功能看似简单实则复杂,需要理解不同场景下用户意图,如餐厅地址、会议日程等[51] - 评估采用"人均记忆条数"作为北极星指标,结合用户满意度拆解为过程指标[54] - 在文本类搜索达到F1-score 90%,自然语言图搜达到60%,远超行业平均水平但仍有提升空间[92] 隐私保护与未来发展方向 - 通过端侧隐私沙箱和云侧私有计算云保障用户数据安全,即使公司也无法查看用户数据[81] - 模型侧使用脱敏数据,通过防火墙机制防止密码等敏感信息泄露[83] - 未来重点是从"第二大脑"向"超级助理"进化,关键在于Proactive能力建设[89][90] - AI时代的"主动推"是基于生成式的个性化信息聚合,与传统推荐算法有本质区别[91] 手机设备的未来演进 - 当前形态的手机一定会被淘汰,但"手机"概念会进化,将迎来重新定义手机的时刻[94][96] - 手机需要打通第三方应用数据,推进智能体生态建设,实现多设备协同[68][70] - Memory能力应该"即插即拔",跟随用户而非绑定特定设备,构建全天候Context网络[70]
LangChain 不看好 OpenAI AgentKit:世界不需要再来一个 Workflow 构建器
Founder Park· 2025-10-15 05:26
AgentKit产品定位与市场分析 - OpenAI发布AgentKit,提供可视化画布Agent Builder用于通过拖拽节点方式创建、管理和版本化多智能体工作流[2] - LangChain创始人认为市场不需要AgentKit这类可视化工作流构建器,其本质是构建Workflow而非真正的Agent[3][10] - 可视化工作流构建器处于尴尬位置,受到来自高复杂度与低复杂度两个方向的挤压:简单任务用无代码Agent更方便,复杂任务必须用代码实现稳定可靠[3][18] 工作流与Agent的本质区别 - Workflow流程固定,包含分支、并行等复杂逻辑,在可视化界面上体现为各种节点和连接线[2][9] - Agent逻辑被简化并抽象成自然语言,由LLM自主决定循环调用哪些工具来完成目标[2][8] - 工作流以牺牲自主性换取更高可预测性,Agent以牺牲可预测性换取更高自主性,但两者均无法单独保证稳定可靠的良好结果[8] 不同复杂度问题的解决方案 - 高复杂度场景需要代码化工作流实现高可靠性,需支持大量分支、并行处理和模块化设计[14] - 低复杂度场景可用无代码Agent(Prompt+工具)解决,其可靠性已足够且搭建更简单[16] - 随着LLM迭代,无代码Agent能解决的问题复杂度上限将持续提升[17] 无代码工作流构建器的核心问题与发展方向 - 无代码工作流构建器面临非技术用户使用不轻松、复杂任务难以管理导致界面杂乱等问题[22] - 未来方向应聚焦于让用户更轻松地用无代码方式搭建稳定可靠的Agent,而非低代码工作流[23] - 需优化代码生成模型,使其更擅长编写LLM驱动的工作流/Agent相关代码[23]
AI 创业最大的问题,不是 FOMO,而是没想清楚
Founder Park· 2025-10-14 13:22
战略规划与市场演变 - 创始人应以两年后AGI可能到来的世界为基准进行战略规划,思考AGI将如何改变招聘、市场和产品,否则即为失职 [16] - AI的影响不仅体现在初创公司的产品上,也体现在买方身上;未来几年,企业客户也将使用AGI或超强AI Agent进行采购决策和内部开发,可能导致其自行开发软件而非采购SaaS,这改变了传统的企业销售周期 [18][19] - 在快速变化的AI时代,过去依赖长期趋势预判的商业模式已失效,当前规划视野可能缩短至数周,持续提出好问题以梳理思路变得至关重要 [10] 软件行业前景与产品形态 - 软件行业面临两种可能结局:一是软件完全商品化,公司可通过提示词按需生成内部应用,消费者也不再需要下载固定App;二是代码生成的自动化反而无限拉高软件品质的天花板,催生由顶尖人类团队与AI深度协作打造的极致作品 [20][22] - 产品交互形态面临根本性质疑,按需生成的UI可能是最终形态,需要思考如何融合多模态(听觉、图像、视频、文本)以及为用户提供最简单的交互方式 [24] - 对于创业者,从头构建AI原生新产品并非唯一路径,利用现有产品的分发渠道优势进行改造在某些领域可能胜出 [25][26] 信任构建与公司运营 - 信任问题至关重要,不仅涉及对AI模型本身的信任,更包括对构建这些Agent的公司的信任;在高度自动化、团队规模极小的未来,坏人做坏事的成本被极大降低,传统因公司内部多元员工构成的制衡机制可能失效 [28][29] - 提出AI驱动的审计作为建立信任的潜在方案,其优势在于无偏见且可设计为审计结束后无记忆,避免知识产权泄露风险 [30][32] - AI原生公司的团队运作模式可能需每半年迭代一次,不思考自我改造的公司会很快过时;用户期望的是一个能搞定所有事的统一Agent,而非多个“围墙花园”内的Agent [27] 竞争优势与护城河 - 数据作为护城河的观点正在演变,通用大语言模型能力强大,使得在某些场景下直接使用优于基于定制化数据训练;但在涉及被公司“锁住”的隐性知识(如台积电、阿斯麦的尖端工艺)的领域,定制化数据仍可能构成强大防御 [35][36] - 算力容量和相关的技术优化(如模型路由、上下文管理)在当前及未来一两年内可成为竞争优势,但随着模型改进和算力供应增加,此优势可能消失 [40] - 在后AGI时代,真正的持久优势在于解决与物理世界打交道的真正难题(如基础设施、能源、制造业、芯片),这些领域无法仅凭提示词复制,为敢于挑战难题的公司提供巨大机会 [42][43] 社会责任与创业方向 - 当前可能是最后一次有机会真正改变世界的窗口期,创业者应思考打造社会真正需要而不仅仅是消费的产品,这将带来长期价值 [46][47] - 在选择创业方向时,产品的长期防御性至关重要,需深入思考所构建的东西是否会在未来6至18个月内因AI发展而变得微不足道 [51] - 面对AI可能由少数公司控制其“中立性”的风险,引发了关于是否需要“AI中立”或“Token中立”的思考,类似于电力基础设施的中立性对社会的重要性 [44][45]
100美元、仅8000行代码,复现ChatGPT,Karpathy:这是我写过的最疯狂的项目
Founder Park· 2025-10-14 04:18
项目概览 - 特斯拉前AI总监、OpenAI创始成员Andrej Karpathy发布全新开源项目“nanochat”,这是一个极简但完整的“从零构建ChatGPT”训练框架 [3] - 该项目被描述为LLM101n的“压轴之作”,并可能成为未来研究基线和开源社区的实验平台 [8][16] - 项目核心理念是降低LLM研究与复现门槛,让每个人都能亲手训练自己的模型,延续了其在nanoGPT时期倡导的民主化路线 [12][22] 技术规格与成本效益 - 整个系统仅需约8000行干净代码,在一台GPU机器上运行约4小时后,即可通过网页界面与训练的“小ChatGPT”对话 [7][25][26] - 项目全程花费低至约100美元,可训练出一个能创作故事/诗歌、回答简单问题的小型ChatGPT [10][13] - 训练约12小时即可超过GPT-2的核心指标,将预算扩展到约1000美元(训练约41.6小时)后,模型能解决简单的数学/代码问题并做多项选择题 [10][11][13] 功能与性能 - nanochat涵盖从数据准备、预训练、中期训练(对话、多项选择题、工具使用)、SFT、RL微调到推理部署的全流程 [6] - 训练24小时的模型(FLOPs大致相当于GPT-3 Small 125M,约为GPT-3的1/1000)在MMLU上得分进入40分段,在ARC-Easy上进入70分段,在GSM8K上进入20分段 [11] - 项目实现了高效的推理引擎,带有KV缓存,支持简单的预填充/解码,工具使用(如Python解释器),并可通过CLI或类ChatGPT的网页界面交互 [12] 项目定位与影响 - nanochat被视为“LLM生态系统微缩版”,与nanoGPT构成“从神经网络基础到产品级对话系统”的两步闭环 [17][18][19][20] - 项目在放出不到12小时内,GitHub星标就突破4.2k,显示出开源社区的高度关注 [4][6] - Karpathy的目标是将完整的“强基线”技术栈整合到一个连贯、极简、可读、可修改、可最大化派生的代码仓库中 [14]
硅谷一线创业者内部研讨:为什么只有 5%的 AI Agent 落地成功,他们做对了什么?
Founder Park· 2025-10-13 10:57
文章核心观点 - AI Agent在生产环境的部署失败率高达95%,主要瓶颈并非模型智能度,而是上下文工程、安全性、记忆设计等基础设施的缺失[2][3] - 成功的AI产品开发核心在于构建复杂而强大的“上下文选择系统”,而非简单的提示工程[3] - 行业即将迎来一波专注于记忆工具包、编排层、上下文可观测性等基础设施工具的浪潮[49] 上下文工程 - 精细调整模型的需求非常少见,设计完善的检索增强生成系统通常已能满足需求,但大多数现有系统设计过于初级[5] - 先进的上下文工程是为大语言模型量身打造的特征工程,需实现可版本化、可审计、可测试[9][10] - 应采用语义与元数据双层架构,统一处理杂乱输入格式,确保检索到的是高度相关的结构化知识,而非仅是相似内容[11][12] - 文本转SQL系统在生产环境部署挑战巨大,成功团队会构建业务术语表、带约束的查询模板、验证层及反馈循环作为支撑[13][20] 安全与信任机制 - 安全性、溯源能力与权限控制是阻碍系统部署的关键障碍,而非可有可无的功能[14] - 系统必须支持基于角色的行级别访问控制,即使问题相同,也需为不同权限用户提供定制化输出[16][21] - 信任的核心在于系统能否表现出一致、可解释、可审计的行为,而非原始技术能力[18] - 5%成功部署的AI Agent共同点是采用“人在回路”设计,将AI定位为辅助工具,并构建反馈循环[18] 记忆功能设计 - 记忆功能不是简单存储,而是涉及用户体验、隐私和系统整体架构的设计决策[22] - 记忆应分为用户级、团队级和组织级三个层级,优秀团队会将其抽象为独立的上下文层与行为层,实现版本化与自由组合[23][28] - 记忆能提升用户体验与Agent流畅度,但过度个性化会触及隐私红线,共享记忆若范围不当会破坏访问控制[30][34] - 当前技术栈缺失安全、可移植、由用户掌控的内存层,这是一个重要的创业机会点[30][42] 多模型推理与编排 - 模型编排是一种新兴设计范式,企业根据任务复杂度、延迟要求、成本敏感度等因素设计智能路由逻辑[31][32] - 典型模式包括:简单查询调用本地模型、结构化查询调用领域特定语言、复杂分析调用前沿模型,并采用双模型冗余设计作为回退[35][36] - 模型选择本身可通过追踪“哪些查询在哪些模型上表现更好”来持续学习优化,路由策略需自适应而非手动调整[37] 交互界面设计 - 并非所有任务都需要聊天机器人,自然语言交互的价值在于极大降低复杂工具的使用门槛[39] - 理想应用场景包括处理情绪化任务和进行探索性、开放式的查询[40][46] - 核心是理解用户选择自然语言的根本原因来设计交互,而非将所有交互塞进聊天框架,并应提供GUI控件支持后续精细化调整[40] 未来机会与待解问题 - 重要创业机会点包括:上下文可观测性、可组合记忆、领域感知的领域特定语言[41][42][44] - 善用延迟可创造价值体验,深度分析即使耗时10秒,只要展示思考过程并给出有效答案,用户也能接受[45] - 生成式AI的下一个护城河将源于上下文质量、记忆设计、编排可靠性和信任体验四方面[50][51]
Adobe 新研究:不用再「喂」训练数据,VLM 靠和自己玩游戏变聪明
Founder Park· 2025-10-13 10:57
研究背景与核心问题 - 当前视觉语言模型训练过度依赖人工标注数据,导致数据稀缺和成本高昂,且模型能力受限于人类知识天花板 [7] - 受AlphaGo通过自博弈实现自我迭代、突破人类能力上限的启发,研究旨在探索VLM不依赖人类标注数据的自我进化路径 [2][7] Vision-Zero框架核心设计 - 框架核心是让AI通过自博弈游戏学习,类似“谁是卧底”游戏,通过制定规则和交替训练策略实现自我进化 [3] - 框架特点一:策略自博弈框架,在社交推理类游戏环境中训练,自动生成高复杂度推理数据,无需人工标注 [9] - 框架特点二:支持任意形式图片作为输入,无限制条件,使模型能在多领域获得能力提升并具备良好泛化性能 [9] - 框架特点三:提出自博弈与可验证奖励的强化学习交替优化的算法,解决传统自博弈的性能瓶颈问题,实现持续性能提升 [9] 自博弈游戏规则与机制 - 游戏规则受“谁是卧底”启发,包含n名平民和1名卧底,玩家获知角色后观察略有差异的图片 [13][14] - 游戏分线索阶段和决策阶段,玩家需提供或分析线索并投票找出卧底,过程生成复杂推理链条 [14][15] - 该游戏具有高度策略性,能激发并持续提升Agent的视觉理解与推理能力 [16] 训练数据构建与领域无关性 - 游戏仅需两张有细微差异的图片对即可启动,数据构建简单且成本低廉,应用场景广泛 [17] - 研究使用了三种不同场景的图片输入进行训练:CLEVR合成场景2000对图像、图表数据1000对图像、真实世界图片1000对图像 [17] 训练方法与性能优化 - 提出Iterative Self-Play Policy Optimization算法,采用双阶段交替训练,缓解纯自博弈的局部均衡和强化学习的知识饱和问题 [18] - 实验表明,两阶段交替训练性能明显优于单阶段训练 [18] 实验结果与性能表现 - 在六个基准数据集测试表明,未使用任何标注数据训练的Vision-Zero一致性地优于其他需要标注的SOTA方法 [19] - 具体提升:VisionZero-Qwen-7B在CLEVR和Real-World数据上较基线提升约3%,在Chart数据上提升约2.8%,而最优基线方法提升仅约1.9% [19] - 模型展现出强任务泛化能力,其环境未显式包含数学任务,但通过自然语言策略博弈提升的逻辑推理能力能有效迁移至数学与推理任务,甚至超过专门在大规模任务数据上训练的模型 [19] 缓解跨能力负迁移 - Vision-Zero训练能有效缓解VLM后训练中常见的跨能力负迁移问题 [22] - 例如,基线模型MM-Eureka-Qwen-7B在特定任务训练后,在ChartQA任务上性能下降约10%,而Vision-Zero训练的模型则能保持或提升其他任务性能 [22] - VisionZero-Qwen-7B在视觉任务上显著提升的同时,在图表/OCR任务上平均仅下降0.2%,甚至在某些配置下实现全面提升 [22] 研究意义与潜力 - Vision-Zero证明了自博弈从单一任务走向通用任务的可行性与巨大潜力 [24] - 通过构建开放、可扩展的博弈环境,摆脱了对人工标注的依赖,突破了数据和知识瓶颈,使模型能在无需特定任务训练下实现可持续能力进化与跨领域泛化 [24] - 双阶段交替优化有效避免了自博弈常见的局部均衡问题 [24]
AI 产品范式探讨:非线性思维、多 Agent 协作才是复杂任务的更优解
Founder Park· 2025-10-13 06:39
群体智能与单一智能对比 - 单一智能由一个大模型承担所有环节,依赖上下文工程,优点是实现路径单一、响应快,缺点是信息维度和流程复杂时,体系容易在上下文窗口、注意力分配与可追溯性上崩塌 [5] - 群体智能将任务拆解为子角色,由多个角色化Agent并行或分布式工作,强调分工-沟通-整合的闭环,更像人类团队合作而非单个超人的能力 [5] - 在复杂任务下,单一智能面临上下文窗口与检索瓶颈、注意力漂移、可追溯性差等挑战,这些短板与模型本身的工作范式有关,一个主体在有限的概率空间内难以同时拓展广度和深度 [9] - 群体智能通过并行分工降低重复成本、博弈与聚合带来更稳健结论、独立记忆减少互相干扰、天然支持可审计性等优势,在复杂研究型任务上性能显著更高,例如Anthropic的多智能体研究系统性能比单一智能体提高了90.2% [11][12] - 更合理的策略是混合使用单一智能和群体智能,在示例驱动、上下文紧凑的任务采用单体策略,在信息量大、需并行验证的情形启用多Agent,并依靠人类在环进行关键澄清与对齐 [12] 复杂任务协作的非线性思维 - 复杂任务不是线性从输入到输出,而是一张有回路、有分支、有博弈的网络,人类通过开会进行博弈-收敛过程,是多个认知主体完成共享世界观、交换假设、修正偏差、达成局部-全局折衷的机制 [13] - 会议环节包括信息同步、生成假设、质疑与反驳、协商与让步、记录与锚定,这些环节充满反馈循环,通过反复的局部博弈与信息回环,团队能在复杂不确定的世界里逐步逼近可操作的方案 [13][14] - 单一智能在复杂任务中常见的失败源于缺乏对非线性博弈过程的支持,导致对于跨文献、需核查、需多方协商的任务,输出既不稳健也不易追责 [14][15] AI时代的人机协作智慧 - 顶尖研究者如陶哲轩能有效使用AI作为研究助手,关键在于他们具备深厚的领域判断力以及将AI视为协作伙伴的方法论,参与到对话、验证与改造的循环中,而非被动接收模型输出 [16] - AI能将人类认知向上推,通过记忆外化、并行思维与模拟、低门槛的实验平台等能力,扩展人类的记忆、模拟与思考速度,提升认知上界 [17][19] - 人类在AI协作中保留高价值智慧,包括纠错与澄清、目标设定与价值判断、直觉性创造,这些真实世界规则与判断是模型所不具备的 [20] - 正确的人机协作应对齐两个方向:认知向上对齐,让AI扩展人的认知能力;价值观向下对齐,将人类价值、伦理与目标明确定义并内置到产品流程中,确保结果符合社会与用户期待 [21] AI产品设计新范式 - 传统互联网产品设计遵循功能拆分明确、固定交互范式、一次性数据处理/存储、向外暴露API/插件的流水线逻辑,但当能力扩展为可生成、可推理的大模型时,继续把模型当成更聪明的按钮往往行不通 [22][23][24][25][26] - 把大模型简单包装成聊天框功能会导致体验表面化但能力薄弱、成本难以控制、信任/合规问题、难以形成差异化护城河等问题 [26][27] - 新范式将大模型能力嵌入到多智能体协作+人类在环+证据可追溯的生态中,其核心要素包括明确基础模型与应用层的分工、多智能体之间的通信、最佳策略的任务分工、群体决策与纳什均衡 [28][30][31] - 对于信息来源多、参与角色多、需要多轮博弈迭代、且产出必须可验证与可追溯的复杂工作,新范式在质量、成本与信任三大维度上具有优势,并行分工减少重复检索与上下文传输,显著压低token与时间成本,结构化通信与证据包天然支持可审计与责任归属,博弈式聚合提高结论的鲁棒性 [32][34] AI产品商业化核心 - 随着注意力成本上升,信任经济正在崛起,企业需要创造真正有价值的用户体验,而非单纯流量堆砌,未来AI产品商业化核心是信任商业 [35] - AI产品必须以可靠性和可控性为基石,为用户提供可解释和可验证的结果,才能获得市场认可,形成差异化的竞争优势 [35]