多智能体工作流
搜索文档
AI100访谈:「Get笔记」方法论 |量子位智库
量子位· 2025-11-08 02:25
公司产品表现与市场定位 - Get笔记是得到团队推出的AI驱动智能笔记工具,上线一年用户数量突破150万,其中超过一半(约73.5万)为纯新用户,未使用过罗辑思维或得到APP [5][10][22][24] - 产品连续登上量子位智库2025年上半年和第三季度的“旗舰AI 100”榜单,在红海的AI知识管理赛道中表现突出 [3][4][5] - 核心功能包括AI多模态记录(语音、链接、图片、文字速记)、知识库管理(个人/团队库、自动归档)和智能问答与搜索(自然语言检索、笔记补写) [9][11] 用户获取与增长策略 - 前期通过自然增长获取用户,小程序阶段采用“病毒化小限制”策略,用户转发好友并生产笔记后可解锁更长录音时长(从3分钟升级至10分钟),推动口碑传播 [58][59] - 建立超过100个用户群收集反馈,但更注重用户投票机制,通过产品内需求池由用户对功能优先级投票(如投票数144的需求优先开发),替代产品经理决策 [50][51][52][57] - 用户群体包括泛创业者、企业AI推动者、高知识密度职业者(律师、医生、教师),部分场景如学校用其录制课程供学生回放,医院用于记录巡房和手术复盘 [32][33][34] 产品差异化与核心理念 - 聚焦“好记、好找、好用”三个核心环节,明确边界,暂不开发脑图、PPT生成等非核心功能,避免功能泛滥影响主赛道 [63][65][66][67][69][70] - 在看似同质化的功能(如语音转文字)上追求深度差异化,通过资深内容团队调教AI润色效果,使输出内容更接近“优美白话文”而非机械风格 [36][37][38][44][45] - 强调用户共创,产品经理未预见的场景(如体制内领导优化语音消息、家长辅助孩子语音日记)由用户自发挖掘,形成真实使用场景 [34][108] 技术生态与数据沉淀 - 通过“智能拍书”等功能构建知识库生态,用户拍摄书籍页面可自动识别并聚合电子书划线、语音笔记等多元内容,支持基于多本书及笔记的对话(当前上限10本) [39][41][79][81] - 注重数据沉淀价值,用户长期使用(如积累100场会议记录)可提升AI个性化输出质量,而非频繁更换平台 [47][48] - 与得到资源协同潜力大,但优先攻克通用场景,未来计划融合得到版权书籍(如专业期刊《中国油气》)盘活存量资源 [61][83][84] 行业认知与AI应用观 - 认为AI知识管理赛道远未到泡沫阶段,用户需求碎片化且细分空间大,例如十几万人员工的企业存在将培训材料AI化的真实需求 [16][19][20][21] - 主张多智能体工作流(如写作场景中分工调研、审稿的AI助手)将颠覆行业,但反对“一句话生成内容”的完全托管模式,强调人类主导调教 [15][88] - 产品开发需基于未来三个月AI迭代水平规划,而非当前缺陷,底层大模型进步(如从40分到50分)结合企业独有的20分专业能力(如牛仔裤公司卖家秀数据)可形成护城河 [15][90][91][92] 组织管理与开发模式 - AI工具改变了传统产品开发流程,团队不再依赖PRD文档,改为成员提前用AI生成原型(如5人会议讨论20套AI方案),实现实时共创迭代 [99][100] - 岗位职责模糊化,90分开发者可借助AI覆盖产品、设计部分工作,产品经理需重新定位价值(如无需充当需求“翻译者”) [98][100][101] - 关注用户真实行为指标(如7天内使用两次笔记的用户数),而非日活等可能含“虚假泡沫”的数据 [76][77][78]
DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌
量子位· 2025-07-09 04:57
核心观点 - 上海交大联合深势科技团队在"人类最后的考试"(HLE)上取得32.1分,创下新纪录[2] - 该团队推出工具增强推理智能体X-Master和多智能体工作流系统X-Masters[3] - 研究成果已开源[4] - 使用DeepSeek-R1-0528作为驱动智能体的推理模型[6] - 这是首个在HLE上得分超过30%的系统[26] 技术方案 - X-Master是一个由开源模型驱动的工具增强型推理智能体,模拟人类研究者的动态问题解决过程[9] - 将代码概念化为一种交互语言,在遇到无法解决的问题时编写代码块执行[11] - 引入初始推理引导机制,通过精心设计的自我陈述引导模型[17] - X-Masters采用分散-堆叠式智能体工作流,通过多智能体协作增强推理[20] - 分散阶段:多个求解器智能体并行工作,批评者智能体修正方案[22] - 堆叠阶段:重写器智能体综合方案,选择器智能体裁定最佳答案[22] 性能表现 - 在HLE测试中取得32.1%的最高分[26] - 消融研究显示:工具增强推理提高3.4%,迭代优化增加9.5%,最终选择实现32.1%[29] - 在生物学/医学类别中表现优于现有系统,达到27.6%正确率[31] - 在TRQA-lit生物学测试中取得67.4%的SOTA成绩[32] HLE测试背景 - 由AI安全中心和Scale AI发起,被称为史上最难大模型测试集[34] - 题目来自500多家机构的1000多名学者,需通过大模型和人工双重审查[38] - 最终入围3000多道题目,涵盖数理化、生物医药等八大类[39] - 数学占比42%,物理和生物医药各占11%[39]