查资料、劝老板、写周报,给上班人准备的大模型评测
晚点LatePost·2025-11-25 15:01

大模型用户增长与市场趋势 - 截至2025年11月,中国每天使用大模型助手应用的用户数量已超过1亿人,与2024年4月相比,用户数增长超过900%[3] - 用户使用大模型的心态发生变化,从让大模型执行任务转向更多地进行咨询询问,OpenAI报告显示“询问”类互动占比从40%增长到50%,而“执行”类任务从40%下降到30%[96] - 工作场景中42%的任务与写作相关,其中约三分之二不是从头生成内容,而是让大模型修改文本[96] 参与测评的大模型概况 - 测评涵盖14款国内外大模型,包括GPT-5.1、Claude Opus 4.5、Gemini 3 Pro、文心5.0、Kimi K2 Thinking等最新版本[3] - 测评通过官方网页版助理进行,测试时间在11月中下旬,累计交互超千次,采用中文提问,每个问题单开对话框[4][5] - 测评聚焦日常工作相关场景,设定15个问题,不涉及编程工作、agent和深度研究[3] 角色扮演与头脑风暴能力 - 在组建8人决策委员会任务中,ChatGPT盲评得分最高(22.4分),阶跃星辰StepFun排名第二(22.2分),商汤商量排名第三(21.3分)[8][13] - MiniMax Agent得分最低(13.2分),仅调整提示词而未有效组织委员会[11][13] - 在劝说老板调整商业计划任务中,阿里千问得分最高(4.6分),其话术将修改方案融入执行策略并引用名人名言[18][22] - 阶跃星辰话术得分最低(2.2分),因直接指出“三大致命矛盾”而被认为不合理[20][22] 长文本处理能力 - 在处理36页会议手册提取参会人员名单任务中,无一大模型完美解决,Gemini 3.0 Pro和腾讯元宝表现相对较好但仍有错误[25] - 智谱清言出现幻觉,添加未参会人员如创始人唐杰;通义千问表现最差,仅提取4个参会者且3个单位错误[25][26] - 在总结长文章任务中,ChatGPT、Gemini和Kimi总结质量最高,作者盲评得分均为4分;MiniMax Agent表现最差,仅生成920字总结且有事实错误[31][32][33] 周报生成与识别能力 - 在周报生成任务中,ChatGPT周报最长(1902字),DeepSeek周报最短(488字)[37][43] - 多数大模型会虚构工作细节,如客户名称和潜在收入,仅阿里千问未脑补细节[37] - 在周报识别任务中,Claude最严格,识别出11份AI生成周报并给予低分(平均4.3分);豆包和文心一言最宽松,仅识别出1份AI周报[41][42] - Claude生成的周报获得最高工作努力程度评分(8.2分),阿里千问因未脑补细节得分最低(4.6分)[42][43] 规划与统筹能力 - 在聚餐做菜规划任务中,Claude、豆包、千问、智谱清言、Kimi、MiniMax均能提供合理方案,智谱清言甚至考虑洗锅时间[44][46] - GPT-5驱动的ChatGPT表现不如去年的GPT-4,建议当场腌腊肉;DeepSeek、文心一言、阶跃星辰、讯飞星火提供的方案导致牛腩炖不熟[46][50] 联网搜索能力 - 在搜索大疆技术文章任务中,GPT-5、Kimi、GPT-5.1驱动的ChatGPT、文心一言、MiniMax均能找到相关官方文章[54][69] - 在搜索英伟达1999年招股书任务中,5款大模型(ChatGPT、Claude、Gemini、豆包、Kimi)能直接提供招股书链接[60][69] - 在以图找图任务中,10款大模型正确识别数据来自中国互联网络信息中心;Gemini 2.5 Pro最初杜撰答案,升级3.0 Pro后改正[65][67][69] 多模态识别能力 - 在识别未标注数据图表任务中,仅Gemini能给出接近实际数据的答案,其他模型仅提供估算[70][71] - 在分析甲状腺体检报告任务中,大多数模型建议“细针穿刺活检”,与三甲医院医生建议一致;DeepSeek建议定期观察,科大讯星星火还建议基因检测[75][79] - 在工位整理视觉识别任务中,DeepSeek和Kimi提示仅能使用OCR识别文字;能工作的模型仅识别部分物体,GPT-5.1驱动的ChatGPT提供ASCII示意图[86][89]