查资料、劝老板、写周报，给上班人准备的大模型评测

大模型用户增长与市场趋势 - 截至2025年11月，中国每天使用大模型助手应用的用户数量已超过1亿人，与2024年4月相比，用户数增长超过900%[3] - 用户使用大模型的心态发生变化，从让大模型执行任务转向更多地进行咨询询问，OpenAI报告显示“询问”类互动占比从40%增长到50%，而“执行”类任务从40%下降到30%[96] - 工作场景中42%的任务与写作相关，其中约三分之二不是从头生成内容，而是让大模型修改文本[96] 参与测评的大模型概况 - 测评涵盖14款国内外大模型，包括GPT-5.1、Claude Opus 4.5、Gemini 3 Pro、文心5.0、Kimi K2 Thinking等最新版本[3] - 测评通过官方网页版助理进行，测试时间在11月中下旬，累计交互超千次，采用中文提问，每个问题单开对话框[4][5] - 测评聚焦日常工作相关场景，设定15个问题，不涉及编程工作、agent和深度研究[3] 角色扮演与头脑风暴能力 - 在组建8人决策委员会任务中，ChatGPT盲评得分最高（22.4分），阶跃星辰StepFun排名第二（22.2分），商汤商量排名第三（21.3分）[8][13] - MiniMax Agent得分最低（13.2分），仅调整提示词而未有效组织委员会[11][13] - 在劝说老板调整商业计划任务中，阿里千问得分最高（4.6分），其话术将修改方案融入执行策略并引用名人名言[18][22] - 阶跃星辰话术得分最低（2.2分），因直接指出“三大致命矛盾”而被认为不合理[20][22] 长文本处理能力 - 在处理36页会议手册提取参会人员名单任务中，无一大模型完美解决，Gemini 3.0 Pro和腾讯元宝表现相对较好但仍有错误[25] - 智谱清言出现幻觉，添加未参会人员如创始人唐杰；通义千问表现最差，仅提取4个参会者且3个单位错误[25][26] - 在总结长文章任务中，ChatGPT、Gemini和Kimi总结质量最高，作者盲评得分均为4分；MiniMax Agent表现最差，仅生成920字总结且有事实错误[31][32][33] 周报生成与识别能力 - 在周报生成任务中，ChatGPT周报最长（1902字），DeepSeek周报最短（488字）[37][43] - 多数大模型会虚构工作细节，如客户名称和潜在收入，仅阿里千问未脑补细节[37] - 在周报识别任务中，Claude最严格，识别出11份AI生成周报并给予低分（平均4.3分）；豆包和文心一言最宽松，仅识别出1份AI周报[41][42] - Claude生成的周报获得最高工作努力程度评分（8.2分），阿里千问因未脑补细节得分最低（4.6分）[42][43] 规划与统筹能力 - 在聚餐做菜规划任务中，Claude、豆包、千问、智谱清言、Kimi、MiniMax均能提供合理方案，智谱清言甚至考虑洗锅时间[44][46] - GPT-5驱动的ChatGPT表现不如去年的GPT-4，建议当场腌腊肉；DeepSeek、文心一言、阶跃星辰、讯飞星火提供的方案导致牛腩炖不熟[46][50] 联网搜索能力 - 在搜索大疆技术文章任务中，GPT-5、Kimi、GPT-5.1驱动的ChatGPT、文心一言、MiniMax均能找到相关官方文章[54][69] - 在搜索英伟达1999年招股书任务中，5款大模型（ChatGPT、Claude、Gemini、豆包、Kimi）能直接提供招股书链接[60][69] - 在以图找图任务中，10款大模型正确识别数据来自中国互联网络信息中心；Gemini 2.5 Pro最初杜撰答案，升级3.0 Pro后改正[65][67][69] 多模态识别能力 - 在识别未标注数据图表任务中，仅Gemini能给出接近实际数据的答案，其他模型仅提供估算[70][71] - 在分析甲状腺体检报告任务中，大多数模型建议“细针穿刺活检”，与三甲医院医生建议一致；DeepSeek建议定期观察，科大讯星星火还建议基因检测[75][79] - 在工位整理视觉识别任务中，DeepSeek和Kimi提示仅能使用OCR识别文字；能工作的模型仅识别部分物体，GPT-5.1驱动的ChatGPT提供ASCII示意图[86][89]