卡帕西大模型横评方法太好玩了!四大AI匿名参赛评分,最强出乎意料
量子位·2025-11-23 04:09

项目概述 - 卡帕西发布名为“大模型议会”(LLM Council)的Web应用,该项目在GitHub上已获得337个星标和53个分支[1][5] - 项目界面与ChatGPT类似,但核心功能是调用多个大模型通过OpenRouter开会商议用户问题[2] - 系统工作流程包括多模型同时回答、匿名互评和主席模型汇总最终答案三个步骤[7][8][12] 技术流程 - 第一步:多模型并行回答:通过OpenRouter同时调用GPT-5.1、Gemini 3 Pro Preview、Claude Sonnet 4.5和Grok-4等多个大模型回答同一问题,并以标签视图展示结果[7][18] - 第二步:匿名互评机制:所有模型对其他模型的回复进行匿名评估,根据准确性和洞察力给出评分和详细理由[8][9][10] - 第三步:答案汇总输出:指定主席模型汇总所有回复,形成统一最终答案交付用户[12][13] 性能发现 - 在多模型互评中,GPT-5.1被一致认为提供最强、最有洞见的答案,Claude被公认为最弱,Gemini 3和Grok-4排名居中[21] - 模型表现出较低偏见倾向,通常愿意承认其他模型的答案更优[24] - 尽管模型自评结果与人类主观评价存在差异(如卡帕西认为Gemini 3答案更简洁凝练),但多模型集成方法显示出巨大探索潜力[23][24] 项目背景与发展 - LLM议会系统延续了卡帕西早前分享的LLM分阶段深度阅读项目,该项目将阅读流程重塑为与LLM协作的三阶段过程[15][19] - 相关项目在GitHub上获得较高关注度,其中一个项目收获1.8k星标[17] - 行业专家认为模型自评可能成为一种新的“自动benchmark”方式,多模型集成有望成为未来LLM产品的突破点[6][24]