大模型竞技场排名表现 - Grok 4.1思考模式以1483的Elo分数位居大模型竞技场榜首,领先非xAI模型最高分31分[2] - Grok 4.1非思考模式以1465分排名第二,超越公开排行榜上所有其他模型的完整推理模式[3] - 相比之前Grok 4仅排第33位,xAI在不到半年时间实现巨大飞跃[4] - 在大模型竞技场新推出的专家榜上,Grok 4.1思考模式以1510分排名第一[5][6] - 在职业榜八个细分领域中,Grok 4.1在文学榜输给Gemini 2.5,数学榜输给Claude 4.5和o3,其他六个榜单均拿下第一[6] 技术性能提升 - 在EQ-Bench情商测试中,Grok 4.1表现超过刚发布不久的Kimi K2(非Thinking版本)[9] - 从11月1日起新版模型逐步推送用户,盲测对比评估显示64.78%的用户更喜欢新版[13] - 关闭推理功能后,输出标记数从约2300个减少到850个,实现快速回复模式特别加强[23] - 在后训练阶段专注于减少信息检索提示中的事实性幻觉,幻觉发生率显著降低[25] - 在包含500个个人传记问题的FActScore测试中,非推理模式成绩比前一代有明显改善[26] 功能特性改进 - 在创造性、情感性和协作性互动方面带来显著改进,模型更善于捕捉细微意图,对话更有吸引力[18] - 响应情感问题时表现出更强同理心,回答更加细腻和人性化[18] - 创意写作能力明显提升,回答更具文学性和思想深度[18] - 可以输出图文并茂的回答,展示多模态能力[26] - 团队使用大规模强化学习基础设施,将RLHF推向前所未有的高度,RL规模扩大一个数量级[19][20][22] 市场推广情况 - Grok 4.1已在grok.com、X平台以及iOS和Android应用上向所有用户开放[27] - 模型默认以自动模式推出,用户也可在模型选择器中明确选择Grok 4.1[27] - 由于模型刚发布,投票数还很少,等"Preliminary"标记消失后的成绩更有参考价值[8]
马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜
量子位·2025-11-18 00:59