马斯克悄然发布Grok 4.1，霸榜大模型竞技场所有排行榜

大模型竞技场排名表现 - Grok 4.1思考模式以1483的Elo分数位居大模型竞技场榜首，领先非xAI模型最高分31分[2] - Grok 4.1非思考模式以1465分排名第二，超越公开排行榜上所有其他模型的完整推理模式[3] - 相比之前Grok 4仅排第33位，xAI在不到半年时间实现巨大飞跃[4] - 在大模型竞技场新推出的专家榜上，Grok 4.1思考模式以1510分排名第一[5][6] - 在职业榜八个细分领域中，Grok 4.1在文学榜输给Gemini 2.5，数学榜输给Claude 4.5和o3，其他六个榜单均拿下第一[6] 技术性能提升 - 在EQ-Bench情商测试中，Grok 4.1表现超过刚发布不久的Kimi K2（非Thinking版本）[9] - 从11月1日起新版模型逐步推送用户，盲测对比评估显示64.78%的用户更喜欢新版[13] - 关闭推理功能后，输出标记数从约2300个减少到850个，实现快速回复模式特别加强[23] - 在后训练阶段专注于减少信息检索提示中的事实性幻觉，幻觉发生率显著降低[25] - 在包含500个个人传记问题的FActScore测试中，非推理模式成绩比前一代有明显改善[26] 功能特性改进 - 在创造性、情感性和协作性互动方面带来显著改进，模型更善于捕捉细微意图，对话更有吸引力[18] - 响应情感问题时表现出更强同理心，回答更加细腻和人性化[18] - 创意写作能力明显提升，回答更具文学性和思想深度[18] - 可以输出图文并茂的回答，展示多模态能力[26] - 团队使用大规模强化学习基础设施，将RLHF推向前所未有的高度，RL规模扩大一个数量级[19][20][22] 市场推广情况 - Grok 4.1已在grok.com、X平台以及iOS和Android应用上向所有用户开放[27] - 模型默认以自动模式推出，用户也可在模型选择器中明确选择Grok 4.1[27] - 由于模型刚发布，投票数还很少，等"Preliminary"标记消失后的成绩更有参考价值[8]