Workflow
Social Intelligence
icon
搜索文档
一盘狼人杀,扒下大模型底裤,GPT-5暴碾全场,开源被“团灭”?
36氪· 2025-09-04 10:59
狼人杀基准测试设计与参与模型 - Foaster Labs组织6人局屠城模式狼人杀循环赛 通过ELO等级分体系生成排名榜 模型以工具化智能体形态参与游戏 可在适当时机调用定制工具库执行行动[1][4] - 测试集结7款大语言模型:GPT-5、GPT-5-mini、Gemini 2.5 Pro、Gemini 2.5 Flash、Qwen3-235B-Instruct、Kimi-K2-Instruct、GPT-OSS-120B[2] - 测试基于《Werewolf Arena: A Case Study in LLM Evaluation via Social Deduction》设计 每两组模型进行10局对抗 共60场比赛[4] 模型排名与性能数据 - GPT-5以1492 ELO分和96.7%胜率位居第一 其中狼人角色ELO-W为1508 村民角色ELO-V为1476[3][5] - Gemini 2.5 Pro以1261 ELO分和63.3%胜率排名第二 狼人角色ELO-W为1163 村民角色ELO-V为1360[3][5] - Gemini 2.5 Flash以1188 ELO分和51.7%胜率排名第三 狼人角色ELO-W为1103 村民角色ELO-V为1273[3][5] - Qwen3-235B-Instruct以1176 ELO分和45.0%胜率排名第四 狼人角色ELO-W为1077 村民角色ELO-V为1274[3][5] - GPT-5-mini以1173 ELO分和41.7%胜率排名第五 狼人角色ELO-W为1107 村民角色ELO-V为1239[3][5] - Kimi-K2-Instruct以1130 ELO分和36.7%胜率排名第六 狼人角色ELO-W为1168 村民角色ELO-V为1091[3][5] - GPT-OSS-120B以980 ELO分和15.0%胜率排名第七 狼人角色ELO-W为931 村民角色ELO-V为1030[3][5] 测试目的与评估维度 - 狼人杀项目衡量大模型"社交智能"维度 包括多智能体博弈、实时应变、处理长上下文、制定策略、结盟周旋、实施操纵与反操纵能力[6] - 游戏纯靠语言驱动且高度依赖社交能力 是天然试验场 与传统评测代码数学能力形成互补[6] - 实验采用观察协议 模型每个公开言论与内心想法配对记录 白天投票意向也被记录[6] 模型行为特征分析 - GPT-5展现绝对统治力 当村民时稳定战胜所有狼人对手 当狼人时使多数村民胜率大幅下滑[15] - Kimi-K2作为狼人能突破中游村民防线但遇顶级防守者被遏制 心态易受压力影响[6][12][15] - Gemini 2.5 Pro措辞谨慎严格处理证据 作为村民时稳定但作为狼人缺乏突破能力[12][15] - Qwen3保持立场稳定避免误判 防守表现优于进攻表现[12][15] - GPT-OSS始终透明易被识破 形成错误认知后难改正[9][12] 关键性能指标 - GPT-5操控成功率断层领先 首日次日均保持约93% 其他模型呈现下滑趋势:Gemini 2.5 Pro下降16% Kimi-K2下降13% Flash下降18% GPT-5-mini和Qwen3下降约8% GPT-OSS归零[19] - GPT-5自我破坏率为0 即当村民时从未误投神职 GPT-OSS-120B误投率达三分之二[20] - GPT-5首日狼人出局率达100% 即每次均可精准识别狼人[22] 模型能力发展规律 - 模型能力提升存在"临界点" 一旦越过能力阈值行为水平会突然跃升而非逐步改善[24] - 在参数公开的开源模型中 行为等级随参数增加而提升[24] - 闭源模型如GPT-5和Gemini 2.5 Pro表现出更成熟行为[27] - 小型模型会模仿大型模型行为但掌握不了精髓 行为表现零散易暴露团队痕迹[25] - 推理能力不等于实战能力 能力阈值比模型类型标签更重要[27] 行业意义与应用前景 - 狼人杀基准测试为了解AI"社交智能"提供独特窗口 揭示模型处理欺骗、建立信任及不确定性下战略决策能力[26] - 这些技能是AI智能体从工具转变为协作伙伴时所需的核心能力 对承担关键任务和自主权具有重要意义[26]
Sprout Social Launches Expansive Suite of Integrations to Empower Brands in the Social Intelligence Era
GlobeNewswire News Room· 2025-08-13 13:00
行业趋势 - 社交媒体已成为消费者获取信息、娱乐和社区互动的首选渠道 用户通过平台发现新品牌、研究产品并实时做出购买决策[2] - 消费者习惯转向TikTok和Bluesky等平台进行产品发现、推荐和实时对话 品牌需具备早期情感捕捉和快速响应能力[1] - 社交媒体从对话场所转变为驱动收入的渠道和客户情报来源 品牌可通过社交互动实现可衡量的商业影响[2] 产品战略 - 公司推出新一代功能组合 包括TikTok舆情监听、Bluesky发布报告和创作者协作工具 旨在将社交互动转化为商业洞察[1] - 新增数字出版集成功能优化创意工作流程 帮助团队更快发布品牌内容和视觉素材[5] - 通过LinkedIn个人资料指标和文档发布功能 提升高管思想领导力策略的有效性[6] 技术整合 - 与Adobe Express实现直接发布集成 提供更高质量创意内容和简化工作流程[6] - Canva发布集成支持品牌将设计内容直接导出至平台 实现无缝化视觉内容发布[6] - Salesforce数字互动集成将客户服务覆盖数字消息、语音和社交渠道 全部整合至统一工作空间[6] 合作伙伴生态 - 与Instagram合作推出合作伙伴广告和创作者营销工作区 简化创作者协作以扩大真实覆盖[6] - 平台支持Bluesky内容发布和性能分析 帮助品牌在兴趣社区扩大影响力[6] - TikTok舆情监听功能提供全球最具影响力平台的客户情感、品牌认知和趋势洞察[6] 客户案例 - 联合劝募协会通过平台构建社交优先的客户旅程 实现从认知到长期互动的全链路整合[3] - 平台服务全球约30,000个品牌 提供智能化社交数据支持业务决策[5] 市场地位 - 公司被G2评为2024年度最佳软件第一名 提供全链路发布互动、客户关怀和AI驱动的预测性商业智能[7] - 平台覆盖所有主流社交媒体网络和数字平台 具备危机管理和影响力营销功能[7]