Workflow
LMArena
icon
搜索文档
「纳米香蕉」LMArena两周500万投票,引爆10倍流量,谷歌、OpenAI扎堆打擂台
36氪· 2025-09-04 10:10
LMArena平台表现 - 8月平台流量暴增10倍 月活跃用户超过300万[1][9] - 两周内吸引超过500万次总投票 其中纳米香蕉单独赢得250万+直接投票 创历史最高参与度[1][3] - 平台前身Chatbot Arena起源于2023年伯克利研究项目 采用匿名众包成对比较机制评估大模型[12] 纳米香蕉模型表现 - 8月登顶Image Edit Arena榜首 同时获得Text-to-Image榜单第一名 成为双料冠军[1][17] - 以匿名盲测方式登场 用户需在Battle功能中随机遇到该模型[17] - 实际为谷歌Gemini 2.5 Flash Image模型 在社区引发广泛猜测后由谷歌官方认领[4] 平台运营机制 - 采用Elo计分系统 通过匿名随机配对投票减少品牌光环效应[20] - 累计投票达数百万次 科技媒体频繁引用其数据[20] - 提供跨厂商模型同台竞技 包含开源和闭源模型[22] 行业影响 - 成为谷歌 OpenAI等AI大厂模型评测的核心竞技场[1][9] - 被科技公司视为AI技术风向标 厂商密切关注榜单变化[16] - 为模型厂商提供真实用户反馈报告 帮助迭代改进模型[25] 模型排名数据 - Gemini 2.5 Flash Image以1362分位居Image Edit Arena榜首[18] - 在Text-to-Image榜单中 Gemini 2.5 Flash Image以1147分领先第二名Imagen 4.0 Ultra的1135分[18] - 编码领域Claude表现最佳 创意领域Gemini位居前列[19] 平台发展方向 - 推出WebDev等基于真实使用场景的基准测试[27] - 计划扩展到更多行业 弥合技术与实用场景的鸿沟[28] - 保持数据研究流程透明 发布数据推动社区建设[29]
人物一致性新王Nano Banana登基,AI图片编辑史诗级升级。
数字生命卡兹克· 2025-08-19 01:05
AI绘图模型Nano Banana评测 核心观点 - Nano Banana在人物一致性、背景替换、细节修改等方面表现远超其他AI绘图模型,成为当前一致性最强的AI生图工具 [1][6][82] - 该模型疑似由Google DeepMind开发,目前仅在LMArena平台通过随机盲测形式出现,尚未正式发布 [25][11][13] 模型性能对比 - **人物一致性**:Nano Banana能完美保留面部特征、表情细节和服饰元素,其他模型如GPT-4o存在泛黄滤镜、Flux Kontext擅自修改表情、即梦错误改变人脸结构 [6][37][55] - **多主体处理**:在将《罗马假日》主角替换为川普和马斯克的测试中,Nano Banana准确还原人物特征,Flux生成双胞胎,GPT-4o面部失真,即梦遗漏主体 [43][47] - **背景替换**:Nano Banana生成的末日废墟场景具有真实光影和丰富细节,Flux/GPT-4o背景糊化,即梦添加无关程序猿元素 [49][51] - **风格转换**:在赛博朋克、梵高风格、水墨画转换测试中,Nano Banana保持最高完成度和人物一致性 [72][75][77] 技术应用场景 - 视频封面制作:通过单张照片+提示词即可生成多动作版本,成功率显著高于需反复抽卡的其他模型 [80][7] - 手办设计:实现2D转3D、添加特效背景等操作,被用户用于制作梦幻联动内容 [15][18][20] 行业动态 - 当前AI绘图领域主要竞争者包括GPT-4o、Flux Kontext、即梦等,但Nano Banana的出现可能重塑竞争格局 [12][79] - Google通过匿名测试新模型的方式收集用户反馈,显示其技术储备领先行业 [10][25] 使用方式 - 需通过LMArena平台的battle模式随机触发,输入prompt和参考图后由系统盲选模型生成,用户无法主动选择Nano Banana [26][28][33]
AI圈顶级榜单曝黑幕,Meta作弊刷分实锤?
虎嗅APP· 2025-05-01 13:51
核心观点 - AI大模型排行榜LMArena被指控存在作弊行为,多家科技巨头被指利用漏洞刷分提升排名[2][11] - 斯坦福、MIT等机构联合研究指出少数公司通过私下测试机制选择性提交高分模型,导致排行榜结果失真[12][13] - 闭源商业模型在LMArena中获得更多对战机会和数据流量,开源模型处于明显劣势[23][26] - LMArena官方否认指控并反驳研究存在事实错误,但行业专家建议转向OpenRouter等新评测平台[36][44] 行业现状分析 - LMArena已成为AI行业重要评测标准,科技公司投入巨资争夺排名优势[54] - 研究分析280万场对战数据显示,Google和OpenAI模型分别获得19.2%和20.4%的用户对战数据[30] - 83个开源模型总数据占比仅29.7%,存在明显数据访问不平等现象[30] - 允许模型撤回机制导致Meta等公司可测试27个变体后只提交最优结果[19][20] 公司行为分析 - Google的Gemini-2.5-Pro-Exp-03-25以1443分位居榜首,但实际用户体验与排名不符[5][6] - Meta被曝在发布Llama 4前私下测试27个LLM变体,涉嫌选择性提交最优结果[19] - 闭源商业模型平均采样率显著高于开源模型,形成数据获取的马太效应[24][25] - 部分小模型在缺乏现实知识情况下获得异常高分,引发操纵质疑[8][42] 评测机制问题 - LMArena原始设计依赖用户匿名对比评分,但后期引入公司预测试破坏公平性[52][59] - 未公开的私下测试机制使大公司能优化特定指标而非真实模型能力[15][32] - 模型移除标准不透明,开源模型更易被下架[23][40] - 研究估算额外数据可能带来112%相对性能提升,加剧排行榜过拟合[31] 行业影响 - 评测失真导致公司资源投向刷分而非真实模型改进[43] - 创始团队更替后LMArena政策变化,透明度下降[57][58] - 专家推荐OpenRouter平台,其榜单显示Claude 3.7 Sonnet等模型更受实际用户青睐[47][49] - 行业需要建立更抗操纵的评测标准以反映真实模型能力[44][48]