LMArena - 财报，业绩电话会，研报，新闻

LMArena

搜索文档

36氪· 2026-01-07 11:04

大模型竞技场LMArena官宣拿下1.5亿美元A轮融资。估值升至17亿美元，妥妥的新年开门红！这波融资由Felicis和加州大学投资公司UC Investments领投，Andreessen Horowitz、The House Fund等机构跟投。资本用真金白银投票，足以见得AI时代大模型评估这个赛道有多香～而这支90后华人含量99%团队的走红之路，还得从2023年ChatGPT横空出世后说起。从学术探索到商业崛起 LMArena的前身是曾经火爆AI圈的Chatbot Arena，最早由LMSYS这个自发的开源组织创建。组织的核心成员全是来自UC伯克利、斯坦福、UCSD、CMU等顶尖高校的学霸。他们的开源推理引擎SGLang在业内首次实现了在96块H100上跑出几乎媲美DeepSeek官方报告吞吐量的开源方案。目前SGLang已经实现大规模部署，被xAI、英伟达、AMD、谷歌云、甲骨文云、阿里云、美团、腾讯云等企业和机构采用。不过，比起硬核技术，他们最主要也更出圈的工作是对大模型进行评估。在ChatGPT、Claude一众模型刚刚面世之际，他们率先创办了Chatbot Arena这么一个 ...

Artificial Intelligence

大模型评估

Artificial Intelligence

Chatbot Arena

LMArena

SGLang

Artificial Intelligence

大模型评估

Artificial Intelligence

Chatbot Arena

LMArena

SGLang

给AI打个分，结果搞出17亿估值独角兽？？？

量子位· 2026-01-07 09:11

闻乐发自凹非寺量子位 | 公众号 QbitAI 大模型竞技场 LMArena 官宣拿下 1.5亿美元 A轮融资。估值升至17亿美元，妥妥的新年开门红！这波融资由Felicis和加州大学投资公司UC Investments领投，Andreessen Horowitz、The House Fund等机构跟投。资本用真金白银投票，足以见得AI时代大模型评估这个赛道有多香～而这支90后华人含量99%团队的走红之路，还得从2023年ChatGPT横空出世后说起。从学术探索到商业崛起 LMArena的前身是曾经火爆AI圈的 Chatbot Arena ，最早由 LMSYS 这个自发的开源组织创建。组织的核心成员全是来自UC伯克利、斯坦福、UCSD、CMU等顶尖高校的学霸。他们的开源推理引擎 SGLang 在业内首次实现了在96块H100上跑出几乎媲美DeepSeek官方报告吞吐量的开源方案。目前SGLang已经实现大规模部署，被xAI、英伟达、AMD、谷歌云、甲骨文云、阿里云、美团、腾讯云等企业和机构采用。不过，比起硬核技术，他们最主要也更出圈的工作是对大模型进行评估。在ChatGPT、Cl ...

「纳米香蕉」LMArena两周500万投票，引爆10倍流量，谷歌、OpenAI扎堆打擂台

36氪· 2025-09-04 10:10

LMArena平台表现 - 8月平台流量暴增10倍月活跃用户超过300万[1][9] - 两周内吸引超过500万次总投票其中纳米香蕉单独赢得250万+直接投票创历史最高参与度[1][3] - 平台前身Chatbot Arena起源于2023年伯克利研究项目采用匿名众包成对比较机制评估大模型[12] 纳米香蕉模型表现 - 8月登顶Image Edit Arena榜首同时获得Text-to-Image榜单第一名成为双料冠军[1][17] - 以匿名盲测方式登场用户需在Battle功能中随机遇到该模型[17] - 实际为谷歌Gemini 2.5 Flash Image模型在社区引发广泛猜测后由谷歌官方认领[4] 平台运营机制 - 采用Elo计分系统通过匿名随机配对投票减少品牌光环效应[20] - 累计投票达数百万次科技媒体频繁引用其数据[20] - 提供跨厂商模型同台竞技包含开源和闭源模型[22] 行业影响 - 成为谷歌 OpenAI等AI大厂模型评测的核心竞技场[1][9] - 被科技公司视为AI技术风向标厂商密切关注榜单变化[16] - 为模型厂商提供真实用户反馈报告帮助迭代改进模型[25] 模型排名数据 - Gemini 2.5 Flash Image以1362分位居Image Edit Arena榜首[18] - 在Text-to-Image榜单中 Gemini 2.5 Flash Image以1147分领先第二名Imagen 4.0 Ultra的1135分[18] - 编码领域Claude表现最佳创意领域Gemini位居前列[19] 平台发展方向 - 推出WebDev等基于真实使用场景的基准测试[27] - 计划扩展到更多行业弥合技术与实用场景的鸿沟[28] - 保持数据研究流程透明发布数据推动社区建设[29]

大模型评测

AI模型排名

Artificial Intelligence

纳米香蕉（Gemini 2.5 Flash Image）

Artificial Intelligence

纳米香蕉（Gemini 2.5 Flash Image）

LMArena

ChatGPT

人物一致性新王Nano Banana登基，AI图片编辑史诗级升级。

数字生命卡兹克· 2025-08-19 01:05

AI绘图模型Nano Banana评测核心观点 - Nano Banana在人物一致性、背景替换、细节修改等方面表现远超其他AI绘图模型，成为当前一致性最强的AI生图工具 [1][6][82] - 该模型疑似由Google DeepMind开发，目前仅在LMArena平台通过随机盲测形式出现，尚未正式发布 [25][11][13] 模型性能对比 - **人物一致性**：Nano Banana能完美保留面部特征、表情细节和服饰元素，其他模型如GPT-4o存在泛黄滤镜、Flux Kontext擅自修改表情、即梦错误改变人脸结构 [6][37][55] - **多主体处理**：在将《罗马假日》主角替换为川普和马斯克的测试中，Nano Banana准确还原人物特征，Flux生成双胞胎，GPT-4o面部失真，即梦遗漏主体 [43][47] - **背景替换**：Nano Banana生成的末日废墟场景具有真实光影和丰富细节，Flux/GPT-4o背景糊化，即梦添加无关程序猿元素 [49][51] - **风格转换**：在赛博朋克、梵高风格、水墨画转换测试中，Nano Banana保持最高完成度和人物一致性 [72][75][77] 技术应用场景 - 视频封面制作：通过单张照片+提示词即可生成多动作版本，成功率显著高于需反复抽卡的其他模型 [80][7] - 手办设计：实现2D转3D、添加特效背景等操作，被用户用于制作梦幻联动内容 [15][18][20] 行业动态 - 当前AI绘图领域主要竞争者包括GPT-4o、Flux Kontext、即梦等，但Nano Banana的出现可能重塑竞争格局 [12][79] - Google通过匿名测试新模型的方式收集用户反馈，显示其技术储备领先行业 [10][25] 使用方式 - 需通过LMArena平台的battle模式随机触发，输入prompt和参考图后由系统盲选模型生成，用户无法主动选择Nano Banana [26][28][33]

AI圈顶级榜单曝黑幕，Meta作弊刷分实锤？

虎嗅APP· 2025-05-01 13:51

核心观点 - AI大模型排行榜LMArena被指控存在作弊行为，多家科技巨头被指利用漏洞刷分提升排名[2][11] - 斯坦福、MIT等机构联合研究指出少数公司通过私下测试机制选择性提交高分模型，导致排行榜结果失真[12][13] - 闭源商业模型在LMArena中获得更多对战机会和数据流量，开源模型处于明显劣势[23][26] - LMArena官方否认指控并反驳研究存在事实错误，但行业专家建议转向OpenRouter等新评测平台[36][44] 行业现状分析 - LMArena已成为AI行业重要评测标准，科技公司投入巨资争夺排名优势[54] - 研究分析280万场对战数据显示，Google和OpenAI模型分别获得19.2%和20.4%的用户对战数据[30] - 83个开源模型总数据占比仅29.7%，存在明显数据访问不平等现象[30] - 允许模型撤回机制导致Meta等公司可测试27个变体后只提交最优结果[19][20] 公司行为分析 - Google的Gemini-2.5-Pro-Exp-03-25以1443分位居榜首，但实际用户体验与排名不符[5][6] - Meta被曝在发布Llama 4前私下测试27个LLM变体，涉嫌选择性提交最优结果[19] - 闭源商业模型平均采样率显著高于开源模型，形成数据获取的马太效应[24][25] - 部分小模型在缺乏现实知识情况下获得异常高分，引发操纵质疑[8][42] 评测机制问题 - LMArena原始设计依赖用户匿名对比评分，但后期引入公司预测试破坏公平性[52][59] - 未公开的私下测试机制使大公司能优化特定指标而非真实模型能力[15][32] - 模型移除标准不透明，开源模型更易被下架[23][40] - 研究估算额外数据可能带来112%相对性能提升，加剧排行榜过拟合[31] 行业影响 - 评测失真导致公司资源投向刷分而非真实模型改进[43] - 创始团队更替后LMArena政策变化，透明度下降[57][58] - 专家推荐OpenRouter平台，其榜单显示Claude 3.7 Sonnet等模型更受实际用户青睐[47][49] - 行业需要建立更抗操纵的评测标准以反映真实模型能力[44][48]

Artificial Intelligence

Artificial Intelligence