Workflow
OpenAI Five
icon
搜索文档
AI跑分越来越没意义,谷歌说不如让AI一起玩游戏
36氪· 2025-08-11 23:25
AI模型竞赛与基准测试现状 - 谷歌举办"AI棋王争霸赛",汇集OpenAI o4-mini、DeepSeek-R1、Gemini 2 5 Pro等中美顶级AI模型进行策略游戏对决,旨在通过实战评估复杂推理和决策能力[1][3] - 传统AI基准测试(如HuggingFace榜单)因厂商针对性优化导致失真,例如Meta Llama 4在Chatbot Arena测试27个版本仅公开最佳成绩,实际表现与跑分严重不符[9][11] - 谷歌推出Kaggle Game Arena平台,以策略游戏作为新测试标准,利用规则约束性和随机性更有效衡量AI智能上限[3][12] AI行业投资泡沫现象 - AI初创企业估值虚高现象显著,技术背景创始人轻易获得10亿美元估值,如Builder.ai被揭露实际依赖人工编程却伪装AI公司[4][6] - 投资机构因FOMO(错失恐惧)情绪非理性追捧AI项目,导致行业出现"刷榜"乱象,厂商通过记忆基准测试题目针对性优化跑分成绩[6][9] - 当前AI投资逻辑简化为"跑分决定估值",催生类似Llama 4在GSM8K、MATH等数学测试中刻意刷出80%+正确率的行为[9][11] 游戏与AI技术发展的关联性 - 游戏成为验证AI能力的理想场景,因其具备规则明确、结果可量化、过程可视化等特点,OpenAI曾通过《DOTA2》击败人类战队证明技术突破[12][13] - OpenAI Five项目推动训练模式从强化学习升级为RLHF(基于人类反馈的强化学习),该技术后来成为ChatGPT智能表现的核心基础[15] - 游戏智能化蕴含巨大商业价值,智能NPC开发是游戏厂商重点需求方向,AI游戏表现直接关联技术商业化潜力[15] 主流AI模型性能对比 - 基准测试数据显示Llama 4 Scout在MMLU Pro(74 3)、GPQA Diamond(57 2)等综合能力测试中领先,但LiveCodeBench编程能力仅32 8分[12] - Gemini 2 0 Pro在MathVista(73 1)、DocVQA(94 4)等专项测试中表现突出,但成本达每百万token 4 58美元显著高于竞品[12] - Claude Opus 4在Multilingual MMLU(85 1)等跨语言任务中优势明显,但编程类LiveCodeBench得分未公开[12]
LLM抢人血案:强化学习天才被挖空,一朝沦为「无人区」
36氪· 2025-08-04 07:22
强化学习领域的历史回顾与核心观点 - 斯坦福AI+CS博士Joseph Suarez对强化学习进行历史回顾,其文章获得38.2万阅读量[1] - 封面曲线暗示强化学习领域研究前景经历快速上升、平缓爬升后急转直下[3] - 文章探讨强化学习历史发展及近期才真正起飞的原因,并提供个人独特视角[3] Joseph Suarez的专业背景与研究基础 - 2019年本科毕业于斯坦福大学计算机科学专业人工智能方向[5] - 2018年在OpenAI实习期间发布Neural MMO首个公开版本[5] - 博士期间创建开源计算研究平台Neural MMO,并以此作为毕业论文主题[5][6] - 早期研究经历包括在李飞飞课题组和吴恩达实验室参与项目[5] - 其研究为PufferLib工作奠定基础[9] 强化学习早期突破与潜力展示 - 2017-2019年强化学习领域出现多项重大突破[10] - OpenAI Five项目开发期间,作者在OpenAI实习并亲眼见证相关工作[10] - OpenAI的Dota 2项目使用1.68亿参数网络,在约1000个GPU上训练后击败顶尖职业选手[12][16] - 其他重要展示项目包括AlphaStar、Capture the Flag和Emergent Tool Use等[17] 强化学习衰落的原因分析 - 2019年至2022年强化学习明显走下坡路,缺乏持久突破[19] - 学术短视导致领域集体设定了不合理的标准,如使用Agent57基准测试57款雅达利游戏[19] - 基准测试以样本数为x轴而非实际运行时间,且未限制硬件使用量,导致研究耗时且成本高昂[22] - 单个游戏运行可能需要数周GPU时间,消融实验需要1万GPU小时且利用率低于5%[22][23] - 大语言模型崛起吸引了99%的天才研究人员离开强化学习领域[25][26] - 强化学习存在超参数不合理、模型无法扩展、简单任务难以转移等基础问题[27] 当前强化学习研究的挑战与重复错误 - 现代强化学习研究重现了缓慢实验周期、过度优化评价体系等历史问题[29] - 领域为已有概念创造新术语,如“多轮RL”指“不只是赌博机问题”[32] - 对早期研究的不信任源于许多已发表内容确实存在问题[32] 强化学习的新发展方向与突破 - Joseph Suarez团队转向以墙钟训练时间为标准,重视性能工程[33] - 目标是将训练吞吐量从每秒几千步提升至数百万步[33] - PufferLib 3.0在单个RTX 5090上训练速度最高可达每秒400万步[35] - 新方法使新手程序员能在几天内让强化学习在新问题上运行,显著降低门槛[35] - 实验显示简单环境的结果能泛化到更难环境,开发周期快速[35] - 长期计划回归样本效率研究,但会保持flop效率,避免低利用率问题[36]