大模型游戏开发能力测试 - 开发者使用三款顶级大模型(Gemini 3 Pro、GPT-5.1-Codex-Max、Claude Opus 4.5)通过自然语言提示开发浏览器版《反恐精英》游戏[1] - 测试要求包括3D界面和多人联机功能,经过约七轮连续提示后所有模型均产出可玩成品[2][4][5] - 整个开发过程耗时约2小时,未使用任何手写代码即完成完整游戏开发[58][60] 前端开发表现对比 - Claude在地图设计方面表现最佳,生成包含障碍物和鲜艳色彩的清晰视野地图[13] - 角色设计环节Claude达到类似《Minecraft》水平,Gemini表现良好,Codex角色为单一颜色且清晰度不足[18][19] - 武器显示功能中Claude和Codex一次成功,Gemini因透明枪模型问题需要反复调试[25] - 音效添加环节三款模型均顺利完成,Claude生成的动画最具活力[27] 后端开发表现对比 - 多人模式位置共享功能中Gemini一次完成目标,Codex和Claude需要额外引导[33] - 射击功能实现时Claude一次成功,Gemini和Codex通过错误反馈后解决问题[38] - 多房间支持重构阶段Gemini表现最优,Codex遇到查询错误但可自修复,Claude出现严重React Hooks错误需人工干预[55][56][57] 模型特性差异分析 - Codex依赖大量自我检查,频繁查看TypeScript库但较少参考文档[39] - Claude完全相反,频繁查阅文档但缺乏对库的深度分析[39] - Gemini兼顾文档查阅和错误修复,在构建过程中自动发现并修复TypeScript错误[39] 综合能力评估 - Claude在前端设计方面优势明显,地图精美度和角色设计更符合预期[58] - Gemini在后端逻辑处理更稳健,多人模式和数据持久化出错较少[58] - Codex表现均衡但无突出亮点,前后端功能均达到合理水平[58] 行业争议与挑战 - 测试发现模型存在代码版权问题,Gemini版本中出现可能侵权的shader代码[62] - 开发者质疑模型训练数据包含未授权代码,输出时直接复制原始代码违反使用条款[62] - 部分从业者担忧模型可能替代开发工作中创造性部分,开发者将陷入代码审查和修补工作[62]
仅用七个提示词,三大AI造出《反恐精英》简化版,网友深扒源码:它“偷”了别人的,连原作者的注释都搬过来了