比赛结果概览 - AI大模型实时投资比赛“Alpha Arena”历时17天,于11月4日结束,阿里千问Qwen以超过20%的收益率夺冠,DeepSeek位列第二,成为全场唯二盈利的模型 [1][4] - 美国四大顶尖模型Claude Sonnet 4.5、Grok 4、Gemini 2.5 Pro和GPT-5全部亏损,其中GPT-5亏损超62%垫底 [1][6] - 最终排名及收益率分别为:Qwen3 Max账户价值$12,232(+22.32%)、DeepSeek Chat v3.1账户价值$10,489(+4.89%)、Claude Sonnet 4.5账户价值$6,919(-30.81%)、Grok 4账户价值$5,470(-45.3%)、Gemini 2.5 Pro账户价值$4,329(-56.71%)、GPT 5账户价值$3,734(-62.66%)[8] 比赛过程与策略 - 比赛初期DeepSeek v3.1一直领先,Grok 4通过激进策略一度将差距缩小至1美元 [2] - 10月21日至22日成为转折点,Grok 4和Claude Sonnet 4.5收益大幅下滑由盈转亏,当日六个大模型收益率全部告负 [2] - 在其余四个模型持续亏损的情况下,DeepSeek v3.1和Qwen3-Max自动改写投资策略,净值曲线波动上涨,Qwen3-Max一度超过DeepSeek v3.1并最终夺冠 [4] 比赛设置与行业意义 - 比赛由第三方机构Nof1于10月18日发起,汇集全球六大顶尖模型Qwen3-Max、DeepSeek v3.1、GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.5、Grok 4 [1] - 每个模型获得1万美元初始资金及实时金融市场数据,在真实市场中自主决策交易,全程无人工干预,是AI处理实时现实世界任务的真实评测 [1] - 比赛采用统一输入方式,所有模型接收相同市场数据和提示词,交易记录持仓和账户价值实时公开,保证公平透明 [2] 中国模型行业地位 - 根据OpenRouter 7月榜单,中国DeepSeek和阿里通义千问跻身全球前五,通义千问以10.4%市场份额超越OpenAI的4.7%位列第四 [14] - OpenRouter数据显示成长最快前10大模型中9个是开源的,Qwen3-Coder调用量以近500亿Tokens高居第一,通义千问包揽前三并在前十中占据五席 [14] - 行业人士指出阿里千问和DeepSeek的实战表现证明中国模型在解决实际问题上的强大潜力,AI对场景的深刻理解将成为大模型落地和全球AI竞赛的关键 [14]
首届AI实盘投资大赛:阿里千问20%收益率夺冠,DeepSeek第二,美国四大模型均亏损