Prophet Arena - 财报，业绩电话会，研报，新闻

Prophet Arena

搜索文档

机器之心· 2025-09-20 04:37

文章核心观点 - AI预测能力是衡量智能的最佳标准未来预测将成为AI发展的重要方向 [2][4][5] - MiroMind团队开发的预测大模型在FutureX基准测试中连续夺冠展示了在实时未来事件预测领域的领先地位 [2][8] - 预测大模型在金融、体育、政治等跨领域应用具有重大价值能够为投资决策和风险规避提供前瞻性洞察 [2][5][13] FutureX预测基准 - 全球首个动态实时LLM智能体未来预测基准由字节跳动SEED团队联合斯坦福大学等机构共同推出 [5] - 从200多个高质量网站精选下周才有明确结果的问题涵盖股票价格、体育比赛、政治选举和科技公司战略走向等领域 [5] - 要求AI基于当前信息进行逻辑推理和趋势分析推动AI在真实世界复杂场景中的实用能力提升 [5] MiroMind技术成果 - 在FutureX榜单上连续两周蝉联冠军搭载GPT-5的MiroFlow框架位居榜首自研模型MiroThinker位列前五 [8] - 成功预测2025年9月9日ATP男子单打排名第4-6位选手克服网球排名系统复杂变量挑战 [10] - 准确预测2025年9月11日Solana加密货币关键价格档位突破展现系统建模和风险控制能力 [11] - 在GAIA-Validation基准取得82.4%优异成绩在HLE、BrowseComp和xBench-DeepSearch等测试中领先国际对手 [12] 预测方法论 - 网球排名预测采用五步策略：制定计划、获取基础数据、理解积分规则、动态信息更新、概率分析与综合判断 [13] - 加密货币预测采用六步策略：构建市场基准线、量化短期波动空间、梳理外部因素、分析市场情绪、挑选价格档位、交叉验证 [13] - 核心能力包括信息洞察力、逻辑推理与趋势感知、概率与不确定性管理、跨领域整合能力 [13] 技术框架与开源 - MiroFlow提供完全开源可复现的框架和配置致力于建设创新者平台 [12] - 为研究者和开发者提供基础框架、模型和工具链完整支持支持多Agent协作和多模态理解前沿探索 [12] - 自研旗舰基础智能体模型MiroThinker具备强大推理、决策和多模态理解能力即将以完全开源形式向全球开放 [15] 行业影响与发展 - AI预测能力将改变投资和规划方式使决策从盲目试错转向提前洞察趋势和把握机遇 [2] - 预测大模型在金融市场价格波动、体育赛事结果、政治选举等跨领域应用展现巨大潜力 [5][10][11] - 陈天桥旗下MiroMind团队从网络游戏、脑科学研究转向AI预测前沿探索正在开发长期记忆模块嵌入模型 [17][18]

Artificial Intelligence

AGI

Artificial Intelligence

MiroFlow

MiroThinker

FutureX

Artificial Intelligence

AGI

Artificial Intelligence

MiroFlow

MiroThinker

FutureX

AI版华尔街之狼，o3-mini靠「神之押注」狂赚9倍，DeepSeek R1最特立独行

36氪· 2025-08-18 06:58

核心观点 - 全新基准测试Prophet Arena通过预测真实世界事件评估AI的预言能力该测试结合市场共识、自动化预测和信息整理旨在衡量AI在不确定性推理、信息整合和概率预测方面的表现 [1][9][10] 基准测试设计 - Prophet Arena从Kalshi和Polymarket等预测市场平台选取热门周期性真实事件作为考题包括政治、体育、经济等多个领域 [12][13] - 测试流程分为情报收集、提交预测和结果揭晓三个阶段 AI需利用搜索引擎整理情报简报并提交概率分布报告 [14][15][16] - 评估指标采用Brier分数（衡量准确度和校准度）和模拟投注平均回报并引入项目反应理论和广义Bradley-Terry模型等高级统计方法 [18] AI模型表现对比 - 在2025年降息次数预测中 GPT-5预测精确2次降息概率43% Grok 3 Mini为40% Gemini 2.5 Flash预测恰好1次降息概率35% [4] - 关于经济衰退预测 o3 Mini认为不会衰退概率90% GPT-5为60% [4] - 在NBA冠军预测中 Gemini 2.5 Flash预测凯尔特人2027年前再次夺冠概率95% Llama 4任性版为85% [4] - OpenAI的o3-mini模型在平均回报指标上名列前茅例如在美职足比赛中通过识别市场定价偏差实现单笔投注9倍回报 [40][42][43] 预测行为特征 - AI模型表现出明显风险偏好差异例如在AI监管立法预测中 Qwen3给出75%概率而Llama 4 Maverick仅35% 远高于市场25%的共识 [35][36] - 高回报预测常出现在Brier分数0.3-0.5区间主要来自体育比赛爆冷例如温网比赛中AI通过识别84%市场胜率与80%实际评估的微小差异实现6倍回报 [22][23][25][27] - 模型间预测差异显著 DeepSeek R1与其他模型L2距离持续高于0.7 而Grok-4与GPT-5的L2距离通常低于0.3 显示算法校准机制差异 [46][47][48] 预测市场数据 - Polymarket平台显示 NVIDIA被72%预测为2025年底最大公司 Microsoft为20% [13] - Google在8月底最佳AI模型预测中获93%支持率 OpenAI仅3% [13] - 特斯拉2025年推出无人驾驶Robotaxi服务预测概率67% [13] - 美联储9月降息25bps概率74% 维持利率概率24% [13]