Workflow
Prophet Arena
icon
搜索文档
陈天桥旗下AI公司MiroMind打造全球顶尖预测型大模型,性能登顶行业基准
机器之心· 2025-09-20 04:37
文章核心观点 - AI预测能力是衡量智能的最佳标准 未来预测将成为AI发展的重要方向 [2][4][5] - MiroMind团队开发的预测大模型在FutureX基准测试中连续夺冠 展示了在实时未来事件预测领域的领先地位 [2][8] - 预测大模型在金融、体育、政治等跨领域应用具有重大价值 能够为投资决策和风险规避提供前瞻性洞察 [2][5][13] FutureX预测基准 - 全球首个动态实时LLM智能体未来预测基准 由字节跳动SEED团队联合斯坦福大学等机构共同推出 [5] - 从200多个高质量网站精选下周才有明确结果的问题 涵盖股票价格、体育比赛、政治选举和科技公司战略走向等领域 [5] - 要求AI基于当前信息进行逻辑推理和趋势分析 推动AI在真实世界复杂场景中的实用能力提升 [5] MiroMind技术成果 - 在FutureX榜单上连续两周蝉联冠军 搭载GPT-5的MiroFlow框架位居榜首 自研模型MiroThinker位列前五 [8] - 成功预测2025年9月9日ATP男子单打排名第4-6位选手 克服网球排名系统复杂变量挑战 [10] - 准确预测2025年9月11日Solana加密货币关键价格档位突破 展现系统建模和风险控制能力 [11] - 在GAIA-Validation基准取得82.4%优异成绩 在HLE、BrowseComp和xBench-DeepSearch等测试中领先国际对手 [12] 预测方法论 - 网球排名预测采用五步策略:制定计划、获取基础数据、理解积分规则、动态信息更新、概率分析与综合判断 [13] - 加密货币预测采用六步策略:构建市场基准线、量化短期波动空间、梳理外部因素、分析市场情绪、挑选价格档位、交叉验证 [13] - 核心能力包括信息洞察力、逻辑推理与趋势感知、概率与不确定性管理、跨领域整合能力 [13] 技术框架与开源 - MiroFlow提供完全开源可复现的框架和配置 致力于建设创新者平台 [12] - 为研究者和开发者提供基础框架、模型和工具链完整支持 支持多Agent协作和多模态理解前沿探索 [12] - 自研旗舰基础智能体模型MiroThinker具备强大推理、决策和多模态理解能力 即将以完全开源形式向全球开放 [15] 行业影响与发展 - AI预测能力将改变投资和规划方式 使决策从盲目试错转向提前洞察趋势和把握机遇 [2] - 预测大模型在金融市场价格波动、体育赛事结果、政治选举等跨领域应用展现巨大潜力 [5][10][11] - 陈天桥旗下MiroMind团队从网络游戏、脑科学研究转向AI预测前沿探索 正在开发长期记忆模块嵌入模型 [17][18]
AI版华尔街之狼,o3-mini靠「神之押注」狂赚9倍,DeepSeek R1最特立独行
36氪· 2025-08-18 06:58
核心观点 - 全新基准测试Prophet Arena通过预测真实世界事件评估AI的预言能力 该测试结合市场共识、自动化预测和信息整理 旨在衡量AI在不确定性推理、信息整合和概率预测方面的表现 [1][9][10] 基准测试设计 - Prophet Arena从Kalshi和Polymarket等预测市场平台选取热门周期性真实事件作为考题 包括政治、体育、经济等多个领域 [12][13] - 测试流程分为情报收集、提交预测和结果揭晓三个阶段 AI需利用搜索引擎整理情报简报并提交概率分布报告 [14][15][16] - 评估指标采用Brier分数(衡量准确度和校准度)和模拟投注平均回报 并引入项目反应理论和广义Bradley-Terry模型等高级统计方法 [18] AI模型表现对比 - 在2025年降息次数预测中 GPT-5预测精确2次降息概率43% Grok 3 Mini为40% Gemini 2.5 Flash预测恰好1次降息概率35% [4] - 关于经济衰退预测 o3 Mini认为不会衰退概率90% GPT-5为60% [4] - 在NBA冠军预测中 Gemini 2.5 Flash预测凯尔特人2027年前再次夺冠概率95% Llama 4任性版为85% [4] - OpenAI的o3-mini模型在平均回报指标上名列前茅 例如在美职足比赛中通过识别市场定价偏差实现单笔投注9倍回报 [40][42][43] 预测行为特征 - AI模型表现出明显风险偏好差异 例如在AI监管立法预测中 Qwen3给出75%概率而Llama 4 Maverick仅35% 远高于市场25%的共识 [35][36] - 高回报预测常出现在Brier分数0.3-0.5区间 主要来自体育比赛爆冷 例如温网比赛中AI通过识别84%市场胜率与80%实际评估的微小差异实现6倍回报 [22][23][25][27] - 模型间预测差异显著 DeepSeek R1与其他模型L2距离持续高于0.7 而Grok-4与GPT-5的L2距离通常低于0.3 显示算法校准机制差异 [46][47][48] 预测市场数据 - Polymarket平台显示 NVIDIA被72%预测为2025年底最大公司 Microsoft为20% [13] - Google在8月底最佳AI模型预测中获93%支持率 OpenAI仅3% [13] - 特斯拉2025年推出无人驾驶Robotaxi服务预测概率67% [13] - 美联储9月降息25bps概率74% 维持利率概率24% [13]