Workflow
FinSearchComp
icon
搜索文档
马斯克转发字节Seed&哥大商学院新基准:大模型搞金融,连查个股价都能出错
搜狐财经· 2025-09-21 02:34
评测结果令人深思: 在全球数据集上,表现最好的Grok 4 (web)准确率达到68.9%,但仍落后人类专家6.1个百分点。在大中华区数据集上,豆包(web)虽然领先其他模型,但与 人类专家88.3%的准确率相比,差距超过34个百分点。 这些数字清晰地表明,即使是最先进的AI系统,在处理复杂金融分析任务时仍有很大提升空间。 允中 编辑整理 量子位 | 公众号 QbitAI 让AI像金融分析师一样搜索和分析数据,到底有多难?当前的大模型虽然能回答基础金融知识,在CFA考试中取得高分,但面对真实的金融场景,它们的 表现究竟如何? 为了回答这个问题,字节跳动Seed团队联合哥伦比亚大学商学院推出了FinSearchComp,这是首个完全开源的金融搜索与推理基准测试。该基准包含635 个金融专家精心设计的问题,覆盖全球和大中华两个市场,并在多个主流模型产品上进行了全面评测。 该基准测试发布后获得了业界的广泛讨论,马斯克也关注并转发。 学界专家们认为,这进一步凸显了金融AI能力评估在当前技术发展阶段的重要性和现实意义。 三类任务,递进式难度设计 金融分析是检验AI能力的绝佳试金石。分析师的日常工作涉及大量复杂的信息搜索 ...
马斯克转发字节Seed&哥大商学院新基准:大模型搞金融,连查个股价都能出错
量子位· 2025-09-21 02:11
允中 编辑整理 量子位 | 公众号 QbitAI 让AI像金融分析师一样搜索和分析数据,到底有多难?当前的大模型虽然能回答基础金融知识,在CFA考试中取得高分,但面对真实的金融场 景,它们的表现究竟如何? 为了回答这个问题, 字节跳动Seed团队联合哥伦比亚大学商学院推出了FinSearchComp,这是首个完全开源的金融搜索与推理基准测试。 该基准包含635个金融专家精心设计的问题,覆盖全球和大中华两个市场 ,并在多个主流模型产品上进行了全面评测。 评测结果令人深思: 在全球数据集上,表现最好的Grok 4 (web)准确率达到68.9%,但仍落后人类专家6.1个百分点。在大中华区数据集上,豆包(web)虽然领先 其他模型,但与人类专家88.3%的准确率相比,差距超过34个百分点。 这些数字清晰地表明,即使是最先进的AI系统,在处理复杂金融分析任务时仍有很大提升空间。 举例来说,看似简单的"查询IBM最新收盘价"需要快速获取并验证最新数据;"检索星巴克2020年9月的总资产"需要准确定位时间点并理解会 计准则;而"识别2010年以来标普500单月最大涨幅"则需要跨越多个时期进行数据处理。 这些任务展现了金融 ...