Workflow
计算扩展
icon
搜索文档
仅用提示词工程摘下IMO金牌!清华校友强强联手新发现,学术界不靠砸钱也能比肩大厂
量子位· 2025-08-02 05:23
核心观点 - 两位清华校友通过设计自我迭代验证流程和提示词优化,使Gemini 2.5 Pro在IMO题目解答中达到金牌水平 [1][4][6] - 基础大模型已具备解决复杂数学推理问题的能力,但需要特定提示词和迭代验证才能充分发挥潜力 [6][7][9] - 该方法突破了单次生成中有限推理预算和初始答案错误的局限性,将LLM潜在能力转化为严谨数学证明 [24] 技术方法 - 采用通用提示词+迭代验证流程,包括初始解决方案生成、自我改进、验证解决方案、审查错误报告、纠正改进解决方案和最终接受/拒绝解决方案六个步骤 [16][17] - 使用Gemini 2.5 Pro作为求解器和验证器,分别采用差异化提示词设计 [16][18] - 验证器模拟IMO评分专家,将问题分为关键错误和论证缺口两类,通过多次迭代降低误判影响 [19][20] - 实验选择IMO 2025题目以避免训练数据污染,设置温度值0.1减少随机错误 [20] 实验结果 - Gemini 2.5 Pro在IMO 6道题目中完成5道,其中前两道题目生成有提示和无提示两种解决方案 [23] - 未解决的第六题因验证器未能区分求解器输出的假阳性答案细节 [24][40] - 使用提示后模型一次独立实验即可解决题目,未使用时思维发散且可能需要多次实验 [39] - 不同题目需要的tokens数在300k到5000k之间,计算时间最快10分钟/题 [38] 模型对比 - Gemini 2.5 Pro在IMO测试中准确率31.55%,成本$431.97,显著高于其他模型 [9] - 对比模型表现:o3(high)准确率16.67%,o4-mini(high)14.29%,Grok 4 11.90%,DeepSeek-R1-0528 6.85% [9] - 研究人员预计使用Grok 4、OpenAI-o系列或多智能体系统可能产生更强数学能力 [25] 研究团队 - 黄溢辰:加州大学伯克利分校物理学博士,曾任职微软AI研究员,研究方向包括量子物理学和机器学习 [28][31] - 杨林:加州大学洛杉矶分校副教授,研究重点为强化学习、机器学习和优化理论,曾获亚马逊教授奖等荣誉 [33][35] - 团队证明学术界利用有限资源也能做出与大厂同等重要的成果 [36][43]
黄仁勋,碰到大麻烦
半导体行业观察· 2025-03-30 02:56
核心观点 - Nvidia面临多重挑战,包括计算扩展、电力需求和数据中心基础设施限制,这些挑战推动其向更大、更密集、更高功耗的计算平台发展 [1][2][8] - 公司计划到2027年推出600kW机架级系统,并已公布未来三代GPU技术路线图以引导行业适应其发展方向 [5][17] - 数据中心运营商和云服务商正面临适应高功耗AI硬件的挑战,导致部分项目延迟或取消 [12][13][15] - 中国市场的不确定性对Nvidia业务构成风险,可能影响其在中国13%的收入份额 [20] 计算扩展挑战 - 工艺技术进步放缓迫使Nvidia采用扩大硅片数量的策略,当前系统整合72个GPU,计划提升至每机架576个GPU [2] - Blackwell芯片性能提升5倍但需要两倍芯片数量和500瓦以上功率,实际FP16性能仅比前代快1.25倍 [2][3] - 2028年将推出的Feynman系列GPU显示长期技术规划 [1] 电力与散热问题 - 预计2027年机架功率达600kW,数据中心电力供应成为实际限制因素 [5][8] - 液冷成为必需,现有数据中心设施难以支持120kW以上机架 [11][13] - 施耐德电气投资7亿美元扩大电源和冷却设备生产以应对需求 [11] 技术演进方向 - 下一代Rubin Ultra将内存容量从288GB提升至1TB,带宽从4TB/s增至8TB/s [6] - 采用4位数据类型等精度降低技术提升性能,但面临精度过低影响模型质量的限制 [7] - 削减FP64性能以换取50%以上的4位FLOPS提升,显示计算精度取舍 [7] 数据中心适应挑战 - 微软等云服务商推迟数据中心建设,部分因现有设施无法满足高功耗AI硬件需求 [12][13] - 改造现有数据中心需24个月,新建设施面临部件和能源短缺问题 [15] - 超大规模企业需重新设计数据中心以支持超密集设备,短期可能转向推理负载 [15] 中国市场影响 - 中国占Nvidia收入的13%(171亿美元),但能效新规可能限制H20芯片使用 [20] - 面临技术调整压力及本土竞争对手如华为的竞争风险 [20]