Workflow
AlphaEvolve
icon
搜索文档
美国「曼哈顿计划」启动,OpenAI谷歌等24巨头打响「科技珍珠港之战」
36氪· 2025-12-19 07:54
文章核心观点 - 美国政府于2025年11月正式启动名为“创世纪任务”的国家级AI战略计划,旨在打造首个AI驱动的科研平台,加速科学发现,标志着美国科技战略从各自为战转向系统性集体攻关 [1] - 该计划被类比为“AI曼哈顿计划”,其核心目标是通过整合顶尖AI技术、国家实验室资源与超级计算能力,将科学发现速度提升一个数量级,并重塑国家科研体系的底层结构 [1][13][14] - 计划释放出AI已从商业竞争工具升级为国家战略能力与科研基础设施的关键信号,未来国家科技竞争的核心在于谁能将AI深度嵌入科研体系以改写科学发现的速度曲线 [28][29][33] 计划概况与目标 - **计划性质与启动**:计划由美国总统发布行政命令启动,是美国能源部与白宫签署的历史性合作文件,名为“创世纪任务” [1][16] - **核心目标**:打造全国首个AI驱动的科研平台,利用人工智能与超级计算能力加速可控核聚变、能源材料发现、气候模拟、量子计算算法等重大科学研究 [1] - **量化目标**:目标是到2030年,将美国的科学生产力翻倍 [7] - **战略意义**:标志着美国在科技领域的国家级战略调整,旨在确保未来技术领先地位 [1][25] 参与方与合作模式 - **参与企业范围**:集结了微软、谷歌、英伟达、OpenAI、DeepMind、Anthropic等24家美国顶尖科技公司,覆盖了AI产业的全栈力量 [5][19][21] - **历史性合作**:OpenAI和谷歌作为AI领域最大的竞争者,史上首次携手共同推动前沿科学突破 [6] - **企业类型分类**: - 云与平台:Microsoft、Google、AWS、Oracle、IBM [21] - AI模型公司:OpenAI、Anthropic、xAI [21] - 芯片与算力:Nvidia、Intel、AMD、HPE [21] - 新型AI芯片:Cerebras、Groq [21] - 数据与分析公司:Palantir等 [21] - **合作模式**:科技公司提供AI模型、云计算基础设施和开发平台,与国家实验室的科研能力和数据资产相结合 [7][21] 核心实施机构与资源 - **牵头部门**:美国能源部,因其管理着全球最顶级的超级计算机、拥有战略级科研数据及承担非商业化但战略级的研究任务 [16][18] - **核心科研资产**:计划依托能源部旗下的17个国家实验室,包括洛斯阿拉莫斯、劳伦斯伯克利、阿贡和橡树岭等国家实验室 [13] - **资源整合**:计划将国家实验室、超级计算机(如Frontier、Aurora)及数据资产统一到一个AI平台 [13][14] 对关键参与公司的具体影响 - **英伟达**:作为计划中最关键的技术支点之一,国家实验室的超级计算机几乎全部基于其GPU,该计划是其AI与高性能计算长期战略的国家级兑现 [22] - **微软与谷歌**:角色清晰,负责提供云计算基础设施和AI开发平台,未来国家实验室的AI很可能直接运行在其云服务上 [21] - **OpenAI与Anthropic**:意义重大,意味着其大模型将进入核物理、材料科学等硬核科学领域,成为“科学发现引擎”的一部分,而不再局限于聊天、办公等应用 [24] - **谷歌具体承诺**:将把Gemini 3的推理能力应用于核聚变等离子体模拟、气候建模及新材料搜索,并在2026年为国家实验室提供AlphaEvolve、AlphaGenome和WeatherNext等工具 [8] 计划将如何改变科研范式 - **传统流程颠覆**:计划将把传统的“提出假设→设计实验→申请算力→跑模拟→分析数据”长达数年的科研周期,颠覆为“AI自动生成假设→AI设计实验→AI运行模拟→AI分析结果→人类决策”的新范式 [25][26] - **具体应用实例**: - 材料科学:AI可在几天内筛选上亿种材料组合 [26] - 气候研究:AI可替代部分昂贵的物理仿真 [26] - 核聚变领域:AI可优化等离子体控制参数 [26] - **定位**:该计划被视为一个“AI版的国家科研操作系统”,旨在把AI变成科研的“默认工具”,并将最先进的AI能力引入公共科研体系 [13]
腾讯研究院AI速递 20251215
腾讯研究院· 2025-12-14 16:01
OpenAI GPT-5.2发布与市场反馈 - OpenAI在十周年发布号称“最强专业知识工作模型”的GPT-5.2系列,但上线24小时后在X平台和Reddit上遭遇用户集体差评,被批评过于平淡、安全审查过度、情商堪忧 [1] - 第三方基准测试显示GPT-5.2表现不佳:在SimpleBench测试中得分低于一年前的Claude Sonnet 3.7,在LiveBench测试中得分低于Opus 4.5和Gemini 3.0,甚至在简单问题上回答错误 [1] - 用户最诟病的是其安全拒绝机制过于严格,导致模型的共情力和语境感知能力下降,在情感支持等场景中给出的建议机械且脱离现实 [1] 谷歌推出Gemini Deep Research Agent - 在GPT-5.2发布前一小时,谷歌推出全新版Gemini Deep Research Agent,该产品基于Gemini 3 Pro构建,并通过多步强化学习训练以提高准确性并减少幻觉 [2] - 新版Agent在多项基准测试中取得领先成绩:在Humanity's Last Exam测试集中达到46.4%,在DeepSearchQA上取得66.1%,在BrowseComp测试中获得59.2%的高分 [2] - 谷歌同步推出了开源的网络研究Agent基准DeepSearchQA和全新的交互式API,后者支持服务器端状态管理、远程MCP工具调用和后台执行长时间推理循环 [2] Runway发布通用世界模型GWM - Runway正式发布5大更新,包括升级的Gen-4.5旗舰视频模型和首个通用世界模型GWM-1,前者支持原生音频生成编辑和多镜头编辑功能 [3] - GWM-1是一个自回归模型,支持逐帧预测和实时干预,包含三种变体:可探索环境的GWM Worlds、对话角色的GWM Avatars和机器人操作的GWM Robotics [3] - 英伟达CEO黄仁勋发来祝贺视频,标志着行业从单纯的“视频生成”迈向真正的“世界模拟”,AI开始理解物理世界的底层逻辑 [3] 谷歌AI翻译与浏览器创新 - 谷歌翻译引入Gemini模型能力,推出支持任何品牌耳机的实时语音翻译Beta版,覆盖超过70种语言,并能保留说话者的语调、重音和节奏 [4] - 文本翻译引擎经过重构,能智能解析俚语和成语的上下文,而非生硬逐字翻译,支持英语与近20种语言(包括中文、日语、德语等)互译 [4] - Chrome团队在Google Labs推出实验性浏览器Disco,其核心概念是GenTabs生成式标签页,可将网页内容转化为包含地图、行程表的交互式微型应用 [4] 腾讯混元3D模型与拓竹科技合作 - 拓竹科技旗下3D模型平台MakerWorld全面升级,接入腾讯混元3D 3.0大模型,并上线全新手办生成器“印你”,用户只需上传一张图片即可生成可打印的3D模型 [5][6] - 混元3D 3.0首创3D-DiT分级雕刻技术,建模精度提升3倍,几何分辨率高达1536³,支持36亿体素超高清建模,使五官更立体、细节更锐利、纹理更逼真 [6] - MakerWorld平台已有20款各具特色的建模工具,吸引全球超过200万用户,此次接入顶尖生成式AI技术使设计周期大幅缩短,创作不再受限于建模技术 [6] 迪士尼与OpenAI达成战略合作 - 迪士尼向OpenAI进行10亿美元股权投资,并获得购买额外股权的认股权证,这是Sora平台首次迎来大型内容授权合作伙伴 [7] - 双方达成三年期许可协议,第一年具有排他性,Sora和ChatGPT Images将获得迪士尼旗下超过200个角色授权,包括米老鼠、漫威、皮克斯和星球大战角色,但不包含真人肖像或声音 [7] - 迪士尼将利用OpenAI的API构建新产品工具覆盖Disney+流媒体平台,为员工部署ChatGPT用于内部工作流程,粉丝精选创作视频将在Disney+播放 [7] AI在数学研究领域取得突破 - 数学家埃尔德什于1975年提出的Erdos1026问题困扰数学界50年,在AI辅助下,人类团队仅用48小时便攻克并给出正式证明,陶哲轩称AI带来了全新理解,绝非简单搜索 [8] - Harmonic的AI系统Aristotle在Lean证明辅助语言中自动证出c(k²)=1/k,AlphaEvolve系统则探索c(n)数值结果帮助提炼出干净公式 [8] - AI通过深度搜索找到了2024年Baek、Koizumi、Ueoro论文的完整解,这在传统模式下可能需要数周甚至数月,此次证明了AI在生成新数学洞见而非仅检索现有文献方面的能力 [8] 宇树科技推出人形机器人应用商店 - 宇树科技正式上线行业内首个致力于将人形机器人功能模块化、标准化的内容分发平台——人形机器人应用商店,旨在解决复杂动作开发难、用户上手门槛高的问题 [9] - 应用商店集成用户广场、动作库、数据集及开发者中心四大核心模块,用户无需底层代码编写能力即可像安装手机软件一样一键部署云端运动控制算法 [9] - 首批上线应用包括基于G1系列机器人的“李小龙”截拳道与“扭扭舞”预设,通过独家动力学算法结合高精度动作捕捉数据,将武术动作库无缝移植到机器人硬件 [9] DeepMind科学家对AGI发展的预测 - Google DeepMind首席AGI科学家Shane Legg预测,最小AGI有50%的可能性在2028年实现,完全AGI将在最小AGI出现后3-6年内实现,随后进入超级智能ASI阶段 [10] - 他认为AGI并非一个临界点,而是一个连续光谱,分为三阶段:最小AGI能完成普通人的典型认知任务,完全AGI能完成最杰出人类的认知任务,ASI全面超越人类所有认知领域 [11] - AGI将导致倒挂式结构性失业,高层认知工作首当其冲,基层体力工作暂时安全,社会需要重新设计分配机制并重构人类在失去工作身份后的幸福定义 [11] 生成式AI用户趋势与市场格局 - Similarweb发布的2025年度AI报告显示,全球生成式AI平台月访问量超过70亿次,同比暴涨76%,移动端App下载量达19亿次,一年内翻了3倍多 [12] - 18-34岁用户占比反而下降约15%,说明年纪更大的用户正在快速涌入,ChatGPT已跻身全球前五大网站,但95%的用户仍同时使用谷歌,形成互补双入口格局 [12] - AI Mode成为首个访问量突破1亿的生成式AI搜索功能,互联网正从“被搜索检索”变成“被AI谈论” [12]
半世纪难题48小时破解!陶哲轩组队把AI数学玩成打怪游戏了
量子位· 2025-12-13 04:34
事件概述:AI辅助解决Erdős 1026数学难题 - 陶哲轩与多名数学家合作,在多种AI工具的辅助下,仅用48小时便完全解决了尘封50年的Erdős 1026数学难题[1][2][3] - 陶哲轩指出,若使用传统方法,可能需要数周或数月才能解决[5] - 此次问题的快速解决,体现了“人与人的协作”与“人与AI的协作”相结合的新趋势[46][47] 问题背景与定义 - Erdős 1026问题最早于1975年被提出,初始表述模糊[8] - 数学家Desmond Weisenberg引入最大常数c(n)进行研究,使得S(x1,…,xn) ≥ c(n) * Σxi,其中c(n)针对所有长度为n的不同实数序列[10][11] - 博弈论解释:Alice将N个硬币分为n堆,Bob选择一个单调子序列的堆并拿走其中硬币,c(n)是Bob能保证拿走的最小比例[12][13] - 通过计算得到c(n)的前几个近似值:1, 1, 2/3, 1/2, 1/2, 3/7, 2/5, 3/8, 1/3[15] 解决过程与AI工具应用 - 数学家Boris Alexeev使用Harmonic的数学AI模型“亚里士多德”,在证明助手Lean中自动构造并证明了关键不等式,将原问题转化为计算几何领域的矩形填充问题[16][17] - 数学家Koishi Chan随后给出了基于原始Erdős–Szekeres定理的替代证明,印证了AI的发现[18] - 陶哲轩将问题放入AlphaEvolve,要求其通过生成总和为10的6次方的实数序列来获取c(n)的上界,运行一小时后,AI生成了包含结构清晰潜在极值解的上界结果[18][19] - 陶哲轩利用John Cook的公开专用工具整理序列,为c(n)的值提供了猜想[21] - Boris Alexeev找到了该猜想的简洁表述:c(k²+2a+1) = k / (k²+a),其中0 ≤ a ≤ k[22] - 使用ChatGPT Pro生成1/c(n)的图像,直观显示其基本是对平方根函数的分段线性逼近[26] - 数学家Lawrence Wu结合正方形填充问题(Erdős 106)进行阐述,引入f(n)并设定c(n) ≥ 1/f(n)[28][30] - Lawrence Wu通过AI论文检索,找到一篇去年发表的论文,最终证明了猜想中的公式,从而完成了整体证明[32] AI在数学研究中的广泛应用 - 陶哲轩近期还借助Gemini 2.5 Deep Think破解了Erdős问题 367,全程只用了十分钟[34][35] - 陶哲轩利用GPT-5进行半自动化文献检索,对相关数列进行高精度计算后输入OEIS数据库检索对照,发现部分Erdős问题其实早已在既有研究中被解决[37] - 来自Harmonic的数学AI模型被曝独立证明了Erdős问题 124,微软前AI副总裁Sebastien Bubeck表示该解决方案100%由AI生成,总计耗时6小时[43][44] - Erdős问题网站公开鼓励使用AI辅助解题,但需满足公开说明、用户独立验证及评论长度合理等条件[45] - 陶哲轩表示,在Erdős问题网站上,AI辅助已经变得很常见[42] Erdős问题背景 - Erdős问题出自20世纪著名匈牙利数学家Paul Erdős,他一生合作了超500位数学家,发表了约1525篇数学论文[39] - 他提出或转述了上千道问题,被收录于erdosproblems.com网站,目前绝大多数难题依然悬而未解[39][41]
AI for Science,走到哪一步了?
36氪· 2025-12-03 09:15
科学智能技术演进与谷歌DeepMind引领作用 - 谷歌DeepMind凭借以TPU为核心的AI算力基础设施和以Gemini为基础的大模型底座,持续深耕科学智能技术超过十年,引领全球技术演进[4] - AlphaFold标志着蛋白质结构预测问题的实质性解决,不仅斩获2024年诺贝尔化学奖,更成为现代生物学的数字基础设施[4] - AlphaProteo推动生物学研究正式跨入生成式生物学时代,结合AlphaMissense精准预测基因突变致病性,打通"靶点发现—结构解析—药物设计"全链路[4] - WeatherNext 2模型在99.9%的预测变量与时间跨度上准确率均优于欧洲中期天气预报中心的HRES系统,且推理速度提升了数个数量级[5] - GNoME预测了数百万种稳定的新材料结构,规模相当于人类过去几十年实验发现总和的数倍,为电池技术与超导材料研发提供庞大候选库[5] - AlphaEvolve引入进化计算范式,自动搜索发现更高效的机器学习算法与损失函数,实现从"人工设计"到"自动发现"的元层级跨越[6] 生物学领域科学智能突破 - 谷歌和耶鲁大学联合发布270亿参数单细胞分析基础模型C2S-Scale,生成关于癌细胞行为的全新假设并在体外实验中得到验证[8] - 微软BioEmu模型在蛋白质动力学模拟方面实现高达10万倍的模拟速度提升,中科院团队提出整合结构和进化约束的反向折叠蛋白质预测模型[9] - 谷歌通过10年持续研发构建了从基因测序、读取到疾病基因检测和诊断的AI基因组学研究和应用体系[9] - 腾讯DeepGEM病理大模型只需常规病例切片图像即可在1分钟内完成肺癌基因突变预测,精准度达78%至99%[10] - 谷歌发布DeepSomatic工具集用于肿瘤细胞基因变异识别,适用于白血病、乳腺癌、肺癌等癌症类型[10] - AI优化候选药物MTS-004已完成III期临床研究,成为国内首款完成III期临床的AI赋能制剂新药,突破过去几年AI驱动药物发现鲜有突破临床II期的瓶颈[10] 多学科科学智能应用拓展 - Periodic Labs开展新型超导材料等AI自动化发现,CuspAI获1亿美元A轮融资研发AI平台用于发现碳捕获新材料[11] - DeepMind飓风AI模型成功预测"梅利莎"等超强飓风路径和强度变化,黑洞理论物理学家利用GPT-5在半小时内推导出黑洞理论新特性[11] - 数学研究人员利用GPT5探索解决历史数学难题埃尔德什难题,英伟达开源模型系统GenCluster获得IOI 2025竞赛金奖[12] - OpenAI内部模型、Gemini Deep Think和DeepSeek Math-V2等大模型不断刷新AI在奥林匹克数学竞赛的金奖成绩[12] 科学智能科研范式重构 - 通用基础大模型成为科学智能的"操作系统",提供强大理解、推理、分析及生成能力,帮助科研人员大幅提升日常科研效率[14] - 科研专用大模型作为垂直科研领域的"专用引擎",融合特定领域相关知识以及研究方法与经验,谷歌在此方面综合实力处于全球领先[14] - AI智能体从被动工具转变为科学家的合作者甚至主动发现者,ToolUniverse平台包含超过600个科学工具并兼容主流基础大模型[15] - AlphaEvolve是具有编码能力的进化型AI智能体,可进行数学和计算通用算法的主动发现和自动化优化,已应用于谷歌内部实际场景[15] 自主实验室平台化发展 - MIT等美国多家科研高校和国家实验室已建成自主实验室,英国利物浦大学的材料创新工厂是欧洲最先进的自主实验室之一[16] - 美国《创世使命》计划将科研算力、AI基础模型、数据集及自主实验室体系集成为科学与安全平台,作为科研智能基础设施[16] - 晶泰科技的AI+机器人平台已成为核心竞争力,中科院"ChemBrain智能体+ChemBody机器人"和北京科学智能研究院Uni-Lab-OS加速推动国内自主实验室研发[17] - 磐石·科学基础大模型实现对数据和模型等资源的管理及科研工具调度,已在生命科学、高能物理和力学研究领域进行应用[17]
百度亮出秘密武器:一个自我演化的AI,给出了人类做不到的最优解
机器之心· 2025-11-14 09:30
产品核心定位与能力 - 百度发布全球首个可商用、自我演化的超级智能体“伐谋”,能够针对复杂问题自主寻找全局最优解 [6] - AI能力实现从“执行指令”到“自主发现”的跨越,可发现人类无法想到的解决方案 [6] - 该系统旨在解决难度极大、人类解决得不太好的问题,将人类智慧进行规模化扩展 [20] - 输入自然语言指令和必要数据,智能体即可自动设立项目进行研究,寻找解法 [2] 核心技术特点 - 结合大语言模型和进化搜索算法,通过大语言模型的推理能力与大规模进化搜索解决复杂现实世界问题 [8] - 具备四大核心技术:冷启动初始化、自适应多样性采样、领域专用评估器、分布式异步基础设施 [14] - 使用昆仑芯一体机进行运算,任务求解时间从数小时到数天不等 [13] - 工作流程包括智能体寻找算法、选择优势品种进化、生成新算法并由评估器判断质量,形成闭环 [12] 性能表现与基准测试 - 在MLE-Bench上达到43.56%的奖牌率,比人类中位数高出51.56% [13] - 在ALE-Bench上得分为1976.3,比专门设计的ALE-Agent高出5.2% [13] - 在KernelBench上实现2.08到20.77倍的加速比 [13] - 所有实验均全自动运行,无人类干预,且未针对Benchmark进行针对性优化 [16] 应用场景与行业落地 - 应用领域涵盖路径规划、过程控制、排产调度、资源优化、机器学习和性能优化 [18] - 在金融领域,中信百信银行风控特征挖掘风险区分度提升2.41%,特征挖掘效率提升100% [25] - 在城市交通领域,通过优化上千红绿灯配时找到全局最优解,提升整体交通效率 [25] - 在超级工程领域,为海上风电电缆布置找到比人工设计更短的路径,交付时间节省数倍 [25] - 正在水务、物流、能源等领域测试,预期可降低能耗、提升工作效率 [25] 市场反响与发展阶段 - 发布首日吸引超1000家企业申请接入测试,覆盖交通、能源、金融、物流等行业 [33] - 目前处于落地初期,通过邀请码形式优先向高复杂决策需求企业开放 [33][6] - 基于AI的自主优化引擎被视为AI大规模技术落地的前沿方向 [30][32] - 标志着AI正从“对话”走向“决策”,有望在业务链各环节显现优化能力 [31][32]
陶哲轩力推AlphaEvolve:解决67个不同数学问题,多个难题中超越人类最优解
36氪· 2025-11-07 07:40
文章核心观点 - AI工具AlphaEvolve作为数学发现的新范式,在可扩展性、鲁棒性和可解释性方面优于传统工具,并能自主发现新颖的数学构造,部分成果已超越人类最优结果[1][3][5] AlphaEvolve的测试范围与性能 - 在67个数学问题的测试中,涵盖组合数学、几何、数学分析与数论等多个领域[3] - 性能在可扩展性、鲁棒性、可解释性方面均优于传统工具[5] AI自主发现与超越人类成果 - 能够自主发现人类未曾一窥的新数学构造,例如在处理Nikodym集问题时为人类研究者提供直觉跳板[6] - 在算术Kakeya猜想中,将一个已知的下界从1.61226提升至1.668[10] - 其构造的解启发人类数学家建立了新的渐近关系[10] 人机协作成果 - 基于AI提供的结构,研究人员通过人工简化和直觉推演,改进了已知的上界,成果将作为独立数学论文发表[7] - 相关成果也即将发表[10] 结果的可解释性 - 系统生成结构清晰的程序代码,而非黑盒结果,便于人类专家分析归纳[10] - 在积木堆叠问题中,系统最终程序揭示了最优解与谐波数之间的数学关系,与人类已知理论一致[14] 系统的鲁棒性与泛化能力 - 研究人员设计了基于利普希茨连续性的更鲁棒的新评分函数,使系统迅速收敛到正确的理论最优解[19] - 在IMO 2025第6题测试中,系统仅基于完全平方数n的输入,成功发现并输出在所有完全平方数n上均达到最优的通用构造,展现出归纳能力[20][21] 应用效率与架构 - 仅需少量高质量提示即可驱动,领域专家的提示能显著提升最终构造质量[23] - 架构支持并行化,允许在多个问题实例上同时运行探索,并能自动迁移成功的搜索策略[23] AlphaEvolve的工作模式 - 主要在“搜索模式”和“泛化模式”下运行[24] - “搜索模式”演化用于搜索构造的程序(即搜索启发式算法),解决LLM调用缓慢与局部搜索快速之间的差异[24] - 系统演化一系列动态适应搜索进程的“改进器”函数[25] - “泛化模式”目标是编写能解决任意参数n的通用程序,期望系统通过观察小规模n的最优解,自主发现并归纳出通用公式或算法[26]
陶哲轩力推AlphaEvolve:解决67个不同数学问题,多个难题中超越人类最优解
量子位· 2025-11-07 05:32
核心观点 - AlphaEvolve被数学家陶哲轩称为数学发现的有力新工具,展示了AI在数学研究领域的强大能力 [1][2] 测试范围与成果 - 系统在67个数学问题上进行了测试,涵盖组合数学、几何、数学分析与数论等多个领域 [4] - 系统不仅复现了众多已知最优解,更关键的是能够自主发现新颖的数学构造,并在部分问题上超越人类已有的最优结果 [5][6][7] 自主发现与人机协作 - 在处理Nikodym集问题时,系统生成的构造为人类研究者提供了极好的直觉跳板,研究人员通过人工简化最终找到了更优构造,改进了已知上界,相关成果将作为独立数学论文发表 [8] - 在算术Kakeya猜想中,系统将一个已知的下界从1.61226提升至1.668,其构造的解(形态上类似于离散高斯分布)还启发人类数学家建立了新的渐近关系,相关成果也即将发表 [12] 系统特性优势 - 系统在可扩展性、鲁棒性、可解释性方面均优于传统工具 [9] - 系统生成的是结构清晰的程序代码,而非难以理解的黑盒结果,使得人类专家可以方便地分析、归纳其发现的模式 [12] - 在积木堆叠问题中,系统自主将递归程序重构为更简洁高效的显式程序,清晰揭示了最优解与谐波数之间的数学关系,与人类已知理论公式一致 [13][17] 鲁棒性与泛化能力 - 系统能够有效处理高维度参数空间、复杂的几何约束以及基于蒙特卡洛模拟的近似评分函数 [21] - 在最小三角形密度问题中,系统能适应从朴素评分函数切换到基于利普希茨连续性的更复杂连续评分函数,并迅速收敛到正确的理论最优解 [24][25] - 在IMO 2025第6题测试中,系统仅在输入n为完全平方数时被评分,这种信息限制迫使其寻找稀疏实例背后的共同结构模式,最终成功发现并在所有完全平方数n上均达到最优的通用构造,展现了归纳能力 [26][27][29] 效率与工作模式 - 系统效率极高,仅需少量高质量提示即可驱动,且对人类专家的输入具有高度敏感性,支持并行化架构以同时运行多个问题探索 [31] - 系统主要在两种模式下运行:"搜索模式"演化的是用于搜索构造的"搜索启发式算法"程序,解决了LLM调用缓慢与局部搜索快速之间的差异 [33][34][35] - "泛化模式"更具挑战性,目标是让系统编写能解决任意参数n问题的通用程序,期望其通过观察小规模n的最优解来自主发现并归纳出通用公式或算法 [37]
谷歌AlphaEvolve太香了,陶哲轩甚至发了篇论文,启发数学新构造
机器之心· 2025-11-06 08:58
AlphaEvolve系统概述 - 该系统是由Google DeepMind开发、由大型语言模型驱动的革命性进化编码智能体,能够自主发现极其复杂的算法,代码长度可达数百行[2] - 核心创新在于将大语言模型与进化计算、严格的自动化评估机制相结合,能够在大规模上发现显式数学构造,其结果可达到甚至超越许多长期数学问题中当前已知的最佳界限[8] - 该系统展示了AI系统与数学家之间全新互动方式的潜力,能够自主发现数学构造并补充人类直觉[11] 技术能力与性能表现 - 在覆盖数学分析、组合数学、几何学与数论的67个问题测试中,多数任务重新发现了已知最佳解,并在若干问题上取得了改进结果[9][10] - 系统具备从有限输入值结果泛化为适用于所有输入值通式的能力,在部分案例中甚至启发了新的数学论文[11][31] - 与传统数学研究方式相比,使用AlphaEvolve搭建并准备一个问题的时间通常只需数小时,而传统方法完成同等规模研究通常耗费更长时间[11] 核心技术机制 - 系统采用分层优化方法,具备同时在多个抽象层面上运行与优化的能力,不仅优化数学构造参数,还能优化发现这些构造的算法策略本身[12] - 引入"元层级进化"概念,优化过程本身成为被优化对象,系统能够自动为优化过程的不同阶段发现专门化的搜索启发式策略[12][13] - 系统在程序空间中进行搜索而非直接搜索解空间,通过简洁性与结构性先验帮助算法避开复杂局部最优点[24][25] 工作模式创新 - 搜索模式:进化搜索启发式算法,每个程序分配固定时间预算寻找最佳构造,有效解决计算速度不平衡问题[28] - 泛化器模式:要求系统编写能解决任意给定值的程序,基于一系列值上的表现进行评估,能够发现适用于所有参数的通用构造[31] - 构建AI工具流水线,结合模式发现(AlphaEvolve)、符号证明生成(Deep Think)和形式化验证(AlphaProof),实现从经验观察到形式化验证的完整闭环[33][34] 系统设计与关键洞察 - 验证器设计对系统性能和结果质量至关重要,连续损失函数比离散损失函数更能有效指导进化搜索过程[39] - 人类专家的提示和经验对最终构造质量有重大影响,领域专家使用AlphaEvolve的表现远胜于非领域专家[39][40] - 系统表现出"少即是多"的泛化特性,限制数据量反而能促进基本思想的涌现,跨问题训练可显著改善结果[41][42] 应用前景与局限性 - 系统擅长发现那些已在当前数学能力范围内但尚未被发现的构造,特别适用于需要大量时间和精力寻找特定问题标准思想正确组合的情况[43] - 对于需要真正新颖、深刻见解才能取得进展的问题,AlphaEvolve可能不是合适工具[44] - 未来可用于系统性地评估大类数学界限或猜想的难度,建立新的问题分类法,更有效地指导数学研究工作[45][46]
前OpenAI灵魂人物Jason Wei最新演讲,三大思路揭示2025年AI终极走向
36氪· 2025-11-03 03:02
AI发展的核心观点 - AI发展呈现渐进式而非爆发式超越人类,智能边界呈锯齿状,不同任务进展速率不同[33][42] - 所有能被验证的任务最终都会被AI解决,可验证性是AI攻克任务的关键驱动力[16][41] - 智能正成为商品化资源,知识获取成本趋近于零,公开信息价值下降而私有信息相对升值[5][15][40] 智能商品化 - AI能力发展分为前沿突破和能力商品化两个阶段,达到特定性能后成本快速下降[5] - MMLU等基准测试显示模型性能提升的同时达到特定分数的成本逐年下降[5] - 自适应计算技术使AI能根据任务难度动态调整算力,智能成本持续下降无需无限扩大模型规模[10][12] 验证者法则 - 存在验证非对称性现象:数独生成难验证易,网站代码生成极难但验证只需点击浏览[17][18] - 任务可验证性取决于五个因素:客观真值、验证速度、批量验证能力、低噪声稳定性、连续反馈质量[23] - AlphaEvolve案例展示通过生成候选答案、自动打分、迭代优化流程攻克易验证难求解任务[26][28][30] 智能锯齿边缘 - AI能力发展不均衡:代码调试和竞赛数学已攻克,化学研究和物理世界交互任务进展缓慢[34][35][38][39] - 任务数字化程度和数据丰富度决定AI攻克速度,前50种语言翻译已完成而意大利方言翻译可能永不攻克[37][40] - 对人类简单的任务对AI也简单,但AI能在癌症影像预测等人类极难领域实现超越[36] 知识民主化 - 信息获取时间从互联网时代数分钟缩短至Agent时代数秒,公开知识获取趋近零成本[14][40] - 编程和生物黑客等高门槛知识领域被大众化,内幕和独家信息价值因公开信息免费而相对提升[15] - 个性化互联网趋势使每个人可能拥有完全定制的知识入口[19]
陶哲轩敲警钟,谷歌DeepMind联手五大神殿,用AI向世纪难题宣战
36氪· 2025-10-30 04:12
谷歌DeepMind的AI赋能数学计划 - 谷歌DeepMind发起“AI赋能数学计划”,集结全球五大顶尖研究机构,旨在利用AI探索数学新领域[1][2] - 合作机构包括伦敦帝国学院、普林斯顿高等研究院、法国高等科学研究所、西蒙斯计算理论研究所和塔塔基础科学研究所[2] - 计划目标为发掘可借助AI获得突破的数学难题、构建相关基础设施与工具,并最终加速科学发现[6] AI在数学领域的近期技术进展 - 搭载Deep Think的Gemini模型在2024年IMO竞赛中达到金牌水平,完美破解5题拿下35分[11] - AlphaEvolve在数学分析、几何学等领域的50个公开难题上,于20%的题目中取得了最优解[14] - AlphaEvolve发明了全新的矩阵乘法方法,例如在4x4矩阵乘法问题上仅需48次标量乘法,打破了长达50年的历史纪录[14][16] 关于AI在数学研究中应用的讨论与建议 - 陶哲轩发起关于如何最佳融入AI、透明披露其作用并缓解风险的讨论[2][23] - 建议论文中对超出基础功能的AI实质性使用进行明确声明[26] - 建议讨论所用AI工具的一般性风险及已采取的缓解措施,例如应对内容虚构、缺乏可复现性等问题[27][28][29][31][32][33] - 强调论文所有作者必须为AI贡献内容承担最终责任[35]