Workflow
AlphaEvolve
icon
搜索文档
Transformer作者初创公司最新成果:开源新框架突破进化计算瓶颈,样本效率暴涨数十倍
量子位· 2025-09-28 11:54
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 开源框架实现样本效率提升数十倍! 同样的任务,以前要上千次的评估,现在150个样本就能完成。 Transformer作者Llion Jones带着自己的初创公司Sakana AI,又来搞事情了。(doge) 最新推出的开源框架—— ShinkaEvolve ,可以让LLM在自己写代码优化自己的同时,还能同时兼顾效率,be like为进化计算装上一个"加 速引擎"。 主要通过三项架构创新,在数学优化、智能体设计、竞争性编程等多个任务上证明了其性能优势。 可以说,性能比肩谷歌的 AlphaEvolve ,但样本更高效,而且还开源! 下面是更多具体细节。 三大创新技术的引入 想象一下,如果要让LLM通过进化计算找到问题的最优解,需要走多少步? 以AlphaEvolve为例,首先生成一个猜想,然后跑实验验证、吸取教训,再提出更好的猜想……循环往复,不断逼近真理。 这样下来即使是最简单的一个实验也要花费巨大资源,计算成本昂贵且耗时严重。 而ShinkaEvolve框架则针对上述问题,实现了性能与效率的双重程序进化,其核心在于三大关键技术: 平衡探索与利用的亲本抽样技 ...
Scaling Law再遭质疑:“退化式AI”竟成终局?
虎嗅· 2025-08-04 12:14
大模型扩展的局限性 - 当前大模型行业依赖暴力数据扩展追求性能提升,但面临收益递减甚至负回报的困境 [1][2] - 学者警告 scaling law 在改善大语言模型预测不确定性方面存在严重缺陷,难以达到科学探究的可靠性标准 [2] - 这种扩展路径可能导致"退化式 AI",即灾难性积累错误与不准确性 [4] 核心机制缺陷 - 大语言模型从高斯输入分布生成非高斯输出分布的机制是错误积累的根本原因 [5] - 极低的扩展指数导致性能提升幅度有限,例如 GPT-4.5 参数量达 5-10 万亿但科学领域无实质进展 [11][12][14] - Llama 4 Behemoth 参数量达 2 万亿但性能未达预期规模水平 [13] 扩展壁垒与准确性困局 - 扩展指数符号变化预示"壁垒"出现,超过阈值后准确性可能显著下降 [16] - 即使同质训练场景中准确性问题也经常出现,异构情境下泛化能力不足 [18][19][21] - 数字系统舍入误差随复杂性增加而明显,影响模型可靠性 [20] 替代方案尝试 - 行业尝试通过大型推理模型和 Agentic AI 提高输出可信度,但缺乏严谨科学评估标准 [25] - 思维链策略模拟人类推理,但可持续性路径仍不明朗 [26][27] - AlphaEvolve 利用大语言模型生成代码变体,用进化算法替代强化学习 [28] 退化风险与解决路径 - 使用合成数据训练的大语言模型更容易发生退化式 AI [29] - 小扩展指数引发非高斯波动,导致不确定性韧性和信息灾难 [30] - 数据增加有时反而减少信息量,如存在冲突数据或恶意注入错误信息 [31] - 构建"世界模型"可从数据中识别真实相关性,避免盲目规模扩张 [34]
谷歌诺奖大神哈萨比斯:五年内一半几率实现AGI,游戏、物理和生命的本质都是计算
AI科技大本营· 2025-07-25 06:10
人工智能发展前景 - 谷歌DeepMind掌门人预测未来五年内有50%可能性实现通用人工智能(AGI) [3] - 自然界所有可演化模式都能被经典学习算法高效建模 为AI模拟万物提供理论基础 [5][9] - Alpha系列项目证明AI能在组合性极高的空间建立模型 如蛋白质折叠和围棋策略 [5][16] 技术突破与应用 - AlphaFold 3实现蛋白质RNADNA相互作用建模 向完整细胞模拟迈进 [64][66] - Veo 3视频生成模型展现对物理规律的直觉理解 能模拟流体和材料行为 [21][23] - AlphaEvolve系统结合LLM与进化算法 实现算法自我改进与创新 [49][53] 游戏产业变革 - AI将彻底改变游戏开发 实现真正个性化动态生成的开放世界 [3][32] - 生成式系统可即时创建无限游戏内容 突破传统资产制作限制 [37] - 交互式AI游戏可能成为"后AGI时代"的重要应用场景 [38] 计算与能源发展 - 神经网络系统已证明能高效处理传统认为需要量子计算的难题 [16][17] - AI优化能源使用 在电网管理和核聚变反应堆设计方面取得进展 [90] - 免费清洁能源将解决资源稀缺问题 开启太空探索新时代 [92] 企业竞争格局 - 谷歌通过整合DeepMind与Brain团队 一年内实现LLM产品逆袭 [99][100] - 保持初创公司文化的同时利用大公司资源 是技术快速迭代的关键 [101] - AI领域竞争激烈 全球顶尖企业都在争夺技术主导权 [100]
AlphaEvolve:陶哲轩背书的知识发现 Agent,AI 正进入自我进化范式
海外独角兽· 2025-07-18 11:13
AlphaEvolve 技术解析 核心定位与突破 - AlphaEvolve 是基于 LLM 进化算法和 evaluator 的通用算法发现与优化平台,能自主生成代码并迭代优化方案,模拟"算法自然进化"过程 [3][13] - 关键突破在于持续高强度探索能力,一周内两次刷新18年未破的数学纪录,菲尔兹奖得主陶哲轩参与应用探索 [3][4] - 在 Google 内部将 training infra 关键计算模块运行速度提升23%,标志AI进入自我改进范式 [3][54] 技术演进路径 - 技术源头可追溯至 AlphaGo 的搜索能力,经 AlphaTensor(2022年矩阵乘法优化)和 FunSearch(2023年算法发现)逐步演化而来 [16][20][21] - 相比 FunSearch,AlphaEvolve 去除算法模板依赖,具备更强自主性,能在更少函数调用下发现高质量算法 [25] - 运行机制类似生物进化,通过重组最优方案要素或引入新构想实现代际性能跃迁 [35] 关键组件与运行机制 Evaluator 的核心作用 - Evaluator 是自动化质量评估系统,定义"优秀解决方案"标准,决定AI自我改进上限 [13][30] - 在数据中心优化案例中,evaluator 采用现有调度模拟器量化评估算法性能,形成创新基础 [32] - 未来LLM可能成为evaluator,如DeepMind的AI co-scientist已通过多agent协作验证评估能力 [48][53] 自适应问题解决能力 - 根据问题难度智能调整探索深度,简单问题快速收敛,复杂问题投入更长计算时间 [37][38] - 无需预设迭代次数,持续运行即可驱动优化,系统性识别潜在改进空间 [38][39] - 已应用于Google数据中心效率提升、硬件设计优化等全技术栈场景 [39][42] 行业影响与未来方向 科学发现范式变革 - 在数学和计算机科学领域率先突破,未来可扩展至生物化学等需模拟器评估的学科 [58] - 通过可解释代码输出实现人机协作,如上限集问题中揭示数学家未发现的对称性 [63][65] - 推动科研"理性化"转型,在反直觉解空间高效搜索拓展探索边界 [60][61] 自我改进范式发展 - 当前聚焦效率提升(如训练加速),尚未验证认知能力根本突破 [55] - 未来可能呈现三种模式:一次性突破、收益递减或持续累积突破 [57] - 核心挑战在于构建高质量evaluator和降低计算资源需求 [55][66][67] 应用案例与成果 实际业务优化 - 优化Google芯片设计流程,加速AI模型训练并反哺自身模型训练进程 [13] - 数据中心调度算法迭代节省数百万美元电费,展示关键infra部署潜力 [30][33] - 发现更快的矩阵乘法算法,解决计算科学领域数十年难题 [20][26] 数学领域突破 - 与数学家合作解决上限集问题,输出人类可理解的创新性代码 [63][65] - 在开放性数学难题中发现全新解法,验证跨学科应用潜力 [13][61]
思维链开创者Jason Wei最新文章:大模型将攻克哪些领域? | Jinqiu Select
锦秋集· 2025-07-16 07:58
大模型能力演进与验证者定律 核心观点 - 大模型能力每3-6个月迭代一次,从文本生成、多模态理解扩展到复杂推理和工具调用,"模型即产品"趋势明显,模型能力边界决定产品边界 [1] - 验证者定律提出:AI解决任务的难易度与任务可验证性成正比,具备客观真实性、快速验证、可扩展验证、低噪声、连续奖励五大特征的任务将被优先攻克 [2][8][10] - 验证不对称性普遍存在(如数独验证易/解决难、数学问题验证对称、事实核查验证难),通过预研可改善不对称性 [4][6][7] 技术发展路径 - AlphaEvolve案例显示,符合验证者定律五大特性的问题(如几何优化)已被高效解决,未来所有满足条件的问题均可能被AI攻克 [13] - 可验证任务将形成"参差不齐的智能前沿",AI在该领域表现显著优于人类,因梯度信号密集且迭代速度快 [12][14] 行业影响 - 创业者需紧密跟踪模型技术进步方向,技术敏锐度关乎生存,验证者定律为预判大模型发展提供框架 [1][2] - 科学创新领域出现范式转变:单个高价值问题的解决(train=test)优先级超过传统机器学习泛化能力 [13]
腾讯研究院AI速递 20250605
腾讯研究院· 2025-06-04 14:24
OpenAI产品更新 - 免费版ChatGPT新增轻量级记忆功能,支持短期对话连续性和基础用户偏好记忆,适用于写作、金融分析、医疗跟踪等领域 [1] - ChatGPT Plus会员开放Codex编程工具,新增联网访问(70个安全白名单网站)、PR更新及语音输入功能,两周内已更新三次 [1] 行业并购与竞争动态 - OpenAI拟以30亿美元收购AI编程平台Windsurf,随后Anthropic切断Claude模型供应,Windsurf采取应急方案包括降价Gemini模型并停止免费用户访问Claude [2] - 业内认为断供源于OpenAI收购引发的竞争关系变化,Anthropic转型IDE和插件业务与Windsurf直接竞争 [2] 视频生成技术突破 - Manus上线智能视频生成功能,通过拼接5秒片段突破时长限制,支持分阶段规划、参考图生成及剪辑,会员专属功能消耗166积分/5秒视频 [3][4] 语音合成技术进展 - 开源模型MoonCast实现中英双语自然播客生成,利用LLM提炼摘要并添加口语化细节,采用25亿参数模型及三阶段训练支持10分钟以上音频生成 [5] AI安全与治理 - 图灵奖得主Bengio创立非营利机构LawZero,融资3000万美元开发非自主型"Scientist AI"系统,专注防止AI欺骗行为 [6] - 深度学习三巨头均下场应对AI风险:Hinton离职谷歌警示风险,LeCun批评LLM路径局限性 [6] AI与数学研究协作 - AlphaEvolve联合数学家一个月内三度破解18年未解的和差集指数θ难题(1.14465→1.173077),陶哲轩评价为AI与人类"共舞"新范式 [7] 医疗AI应用创新 - 华人科学家研发AI诊断笔,通过磁弹性笔尖和铁磁流体墨水检测帕金森病手写特征,准确率超95%,成本低且适用于资源有限地区 [9] 企业AI战略展望 - Altman预测18个月内AI将从工具转变为"执行者",企业需立即实践积累数据闭环优势,OpenAI内部Codex已展示多步骤任务执行能力 [10]
陶哲轩转发!华人数学博士后反超DeepMind AI,停滞18年数学问题1个月内3次突破
量子位· 2025-06-04 09:14
核心观点 - 人类数学家与AI合作在集合和差问题上取得突破性进展,通过不同方法的互补推动数学进步 [4][30][32] - AlphaEvolve采用暴力搜索方法提升θ下界至1.1584,激发后续人类研究 [14][16][18] - 人类数学家通过理论分析将θ下界进一步提升至1.173077,展示计算机辅助与纯数学方法的协同效应 [8][25][27][29] 集合和差问题 - 研究目标:在和集大小受限情况下提升差集大小的指数θ下界 [12][13] - 经典问题:对于整数集合A和B,研究|A+B|≤K|A|时|A-B|的最小可能大小 [10][11] - θ值提升意义:θ越大表明差集下限越高,是领域核心研究目标 [13] AlphaEvolve的贡献 - 方法框架:基于进化算法,用Gemini生成候选方案并通过自动化评估筛选 [14][16] - 迭代过程:算法保留优异表现者进行变异组合,持续优化直至性能停滞 [17] - 成果:构造含54265个整数的集合,将θ下界从1.14465提升至1.1584 [18] 人类数学家的改进 Robert Gerbicz的突破 - 方法创新:应用容斥原理处理多重约束,避免直接计算的困难 [23] - 构造规模:创建超10^43546元素的集合,利用大集合减小离散误差影响 [24] - 成果:θ值达到1.173050,超越AlphaEvolve的1.1584 [25] Fan Zheng的再突破 - 理论升级:引入大偏差估计进行渐近分析,转向系统性理论框架 [28] - 最终成果:θ下界提升至1.173077,证明理论分析可超越具体构造限制 [8][27][29] 方法协同价值 - AI优势:广度搜索能力可快速定位文献中可改进领域 [31] - 人类优势:深度理论分析能突破AI的构造局限 [6][7][29] - 互补效应:不同方法相互激发形成良性循环,非零和博弈 [30][32]
陶哲轩转发!DeepMind开源「AI数学证明标准习题集」
量子位· 2025-05-31 03:34
形式化数学猜想库 - DeepMind最新开源形式化数学猜想库,收录经典数学猜想的形式化表述,如解析数论中的四个朗道问题 [1] - 资源库提供代码函数,方便用户将自然语言数学猜想转化为计算机可验证的形式化版本 [2] - 陶哲轩转发并强调形式化表述是利用自动化工具解决开放性问题的关键第一步 [3] - 猜想库开放共建,鼓励数学家添加新猜想 [4] 猜想库的用途与结构 - 填补开放式猜想形式化资源的空白,可作为自动定理证明或形式化工具的测试基准 [6][7] - 收录使用Lean形式化表述的数学猜想,来源多样,类型丰富 [9] - 题目类别统计:数论(262个)、组合数学(99个)、特殊函数(28个)、域论与多项式(17个)等 [11] - 相当于为计算机提供可扩充的“习题集”,支持ATP直接进行证明搜索或作为训练数据让AI学习猜想模式 [11][13] 参与方式与流程 - 用户可通过四种方式参与:添加新问题形式化、提出形式化需求、改进引用标记、修复错误表述 [16][17][18] - 操作流程:GitHub创建问题→Fork仓库→本地构建验证→提交PR→等待审核 [20][21][22][23][24] - 审核机制结合人工与AlphaProof(通用数学自动证明系统)确保准确性 [26] DeepMind与陶哲轩的合作 - 陶哲轩曾称赞DeepMind的FunSearch是利用LLM进行数学发现的有前途范式 [28] - 双方合作开发AlphaEvolve(LLM驱动的进化编码Agent),在数学分析、几何学等领域取得突破 [33][38] - AlphaEvolve在75%案例中复现最优解,20%案例改进已知方案 [39][40] - 解决11维空间接吻数问题,发现593个外球体结构刷新下限 [36][37] 资源链接 - 形式化数学猜想库官网与项目地址 [42]
形式化证明与大模型:共创可验证的AI数学未来|量子位直播
量子位· 2025-05-27 03:53
大模型数学推理能力发展 - 5月DeepSeek Prover V2发布 陶哲轩AI数学直播举行 谷歌AlphaEvolve推出 显示大模型解数学题能力成为衡量AI智能天花板的关键指标[1] - FormalMATH基准测试近期发布 旨在系统评估AI数学推理能力 自动定理证明表现与技术路径成为行业焦点[2] 行业技术研讨活动 - 5月29日20:00举办大语言模型形式化证明前沿探索直播 由2077AI开源基金会与多个项目团队联合发起[2] - 参与嘉宾包括DeepSeek Prover第一作者辛华剑 FormalMath项目郁昼亮 Kinima技术负责人王海明等7位学术与工业界专家[3] 行业生态互动 - 量子位策划AI主题征集活动 涵盖365行AI落地方案与一千零一个AI应用案例 鼓励分享AI产品新动向[4] - 量子位每日AI交流群开放加入 提供科技前沿进展每日更新服务[5]
AI观察|AI发展时间表引发热议,Agent进入爆发“窗口期”
环球网· 2025-05-26 09:34
AI发展时间表 - OpenAI CEO山姆·奥特曼预测2025年AI将成为人类超级助手 2026年AI将拥有独立科研能力 2027年AI机器人将成为物理世界价值创造者 [1] AI Agent发展现状 - 2025年AI Agent发展已印证奥特曼预测 包括Manus AlphaEvolve等产品涌现 OpenAI以65亿美元收购硬件设计公司io [3] - AI Agent定义为具有自主决策能力的智能实体 ChatGPT-4通过插件调用功能展现早期形态 DeepMind推出可自我进化的编码智能体AlphaEvolve [3] 技术突破与产业应用 - AlphaEvolve在计算机算法领域取得突破 为谷歌数据中心设计新调度算法 多回收07%计算资源 优化TPU芯片设计流程 [4] - 国内Manus实现自主规划任务并实时调整 通过视频展示多智能体处理复杂任务能力 [4] - 浪潮海岳商业AI覆盖100+场景智能体 整合120万家企业实践 在某建筑央企项目中提升施工方案编制效率95%以上 [5] 行业观点与趋势 - 真格基金戴雨森指出AI三大关键能力:推理能力 编程能力 工具使用能力 [6] - AI Agent依托大模型能力 正推动AI从助手向价值共创者转变 或将重塑科研与产业逻辑 [6]