Convex Optimization

搜索文档
GPT-5 Pro独立做数学研究,读论文后给出更精确边界,OpenAI总裁:这是生命迹象
36氪· 2025-08-21 11:35
AI数学能力突破 - OpenAI的GPT-5 Pro模型在阅读凸优化论文后,独立推导出比原文更精确的数学边界,将步长阈值从1/L提升至1.5/L [1][21] - 尽管人类研究者后续将边界进一步优化至1.75/L,但GPT-5 Pro的证明思路与人类版本完全不同,表明其具备自主探索能力 [4][34] - 该成果引发广泛关注,相关推文在半天内获得超过230万次阅读 [1] 凸优化问题研究 - 研究聚焦于梯度下降算法中优化曲线的凸性问题,优化曲线指函数值随迭代次数的变化曲线,凸性意味着优化速率单调递减 [6] - 论文结论指出:步长η ∈ (0, 1/L]时优化曲线保证凸性;η ∈ (1.75/L, 2/L)时可能非凸;η ∈ (0, 2/L]时梯度范数恒单调递减 [9] - 对于凸且二阶可导函数,梯度流的优化曲线恒为凸;对于凸L-光滑函数(无需二阶可导),梯度流优化曲线同样恒为凸 [9][10] 证明方法论 - 原论文通过构造辅助函数g_k(t)将离散迭代转化为连续积分,利用凸函数性质证明辅助函数单调性,进而推导优化曲线凸性 [10][12][13] - 非凸性证明通过构造反例实现:选择初始点x_0=-1.8,计算前三步迭代函数值下降量,验证步长在(1.75/L, 2/L)时违反凸性要求 [15][19][20] - GPT-5 Pro采用Bregman散度不等式和共强制性不等式进行更精细的代数操作,通过17.5分钟完成证明,人类验证耗时25分钟 [21][22][24][28][29] 技术细节 - 核心证明涉及函数值下降量差异的积分表达: $$(f(x_2)-f(x_1))-(f(x_1)-f(x_0))=\int_0^1(g_1(t)-g_0(t))dt \geq 0$$ [13] - 人类更新版证明通过加权组合三个点的Bregman不等式,最终推导出: $$f(x_2)-f(x_1)-(f(x_1)-f(x_0)) \geq \left(\frac{7}{8L}-\frac{\eta}{2}\right)\|\nabla f(x_1)-\nabla f(x_0)\|^2$$ [33] - 梯度下降更新规则为: $$x_1 = x_0 - \eta \nabla f(x_0), \quad x_2 = x_1 - \eta \nabla f(x_1)$$ [19][33]
机器人顶会RSS 2025奖项公布!
具身智能之心· 2025-06-27 08:36
RSS 2024获奖论文 - 杰出Demo论文奖授予UC伯克利、Google DeepMind等机构开发的MuJoCo Playground框架 该开源机器人学习框架基于MJX构建 支持四足机器人、人形机器人等多种平台 可实现分钟级单GPU策略训练和零样本仿真到现实迁移 [4][5][6][7][8][9] - 杰出系统论文奖由哈佛大学团队获得 其提出的XM优化引擎采用凸半有限规划松弛和CUDA加速 在10,155帧运动结构重建任务中1小时达到全局最优 重建质量优于现有方案 [11][13][15][16] - 杰出学生论文奖授予MIT团队开发的Def-MARL算法 该多智能体强化学习方案通过epigraph形式提升稳定性 在8项模拟任务和Crazyflie飞行器实验中实现零约束违反的安全协作 [17][19][20][21][23][25][26] - 杰出论文奖由康奈尔大学等机构的FEAST系统获得 该模块化进餐辅助机器人通过参数化行为树架构支持LLM驱动的个性化调整 在适应性、透明性、安全性方面超越固定定制方案 [28][29][30][31][32] 机器人技术突破 - MuJoCo Playground整合物理引擎、批量渲染器与训练环境技术栈 显著降低机器人仿真到现实的开发门槛 [6][8] - XM优化引擎采用Burer-Monteiro分解和黎曼优化 解决极端规模SDP松弛问题 速度与可扩展性显著提升 [13][15] - Def-MARL算法通过集中训练-分散执行架构 在四旋翼飞行器协作任务中实现安全约束下的最优性能 [21][23] - FEAST系统通过头部姿势识别、实体按钮等多模态交互 满足不同用户的个性化护理需求 [30] 学术机构贡献 - UC伯克利与Google DeepMind联合开发的开源框架支持灵巧手、机械臂等多种机器人平台 [5][7] - 哈佛大学提出的SBA公式将二维关键点测量提升至三维 实现可验证全局最优解 [13] - MIT团队在Crazyflie四旋翼飞行器上验证了多智能体算法的实际部署能力 [25] - 康奈尔大学模块化设计支持进食、饮水、擦嘴功能的快速切换 [30] 时间检验奖 - 2009年宾夕法尼亚大学论文《Cooperative Manipulation with Aerial Robots》获2025年时间检验奖 其提出的多机器人线缆操纵方法至今影响深远 [33][36]