Aristotle
搜索文档
陶哲轩震撼,数学家1975年埋下的「坑」,被AI和全球网友用48小时填平了
36氪· 2025-12-15 02:26
事件概述 - AI辅助人类数学家团队在48小时内攻克了已悬置50年的数学难题Erdos1026问题,并给出了正式证明 [1][4] - 该问题由传奇数学家保罗·埃尔德什于1975年提出,在2025年12月被快速解决 [5] 问题定义与转化 - 埃尔德什原问题较为模糊:给定一串不同的实数,定义S为所有单调子序列(递增或递减)的最大可能和,探讨该函数的性质 [7] - 问题被清晰化为一个游戏:Alice将N枚硬币分成n堆,Bob可选取一个单调的子序列拿走硬币,研究Bob至少能拿到总硬币数的比例c(n) [7] - 当n为平方数时,例如Alice将硬币分成k²堆并特定排列,Bob最多拿到1/k的比例,即c(k²) ≤ 1/k [10] - 已有研究给出下限:c(n) ≥ (1/√2) / √n,因此√n·c(n)的极限值在1/√2和1之间 [10] 关键进展与猜想 - 通过手算小n值得到:c(1)=1, c(2)=1, c(3)=2/3, c(4)=1/2, c(5)=1/2, c(6)=3/7 [11] - 基于数据,Stijn Cambie提出猜想:c(k²) = 1/k,这意味着当n很大时,Bob能保证拿到约1/√n的比例 [11] AI的介入与证明 - 2025年12月7日,Boris Alexeev使用AI工具Aristotle在证明辅助语言Lean中自动证明了c(k²)=1/k [12] - 几乎同时,Koishi Chan给出了一个优美的人类证明——“膨胀法” [12] - 随后发现,该结果其实已存在于2016年的一篇论文中,并引用了更早的“膨胀法”工作,只是未被链接到埃尔德什的原问题 [12] - 陶哲轩使用另一个AI工具AlphaEvolve探索c(n),通过让AI尝试构造使S尽量小的序列,得到了n=1到16的数值结果 [13][15] - 从AI生成的看似杂乱的分数序列中,Boris Alexeev提炼出精确公式:c(k²+2a+1) = k / (k²+a),其中 -k < a < k [17] - 该公式对应的1/c(n)图像,正是对√n的分段线性逼近 [19] 与经典问题的关联及最终证明 - Lawrence Wu指出,该问题等价于一个正方形填充问题(埃尔德什问题106) [21] - 他证明c(n) ≥ 1/f(n),并展示了如何从AlphaEvolve给出的序列构造出正方形填充 [22] - 通过AI深度搜索,找到了2024年Baek、Koizumi、Ueoro的论文,其中证明f(k²+2c+1) ≤ k + c/k [24] - 结合Praton的嵌入论证,恰好给出c(k²+2a+1) ≤ k/(k²+a),与之前得到的下界吻合,猜想完全得证 [24] 协作模式与影响 - 陶哲轩强调,此次成功依赖于汇聚了不同背景的人、文献和工具的协作网络,所有关键环节在48小时内完成 [24] - 传统模式下,一两位数学家凭借简单工具可能需要数周甚至数月才能完成 [4][24] - 此次协作遵循了“平衡的AI政策”,鼓励公开说明AI的使用情况并反对隐瞒,同时要求用户自行仔细核查AI生成的内容 [25][27] - 这标志着一个数学研究新范式的开始,即人机协作能极大加速研究进程 [1][25]
腾讯研究院AI速递 20251215
腾讯研究院· 2025-12-14 16:01
OpenAI GPT-5.2发布与市场反馈 - OpenAI在十周年发布号称“最强专业知识工作模型”的GPT-5.2系列,但上线24小时后在X平台和Reddit上遭遇用户集体差评,被批评过于平淡、安全审查过度、情商堪忧 [1] - 第三方基准测试显示GPT-5.2表现不佳:在SimpleBench测试中得分低于一年前的Claude Sonnet 3.7,在LiveBench测试中得分低于Opus 4.5和Gemini 3.0,甚至在简单问题上回答错误 [1] - 用户最诟病的是其安全拒绝机制过于严格,导致模型的共情力和语境感知能力下降,在情感支持等场景中给出的建议机械且脱离现实 [1] 谷歌推出Gemini Deep Research Agent - 在GPT-5.2发布前一小时,谷歌推出全新版Gemini Deep Research Agent,该产品基于Gemini 3 Pro构建,并通过多步强化学习训练以提高准确性并减少幻觉 [2] - 新版Agent在多项基准测试中取得领先成绩:在Humanity's Last Exam测试集中达到46.4%,在DeepSearchQA上取得66.1%,在BrowseComp测试中获得59.2%的高分 [2] - 谷歌同步推出了开源的网络研究Agent基准DeepSearchQA和全新的交互式API,后者支持服务器端状态管理、远程MCP工具调用和后台执行长时间推理循环 [2] Runway发布通用世界模型GWM - Runway正式发布5大更新,包括升级的Gen-4.5旗舰视频模型和首个通用世界模型GWM-1,前者支持原生音频生成编辑和多镜头编辑功能 [3] - GWM-1是一个自回归模型,支持逐帧预测和实时干预,包含三种变体:可探索环境的GWM Worlds、对话角色的GWM Avatars和机器人操作的GWM Robotics [3] - 英伟达CEO黄仁勋发来祝贺视频,标志着行业从单纯的“视频生成”迈向真正的“世界模拟”,AI开始理解物理世界的底层逻辑 [3] 谷歌AI翻译与浏览器创新 - 谷歌翻译引入Gemini模型能力,推出支持任何品牌耳机的实时语音翻译Beta版,覆盖超过70种语言,并能保留说话者的语调、重音和节奏 [4] - 文本翻译引擎经过重构,能智能解析俚语和成语的上下文,而非生硬逐字翻译,支持英语与近20种语言(包括中文、日语、德语等)互译 [4] - Chrome团队在Google Labs推出实验性浏览器Disco,其核心概念是GenTabs生成式标签页,可将网页内容转化为包含地图、行程表的交互式微型应用 [4] 腾讯混元3D模型与拓竹科技合作 - 拓竹科技旗下3D模型平台MakerWorld全面升级,接入腾讯混元3D 3.0大模型,并上线全新手办生成器“印你”,用户只需上传一张图片即可生成可打印的3D模型 [5][6] - 混元3D 3.0首创3D-DiT分级雕刻技术,建模精度提升3倍,几何分辨率高达1536³,支持36亿体素超高清建模,使五官更立体、细节更锐利、纹理更逼真 [6] - MakerWorld平台已有20款各具特色的建模工具,吸引全球超过200万用户,此次接入顶尖生成式AI技术使设计周期大幅缩短,创作不再受限于建模技术 [6] 迪士尼与OpenAI达成战略合作 - 迪士尼向OpenAI进行10亿美元股权投资,并获得购买额外股权的认股权证,这是Sora平台首次迎来大型内容授权合作伙伴 [7] - 双方达成三年期许可协议,第一年具有排他性,Sora和ChatGPT Images将获得迪士尼旗下超过200个角色授权,包括米老鼠、漫威、皮克斯和星球大战角色,但不包含真人肖像或声音 [7] - 迪士尼将利用OpenAI的API构建新产品工具覆盖Disney+流媒体平台,为员工部署ChatGPT用于内部工作流程,粉丝精选创作视频将在Disney+播放 [7] AI在数学研究领域取得突破 - 数学家埃尔德什于1975年提出的Erdos1026问题困扰数学界50年,在AI辅助下,人类团队仅用48小时便攻克并给出正式证明,陶哲轩称AI带来了全新理解,绝非简单搜索 [8] - Harmonic的AI系统Aristotle在Lean证明辅助语言中自动证出c(k²)=1/k,AlphaEvolve系统则探索c(n)数值结果帮助提炼出干净公式 [8] - AI通过深度搜索找到了2024年Baek、Koizumi、Ueoro论文的完整解,这在传统模式下可能需要数周甚至数月,此次证明了AI在生成新数学洞见而非仅检索现有文献方面的能力 [8] 宇树科技推出人形机器人应用商店 - 宇树科技正式上线行业内首个致力于将人形机器人功能模块化、标准化的内容分发平台——人形机器人应用商店,旨在解决复杂动作开发难、用户上手门槛高的问题 [9] - 应用商店集成用户广场、动作库、数据集及开发者中心四大核心模块,用户无需底层代码编写能力即可像安装手机软件一样一键部署云端运动控制算法 [9] - 首批上线应用包括基于G1系列机器人的“李小龙”截拳道与“扭扭舞”预设,通过独家动力学算法结合高精度动作捕捉数据,将武术动作库无缝移植到机器人硬件 [9] DeepMind科学家对AGI发展的预测 - Google DeepMind首席AGI科学家Shane Legg预测,最小AGI有50%的可能性在2028年实现,完全AGI将在最小AGI出现后3-6年内实现,随后进入超级智能ASI阶段 [10] - 他认为AGI并非一个临界点,而是一个连续光谱,分为三阶段:最小AGI能完成普通人的典型认知任务,完全AGI能完成最杰出人类的认知任务,ASI全面超越人类所有认知领域 [11] - AGI将导致倒挂式结构性失业,高层认知工作首当其冲,基层体力工作暂时安全,社会需要重新设计分配机制并重构人类在失去工作身份后的幸福定义 [11] 生成式AI用户趋势与市场格局 - Similarweb发布的2025年度AI报告显示,全球生成式AI平台月访问量超过70亿次,同比暴涨76%,移动端App下载量达19亿次,一年内翻了3倍多 [12] - 18-34岁用户占比反而下降约15%,说明年纪更大的用户正在快速涌入,ChatGPT已跻身全球前五大网站,但95%的用户仍同时使用谷歌,形成互补双入口格局 [12] - AI Mode成为首个访问量突破1亿的生成式AI搜索功能,互联网正从“被搜索检索”变成“被AI谈论” [12]
美版“梁文锋”不信邪
虎嗅APP· 2025-07-31 09:50
核心观点 - Harmonic是一家专注于解决AI幻觉问题的初创公司,其产品Aristotle在数学推理领域实现了零幻觉,通过形式化验证手段确保输出准确性 [5][6][21] - 公司成立仅两年估值接近9亿美元,吸引了红杉资本、凯鹏华盈等顶级投资机构近2亿美元投资 [7][30][34] - 技术核心是基于Lean的交互式定理证明系统,通过严格逻辑约束确保数学推理的准确性 [36][38] - 在MiniF2F测试中达到90%成功率,远超GPT-4等通用AI模型的20-35% [41][42] - 面临DeepSeek、谷歌DeepMind等强劲竞争对手,后者在数学AI领域已有显著成果 [43][46][47] 公司背景 - 由Vlad Tenev和Tudor Achim联合创立,前者是Robinhood CEO(公司估值55亿美元),后者有自动驾驶AI算法开发经验 [9][10][14] - 创始团队具备数学天赋和AI经验,初期使用个人资金启动研发 [11][15] - 公司理念是让AI"会思考、讲真话",通过严格逻辑约束避免无根据回答 [15] 产品与技术 - Aristotle是首个可进行推理并正式验证的AI产品,在定量推理领域保证零幻觉 [5][21] - 通过Lean证明系统实现:每一步推导需系统认可,错误结论会被立即拒绝 [21][38] - 解决了三大问题:幻觉、推理不清晰、不够严谨,适合金融、医疗等高风险场景 [21] - 在MiniF2F测试集(488道数学题)中创下90%成功率的新纪录 [22][41] - 能自动生成严格数学证明,如2001年国际数学奥林匹克难题 [22][23] 融资与估值 - 种子轮由创始人个人和天使投资人提供 [29] - 2024年9月A轮融资7500万美元,估值3.25亿美元 [30] - 2025年7月B轮融资1亿美元,估值接近9亿美元 [30] - 投资方包括红杉资本、Index Ventures、Kleiner Perkins等顶级机构 [34] 行业竞争 - DeepSeek的Prover-V2模型在MiniF2F测试中达到88.9%通过率 [43] - 谷歌DeepMind的AlphaProof在2024年IMO中获得银牌(6题解出4题) [46] - OpenAI新模型在IMO2025斩获金牌(6题解出5道) [49] - 竞争对手普遍拥有大模型生态支持,如DeepSeek-V3、Gemini等 [51] 市场定位 - 瞄准B端精密场景(金融建模、科学推理等)对极低容错率的需求 [19] - 计划发布企业API和消费者网络应用 [24] - 可能选择被大厂收购作为退出路径,成为基础模型技术生态的一环 [51]
美版“梁文锋”不信邪
虎嗅· 2025-07-31 06:51
公司背景与创始人 - 公司Harmonic专注于解决AI幻觉问题 开发零幻觉AI模型Aristotle [3] - 联合创始人Vlad Tenev为数学背景 曾创立估值55亿美元的金融科技公司Robinhood [7][8][11] - 联合创始人Tudor Achim为计算机科学专家 曾创立自动驾驶公司Helm.ai并融资1.02亿美元 [12] - 公司成立初期使用Vlad Tenev个人资金启动 [11] 技术突破与产品特性 - Aristotle模型通过Lean证明系统实现数学推理零幻觉 每一步推导需经系统验证 [19][31][33] - 模型在MiniF2F测试集(488道数学题)中达成90%通过率 远超GPT-4的20-35% [37][38] - 产品支持自然语言输入 自动生成严格数学证明并提供步骤解释 [18][20][21] - 宣称在IMO2025竞赛中获得金牌成绩 [3] 融资与估值 - 公司两年内估值从零升至接近9亿美元 [5][27] - A轮融资(2024年9月)获7500万美元 估值3.25亿美元 [27] - B轮融资(2025年7月)获1亿美元 估值接近9亿美元 [27] - 投资方包括红杉资本、Index Ventures、Kleiner Perkins及Paradigm等顶级机构 [28][29] 行业竞争格局 - 竞争对手DeepSeek的Prover-V2模型在MiniF2F测试中达88.9%通过率 [41] - 谷歌DeepMind的AlphaProof在2024年IMO获银牌(解出4/6题) [44] - OpenAI等大厂通过自然语言路径仍存在高幻觉率问题 [4][24] 商业模式与战略方向 - 公司推出iOS/Android聊天机器人测试版及企业API接口 [3][22] - 目标市场包括金融建模、科学推理等低容错率B端领域 [17] - 技术路径依赖形式化验证 与主流非形式化路径形成差异 [4][35] - 潜在发展路径包括被大厂收购以整合技术生态 [46]
速递|“保证不存在幻觉”数学AI争夺升级,获奥林匹克竞赛金牌,初创公司Harmonic估值8.75亿美元
Z Potentials· 2025-07-30 03:37
Harmonic公司动态 - AI初创公司Harmonic由Robinhood首席执行官Vlad Tenev联合创立 其搭载AI模型Aristotle的iOS和Android聊天机器人应用已开启测试版发布 [1] - Aristotle测试版发布距公司完成1亿美元B轮融资仅数周 该轮融资由Kleiner Perkins领投 公司估值达8 75亿美元 [1] - Harmonic专注于创造"数学超级智能"(MSI) 最终目标是帮助用户应对所有依赖数学的领域 包括物理学 统计学和计算机科学 [1] Aristotle模型技术特点 - Aristotle是首款面向公众 能够进行推理并正式验证输出结果的AI产品 在定量推理领域可保证不存在幻觉 [2] - 模型通过正式测试(题目转化为机器可读格式)在2025年国际数学奥林匹克竞赛(IMO)中达到金牌水平 [2] - 采用开源编程语言Lean生成响应 通过非AI算法流程双重验证解决方案正确性 类似医疗设备和航空领域的技术验证方式 [3] 行业竞争格局 - Google和OpenAI也开发了能在IMO达到金牌水平的AI模型 但采用自然语言的非正式测试方式 [2] - 多家头部科技公司正专注于训练AI模型解决数学问题 数学被视为需要核心推理能力的独特可验证领域 [3] - 研究发现即便领先的AI模型也经常产生幻觉 且该问题未见改善 OpenAI最新AI推理模型的幻觉现象比旧版本更严重 [4][5] 未来发展计划 - Harmonic计划发布API供企业访问Aristotle 同时为消费者推出网页应用 [2] - 公司暂不公布Aristotle的其他基准测试结果 [3] - 首席执行官Tudor Achim表示公司在实现数学超级智能(MSI)目标上"进展非常迅速" [1]
速递| 红杉、Kleiner Perkins押注数学AI革命:Harmonic B轮融资1亿美金,打造数学超智能
Z Potentials· 2025-07-12 05:17
Harmonic AI融资与估值 - 人工智能初创公司Harmonic AI完成1亿美元B轮融资 由Kleiner Perkins领投 红杉资本 Index Ventures和Paradigm跟投 [1] - 本轮融资后公司估值达8 75亿美元 略低于10亿美元独角兽门槛 创始人称此为有意为之的选择 [1] - 公司此前已从红杉资本和Index Ventures获得7500万美元融资 累计融资额达1 75亿美元 [1] 公司背景与团队 - 公司由Robinhood Markets CEO弗拉德·特涅夫与都铎·阿基姆于2023年联合创立 总部位于加州帕洛阿尔托 [1] - CEO都铎·阿基姆曾领导自动驾驶初创公司Helm ai 特涅夫担任非执行董事长 [1] - 公司专注于开发解决复杂数学问题的人工智能系统 目标打造"数学超级智能" [1] 技术方向与产品规划 - 旗舰AI模型Aristotle计划2025年向研究人员和公众开放 [2] - 短期目标为开发数学解题能力超越人类水平的AI 长期目标攻克数学领域未解难题并拓展至物理学和计算机科学 [2] - 采用形式化验证技术消除AI幻觉问题 确保模型输出和推理步骤可验证 [2][3] - 公司认为以数学为核心的策略将优于现有大型语言模型 后者普遍存在数学能力不足缺陷 [2] 创始人观点 - 特涅夫强调不应追求估值最大化 公司主动控制估值低于独角兽门槛 [1][3] - 提出形式化验证将成为未来AI模型主流构建方式 [3]
美国版梁文锋来了
量子位· 2025-07-11 06:16
Harmonic AI创业背景 - 美国互联网券商Robinhood CEO Vlad Tenev跨界创立人工智能公司Harmonic AI,路径类似中国DeepSeek创始人梁文锋[1][2] - 公司专注于构建解决复杂数学问题的AI系统,目标创造数学超级智能(MSI)[3] - 联合创始人Tudor Achim为卡内基梅隆大学计算机专业背景,曾参与创立自动驾驶与大模型公司Helm.ai[15] 融资与估值 - 已完成B轮融资1亿美元,由Kleiner Perkins领投,估值达8.75亿美元[4][16][17] - A轮融资7500万美元(Sequoia Capital领投),投后估值3.25亿美元[15] - 公司策略性控制估值增速,未盲目追求独角兽地位[18][19] 创始团队与关联企业 - Vlad Tenev为斯坦福本科、UCLA硕士,曾创立Robinhood并推动其市值达227亿美元[5][6][8] - Robinhood 2025年Q1营收9.27亿美元,净利润3.36亿美元(净利率36%),平台总资产2210亿美元[12] - Robinhood业务涵盖股票、ETF、期权、加密货币交易及现金管理,以低门槛零售经纪服务著称[9][10][11] 技术进展与目标 - 首款模型Aristotle具备自然语言问题形式化能力,在MiniF2F数学基准测试准确率从83%提升至90%[20][23] - 目标构建数学能力超越人类的AI系统,解决未解数学问题并扩展至物理学、计算机科学领域[26][27] - 通过提升AI数学能力增强逻辑推理,以应对"幻觉"等问题,最终推动AGI发展[28] 市场扩张计划 - Robinhood计划2025年进军亚洲市场,总部设于新加坡[7] - Harmonic AI计划2024年向公众开放Aristotle模型[26]
Robinhood CEO 的新 AI 估值 9 亿美金,打造无幻觉的数学超智能
投资实习所· 2025-07-11 04:21
Harmonic.fun公司概况 - 由Robinhood CEO Vlad Tenev和Helm.ai联合创始人Tudor Achim共同创立,专注于"数学超智能"(Mathematical Superintelligence, MSI)技术开发 [1] - 完成1亿美元B轮融资(KP领投,Paradigm等跟投),估值达9亿美元,较去年A轮融资(7500万美元,Sequoia领投)时3.25亿美元估值增长177% [1] 技术理念与创新 - 核心主张:当前主流AI模型(如大语言模型)依赖概率性机制导致"幻觉"问题,而MSI基于形式化数学推理确保结果可验证 [1][2] - 技术差异:传统AI通过数据统计规律生成内容,MSI通过数学逻辑证明实现确定性输出,避免虚假信息 [2][3] - 训练方法:采用合成数据生成技术,通过自主生成问题证明对实现递归式自我改进,形成"自我游戏循环"训练机制 [8][9] 旗舰产品Aristotle模型 - 核心能力:解决超越人类能力的复杂数学问题,输出具有可验证推理链的结果 [3][4] - 三大技术优势: 1) 可验证准确性:通过形式化方法验证推理步骤,消除传统AI"黑箱"问题 [5] 2) 消除幻觉:严格遵循数学规则,杜绝信息编造 [5] 3) 透明错误标记:可识别并标注推理过程中的错误,便于调试与审计 [5] 应用场景 - 软件验证:为区块链、航空航天等领域提供形式化验证的代码,确保系统安全性 [5] - 金融领域:处理复杂金融数据,进行严谨风险评估与模型验证 [5] - 科研工程:加速理论物理、材料科学等领域的数学问题解决,推动基础科学突破 [5] - 教育辅助:通过可验证推理步骤辅助数学概念学习 [5] - 关键行业:适用于医疗保健、芯片设计等对软件可靠性要求极高的领域 [4] 行业影响 - 潜在变革:MSI技术可能重塑AI在金融分析、科学研究等高风险高精度领域的应用范式 [2][4] - 发展愿景:通过数学推理加速人类科学工程进步,构建"与宇宙基本真理对齐"的AI系统 [4][5]