机器之心

搜索文档
全网苦等GPT-5,超级对齐团队遗作成重要线索,奥特曼发话「惊喜很多」
机器之心· 2025-08-03 04:21
GPT-5技术进展 - OpenAI正在开发名为"通用验证器"的技术,可能是GPT-5的核心组件之一[1] - 该技术源于OpenAI去年发表的论文,通过小模型验证大模型的推理链并反馈奖励信号[1] - 验证者模型设计轻量化,适合大规模部署,明确为未来GPT部署准备[4] 证明者-验证者机制 - 采用双人格架构:证明者生成严谨推理,欺骗者植入错误逻辑[6] - 通过左右脑互搏游戏提升模型输出质量,类似GAN的对抗训练模式[5] - 训练方法使模型逐步产生结构清晰、逻辑严密的答案[9] 技术突破意义 - 代表AI发展从数据堆料转向架构创新的新阶段[11] - 可能突破当前数据瓶颈,实现更高级别的通用人工智能[11] - 系统将整合到未来主流模型的RLHF流程中[11] GPT-5实际表现 - 泄露版本显示存在GPT-5和5 Pro两个子版本[15] - 已具备生成动态效果丝滑的动画内容能力[17] - 可还原复杂游戏场景如Doom片段,展示强大生成能力[19] 行业影响 - 技术来自OpenAI已解散的超级对齐团队,显示持续研发路径[13] - 行业期待值达到新高,普遍认为将开启AI新时代[20][22] - OpenAI此前已在GPT-4代码助手中测试类似"批评家"机制[10]
OpenAI IMO金牌团队爆料:AI拒绝作答第六题
机器之心· 2025-08-03 04:21
项目团队与开发背景 - 核心团队仅由三人组成:项目负责人 Alexander Wei、研究工程师 Sheryl Hsu 和高级研究科学家 Noam Brown,其中 Sheryl Hsu 于今年 3 月入职 [3][10] - 项目实际开发周期仅两三个月,基于前期约六个月的强化学习算法酝酿 [9][5] - 技术方案初期曾受质疑,但通过处理「难以验证任务」的显著进步获得支持 [10] 模型能力与表现 - 模型在 IMO 中获金牌,标志其数学能力及处理复杂任务的通用技术提升 [6] - 生成的数学证明风格独特但「糟糕」,团队未优化人类可读性,原始证明公开于 GitHub [11] - 面对最难题(如第六题)时选择「不作答」,体现对能力边界的清晰认知,避免「幻觉」错误 [12] 技术挑战与未来方向 - 解决「千禧年大奖难题」仍遥远,当前能力仅覆盖 IMO 级别(1.5 小时/题)与研究级数学(1500 小时/题)的差距 [13] - 长时思考(如 1500 小时)的评估效率成瓶颈,需突破研究迭代速度限制 [15] - 优先发展通用推理能力,未采用形式化工具 Lean,因自然语言方法更适配现实问题 [17] 基础设施与扩展应用 - 项目基于与其他 OpenAI 产品相同的通用基础设施,无定制化开发 [18] - 多智能体系统用于扩展并行计算,相关技术已计划应用于其他系统以提升推理能力 [16] 行业意义与潜在应用 - 物理奥赛题难度高于数学,因涉及实验部分需机器人技术支持 [20] - 未来或向数学家开放工具,已有案例显示模型能识别自身能力局限 [21] - 提出新颖问题(如创造 IMO 级别新题)被视为 AI 下一阶段关键挑战 [19]
扩散架构 or「NoThinking」,AI 对话的「1Hz 壁垒」如何突破?
机器之心· 2025-08-03 01:30
扩散架构与「NoThinking」突破AI对话的「1Hz壁垒」 - 1X公司AI副总裁Eric Jang提出「智能频谱」概念 将智能行为类比电磁波谱 涵盖从极慢(植物生长)到极快(蜂鸟悬停)的连续时间尺度 [5][6] - 当前主流LLM如ChatGPT属于「1-2Hz智能」 生成首个词元需200-500毫秒 完整句子交互频率仅1-2Hz 远低于人类自然对话的10Hz [7] - 「1Hz壁垒」导致AI交互呈回合制 用户需主动等待 加剧幻觉/理解偏差等问题 突破该壁垒是实现AGI质变的先决条件 [7][8] - 未来通用智能体需覆盖0.1Hz(战略规划)至50Hz(瞬时反应)的全频谱 否则将被视为不完整AGI [8][9] 双系统理论与智能频谱的映射关系 - 不同AI应用场景对决策频率需求差异显著 反映底层架构存在根本性冲突 与Kahneman双系统理论(系统1快思考/系统2慢思考)形成映射 [10] 本期通讯内容结构 - 包含2项专题深度解读(扩散架构突破/Demis Hassabis访谈)及30项AI&Robotics赛道要闻 其中国内动态14项 国外动态8项 技术进展8项 [2] - 总字数20254字 免费试读比例9% 完整版需消耗99微信豆(约9.9元) [3]
GPT-5难产,外媒爆料:性能提升不大,OpenAI高管Slack上当众破防
机器之心· 2025-08-02 04:43
GPT-5技术进展 - GPT-5在编程、数学和复杂任务处理能力上有显著提升,尤其在自动化编码和客服退款规则制定方面表现优于前代[15] - 新模型能更高效分配计算资源,在不增加消耗的情况下生成更高质量的文本和代码答案[20] - 性能改进幅度不及早期GPT-3到GPT-4的飞跃,显示技术突破速度放缓[15] 技术开发挑战 - 从研究模型转为ChatGPT版本时性能收益大幅下降,沟通方式差异导致效果折损[32][33] - Orion模型原计划作为GPT-5发布,因未达预期改为GPT-4.5,预训练阶段遇到数据质量和规模扩展问题[27] - Meta挖走十多位关键研究人员导致团队动荡,研究副总裁公开抱怨管理问题[25][26] 核心技术创新 - 采用"通用验证器"技术自动评估模型输出质量,覆盖从编程到创意写作的广泛领域[38][39] - o3推理模型通过增加英伟达芯片和网络搜索能力,在科学理解上取得突破[29][30] - Test-Time Scaling技术证明增加计算时间可持续提升模型性能[13] 商业与融资动态 - 最新融资83亿美元使估值达3000亿美元,年收入预计年底突破200亿美元[42] - 微软可能获得重组后33%股权,双方在技术授权条款上存在争议[24] - 450亿美元GPU采购计划依赖技术改进带来的投资者信心[16] 战略方向 - 自动化编码能力成为研发重点,被视为实现AI自我进化的关键[21] - 公司高管公开表示现有技术路径可支持GPT-8目标,并最终实现AGI[18] - 强化学习被视为通向AGI的核心技术,获得xAI和谷歌等竞争对手重点关注[39]
19岁小哥伯克利辍学创业,获2800万美元融资,OpenAI投了
机器之心· 2025-08-02 04:43
公司背景与融资情况 - 营销自动化创业公司Conversion由两位加州大学伯克利分校辍学生创立,CEO尼尔・泰瓦里24岁,CTO詹姆斯・焦是其大学室友[1][3] - 公司于7月30日获得2800万美元A轮融资,领投方为Abstract,跟投方包括True Ventures、HOF Capital及OpenAI等顶级天使投资人[1] - 累计完成种子轮和A轮共3000万美元融资,种子轮金额为200万美元[10][19] 创业历程与产品定位 - 创始团队19岁辍学全职创业,初期与5位室友合租两居室,极端节俭[11][12] - 产品灵感源于使用HubSpot时发现的自动化需求,最初为内部工具开发后转为商业化[6][7][8] - 定位为"企业增长引擎",整合CRM数据实现购买意图实时感知,非单纯邮件工具[16] - 年经常性收入(ARR)接近1000万美元,90%客户为弃用传统工具的中型企业[16] 技术特点与竞争环境 - 深度集成AI功能,支持线索整理、个性化邮件自动化等任务[16] - 产品开发恰逢ChatGPT爆发期,传统营销工具AI集成存在兼容性问题[15] - 行业竞争激烈,海外有HubSpot、Salesforce等传统厂商及Jasper等AI原生公司,国内"营销+AI"领域高度内卷[17] - 差异化策略聚焦传统工具用户而非新客户,强调"无感易用"体验[18][19] 团队文化与现状 - 创始人具典型硅谷特质:高中关注科技峰会、大学辍学、极端工作生活条件[5][12] - 目前团队生活条件改善,创始人已搬入独立住所[19]
通向L3的正确范式?理想i8全球首发VLA高阶辅助驾驶,我们帮你试了试
机器之心· 2025-08-02 04:43
理想i8与VLA司机大模型 - 理想全新纯电SUV i8上市,搭载新一代VLA辅助驾驶系统,成为全球首个展示VLA辅助驾驶范式的车企 [2] - VLA系统基于视觉-语言-行为大模型、英伟达Thor-U芯片和禾赛ATL激光雷达,辅助驾驶能力大幅提升 [2] - VLA架构最大改进在于利用大模型语言智能提供决策能力,将空间智能转化为语言理解编码再形成动作指令 [6] VLA技术特点 - 具备思维推理能力:通过CoT(思维链)推理充分理解环境并生成驾驶决策 [17] - 拥有沟通能力:支持自然语言交互,可接受人类实时指令调整驾驶行为 [9][17] - 具备记忆能力:可记住特定道路的驾驶设置并在下次自动应用 [17] - 自主学习能力:通过仿真环境自我迭代,利用生成数据持续提升 [17] - 驾驶平顺性提升:采用Diffusion生成光滑轨迹,相比之前连接轨迹点的方案更丝滑 [13] - 驾驶风格改进:从模仿"老司机"转向"专车司机"风格,更加稳健 [15] 技术演进与数据积累 - 辅助驾驶技术从BEV方案演进到无图辅助驾驶,再到端到端架构,现升级至VLA范式 [23] - 端到端辅助驾驶MPI(接管里程)从最初十几公里提升至100公里,7个月增长10倍 [5] - 已积累43亿公里用户智驾总里程,134万辆用户规模,云端算力达13EFLOPS [24] - 累计12亿公里有效数据,覆盖不同天气、道路类型等多样化场景 [24] - 通过世界模型生成合成数据解决长尾场景问题,提升数据价值 [25][26] 算法与工程优化 - 构建MindGPT基座模型,通过五步流程实现VLA大模型生成 [28] - 采用仿真测试大幅降低成本:从2023年实车测试157万公里(成本18.4元/公里)降至2024年仿真测试4009万公里(成本0.53元/公里) [28] - 实现模型量化:在Thor-U芯片部署4B模型并进行FP8、INT8量化,未来FP4精度可使算力翻倍 [29] - 算法效率高,强化学习应用显著,可实现天级发版迭代 [28] 未来展望 - 已在北京总部运行MEGA Home接驳车,实现全区域(含地下停车场)巡游 [30] - 构建1×1km完全仿真环境,训练速度远超真实世界 [32] - 预计一年后MPI可达1000公里,加速智能驾驶技术迭代 [32]
ICCV 2025 | EPD-Solver:西湖大学发布并行加速扩散采样算法
机器之心· 2025-08-02 04:43
扩散模型加速技术研究 核心观点 - 扩散模型因逐步去噪机制导致推理延迟高,成为部署效率瓶颈[2] - 现有加速方法(数值求解器、模型蒸馏、并行计算)均存在质量损失或成本过高问题[3] - 西湖大学提出EPD-Solver创新方案,融合三类优势,在3-5步采样下保持高质量生成[3][4] 技术原理 - 基于向量值函数中值定理,通过并行计算多个中间时刻梯度并加权融合[9][10] - 参数集包含中间时刻τₙᵏ、融合权重λₙᵏ、偏移量δₙᵏ和扰动参数oₙ[11][15] - 采用蒸馏框架优化参数:生成教师轨迹后最小化学生轨迹差异[16] 性能优势 - CIFAR-10测试中EPD-Solver在3步采样时FID仅10.40,显著低于DDIM的93.36和EDM的306.2[20] - ImageNet 64×64条件生成任务中,3步采样FID为18.28,优于AMED-Solver的38.10[20] - 插件版本EPD-Plugin在LSUN Bedroom数据集3步采样FID达13.21,较AMED-Solver提升45分[21] 应用特性 - 完全并行化设计,额外梯度计算不增加单步推理延迟[14][28] - 可插拔集成至现有求解器如iPNDM,无需模型重训练[17][28] - Stable Diffusion v1.5上8-20步生成质量超越DPM-Solver++(2M)[25] 行业意义 - 突破低延迟采样下速度与质量的权衡瓶颈[27] - 为游戏、VR、数字内容创作等实时生成场景提供新解决方案[2][28] - 实验证明并行计算是扩散模型高效采样的潜力方向[28]
刚刚,谷歌「IMO金牌」模型上线Gemini,数学家第一时间证明猜想
机器之心· 2025-08-02 00:55
产品发布与功能升级 - 谷歌向Google AI Ultra订阅用户推出Deep Think功能,并向部分数学家提供全版本Gemini 2.5 Deep Think模型[1] - 新版本融合早期测试反馈和研究突破,较I/O大会发布的版本有显著改进[3] - Deep Think基于IMO金牌模型的变体,推理速度更快且日常体验更佳,在2025年IMO基准测试中保持铜牌级性能[4] 技术特性与创新 - 采用并行思维和强化学习技术,可同时生成多个想法并修订结合,延长推理时间以探索创造性解决方案[12] - 支持与代码执行、Google搜索等工具自动配合,生成更长响应[6] - 在HLE(34.8%)、Live Code Bench V6(87.6%)、IMO2025(60.7%)和AIME 2025(99.2%)等基准测试中表现突出[18] 应用场景与案例 - 帮助数学家Michel van Garrel证明猜想,适用于研究人员解决高度复杂的数学和科学问题[5][19] - 在迭代开发中表现亮眼,如通过单提示词生成细节丰富的体素艺术图像[14] - 擅长算法开发与编程,能处理需要精确表述和时间复杂度的重要编码问题[19] 产品性能对比 - 在Humanity's Last Exam基准中,Deep Think(34.8%)显著优于Gemini 2.5 Pro(21.6%)和OpenAI(20.3%)[20] - IMO 2025数学测试达到铜牌水平(60.7%),远超Gemini 2.5 Pro(31.6%)和OpenAI(16.7%)[20] - 代码生成能力在LiveCodeBench v6达87.6%,领先同类产品[20] 商业化与测试计划 - 当前仅限Google AI Ultra订阅用户使用,每日限制5条/24小时[10] - 计划未来几周通过Gemini API向受信任测试者发布带工具和不带工具的版本[11] - 安全性方面,内容安全性和客观性提升,但拒绝良性请求倾向增强[20]
一个模型超了DeepSeek R1、V3,参数671B,成本不到350万美元
机器之心· 2025-08-02 00:55
公司概况 - Deep Cogito是一家鲜为人知的AI初创公司,总部位于旧金山,由前谷歌员工创立,近期开源了四款混合推理模型[2] - 公司于2025年4月正式走出隐身状态,此前已默默耕耘一年多时间,早期发布的基于Llama 3.2训练的模型已展现出颇具前景的表现[8][9] - 联合创始人兼CEO Drishan Arora曾是谷歌大语言模型核心工程师,公司长期目标是构建能像AlphaGo那样通过迭代不断自我提升的模型[10] 技术突破 - 核心方法是迭代蒸馏与增强(IDA),不依赖手工提示词或静态教师模型,而是利用模型自身不断演化的洞察力引导训练[3] - 最大规模的671B MoE模型是全球最强大的开源模型之一,性能接近DeepSeek v3、DeepSeek R1等闭源前沿模型[3] - 推理链比DeepSeek R1缩短60%,训练总成本不足350万美元(含合成数据生成和1000+次实验)[6] - 通过将推理步骤蒸馏回模型参数,使模型拥有更强的智能先验,而非依赖延长推理链条[11][15] 模型性能 - 671B MoE模型在MMLU基准测试达87.6%,较Deepseek-v3 671B提升1.6个百分点;GPQA-Diamond测试达69.7%,提升14.65个百分点[36] - 70B稠密模型在MMLU-Pro基准达75.65%,较Llama 3.3 70B高5.38个百分点;GPQA-Diamond测试达55.05%,提升6.06个百分点[32] - 405B稠密模型在Simple QA基准达37.29%,较Llama 3.1 405B提升19.05个百分点[35] - 109B MoE模型在MMLU基准达91.6%,较Llama 4 109B高6.53个百分点;MGSM测试达92.52%,提升6.14个百分点[33] 创新特性 - 展现出未经专门训练的多模态涌现能力,能对图像进行复杂逻辑推理(如分析鸭子与狮子图片的构图/色彩/情感等)[21][27] - 采用类似AlphaGo的两步循环机制:推理时计算+策略迭代优化,实现智能闭环提升[26] - 模型提供标准LLM模式和自我反思模式,后者在多项基准测试中表现更优(如70B模型MMLU-Pro推理模式达81.33%)[32] 商业化进展 - 模型已开源并在Huggingface发布,支持通过Together AI/Baseten/RunPod等平台API调用,或使用Unsloth本地运行[7] - 当前发布的是8个模型中的4个,包含2款中型(70B/109B)和2款大型(405B/671B)模型[14]
多模态后训练反常识:长思维链SFT和RL的协同困境
机器之心· 2025-08-02 00:55
语言模型训练方法研究 - 长思维链监督微调(Long-CoT SFT)与强化学习(RL)的组合在纯语言模型中通常能实现性能叠加提升,但在多模态视觉语言模型(VLM)中可能出现协同失效甚至互相拖累的现象 [2][3] - 多模态推理评测与纯语言评测存在差异:多模态评测包含简单感知问题和复杂认知推理挑战,这种异质性是导致Long-CoT SFT和RL在多模态设置中表现不同的核心原因 [5] 难度分类与数据集构建 - 研究引入基于基线模型Qwen2.5-VL-Instruct-7B的难度分类方法,将题目分为五个级别(L1-L5),通过率从≥75%(L1)到<13%(L5) [5] - 构建了难度层级细化后的多模态推理榜单数据集,包括MathVision、MathVerse、MathVista、MMMU val和MMStar val [5] 训练方法性能分析 - Long-CoT SFT在L5级难题上表现优异,尤其擅长处理MathVision中的图文结合推理难题,但在L1级简单题上表现比基础模型更差 [7] - RL在所有难度级别(L1-L5)均能实现稳定提升,简单题不翻车,中等题表现稳健,但在L5级难题上的提升不及Long-CoT SFT [7] - Long-CoT SFT使模型输出冗余度飙升至原来的数倍,而RL保持输出文本的高效简洁 [7] 组合策略实验结果 - 五种组合方案(两阶段、交替式、渐进式、数据混合、模型合并)均未能实现"1+1>2"的效果 [9][10] - 渐进式组合显示出最大潜力,难题解决能力高于纯RL、媲美纯SFT,但仍是一种折衷,牺牲了部分简单题目的性能 [11] - 两阶段组合回答范式固化于冗长思考,性能困于SFT水平;交替式组合性能卡在两种方法之间;数据混合导致推理风格难以自适应切换;模型合并表现为性能插值而非叠加增强 [11] 其他重要发现 - 推理轨迹的质量比数据规模和模态匹配更重要:1k条高质量文本思维链数据做SFT微调的效果优于34k多模态推理数据 [17] - KL正则化项有效保持RL长稳训练,避免奖励崩溃、熵减小和响应长度剧烈波动 [17] - 简单题是"性能压舱石",纳入RL训练数据可避免丢失处理简单题的基础能力 [17] 未来研究方向 - 自适应推理:让模型对简单题给出简洁回答,对难题采用深度推理 [12] - 构建模型亲和的训练数据:考虑采用提示词工程自蒸馏等方式构建训练数据 [12] - 分层评估体系:将榜单分为不同难度题目,差异化评测和优化模型 [13]