GPT-5发布与市场反馈 - GPT-5在测试集上登顶但用户反馈褒贬不一 部分用户希望保留GPT-4o [1] - 模型未出现显著能力突破或技术范式更新 主要改进为减少幻觉和提升易用性 [1][3] - 多模态性能进步有限 仅优化了描述性任务 理解能力仍存边界 [5] - 核心智能层面未展现革命性进步 仍存在编造事实和多步逻辑推理错误问题 [3] - 通过模型路由功能合理化算力分配 以不同成本满足用户需求 [1][5] 大模型技术发展现状 - GPT-5发布暗示Transformer技术发展曲线暂缓 大模型能力上限疑似撞墙 [1][6] - OpenAI选择对现有框架修补优化 将现有能力产品化到极致 [1][3] - 未来模型能力突破依赖底层技术创新 需研究人员重新定义技术方向 [6] DeepSeek技术进展与战略 - DeepSeek-V2系列首创多头潜注意力机制 支持128K token处理 API定价为每百万token 2元人民币 [8] - DeepSeek-V3以671B参数MoE架构实现每秒60token生成速度 性能达GPT-4o水平 [8] - DeepSeek-R1在AIME和MATH任务上匹敌或超越OpenAI o1模型 成本远低于同期模型 [9] - 团队论文《Native Sparse Attention》获ACL 2025最佳论文奖 实现11倍推理加速 [11][13] - 正将最先进大模型训练迁移至国产芯片 需解决硬件性能差距和软件栈重构难题 [9][10] 行业竞争格局演变 - OpenAI聚焦超级APP叙事 营收和估值一路飙升 [2] - DeepSeek探索AI能力上限并推进开源生态技术普惠 [2] - 大模型行业发展线路相交于DeepSeek R1和GPT-4o发布 分化于GPT-5之后 [2] - 国产化需克服国产GPU单卡性能代际差距和10万卡集群工程难题 [10]
GPT-5之后,奥特曼向左,梁文锋向右
36氪·2025-08-15 07:23