Workflow
o1推理模型
icon
搜索文档
观察| 100万亿Tokens的:AI正在发生你看不见的巨变
文章核心观点 - 基于OpenRouter平台超过100万亿tokens的真实使用数据,AI行业正在经历一场深刻的范式转变,其核心是从“工具”进化为“伙伴” [1][2][3] - 这场转变由两大技术革命驱动:“推理革命”使AI具备多步骤思考能力,“代理式AI”使AI能够自主规划并执行任务 [11][27] - 真实的用户行为和市场数据揭示了与实验室基准测试不同的竞争格局,开源模型(特别是中国的DeepSeek和Kimi)凭借成本、灵活性等综合优势正在强势崛起 [44][47] - 用户选择模型的标准日益多元化,模型“人设”(个性)和突破性能力对用户留存的影响,可能超过传统的性能基准分数 [88][96][100] - AI的应用场景已进入爆发期,正从创意写作和编程两大引擎,扩展到角色扮演等满足情感需求的领域,并深刻重塑普通人的工作、学习和娱乐方式 [69][71][80][121] 数据来源与重要性 - 报告数据来源于硅谷风投A16Z与OpenRouter联合发布的《State of AI: An Empirical 100 Trillion Token Study》,这是基于真实战场数据的首次大规模研究 [2] - 数据覆盖了OpenRouter平台上过去一年产生的超过100万亿tokens,涉及500万开发者、300多个AI模型及60多家提供商 [2] - OpenRouter被比喻为“AI世界的美团外卖”,连接了几乎所有主流AI模型,其数据的核心价值在于多样性,能够反映用户在公平平台上的真实选择 [5][7][8] - 从2024年初到2025年中,OpenRouter的年处理流量从约10万亿tokens增长至超过100万亿tokens,增幅达10倍,标志着AI应用从“尝鲜期”进入“爆发期” [8] - 作为对比,OpenAI官方API在2024年10月的日均处理量为8.6万亿tokens,而OpenRouter的日处理量已突破1万亿tokens [6] 推理革命 - 核心转变是AI从“接话机器”(一次性输出)进化为“思考机器”(多步骤思考),能够像人类一样分解问题、搜索信息并迭代优化 [13][16] - 标志性事件是OpenAI于2024年12月5日发布的o1推理模型,其特点是会进行内部推理,开启了“代理式推理”的新模式 [17][18] - 市场数据支持这一趋势:用户提示词长度显著增加、对话轮次增多,且专业推理模型的市场份额快速上升 [20][21][22] - 用户正用更复杂的任务“训练”AI,而能够胜任复杂任务的推理模型正在赢得市场 [23] - 这喻示着AI的角色从“计算器”(工具)进化为“工程师”(同事),实现了从工具到同事的跨越 [25][26] 代理式AI - 代理式AI改变了AI的“手脚”,使其从被动、单次、静态的问答,转变为主动、多步、动态的任务执行者 [27][29][30] - 例如,在分析财报时,代理式AI能主动搜索最新信息、下载文件、提取数据并生成分析报告,突破了传统模型数据过时的局限 [31][32][33] - A16Z报告指出,代理式推理是OpenRouter上增长最快的行为模式,表明开发者正在大规模构建能自主完成任务的AI代理应用 [34][35] - 这意味着用户期待从“给我一个答案”变为“帮我完成这件事”,AI的价值从“信息检索”升级到“任务执行” [35][36] - 竞争前沿随之改变,重点转向模型的编排能力、控制力和可靠性,而不仅仅是准确率,这要求AI公司构建全新的“模型调度系统”技术栈 [42][43] 开源模型的崛起与中国力量 - 真实使用数据挑战了“闭源模型碾压开源”的常识,显示开源模型,尤其是推理型开源模型正在快速抢占市场份额 [46][47] - 中国的DeepSeek R1和Kimi K2在报告中表现突出,成为开源逆袭的代表 [47] - DeepSeek R1凭借巨大的成本优势(调用成本可能低至GPT-4的十分之一)、不输闭源模型的推理能力以及开源可自部署的灵活性,获得开发者青睐 [51][52][53][54] - Kimi K2是一个万亿参数级的开源MoE模型,在长文本处理和推理任务上表现优异,发布后短时间内即获得显著市场份额 [56][57] - 开源逆袭的关键在于真实世界的“好用”不等于基准测试的“高分”,用户选择是成本、延迟、定制性、隐私及“人设”匹配度等综合权衡的结果 [59][65] - 这对中国AI产业意味着,在推理能力等新方向上与国际顶尖水平的差距正在缩小,开源路线结合成本优势和特定能力可以形成强大的市场竞争力 [67][75] 真实应用场景与用户行为 - 驱动token使用量的两大核心场景是创意写作和编程 [71] - 在编程场景中,代码生成、解释和debug是高频需求,AI的价值不仅在于“生产力”,更在于“理解力” [73][74] - 在创意写作中,AI主要作为“创意合伙人”与人类共创,而非完全替代 [77][78] - 角色扮演占据了相当大比例的使用量,这揭示了人类与AI交互中存在“情感连接”的维度,满足了陪伴、娱乐等需求 [80][81][82] - 全球使用模式存在地区差异,例如北美多用于专业工作,亚洲多用于学习和创意,欧洲更偏好隐私和开源模型,体现了AI应用的本地化特征 [84][88] 模型“人设”与用户选择 - 用户能感知到不同AI模型的独特“性格”,如GPT-4的博学严谨、Claude的细腻谨慎、Gemini的快速直接、DeepSeek的专注深入,这些构成了模型的“人设” [89][94] - 报告发现,某些在学术基准测试中表现一般的模型,却因“人设”受欢迎而拥有出色的用户留存率 [96][97] - 用户体验到的“突破性能力”(如卓越的代码、长文本、多模态或推理能力)能建立用户忠诚度,促使用户迁移并不再返回 [100][102] - 这对AI公司的启示是:不应只追求基准分数,而需打造差异化“人设”并在细分场景做到极致,同时突破性创新是建立护城河的关键 [103][104][105] 对中国AI产业的启示 - 积极信号:DeepSeek R1和Kimi K2在全球真实市场中站稳脚跟,证明中国开源推理模型已具备全球竞争力 [108][109][110] - 现存挑战:在开发者工具、生态集成及海外品牌认知方面,与国际领先者仍有差距 [112][116] - 重大机遇:“推理革命”和“代理式AI”是新赛道,中国公司在工程能力和丰富应用场景方面具有优势,存在弯道超车的机会窗口 [113][114][116] - 发展建议:聚焦推理和代理能力;采用“开源+商业”双轮驱动;重视开发者体验等软实力;打造差异化“人设”而非简单模仿 [115][117][118][119] 对普通人日常的影响 - 工作方式重构:AI正成为各行业从业者的必备技能,其价值在于将人从重复劳动中解放,聚焦于更高价值的洞察、创新与决策 [122][126] - 学习方式升级:AI能提供个性化、沉浸式的学习辅导,如实时答疑、语言对话、知识讲解,有助于消解教育资源不平等的问题 [127][131] - 娱乐方式扩展:AI创造了如角色扮演、互动小说等“主动共创”的新娱乐形态,超越了传统的被动观看 [132][134][135] - 需警惕的风险:包括对AI的依赖性可能导致独立思考能力退化、数据隐私问题、信息茧房效应以及AI生成内容的真假难辨 [136]
揭秘:OpenAI是如何发展出推理模型的?
硬AI· 2025-08-04 09:46
OpenAI的AI发展路径 - OpenAI的成功源于数学领域的探索,而非ChatGPT的意外走红,数学被视为逻辑和推理能力的试金石[3][4][5] - 公司内部代号"草莓"的计划旨在通过数学训练提升AI的推理能力,最终目标是开发通用AI智能体[4][8] - 2024年推出的o1推理模型展现了突破性进展,其核心研究员成为行业争抢对象,Meta以亿美元薪酬挖走5人[10] 技术突破与创新 - 结合大语言模型(LLM)和强化学习(RL),开发出"思考链"(Chain-of-Thought)方法,使AI能展现完整解题思路[9][10][12] - 测试时计算技术让模型在给出答案前反复验证步骤,IMO金牌模型采用多智能体协作探索最优解[12][15] - AI推理机制不同于人类思考,但能实现更强大结果,如同飞机与鸟类飞行的差异[13] 未来发展方向 - 当前AI擅长客观编码任务,但处理主观任务(如旅行规划)仍存在数据瓶颈[15] - 下一代AI将向多智能体协作演进,从处理事实转向理解主观意图[16] - 终极目标是开发能自主处理互联网任务并理解用户偏好的超级智能体[16] 行业竞争格局 - OpenAI面临Google、Anthropic、xAI和Meta等对手的激烈竞争[17] - 行业焦点已从能否实现智能体未来转向谁将率先突破[17]
揭秘:OpenAI是如何发展出推理模型的?
华尔街见闻· 2025-08-04 07:02
文章核心观点 - OpenAI的ChatGPT成功被视为一次意外收获 公司真正的长期战略是开发具备推理能力的通用AI智能体(AI Agents) 其技术突破源于数学推理研究[1][2][3] - 公司通过结合大语言模型、强化学习和测试时计算三大技术 实现推理能力飞跃 关键突破内部代号为"Q*"或"Strawberry"[4][5] - 基于新方法开发的o1推理模型在2024年秋季问世 该模型使OpenAI在国际数学奥林匹克竞赛(IMO)中获得金牌[3][6] - 公司面临Google、Anthropic、xAI和Meta等竞争对手的激烈追赶 行业竞赛焦点在于谁能率先实现通用AI智能体愿景[9] OpenAI技术发展路径 - 数学领域被选为推理能力研究的起点 因为数学是纯粹逻辑和推理的试金石 2022年MathGen团队专注训练AI模型解答高中数学竞赛题[2] - 从语言处理到逻辑推理的跨越通过三大技术结合实现:大语言模型提供知识基础 强化学习通过奖惩机制优化决策 测试时计算允许模型反复验证思考步骤[5] - 新技术催生"思考链"(Chain-of-Thought)方法 模型展示完整解题思路而非直接输出答案 研究员观察到模型具备回溯错误和情绪化反应的特征[6] 推理能力的技术本质 - 公司从计算机科学角度定义推理为"有效消耗算力得到答案"的过程 强调功能实现而非形式模仿[7] - 研究文化采用自下而上模式 团队只需证明想法突破性即可获得GPU和人才资源支持 这种机制保障了对AGI使命的长期投入[7] - AI推理与人类思考的关系被类比为飞机与鸟类飞行 不同机制可实现相同甚至更强大的结果[7] 未来发展方向 - 当前AI智能体擅长定义明确的可验证任务(如编程) 但在处理主观性任务(如停车位选择或旅行规划)时仍存在瓶颈[8] - 核心挑战在于缺乏训练主观任务的数据 公司已开发新的通用强化学习技术训练模型处理无标准答案的问题[8] - IMO金牌模型采用多智能体协作机制 同时探索不同解题路径后选择最优解 这代表未来AI演进方向[8] - 终极目标是开发能处理互联网任何事务并理解用户偏好的超级智能体 所有研究均指向该方向[8] 行业竞争格局 - OpenAI曾为AI行业绝对引领者 但目前面临Google、Anthropic、xAI和Meta等对手的强势竞争[9] - 行业竞争焦点转向实现"智能体未来"的时间赛跑 关键在于能否在被超越前率先达到技术终点[9]