Workflow
推理模型
icon
搜索文档
Google不革自己的命,AI搜索们也已经凉凉了?
虎嗅· 2025-05-23 03:23
Google AI搜索转型 - Google在I/O开发者大会宣布上线由Gemini驱动的高级AI搜索模式AI Mode,支持自然语言交互和结构化答案,标志着从传统"关键词+链接列表"向新范式的转变[1] - 2024年Google搜索业务贡献1750亿美元收入,占总收入一半以上,AI搜索转型可能对该核心业务造成冲击[2] - 研究机构伯恩斯坦指出,Google搜索市占率已从90%+降至65%-70%,面临AI ChatBot的竞争压力[3] AI搜索行业现状 - AI搜索赛道融资额从2024年1-7月的12.8亿美元降至2024年8-2025年4月的8.93亿美元,行业融资活跃度下降[12] - Perplexity和Glean两家公司占本期总融资额的85%,其余10家公司仅占15%,行业集中度显著提升[13] - 通用搜索引擎领域老玩家主导融资,新创企业更多集中在垂类和企业场景搜索[16] 头部公司表现 - Perplexity访问量从4500万增长至1.29亿(增幅186%),但实际订阅收入仅3400万美元,净亏损6800万美元[9] - 前百度高管创立的Genspark宣布关闭搜索引擎产品,转型AI Agent[6] - 全球Top20 AI搜索引擎4月访问量均出现下滑,Perplexity下降8.77%,秘塔AI搜索下降23.57%[29] 技术变革影响 - OpenAI o1推理模型推出后,ChatGPT等通用产品纷纷加入搜索功能,显著降低幻觉问题[24] - 传统AI搜索产品依赖"预测"而非"思考",导致答案准确性受诟病[22] - 推理模型通过语义理解、路径选择等模块提升搜索体验,削弱专业搜索产品的差异化优势[26] 垂类搜索发展 - 医疗搜索引擎Consensus拥有40万MAU和150万美元年收入[32] - 视频搜索引擎Twelve Labs总融资达9200万美元,提供多模态视频理解解决方案[36][43] - 法律搜索引擎Qura、求职搜索引擎Micro1等垂类产品获得早期融资[33][45] 商业模式挑战 - Google计划在AI Mode中嵌入"Sponsored"标记广告,但SEO专家指出AI回答可能降低广告点击率[51] - Perplexity付费用户仅26万(占比16%),补贴模式难以为继[9] - 行业整体面临商业化难题,需要探索AI搜索可持续盈利模式[51]
Claude 4发布!AI编程新基准、连续编码7小时,混合模型、上下文能力大突破
Founder Park· 2025-05-23 01:42
Claude 4模型发布 - Claude 4包含Opus 4和Sonnet 4两款模型,分别针对复杂任务和高效推理场景 [2][4][5] - Opus 4在SWE-bench和Terminal-bench测试中以72.5%和43.2%得分领先行业,Sonnet 4在SWE-bench达72.7% [13][18][23] - 新模型支持并行工具使用、本地文件访问记忆增强、长达1小时的提示词缓存等API功能 [6][32][10] 技术突破 - 首次实现工具使用与推理过程同步,比传统分阶段处理更贴近人类认知模式 [27][28][29] - 模型走捷径行为比前代减少65%,记忆能力显著提升,可创建导航指南等长期记忆文件 [31][32][33] - 连续7小时稳定运行复杂任务,完成开源代码重构等超长周期工作 [14][20][43] 开发者生态 - 提供VS Code/JetBrains原生集成,支持GitHub Actions后台任务和实时结对编程 [6][48][49] - 定价维持Opus 4每百万Token 15/75美元(输入/输出),Sonnet 4为3/15美元 [11] - 通过Amazon Bedrock Converse API实现跨模型兼容,降低基础设施管理成本 [10][12] 行业影响 - 推理模型使用量4个月内增长5倍,占AI交互比例从2%升至10% [26] - 在Cursor、Replit等平台实测显示代码理解能力和跨文件处理精度显著提升 [20][21] - 推动AI智能体向虚拟协作者进化,保持长期上下文理解与任务连贯性 [55] 产品特性 - 新增扩展思考模式,支持网络搜索等工具动态调用优化响应质量 [6] - 思考摘要功能自动精简5%冗长推理过程,其余95%保持完整输出 [34] - 免费用户可体验Sonnet 4,Pro/Team/Enterprise用户获全功能访问 [8][9]
全球最强编码模型 Claude 4 震撼发布:自主编码7小时、给出一句指令30秒内搞定任务,丝滑无Bug
AI前线· 2025-05-22 19:57
Claude 4系列模型发布 - Anthropic在首届开发者大会上正式发布Claude 4系列模型,包含Opus 4和Sonnet 4两个型号 [1][3] - Opus 4是公司迄今最强大的AI模型,能连续处理长达7小时的长期任务,被描述为"世界上最好的编码模型" [6][8] - Sonnet 4定位经济高效,取代3.7版本,在编码效率和响应精确度上显著提升,走捷径概率降低65% [13] 技术性能突破 - 编码能力:Opus 4在SWE-bench和Terminal-bench分别达到72.5%和43.2%准确率,领先竞品 [4][8] - 推理能力:Opus 4在研究生级推理测试GPQA中达79.6%/83.3%,工具使用准确率81.4% [4][10] - 内存优化:模型可创建"内存文件"存储关键信息,提升长期任务连贯性,如游戏导航指南 [11] 行业竞争格局 - 2025年AI行业转向推理模型,Poe报告显示推理类交互占比从2%激增至10% [32][35] - 主要厂商差异化竞争:OpenAI强于通用推理,谷歌擅长多模态,Anthropic专注编码和持续性能 [35] - 模型更新节奏加快,Anthropic在OpenAI发布GPT-4.1五周后即推出竞品 [35] 商业化进展 - 定价策略:Opus 4每百万token 15-75美元,Sonnet 4为3-15美元,与旧版持平 [15] - 营收增长:第一季度年化营收达20亿美元,较上季度翻倍,10万美元以上客户数同比增8倍 [23] - 融资动态:获25亿美元五年期循环信贷额度,增强行业竞争流动性 [23] 开发者生态 - 发布Claude Code命令行工具,支持GitHub Actions及VS Code/JetBrains原生集成 [17] - API新增代码执行工具、文件API等功能,支持提示缓存1小时 [21] - 提供"扩展思考"测试版功能,允许模型在推理中交替使用网络搜索等工具 [19][20] 用户实测反馈 - 网友实测显示Opus 4能30秒生成CRM仪表盘,Sonnet 4可无bug通关游戏并执行多任务 [24][26] - 艺术创作测试中,模型仅凭简单提示即生成包含光影效果的3D作品 [28]
一场对话,我们细扒了下文心大模型背后的技术
量子位· 2025-05-22 12:34
大模型技术发展 - OpenAI CEO指出行业已进入复杂推理模型的新范式阶段[1] - 推理模型成为继基础模型后厂商竞争的新焦点[1] - 中国信通院评估显示文心X1 Turbo在24项能力中16项获满分5分,综合评级达最高"4+"级,为国内唯一通过该测评的大模型[1] 文心大模型技术突破 - 文心4.5 Turbo和X1 Turbo分别聚焦多模态与深度思考两大方向[6] - 多模态混合训练技术实现文本/图像/视频统一建模,训练效率提升2倍,理解能力提高30%[7][8] - 自反馈增强技术框架构建"训练-生成-反馈-增强"闭环,显著降低模型幻觉并提升复杂任务处理能力[10][12][13] - 融合偏好学习的强化学习技术使模型理解/生成/逻辑/记忆能力全面提升[14][16] - X1 Turbo突破线性思维链,构建复合型思维链实现"边思考边行动"等人类式策略,复杂任务效果提升22%[18][19][21][23] 基础设施与性能优化 - 飞桨框架3.0支持使文心4.5 Turbo训练吞吐达前代5.4倍,推理吞吐提升8倍[31][32] - 算力-框架-模型三位一体协同优化路径成效显著[34] - 文心4.5 Turbo在14个数据集平均成绩80分超越GPT-4.5和DeepSeek-V3[35] - X1 Turbo各项数据集表现均优于DeepSeek-R1[37] 实际应用场景 - 教育领域:X1 Turbo可模拟人类思维解析物理题目[42] - 代码场景:AI生成代码占比超40%,累计服务760万开发者[44] - 数字人技术:支持10万主播,直播转化率31%且成本降低80%[47][48] - 行业规模:2029年全球K-12在线教育预计达8991.59亿元,2024年数字人核心市场480.6亿元将带动6402.7亿元关联产业[49] 长期技术战略 - 6年迭代9大版本形成全栈技术能力[52] - 坚持知识增强技术强化事实性/时效性/知识性[56] - 通过智能体技术结合工具使用解决现实复杂问题[56] - 视大模型为新一轮科技革命周期,注重技术长期价值与层层扩散效应[57][58] - 底层飞桨框架到上层应用的完整技术栈构成核心竞争力[61]
锦秋基金臧天宇:2025年AI创投趋势
锦秋集· 2025-05-14 10:02
国内AI投资趋势观察 - 近60%的投资项目分布在应用层 得益于模型智能提升和调用成本下降 应用层迎来显著爆发期 [6] - 底层算力占比超10% 作为AI"能源"是推动模型训练和推理的基础要素 [6] - 具身智能(Physical AI)占比超10% 成为中美共同关注的热点领域 [6] - 2023年投资集中于大语言模型(LLM) 2024-2025年重心转向应用层 [6] 应用层投资细分方向 - Agent方向占比近40% 包括Coding Agent和Vertical Agent(营销/客服/法律/金融等) [8] - 创意工具占比20% 涵盖图像/视频/个性化商品等生成式AI应用 [8] - 内容与情绪消费占比20% 衍生出对话+剧情/游戏化等新内容形态 [8] 算力与具身智能布局 - 算力层关注存算一体/光计算等新架构 以提升推理效能 [9][23] - 具身智能重点投资软硬一体机器人产品 及上游关节/数据服务 [9] 中间层/工具链投资 - 大语言模型安全领域布局 防范提示词注入等新型风险 [10] - 强化学习基础设施投资 支持Vertical Agent持续优化 [10] AI投资核心变量 - 智能提升维度: 从预训练Scaling Law转向后训练优化 进入Test Time Scaling阶段 [14] - 成本下降维度: Token价格从5元/万Token降至0.8元/百万Token 降幅达10倍 [19][20] - 两大趋势叠加催生应用层机会 类比互联网/移动互联网变革 [26][27] 应用层机会框架 - 信息/内容/服务供给极大丰富: 编辑成本趋零/创作成本下降/新内容模态涌现 [30][31][32] - 分发模式进化: 从精准推荐到主动式服务 基于更细粒度用户建模 [34][36] Physical AI发展 - 通用机器人是终极目标 需解决真实数据获取与软硬件协同优化 [39][40] - 模型层进展显著: pi0.5模型验证数据重要性 DYNA-1实现单任务真机部署 [38]
推理大模型1年内就会撞墙,性能无法再扩展几个数量级 | FrontierMath团队最新研究
量子位· 2025-05-13 07:11
推理模型算力需求增长趋势 - 大模型推理训练可能在一年内面临增长瓶颈[1] - 推理模型目前保持每3-5个月以10倍速度增长的态势[2] - 若推理训练算力需求见顶,增长率将收敛至每年约4倍[32] 推理训练算力投入现状 - OpenAI训练o3所需算力比o1提升10倍,主要花费在训练阶段[6][9] - DeepSeek-R1推理训练使用算力约为6e23 FLOP,成本约100万美元[16] - 英伟达Llama-Nemotron Ultra推理阶段耗时140000 H100小时,约1e23 FLOP,低于基础模型预训练成本1%[20] - 微软Phi-4-reasoning推理阶段成本低于1e20 FLOP,可能小于预训练算力成本的0.01%[22] 推理模型性能与扩展性 - 推理模型在数学和编程任务上呈现对数线性增长规律[29][31] - 目前最前沿推理模型的推理训练规模尚未见顶,仍具扩展潜力[26][27] - 模型答题准确率随推理训练步骤增加而提升[29] 推理训练面临的挑战 - 数据不足可能成为推理模型发展的制约因素[35] - 推理训练在规律性较强领域(如数学、编程)有效,但泛化到其他领域存在不确定性[36] - 即使算力增长放缓,推理模型仍可能通过其他方式持续进化[38]
阶跃星辰姜大昕:多模态目前还没有出现GPT-4时刻
虎嗅· 2025-05-08 11:50
公司概况 - 阶跃星辰由前微软全球副总裁姜大昕于2023年创立,总部位于上海,北京办公室距离微软中国办公地仅504米 [1] - 公司核心管理团队包括CEO姜大昕(战略与技术研发)、首席科学家张祥雨(技术研发)、系统负责人朱亦博(AI基础设施) [1] - 公司员工规模达400余人,其中80%为技术研发人员,采用扁平化管理模式,员工可通过私信直接与CEO沟通 [2] - 2024年12月完成B轮数亿美元融资,是"AI六小虎"中少数坚持预训练路线的公司 [3] 技术战略 - 核心聚焦多模态基础模型研发,坚持"理解生成一体化架构"技术路线,认为这是实现AGI的必经之路 [1][11] - 已建立Step系列通用大模型矩阵,涵盖语言模型和多模态模型,2024年下半年多模态API调用量增长超45倍 [1][11] - 2025年1月发布推理模型Step R1-V-Mini,计划未来三个月推出满血版Step-R1 [14] - 近期将算法团队重组为"生成理解"团队,体现对理解生成一体化架构的重视 [1] 行业趋势判断 - 多模态领域尚未出现"GPT-4时刻",核心瓶颈在于缺乏统一的理解生成一体化架构 [1] - 模型演进路径分为三阶段:模拟世界(模仿训练)→探索世界(强化学习)→归纳世界(自主发现规律) [5][7] - 当前两大技术趋势:1) 将长思维链推理能力融入语言/多模态模型 2) 视觉领域理解生成一体化 [18][19] - 智能体(Agent)发展需要两个条件:多模态能力和慢思考能力,2024年这两方面取得突破性进展 [31] 产品应用 - 主要收入来源:面向品牌客户的ToB服务和面向开发者的API接口业务 [3] - 已推出Step 1X-Edit图片编辑模型,采用初级理解生成一体化技术,未来几个月将发布更先进版本 [30] - 重点布局智能终端Agent生态,与手机、汽车、机器人领域头部企业合作,提供云端Agent开发平台 [34][35] - 实际应用案例包括茶百道/瑞幸门店巡店系统,通过视觉推理实现90%以上的操作规范检测准确率 [17] 竞争格局 - 基础模型领域竞争激烈,过去半年仅OpenAI/Google/Meta/Grok/Anthropic就发布不少于8款新品 [3] - 国内竞争对手包括月之暗面、MiniMax等,但阶跃星辰在多模态覆盖广度和原生多模理念上具有差异化优势 [3][12] - 公司认为当前竞争焦点仍是"追求智能上限",将持续投入强化学习和多模态前沿技术研发 [4][15]
Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
机器之心· 2025-05-02 04:39
推理模型发展现状 - 著名AI技术博主Sebastian Raschka正在撰写新书《Reasoning From Scratch》,聚焦LLM推理机制实现[2] - 当前LLM的成功主要依赖统计模式识别,而新兴推理技术使其能处理逻辑难题、多步骤算术等复杂任务[5] - OpenAI的o1模型和深度求索的DeepSeek-R1标志着推理能力成为行业焦点[41][44] LLM推理的核心定义 - LLM语境中的推理指模型生成中间步骤(思维链CoT)后输出最终答案的能力[8] - 推理过程可能展示中间步骤,但其底层机制与人类认知存在本质差异[12][13] - 推理与模式匹配的根本区别在于:前者需逻辑推导,后者仅复现训练数据中的统计关联[23][25] LLM训练流程 - 传统训练分两阶段:预训练(TB级文本学习语言模式)和后训练(指令微调+偏好微调)[16][17] - 预训练成本极高(数千GPU运行数月/数百万美元),使模型具备翻译、代码生成等涌现能力[17] - 后训练阶段通过SFT提升任务理解能力,通过偏好微调优化输出风格[20] 模式匹配与逻辑推理对比 - 标准LLM(如GPT-4o)通过高频搭配记忆回答问题(如「德国→柏林」),非真实推理[24] - 面对矛盾前提(「所有鸟都会飞但企鹅不会」),普通LLM依赖训练数据中的文字概率而非逻辑检查[28][30] - 大规模训练使模型能模拟推理行为,但遇到全新题型、复杂推导时仍易出错[36][37] 推理能力提升方法 - 推断时间计算增强:通过思维链等技术在推理阶段提升性能,无需修改模型权重[46] - 强化学习:基于数学证明正确性等客观奖励信号动态优化推理策略[47] - 知识蒸馏:将高性能模型的推理模式迁移至轻量化模型,需专用推理任务数据集[48][49] 推理模型的应用权衡 - 推理模型适用于数学证明、编程等复杂任务,但对翻译、问答等简单任务效率低下[56] - 生成更长中间步骤导致计算成本倍增(API计费按token数量)[57] - 行业趋势显示主流厂商正将推理能力整合至通用模型(如OpenAI计划统一GPT与o系列)[54][55] 实践价值 - 从头实现推理模型可深入理解LLM能力边界与计算成本权衡[51][57] - 深度求索开源方案推动行业技术透明化,降低开发门槛[52] - 专用推理模型需与通用模型配合使用,形成任务适配的技术矩阵[56]
国产六大推理模型激战OpenAI?
创业邦· 2025-04-30 10:09
大模型行业发展趋势 - 2025年春节前DeepSeek-R1模型发布成为行业分水岭,重新定义中国大模型叙事逻辑 [8][10] - 2023年国内开启"百模大战",2024年"AI六小虎"成为主角,智谱累计融资40亿元,月之暗面融资超13亿美元 [10] - 2025年行业主题转变为"六大推理模型迎战OpenAI",百度、阿里、字节、腾讯、科大讯飞等厂商快速跟进发布推理模型 [10][19] 技术路线演变 - OpenAI模型体系分为GPT系列和o系列,2024年o1发布标志转向"结构化推理"能力 [12][15] - 大模型范式从预训练参数Scaling Law转向强化学习推理计算新Scaling Law [15] - GPT系列将逐步退出,GPT4将于2025年4月30日退役,完全被GPT4o取代 [15] 国内主要厂商动态 - DeepSeek-R1训练成本仅560万美元,远低于美国公司数千万美元投入,具有极致性价比 [23] - 百度文心X1采用"思维链-行动链"协同训练,可自动拆解复杂任务为20多个推理步骤 [23] - 科大讯飞星火X1基于全国产算力训练,在重点行业测试中超越OpenAI和DeepSeek [25] - 字节豆包模型价格降至0.0008元/千Tokens,主导行业价格战 [25] - 腾讯混元通过集团资源倾斜实现逆袭,2025年春节后获得重点推广 [25] 行业竞争格局 - 国内六大推理模型水平接近OpenAI o3,部分测试指标实现超越 [22] - 模型性能只是客户选择标准之一,还需考虑数据、生态等多方面因素 [25] - AI六小虎面临转型压力,方向与大厂重合但资源依赖大厂 [28] 国产化进程 - 英伟达可能暂停RTX 5090D供应,加剧行业"卡脖子"风险 [28] - 科大讯飞通过四大核心技术优化实现MoE模型集群推理性能翻倍 [28] - 全栈国产化大模型有望成为新主流,摆脱国际环境制约 [28][29]
不要思考过程,推理模型能力能够更强丨UC伯克利等最新研究
量子位· 2025-04-29 08:02
实验数据显示,在低资源情况 (即少token数量、少模型参数) 或低延迟情况下,Nothinking方法得出的结果均优于Thinking方法的结果, 实现比传统思考方式更好的精度- 延迟权衡。 其他情况下,NoThinking方法在部分数据集上的表现也能超越Thinking。 衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 其实…… 不用大段大段思考,推理模型也能有效推理! 是不是有点反常识?因为大家的一贯印象里,推理模型之所以能力强大、能给出准确的有效答案,靠的就是长篇累牍的推理过程。 这个过程往往用时很长,等同于需要消耗大量算力。已经有一些研究尝试提高推理效率,但大多仍依赖显式思考过程。 来自UC伯克利和艾伦实验室团队的最新研究结果打破了这一刻板印象—— 通过简单的prompt绕过「思考」这一过程直接生成解决方案,可能同样有效,甚至更好。 这种方法被称为 "无思考(NoThinking)"方法 。 「思考」和「无思考」 研究团队以DeepSeek-R1-Distill-Qwen模型为基础,提出了NoThinking方法。 咱们先来分辨一下Thinking和NoThinking的区别在哪里。 Thin ...