Workflow
推理模型
icon
搜索文档
智谱 GLM-4.5 团队深夜爆料:上下文要扩、小模型在路上,还承诺尽快发新模型!
AI前线· 2025-08-29 08:25
技术发展重点 - 扩展上下文长度是GLM-4.5未来研发重点 目前正在推进相关工作[6][9] - 防幻觉能力源于有效的RLHF流程 显著降低幻觉发生几率[6][11] - 架构选择GQA而非MLA 因MLA在解码阶段计算量更大且可能成为性能瓶颈[6][12] - 权重初始化采用标准差0.02的正态分布 注意力块和MLP输出层权重额外进行1/sqrt(2.0*num_layers)缩放[12] - 未来重点发展MoE模型并发布更小参数版本 稠密模型将专注于边缘设备场景[6][31] - 下一代模型优先提升推理 编程和智能体能力[6][50] 模型参数规模策略 - 前沿实验室模型参数规模已达万亿级别 但实际部署会精简成更小版本[14] - 活跃参数量在代码写作等现实任务中很重要 需根据设计任务决定[25] - 大规模模型在智能体任务和知识储备上更具优势[27] - 计划训练规模与gpt-oss-20b相当的较小MoE模型[28] - 小模型在封闭领域有效但在复杂领域难与大模型媲美[29] - 稠密模型聚焦小规模和边缘设备 目前无大于32B稠密模型计划[31] 多模态与架构探索 - 有多模态模型但未达SOTA水平 GLM-4.5V刚发布未来会提升[22] - 构建全模态模型技术复杂 目前专注LLM和VLM[23] - 探索文本扩散模型但未发现超越自回归Transformer架构的可能[24] - 图像生成功能无法增加大模型智能 厂商探索动力不足[24] - 高效注意力机制随上下文变长越来越重要 线性注意力对超参数更敏感[40] - 非文本模态转换为离散分词可能无法实现最佳性能[41] 数据工程与训练 - 预训练数据规模取决于数据过滤流程 算力资源和项目截止时间[13] - 最大差异在于原始训练token总量和数据工程技巧[34] - 更细致的数据工程是关键 包括丰富数据源 强大解析器和更好分类器[35] - 使用BF16精度训练 发布FP8量化版本且量化几乎不影响准确率[33] - 考虑扩展至MXFP4但FP4精度训练可能带来风险[33] 开源策略与行业定位 - 开源权重让更多人以喜欢方式使用模型 2022年发布首个开源大模型GLM-130B[36] - 开放权重模型与商业模型主要差距在于算力和数据资源[36] - 开源模型与商业模型差距将继续缩小 甚至有望在某些领域反超[36] - 中国开源权重模型落后闭源模型但差距正在缩小[53] - 许多有价值创新来自开源社区 如GLM-4.5训练使用的"slime"框架[53] 推理技术优化 - 推理模型可运用更多算力资源但会带来更严重延迟[17] - 理想情况应整合推理和非推理模式到同一模型中[18] - 缩短CoT长度是待办事项 可能加入与CoT长度反比的奖励信号[18] - GLM-4.5-Air已包含MTP层加速推理[19] - 已向vLLM和SGLang提交PR实现MTP 欢迎开发者适配ollama和llamacpp[20] 应用工具开发 - PPT生成器目前支持PDF导出 内部有PPTX导出测试版[45] - PPT生成结合搜索和HTML页面整理工具 模型具备内部化能力[46] - 推荐Open Code+GLM-4.5或Claude Code+GLM-4.5组合[47] - 将推出月度订阅套餐在Claude Code上订阅GLM-4.5[47] - AutoGLM是中国市场独立产品 高需求可能推出国际版[48]
英伟达CEO:更先进AI模型将推动芯片与数据中心持续增长
搜狐财经· 2025-08-28 06:24
公司业绩与行业地位 - 英伟达上季度营收达到467亿美元 [2] - 公司是AI行业硬件供应商 被比喻为AI淘金热中的"锄头和铲子" [2] - 生成式AI行业呈现惊人增长且没有放缓迹象 [2] AI行业前景预测 - AI基础设施支出到本十年末可能达到3万亿至4万亿美元 [2] - 未来几年乃至整个十年都将看到非常重大的增长机会 [2] - 每一代AI技术的需求只会持续增长 [4] 技术发展与计算需求 - AI推理模型采用"长思考"技术 通过多网站研究 多次尝试和整合信息来提升答案质量 [3] - 推理模型可能需要比传统大语言模型多100倍或更多的计算能力 [3] - OpenAI将推理技术直接整合到GPT-5发布中 采用路由程序分配处理模型 [3] 基础设施需求与影响 - AI数据中心占用大量土地 消耗大量水和能源 [2] - 对周围社区产生重大影响 并对美国电网造成更大压力 [2] - 智能体系统和机器人模型进一步增加了对芯片 能源和数据中心土地的需求 [3]
高盛硅谷AI调研之旅:底层模型拉不开差距,AI竞争转向“应用层”,“推理”带来GPU需求暴增
硬AI· 2025-08-25 16:01
开源与闭源模型性能趋同 - 开源基础模型自2024年中期在性能上追平闭源模型 达到GPT-4水平 而顶尖闭源模型在基准测试上几乎无突破性进展 [3] - 开源社区在不到十二个月内抹平与闭源模型的性能差距 反映其惊人发展速度 [3] - 模型能力日益商品化 纯粹的模型能力不再是决定性护城河 [2][3] AI竞争焦点转向应用层 - 竞争焦点从基础设施层全面转向应用层 真正壁垒在于AI与特定工作流的深度整合、专有数据强化学习及用户生态建立 [2] - 基础模型性能商品化导致竞争优势向上游转移 集中在数据资产、工作流整合和特定领域微调能力 [3] - 顶尖工程团队可在6到8个月内复制任何技术 因此技术本身并非核心壁垒 [4] 推理模型成为新前沿并驱动算力需求 - 以OpenAI o3、Gemini 2.5 Pro和Claude 4 Opus为代表的推理模型正成为生成式AI新前沿 [3][5] - 推理模型单次查询输出token可达1万个 传统LLM仅500个左右 输出量增长20倍 [5][6] - 输出token量20倍增长直接转化为GPU推理算力需求激增20倍 [3][6] - 推理模型通过推导、验证和迭代模拟思维过程 适用于代码合成、法律、金融等严谨分析领域 [6] AI基础设施资本支出持续高企 - GPU需求激增20倍支撑AI基础设施资本支出在可预见的未来保持高位 [2][3] - 运行恒定MMLU基准分数模型的成本从每百万token 60美元降至0.006美元 降幅达1000倍 但整体算力支出未减少 [5] - 高昂的AI基础设施资本支出被视为获取竞争优势的先决条件 尤其对头部AI实验室 [6] AI原生应用护城河构建策略 - 工作流整合与用户生态:成功应用公司将部署时间从数月缩短至几周 例如Decagon在6周内上线自动化客服系统 每投入100万美元可节省300至500万美元成本 [7] - 专有数据与强化学习:静态专有数据在法律和金融等垂直领域价值巨大 动态用户生成数据可通过强化学习循环持续优化模型形成滚雪球优势 [7][8] - 专业人才战略价值:构建高效AI系统需要模型封装、智能体推理和强化学习回路设计等技能 具备自我完善系统构建能力的AI人才极度稀缺 [8] 头部AI实验室向应用层拓展 - OpenAI、Anthropic和Google DeepMind等机构越来越多涉足应用层 利用模型内部结构洞察力构建紧密产品反馈和强化学习循环 [5] - 头部实验室的向下游拓展给独立初创公司带来新的竞争压力 [5]
高盛硅谷AI调研之旅:底层模型拉不开差距,AI竞争转向“应用层”,“推理”带来GPU需求暴增
美股IPO· 2025-08-25 04:44
基础模型性能趋同与竞争焦点转移 - 开源与闭源基础模型性能自2024年中期趋同 达到GPT-4水平 闭源模型在基准测试中无突破性进展 [3][4] - 模型能力不再是决定性护城河 竞争焦点从基础设施层全面转向应用层 [1][3][4] - 竞争优势体现在数据资产 工作流整合和特定领域微调能力上 [4] 推理模型成为新前沿并驱动算力需求 - OpenAI o3和Gemini 2.5 Pro等推理模型单次查询输出token达传统模型20倍 约1万个token(传统模型约500个) [3][6] - 推理模型推动GPU需求激增20倍 直接导致AI基础设施资本支出持续高企 [1][3][6] - 推理模型通过推导和迭代模拟思维过程 适用于代码合成 法律和金融等复杂领域 [6] AI原生应用护城河构建策略 - 护城河核心在于工作流整合 用户习惯培养和分销渠道建立 而非技术本身 [5] - 深度集成专有数据与强化学习循环 利用用户生成数据持续优化模型 [8] - 顶尖工程人才极度稀缺 成为可持续创新的主要瓶颈 [9][10] 应用层具体实践与案例 - Hebbia认为技术可在6-8个月内复制 成功依赖网络效应和超级用户培养 [5] - Decagon在6周内部署自动化客服系统 每100万美元投入节省300-500万美元成本 [7] - Everlaw通过AI深度集成法律文档流程 提供一体化便利和效率 [5] 行业成本与投资趋势 - 模型运行成本三年内从每百万token 60美元降至0.006美元 降幅达1000倍 [6] - VC认为高昂基础设施支出是必要竞争前提 尤其对头部AI实验室 [6] - OpenAI和Google Deepmind等机构正涉足应用层 加剧对初创公司的竞争压力 [5]
推理、智能体、资本:2025年AI行业都认同啥趋势?
搜狐财经· 2025-08-22 10:17
技术演进 - 推理模型成为行业标配,头部大模型具备强大推理能力,通过多步骤逻辑分析和长文本处理解决复杂任务如数学运算和代码生成 [2] - 推理能力持续提升,基础模型性能优化支撑推理能力,强化学习技术推动逻辑严谨性和任务完成度突破 [2] - 智能体成为2025年行业关键词,具备自主规划、工具调用和任务执行能力,实现从语言交互到行为落地的跨越 [2] - 智能体任务处理时长呈现指数级增长,从2019-2025年每7个月翻番缩短至2024-2025年每4个月翻番 [3] - 开源生态强势崛起,中国厂商如DeepSeek和阿里通义千问快速提升能力,缩小与国际闭源模型差距 [5] - 超过70%开源项目增长集中在智能体架构、代码生成和推理优化方向 [5] 产品创新 - 浏览器成为智能体主战场,因其具备连接外部世界能力,适合记忆存储、工具调用和任务执行 [9] - 交互设计采用可视化过程,左侧聊天框输入指令,右侧实时展示推理、搜索和执行过程以增强信任 [9] - 运营策略采用邀请码机制控制用户增长和成本,并通过稀缺性形成病毒式传播 [9] - 早期发布成为常态,产品在0.3-0.9版本就推向市场,通过用户反馈快速迭代 [9] - AI产品价值衡量从功能丰富度转向结果交付能力,定位从工具转变为数字员工 [10] - 产品逻辑通过限定边界和优化流程确保输出可靠性,如美图秀秀AI证件照单次生成收入达15-20元 [10] 资本动向 - 头部AI公司收入激增,OpenAI从2023年10亿美元增至2025年预期130亿美元,Anthropic从不足10亿美元上调至30亿美元 [12] - AI代码工具Coder年收入从2023年底1亿美元增至5亿美元 [12] - 行业估值与年收入深度绑定,头部公司市销率远高于传统科技公司,部分达数百倍 [12] - 2025年成为AI并购大年,并购基于业务协同而非挖团队,如Meta以148亿美元投资Scale AI [13] - 未上市头部AI公司如OpenAI开始并购初创公司完善生态 [13] - 中国市场并购案例增多,如腾讯音乐收购喜马拉雅和百度收购YY [13] - 智能体基础设施成为早期投资焦点,涉及环境搭建、工具调用协议、长时记忆存储和安全支付系统 [14] - 智能体时代需要统一交互协议如AI间协作协议和人机协作协议 [14]
直击WAIC:大模型走进“中场战事”
36氪· 2025-08-01 12:12
行业趋势 - 2025年国内大模型产业呈现三大趋势:推理模型成为技术制高点、应用落地从概念走向实战、国产算力取得突破性进展 [2] - 大模型竞争从"百模大战"的混沌期进入"中场战事",转向产业生态、商业模式和国际竞争力的综合较量 [5] - 推理模型代表从"能回答"到"会思考"的质变,标志性事件是DeepSeek-R1以560万美元低成本实现技术突破 [6][7] 技术发展 - 推理模型呈现"百花齐放"态势:2025年1-7月头部厂商密集发布10款新品,包括腾讯混元T1、百度文心X1、阿里Qwen3等 [8] - 技术路线差异化体现在三方面:混合架构替代纯Transformer(腾讯混元T1采用Mamba架构)、推理机制创新(百度文心X1实现20步自动拆解)、参数策略优化(Kimi K2达1T总参数) [10][11][12] - 评价维度转向推理链条设计、多步骤逻辑处理等非参数指标,反映对未来AI发展方向的不同押注 [14] 应用落地 - 应用场景呈现B/C端分化:腾讯依托微信生态覆盖14亿用户,阿里聚焦智能家居,百度强化AI基础设施,专业厂商深耕垂直领域 [15][16][18] - Agent成为核心落地方向:智谱AI的CogAgent平台API价格仅为Claude 1/10,Kimi推出深度研究智能体处理商务写作+表格分析 [18][20] - 垂直行业渗透加速:金融领域应用风控/投顾,医疗领域覆盖诊断/研发,制造业实现质检/供应链优化 [22] 国产算力 - 华为昇腾384超节点实机展出,通过总线技术实现384个NPU互联,解决集群通信瓶颈 [25] - 国产GPU取得突破:燧原S60推理卡支持千亿参数模型,4天完成美图近万张卡部署 [27] - 行业形成生态协同:阶跃星辰联合10家芯片厂商发起"模芯生态创新联盟" [27] 竞争格局 - 互联网巨头展示平台化能力:腾讯构建"从云到端"全链路,阿里打造空间智能体系,百度推出智能计算操作系统 [15][16] - 专业厂商聚焦差异化优势:Kimi强化代码能力,智谱AI主打性价比,Minimax/阶跃星辰专注多模态 [18][20] - "六小虎"阵营出现分化:零一万物/百川智能缺席WAIC,部分成员转向多模态赛道 [5][20] 市场规模 - 机器人产业参展公司从2024年18家增至2025年80家,占据展馆整层空间 [4] - 阶跃星辰预计2025年多模态业务收入近10亿元,已覆盖Top10手机厂商过半份额 [20] - 阿里/字节跳动日均Token调用量同比增长近100倍,推动算力需求爆发 [24]
英特尔公司20250425
2025-07-16 06:13
纪要涉及的行业和公司 - 行业:半导体行业 - 公司:英特尔(Intel) 纪要提到的核心观点和论据 公司现状与目标 - **Q1业绩良好但挑战仍存**:Q1营收、毛利率、每股收益超指引,得益于Xeon销售超预期和客户采购行为,但全年市场不确定性大,需提升多方面表现以实现可持续增长和重获市场份额[2][6][7] - **文化与运营变革**:组织复杂性和官僚作风阻碍创新与敏捷性,需简化业务流程、增强透明度和问责制,如扁平化领导团队,让关键职能直接向CEO汇报[2] - **成本控制与投资优化**:2025年运营支出目标170亿美元,2026年160亿美元;2025年资本支出目标180亿美元,节省20亿美元;审查工厂布局,提高产能利用率;减少非核心项目和计划,聚焦核心业务;通过出售非核心资产和优化英特尔资本投资组合来改善资产负债表[3][6][10] 产品与战略规划 - **核心产品战略**:重新聚焦核心业务,打造一流产品,满足AI时代客户需求;调整产品路线图,优化产品组合以适应新兴AI工作负载;确保产品按时交付,成为客户首选平台[4] - **AI战略**:完善AI战略,关注新兴领域,开发全栈AI解决方案,为企业客户提供更高准确性、能效和安全性[4] - **代工业务战略**:建立与代工客户的信任,采用行业标准EDA工具和最佳设计实践,满足客户多样化需求;确保英特尔18A和14A按时交付,提高晶圆质量和产量[5] 财务状况与展望 - **Q1财务结果**:营收127亿美元,处于指引高端;非GAAP毛利率39.2%,超指引约3个百分点;每股收益0.13美元,高于指引;运营现金流8亿美元;调整后自由现金流 -37亿美元;现金余额210亿美元[7] - **Q2指引**:营收112 - 124亿美元,环比下降2 - 12%;毛利率约36.5%;每股收益盈亏平衡;预计DCAI下降速度快于CCG,英特尔代工业务营收环比下降,其他业务营收基本持平[9] - **全年展望**:建议参考过去10年季节性来建模营收变化,但需考虑市场不确定性,如关税和旧节点供应紧张;目标是在2025年开始去杠杆化[9][10] 其他重要但可能被忽略的内容 - **办公政策**:2025年第三季度起实施每周四天回办公室政策,以增强团队协作、提高效率和促进创新[3] - **Altera出售**:4月14日宣布将出售51%的Altera股份给Silver Lake Partners,估值近90亿美元,英特尔将获得44亿美元净现金收益,预计交易在2025年下半年完成,届时将从财务结果中剔除Altera[8] - **产品需求差异**:客户对N - 1和N - 2产品需求大于新产品,因宏观经济和关税影响,客户需控制库存成本,且旧产品成本低、系统ASP价格更具优势[23] - **产品发布计划**:Panther Lake今年年底推出至少一个SKU,大部分明年推出;Clearwater Forest将于2026年上半年推出;Jaguar Shores仍在产品路线图上[16][17][28] - **制造策略**:平衡内部和外部晶圆制造,维持合理资本强度,优化SKU级别的工艺节点选择[26]
从 OpenAI 回清华,吴翼揭秘强化学习之路:随机选的、笑谈“当年不懂股权的我” | AGI 技术 50 人
AI科技大本营· 2025-06-19 01:41
吴翼的职业发展路径 - 高中时期获得全国青少年信息学奥林匹克竞赛金牌并代表中国参加国际竞赛[2] - 保送清华大学交叉信息研究院姚班,师从图灵奖得主姚期智[2] - 本科期间在微软亚洲研究院和Facebook实习[2] - 2014年赴加州大学伯克利分校攻读人工智能博士学位,师从Stuart Russell[4] - 博士毕业后加入OpenAI担任研究员,参与多智能体捉迷藏项目[4][5] - 2020年回国任清华大学交叉信息研究院助理教授[5] - 2023年创办边塞科技,探索大语言模型与强化学习结合[6] - 2024年与蚂蚁技术研究院合作推出开源强化学习系统AReaL[6] 强化学习技术发展 - OpenAI多智能体捉迷藏项目展示复杂行为通过简单规则自发涌现,成为观看量最高的研究视频之一[5] - AReaL系统专为大规模推理模型设计,优化强化学习训练效率与灵活性[6][18] - 推理模型通过"thinking token"机制提升准确性,强化学习成为关键训练工具[18] - 与RLHF相比,AReaL更关注提升模型推理能力而非行为调优[21] - 大模型时代强化学习面临新挑战:模型规模增长1000倍,计算需求剧增[23] - 训练系统效率成为关键瓶颈,开源系统价值可能超过开源模型[32] AI行业趋势与挑战 - 创业公司面临极短时间窗口,错过关键节点可能导致失败[12] - 模型分化趋势:大而强的高成本模型与轻量化高效小模型并存[31] - 强化学习三要素中系统门槛最高,数据质量次之,算法相对次要[30] - 多智能体系统发展缓慢,部分任务仍需多模型协作[42] - 个性化交互成为AI产品核心竞争力,需适配不同用户类型[37] - 模型"幻觉"问题亟待解决,需建立不确定性认知机制[38][39] 技术突破方向 - 记忆表达与个性化交互是未来重要发展方向[40] - 强化学习Scaling Law仍将持续,后训练阶段提升空间显著[26] - 垂类模型在细分领域深度优化,如代码生成等场景表现突出[26] - 产品+强化学习组合仍是重要方向,生态可能呈现多层次结构[28] - 人机协作场景需AI更好理解人类意图,减少主动打扰[37]
专为实际应用场景设计,旨在追赶美中,欧洲首个AI推理模型来了
环球时报· 2025-06-11 22:33
公司动态 - 法国AI初创企业米斯特拉尔推出欧洲首个推理模型Magistral Small和Magistral Medium,专为法律、金融、医疗和工程领域设计 [1] - 新模型在数学运算和编程方面表现卓越,但在基准测试中逊于谷歌Gemini 2.5 Pro和Anthropic Claude Opus 4 [4] - 公司声称Magistral在Le Chat平台的回答速度是竞争对手的10倍,并支持意大利语、阿拉伯语、俄语和简体中文等多语言 [4] - 公司2023年由前Meta和谷歌DeepMind研究员创立,两年内发布系列开源AI模型及Le Chat平台 [5] - 公司估值达62亿美元(风投评估值),2024年营收预计首次突破1亿美元 [2][5] 行业趋势 - 行业从单纯扩大语言模型规模转向推理模型方向,可能为资金较少的公司提供追赶机会 [2] - 欧洲企业寻求降低对美国AI供应商依赖,战略自主需求增长推动本土科技龙头发展 [5] - 美国OpenAI、谷歌和中国深度求索已占据推理模型先发优势,米斯特拉尔代表欧洲首次突破 [2] 产品技术 - Magistral Medium在物理、数学和科学能力测试中落后于国际竞品,但在特定场景(如多语言支持)有差异化优势 [4] - 推理模型通过分步逻辑思维执行复杂任务,适用于实际应用场景 [1]
OpenAI发布最强模型o3-pro
第一财经· 2025-06-11 05:29
OpenAI模型迭代与发布 - OpenAI发布新一代推理模型o3-pro,向Pro和Team用户开放,企业、教育用户将在下周获得使用权限 [1] - o3-pro在数学基准测试AIME 2024中超越谷歌Gemini 2.5 Pro,在博士级科学测试GPQA Diamond中击败Anthropic Claude 4 Opus [3] - o3-pro设计为思考更长时间以提供更可靠反应,适合数学、科学和编码等领域使用 [3] - 上一代推理模型o3价格降低80%,输入从10美元/百万tokens降至2美元,输出从40美元降至8美元 [3] - o3-pro定价为输入20美元/百万tokens,输出80美元/百万tokens,比o1-pro便宜87% [3] 算力需求与云服务合作 - OpenAI与谷歌达成云服务合作协议,利用谷歌计算资源支撑自身业务,以摆脱对微软的过度依赖 [4] - OpenAI预计到2026年模型训练计算成本将高达一年95亿美元,不包括前期训练成本 [4] - 微软不再担任OpenAI独家云服务供应商但保留"优先购买权",因OpenAI对微软数据中心建设进度不满 [4] 未来技术发展预测 - 2025年可能出现能进行真正认知工作的代理系统,2026年出现能提出新颖见解的系统,2027年出现能在现实世界执行任务的机器人 [5] - 2030年代智能、能源、创意及实现能力将异常丰富,科学家生产力已达AI出现前的2-3倍 [5] - 智能成本最终趋近电力成本,ChatGPT平均查询耗能0.34瓦时,用水0.000085加仑 [5] - 技术进步将导致部分工作岗位消失但世界将迅速富有,需考虑新政策和想法 [6] GPT-5开发进展 - OpenAI正在开发GPT-5,性能将远超现有模型,初步定于2024年7月发布但可能因性能未达标延迟 [8] - 公司将花费更多时间在公开权重模型上,预计2024年夏天晚些时候发布 [8]