Transformer架构 - 财报，业绩电话会，研报，新闻 - Reportify

Transformer架构

搜索文档

从GPT-2到gpt-oss，深度详解OpenAI开放模型的进化之路

机器之心· 2025-08-18 05:15

模型架构演进 - gpt-oss-120b和gpt-oss-20b是OpenAI自2019年GPT-2后首次发布的开放权重模型，支持本地运行[4][7] - 模型架构延续主流LLM设计，但包含多项优化：移除Dropout、RoPE取代绝对位置嵌入、SwiGLU取代GELU、混合专家(MoE)模块等[17][20][27][37] - 采用分组查询注意力(GQA)和滑动窗口注意力提升计算效率，窗口大小仅128 token[41][47][51] - 使用RMSNorm替代LayerNorm降低计算成本，更适合大规模LLM[52][56] 性能优化技术 - MXFP4量化方案使gpt-oss-20b可在16GB显存GPU运行，120b版本需80GB H100[10][97][99] - 推理工作量分级控制（低/中/高）动态调节响应长度和准确率[94][96] - MoE设计采用32专家/4活跃专家配置，专家参数占比超90%[39][72][77] - 注意力机制引入偏差单元和sinks增强长上下文稳定性[83][87] 行业竞品对比 - 与Qwen3相比：gpt-oss宽度更大（嵌入维度2880vs2048），但深度仅24层vs48层[67][69][70] - 基准测试显示gpt-oss-120b性能接近Qwen3 235B，但参数量仅一半[107][113] - 两者均采用Apache 2.0许可，但gpt-oss未公开训练代码和数据集[88] - 推理能力突出但存在幻觉倾向，设计侧重工具集成而非事实记忆[107][108] 技术趋势观察 - Transformer仍是LLM核心架构，改进多来自数据/算法调整而非架构革命[13] - 模型轻量化需求推动量化技术发展（如MXFP4）[97][99] - 行业向稀疏化（MoE）、注意力优化（GQA/滑动窗口）方向演进[37][41][47] - 开源模型与专有模型性能差距显著缩小[110][114]

混合专家模型（MoE）

分组查询注意力（GQA）

Transformer架构

Artificial Intelligence

混合专家模型（MoE）

分组查询注意力（GQA）

Transformer架构

Artificial Intelligence

深度｜英伟达最新挑战者Cerebras创始人对话谷歌前高管：我们正处于一个无法预测拐点的阶段

Z Potentials· 2025-08-15 03:53

核心观点 - AI芯片公司Cerebras致力于构建全球最快、最大的AI计算硬件，其芯片比已知最大芯片大56倍，专注于加速稀疏线性代数运算以提升AI计算效率[3][8][11] - 行业正经历新一轮半导体、软件和硬件革命，开源生态对初创公司至关重要，Meta和DeepSeek推动OpenAI加入开源模型竞争[6][18][19] - AGI发展受电力供应限制，大型数据中心需1.5吉瓦核电站支持，美国电力基建严重不足[42][45][46] 突破计算极限：Cerebras芯片的创新 - Cerebras的WSE芯片通过整合计算与内存单元，实现比传统芯片快近两个数量级的AI计算速度，特别优化Transformer等模型的矩阵运算[8][11][34] - 芯片设计从底层数学原理出发，专注稀疏线性代数加速，避免专用架构陷阱，在Transformer诞生前已确立技术优势[10][11] - 每token成本以每年10倍速度下降，类比汽车发动机80年演进压缩至5年完成[12][16] 硬件与软件的协同演进 - 硬件需与AI算法协同设计，团队需包含顶尖研究人员预判技术方向，系统级优化涉及I/O结构、提示缓存等工具[11][24] - NVIDIA的CUDA生态形成技术壁垒，但未来五年技术栈可能重构，多种路径并行发展[10][16] - 推理需求呈指数增长，用户日均使用频次从1-2次跃升至20次，驱动计算量爆发[32][33] 全球化竞争与开源战略 - AI竞争呈现中美两极格局，中国通过开源模型在非洲、中亚等地区拓展影响力[18] - 开源使初创公司能以1.5美元/百万token成本对抗封闭模型的100美元定价，推动技术民主化[19] - 智能手机端LLM应用可能改变产业格局，离线场景能力成为新竞争维度[19][20] AGI发展瓶颈与关键指标 - 电力成为核心制约因素，单个数据中心需匹兹堡全市1/3电量（1吉瓦），美国需新建92座核电站满足需求[42][45][46] - 衡量AGI进展的指标尚未标准化，每秒token数反映用户体验，但传统SaaS指标已失效[33][34] - Scaling Law持续生效但拐点未知，强化学习需成千上万倍计算量，行业处于爆发期[28][29][32] AI对齐与安全挑战 - 对齐测试方法在行业共享，但自我改进系统的持续对齐尚未解决，存在信息隐瞒风险[36][37][38] - 安全责任主要由软件和人类团队承担，硬件层作用有限[35][39] - 欧洲可通过国家战略发展主权AI，需培养工程师群体并明确经济优先级[40][41]

Transformer架构

Transformer架构

GPT5发布标志：以Tranformer为架构的大语言模型即将走到尽头，下一波浪潮在哪？

老徐抓AI趋势· 2025-08-15 03:00

核心观点 - GPT-5的发布标志着基于Transformer架构的大语言模型时代可能进入尾声 [6][33][37][38] - GPT-5在性能上呈现渐进式提升而非质变，尤其在数学、编程和多模态领域有显著进步 [9][12][16][19][21][24][28][30] - 大模型行业竞争进入价格战阶段，GPT-5的调用成本显著低于竞品 [26][27][43] - 行业未来可能转向算法创新（如分层推理模型）或数据类型升级（如视频、传感器数据） [38][41] 发布会观感 - 发布会形式更豪华但信息密度低，CEO山姆·奥特曼仅开场露面 [6][7][8] - 相比早期发布会，此次更侧重用户体验优化和价格策略 [8] 性能解析数学能力 - AIME数学邀请赛：GPT-5无工具准确率94.6%，有工具达100%，但o3模型工具辅助下已接近（98.4%） [9][12] - 前沿数学测试：GPT-5从o3的15.8%提升至26.3%，Pro版本达32.1% [12] - HLE人类终极考试：GPT-5 Pro达42%，超越o3（24.3%）和Grok4（41%） [16] - ARC-AGI-2推理测试：GPT-5落后Grok4，显示推理仍是行业短板 [19] 编程能力 - SWE Bench Verified测试：GPT-5以74.9%微弱超越Claude Opus 4.1（74.5%） [21][24] - 调用成本优势：GPT-5输入/输出成本为Claude Opus的1/8到1/13 [26][27] 多模态与医疗 - 视觉识别相对o3提升有限 [28] - 医疗领域高难度问题进步明显，OpenAI将其列为重点方向 [30] 实际体验 - 复杂任务处理更接近“思考”模式，需依赖“GPT-5 Thinking”架构优化 [33] - 工具链能力增强，如直接检索SEC官网IPO招股书PDF [33] 大语言模型的瓶颈 - 数据见顶：高质量训练数据预计2027-2028年耗尽，可能提前 [33][37] - 参数见顶：GPT-5参数接近1万亿，进一步增长受限于数据 [37] - 技术曲线放缓：GPT-4至5的迭代未带来跨越式提升 [38] 行业未来方向 - 算法创新：如清华HRM分层推理模型 [38] - 数据类型升级：视频（YouTube）、传感器数据（特斯拉）构建“世界模型” [41] 商业竞争态势 - 大模型厂商进入“人优我廉”价格战阶段，GPT-5成本优势显著 [43] - 若无颠覆性创新，行业可能快速进入“人廉我走”阶段 [43] 行业趋势总结 - GPT-5是Transformer架构的阶段性高点，下一波浪潮或依赖新架构或数据模态 [56]

大语言模型

Transformer架构

Artificial Intelligence

大语言模型

Transformer架构

Artificial Intelligence

万字解析DeepSeek MOE架构！

自动驾驶之心· 2025-08-14 23:33

MOE架构基本原理 - MOE全称为混合专家模型核心思想是使用多个专家FFN替代原Transformer架构中的前馈层每个token会选择top-K个专家进行前向传递[2][4][6] - MOE层由路由器(门控和选择器)和n个专家FFN组成路由器通过softmax操作选择不同专家的权重选择器确定top-K专家[6] - 在Switch Transformers中采用top-K=1策略主要考虑专家并行方案时的通信计算和存储效率平衡[9][10][14] - 引入容量因子概念专家容量=(总token数/专家数量)×容量因子用于控制每个专家处理的token数量防止溢出或资源浪费[13][18] Switch Transformers优化方案 - 采用简单稀疏路由和高效稀疏路由两种方案简单稀疏路由针对单个token选择专家高效稀疏路由针对专家并行设计[7] - 负载不均衡问题通过可微的负载均衡辅助损失函数解决使token在专家分布上尽可能均匀[17][20] - 专家容量静态分配可能导致溢出或浪费动态计算时需要平衡容量因子设置[15][16] DeepSeek V1架构创新 - 提出细粒度专家划分策略通过拆分FFN中间隐藏维度增加专家数量在保持参数总量不变情况下提升专家专业化程度[22][25] - 引入共享专家分离机制设置特定共享专家始终激活用于捕捉通用知识减少其他路由专家间的冗余[24][26] - MOE层输出由三部分组成：共享专家输出 Top-K路由专家输出和残差连接[30] - 设计专家级别和设备级别双重负载均衡损失函数解决训练不充分和计算瓶颈问题[32][35] DeepSeek V2优化重点 - 实施设备受限路由策略将每个token的激活专家所在GPU设备数量限制为3个显著降低通信开销[37] - 新增通信负载均衡损失函数优化设备间token分配均衡性[38][39] - 采用token丢弃策略对超过专家容量的token按分值降序丢弃仅影响当前MOE层计算[42] DeepSeek V3技术演进 - 将门控函数从SoftMax改为Sigmoid 可能出于降低计算复杂度考虑特别在专家数量增至256个时更明显[44][45] - 弃用所有辅助负载均衡损失引入可学习偏置项bi 通过动态调整偏置值实现负载均衡[46][47] - 新增序列级别辅助损失函数防止单个序列内出现极端不平衡情况[49][50] - 完全取消token丢弃策略通过偏置项和序列级损失实现良好负载均衡[52] MOE架构发展脉络 - MOE架构早在1991年就已提出但直到2023年底Mixtral 8*7B模型发布后才受到广泛关注[2] - 国内Qwen和MiniMax等公司也推出MOE模型但架构实现相对DeepSeek更简单[3] - DeepSeek从V1到V3持续优化负载均衡和通信效率体现对高效计算的一贯追求[36][43] - MOE模型特别适合云计算并行推理场景在AI模型中的地位日益重要[3]

混合专家模型（MOE）

Transformer架构

混合专家模型（MOE）

Transformer架构

千支队伍争锋！首届「启智杯」算法大赛圆满落幕，助推AI应用落地

机器之心· 2025-08-14 04:57

赛事概况 - 启元实验室于2025年5月20日启动「启智杯」算法创新应用挑战赛，7月25日结束，吸引1022支队伍参赛，覆盖高校、科研院所及科技企业 [1][2] - 三大赛道冠军分别由华南理工大学、陕西师范大学与西北农林科技大学联合团队、中山大学团队获得，技术方案聚焦Transformer架构优化与多模态融合 [2][10][14] 赛道技术亮点卫星遥感图像鲁棒实例分割 - 赛题聚焦高分辨率遥感图像中复杂目标的像素级分割，挑战包括视角畸变、遮挡干扰和分布外样本（OOD） [6] - 冠军团队「AlexZou14」改进Co-DETR模型，引入多辅助检测头（ATSS Head、RPN Head等）协同训练，结合SAM大模型伪标签提升零样本分割能力，复赛阶段泛化表现突出 [8] 嵌入式平台无人机目标检测 - 赛题需在昇腾310B等端侧平台平衡检测精度与推理效率，复赛评估增加部署稳定性测试 [9] - 冠军团队「断雁无凭」从YOLOv11转向Co-DETR模型，采用RFLA标签分配策略和ATSS采样方法优化小目标检测，梯度检查点技术降低显存占用 [12][13] 多模态大模型对抗挑战 - 赛题围绕视觉问答等任务考察模型抗干扰性，设置20GB模型体积上限与单卡推理限制，复赛转化率达68% [14] - 冠军团队「爱吃猪脚饭」基于Qwen2.5-VL-7B模型，采用课程学习式多任务微调与自适应图像增强预处理，显著提升遥感场景鲁棒性 [16][17] 产业应用价值 - 赛事设计紧贴真实场景：遥感分割应用于地理信息提取与环境监测，无人机检测方案为边缘计算提供参考路径 [20][21] - 技术方案体现工程化潜力：多检测头协同训练、伪监督学习、动态显存调度等策略推动算法落地 [8][12][17] 生态与人才培养 - 赛事促进产学研联动：企业获取前沿研究动向，科研团队验证技术可行性，加速成果转化 [23] - 高强度实战训练提升选手工程化能力，为行业输送复合型AI人才 [22][23]

Transformer架构

人工智能算法

Qwen2.5-VL-7B-Instruct

Transformer架构

人工智能算法

Qwen2.5-VL-7B-Instruct

告别Transformer，重塑机器学习范式：上海交大首个「类人脑」大模型诞生

机器之心· 2025-08-13 09:29

模型架构创新 - 提出BriLLM模型，突破传统Transformer架构限制，采用基于有向图的神经网络设计，模拟人脑全局工作机制[3][9] - 引入信号全连接流动（SiFu）机制，以动态信号传播替代注意力机制，实现节点间信号传递[9][13] - 支持无限上下文处理，模型参数完全独立于序列长度，长上下文无需增加参数量[15][16] 性能优势 - 模型计算复杂度低，摆脱Transformer的平方级复杂度限制，提升处理效率[7] - 通过低频词元边共享技术大幅降低参数规模，中文版参数从16.90B缩减至2.19B（缩减率87%），英文版从16.90B缩减至0.96B（缩减率94.3%）[21] - 全模型具备100%可解释性，所有节点及决策流程透明，突破传统黑箱困境[9][19][25] 技术突破 - 首次在宏观尺度模拟人脑语义编码机制，静态语义映射与动态电信号传导双路径创新[8][9] - 支持多模态天然融合，节点可扩展至视觉、听觉、具身交互等模态，无需重新训练模型[25][26] - 模型规模可扩展至千亿参数级别，词表扩展至4万时预期参数量100-200B，与SOTA模型相当但无上下文扩展限制[22] 应用前景 - 为多模态AGI及具身智能提供通用框架，直接支持感知-运动整合[26][27] - 获上海交通大学"交大2030"计划2025年度重点项目资助，额度500万，聚焦颠覆性基础研究[27]

Transformer架构

Transformer架构

深聊GPT-5发布：过度营销的反噬与AI技术突破的困局

虎嗅· 2025-08-12 09:05

GPT-5技术评估 - GPT-5未实现颠覆性技术突破，Transformer架构的弱点进一步暴露，包括PPT图表错误、代码bug和理论解释问题[1] - 模型开发遭遇技术瓶颈，最终选择改良架构而非革命性方案，Scaling law面临碰壁[1] - 技术路径上人类仍需寻找突破AI发展瓶颈的新方法[1] 商业化战略 - OpenAI采取激进商业化策略，重点布局教育、健康医疗和编程三大应用场景[1] - 公司通过快速场景落地来稳固市场地位，GPT-5被定位为"合格的AI产品"而非颠覆性创新[1] 行业影响 - GPT-5发布引发对AI泡沫破灭的讨论，行业面临技术创新放缓的质疑[1] - 当前AI发展进入平台期，技术突破速度低于市场预期[1]

Transformer架构

Artificial Intelligence

Transformer架构

Artificial Intelligence

国泰海通｜产业：AI Agent的技术演进与产业洞察

国泰海通证券研究· 2025-08-08 09:24

AI Agent技术演进与产业洞察核心观点 - AI Agent的未来发展核心在于以大语言模型（LLM）为"大脑"的范式革命，其商业价值通过解决行业痛点的垂直应用和开发平台体现 [1] - AI Agent正在重塑软件开发与人机交互范式，从传统架构演进为以LLM为核心的现代范式，具备自主规划、环境感知与工具调用能力 [1] - 多智能体协作时代开启，多个专业Agent协同解决宏大问题，驱动从上游基础模型到下游应用的完整产业链形成 [1] 技术架构演进 - 传统Agent架构（如审议式和反应式）受限于硬件和预编程规则，自主性与适应性有限 [2] - 2017年Transformer架构的出现为LLM崛起奠定基础，彻底重塑AI Agent设计理念 [2] - 现代LLM-based Agent核心架构由三大模块构成：大脑（LLM）、感知和行动 [2] - LLM-MAS（大语言模型多智能体系统）通过多个专业Agent协作/竞争，解决单个Agent处理超复杂任务的局限性 [2] 产业链格局 - 上游由少数科技巨头掌控，提供基础大模型和算力，主导交互协议制定，抢占生态话语权 [3] - 中游涌现开源开发框架和商业平台，通过低/无代码界面显著降低开发门槛 [3] - 下游应用分为两类： - 通用型Agent：自主完成复杂多步任务 - 垂直型Agent：深度融合行业知识（软件开发/法律/金融/医疗等），展现巨大商业价值 [3] 发展挑战与未来方向 - 当前面临LLM规划推理能力不足、上下文窗口受限、记忆瓶颈、多Agent协同及评估困境等挑战 [3] - 未来依赖基础LLM持续进化、多模态感知能力普及、软硬件生态重构，向AGI迈进 [3]

大语言模型（LLM）

Transformer架构

大语言模型多智能体系统（LLM - MAS）

大语言模型（LLM）

Transformer架构

大语言模型多智能体系统（LLM - MAS）

GPT-5 之后，我们离 AGI 更近了，还是更远了？

36氪· 2025-08-08 07:10

产品发布与市场定位 - OpenAI于2025年8月8日发布GPT-5，距离GPT-4发布间隔939天[2] - 公司首席执行官Sam Altman将产品定位为“随需应变的博士级专家团队”，强调其核心价值从“聊天”转向“做事”[4] - OpenAI研究员Tina Kim宣布公司将淘汰所有旧模型，终结“模型动物园”时代[6] 技术架构与性能特点 - GPT-5采用统一智能系统架构，包含快速模型（gpt-5-main）、深度推理模型（gpt-5-thinking）和实时路由器（real-time router）[5] - 模型支持文本和图像输入，仅输出文本，输入限制为272,000个token，输出限制为128,000个token[5] - 通过API提供常规、迷你和纳米三种模型规格，每种可在最小、低、中或高四种推理级别运行[5] - 官方宣称在减少幻觉、提高指令遵循能力方面取得显著进展，特别针对编程、写作和健康三大常用场景进行优化[26] 市场竞争与定价策略 - API定价为每百万输入token 1.25美元，比GPT-4o便宜50%，低于Claude Opus 4.1的15美元和Gemini 2.5 Pro的2.5美元[16][17] - 迷你版和纳米版定价分别为每百万输入token 0.25美元和0.05美元，低于亚马逊Nova Lite的0.06美元[17] - 发布会期间出现竞争对手动态，马斯克宣称Grok 4在ARC-AGI-2基准测试中击败GPT-5[12] 实际应用与生态影响 - 演示显示GPT-5能在两分钟内根据自然语言指令生成完整交互式网站，包括闪卡、测验和游戏功能[14] - 在复杂生产代码修改测试中，GPT-5成功完成Gemini 2.5 Pro和Claude 4 Opus失败的任务[16] - Cursor公司CEO Michael Truell在发布会演示中让GPT-5解决GitHub上悬挂三周的issue，评价其为“第一次信任模型完成最重要工作”[16] - 但文本写作能力引发争议，用户反馈显示其表现不及专门进行情感特化的GPT-4.5模型[18][21] 安全性能与行业趋势 - 系统卡片显示模型通过安全完成方法防止生成不允许内容，并训练深度推理模型在无法完成任务时诚实承认[26][27] - 抵抗提示注入攻击的能力达到56.8%，意味着仍有近半数攻击有效[29] - 行业观察指出Transformer架构可能达到瓶颈期，AI发展从“大航海时代”进入更成熟的“工业时代”[30]

Artificial General Intelligence (AGI)

Transformer架构

Artificial Intelligence

Artificial General Intelligence (AGI)

Transformer架构

Artificial Intelligence

明显感觉程序员的面试已经变了。。

猿大侠· 2025-07-23 03:25

行业趋势与职业发展 - 传统技术岗位（如Java、C++、前端）从业者面临AI大模型技术冲击，需将现有技术与大模型结合以提升竞争力 [1] - AI应用落地是未来趋势，大模型方向成为职业升级和薪资提升的关键机遇 [1] - 行业出现裁员、降薪现象，但掌握AI能力的工程师更受市场青睐 [1] 课程内容与结构 - 课程采用「代码逐行解构+实战项目操练」双轨模式，覆盖大模型微调、RAG、AI Agent、Transformer架构等核心技术 [9][11] - 五大学习模块：基础→工具→进阶→竞赛→实战，构建完整学习路径 [9] - 案例拆解包括金融行业支小助、知乎直答等商业化应用，提供一手数据资源和项目复现机会 [16] 技术应用与实战 - 聚焦主流大模型（如DeepSeek、Qwen）的微调技术，优化特定场景（制造、医药、金融）的模型性能 [11] - RAG技术应用于垂类场景（法律文档分析、医疗诊断辅助、金融报告生成），提升信息提取精准度 [11] - AI Agent开发涵盖多任务协同与自主决策，如制造业设备故障诊断、金融投资分析等场景 [11] 学员成果与就业支持 - 课程已服务20000+学员，部分学员通过内推获得高薪offer [11][20] - 提供大厂内推+直聘权益，简历直达面试官，加速职业跃迁 [15][20] - 完课赠送《大模型应用案例集》《AI商业落地白皮书》，助力技术迭代与职业发展 [1][20] 课程附加价值 - AI领域大佬授课，揭秘大厂真实案例（如知乎直答底层原理）并分享商业化项目经验 [18] - 剖析大模型招聘行情（岗位、薪资、技术迭代），规划职业发展路径 [20] - 限时免费预约，名额仅限100-200人，强调紧迫性以吸引潜在学员 [13][20]

Transformer架构

Transformer架构