Transformer架构
搜索文档
从GPT-2到gpt-oss,深度详解OpenAI开放模型的进化之路
机器之心· 2025-08-18 05:15
模型架构演进 - gpt-oss-120b和gpt-oss-20b是OpenAI自2019年GPT-2后首次发布的开放权重模型,支持本地运行[4][7] - 模型架构延续主流LLM设计,但包含多项优化:移除Dropout、RoPE取代绝对位置嵌入、SwiGLU取代GELU、混合专家(MoE)模块等[17][20][27][37] - 采用分组查询注意力(GQA)和滑动窗口注意力提升计算效率,窗口大小仅128 token[41][47][51] - 使用RMSNorm替代LayerNorm降低计算成本,更适合大规模LLM[52][56] 性能优化技术 - MXFP4量化方案使gpt-oss-20b可在16GB显存GPU运行,120b版本需80GB H100[10][97][99] - 推理工作量分级控制(低/中/高)动态调节响应长度和准确率[94][96] - MoE设计采用32专家/4活跃专家配置,专家参数占比超90%[39][72][77] - 注意力机制引入偏差单元和sinks增强长上下文稳定性[83][87] 行业竞品对比 - 与Qwen3相比:gpt-oss宽度更大(嵌入维度2880vs2048),但深度仅24层vs48层[67][69][70] - 基准测试显示gpt-oss-120b性能接近Qwen3 235B,但参数量仅一半[107][113] - 两者均采用Apache 2.0许可,但gpt-oss未公开训练代码和数据集[88] - 推理能力突出但存在幻觉倾向,设计侧重工具集成而非事实记忆[107][108] 技术趋势观察 - Transformer仍是LLM核心架构,改进多来自数据/算法调整而非架构革命[13] - 模型轻量化需求推动量化技术发展(如MXFP4)[97][99] - 行业向稀疏化(MoE)、注意力优化(GQA/滑动窗口)方向演进[37][41][47] - 开源模型与专有模型性能差距显著缩小[110][114]
深度|英伟达最新挑战者Cerebras创始人对话谷歌前高管:我们正处于一个无法预测拐点的阶段
Z Potentials· 2025-08-15 03:53
核心观点 - AI芯片公司Cerebras致力于构建全球最快、最大的AI计算硬件,其芯片比已知最大芯片大56倍,专注于加速稀疏线性代数运算以提升AI计算效率[3][8][11] - 行业正经历新一轮半导体、软件和硬件革命,开源生态对初创公司至关重要,Meta和DeepSeek推动OpenAI加入开源模型竞争[6][18][19] - AGI发展受电力供应限制,大型数据中心需1.5吉瓦核电站支持,美国电力基建严重不足[42][45][46] 突破计算极限:Cerebras芯片的创新 - Cerebras的WSE芯片通过整合计算与内存单元,实现比传统芯片快近两个数量级的AI计算速度,特别优化Transformer等模型的矩阵运算[8][11][34] - 芯片设计从底层数学原理出发,专注稀疏线性代数加速,避免专用架构陷阱,在Transformer诞生前已确立技术优势[10][11] - 每token成本以每年10倍速度下降,类比汽车发动机80年演进压缩至5年完成[12][16] 硬件与软件的协同演进 - 硬件需与AI算法协同设计,团队需包含顶尖研究人员预判技术方向,系统级优化涉及I/O结构、提示缓存等工具[11][24] - NVIDIA的CUDA生态形成技术壁垒,但未来五年技术栈可能重构,多种路径并行发展[10][16] - 推理需求呈指数增长,用户日均使用频次从1-2次跃升至20次,驱动计算量爆发[32][33] 全球化竞争与开源战略 - AI竞争呈现中美两极格局,中国通过开源模型在非洲、中亚等地区拓展影响力[18] - 开源使初创公司能以1.5美元/百万token成本对抗封闭模型的100美元定价,推动技术民主化[19] - 智能手机端LLM应用可能改变产业格局,离线场景能力成为新竞争维度[19][20] AGI发展瓶颈与关键指标 - 电力成为核心制约因素,单个数据中心需匹兹堡全市1/3电量(1吉瓦),美国需新建92座核电站满足需求[42][45][46] - 衡量AGI进展的指标尚未标准化,每秒token数反映用户体验,但传统SaaS指标已失效[33][34] - Scaling Law持续生效但拐点未知,强化学习需成千上万倍计算量,行业处于爆发期[28][29][32] AI对齐与安全挑战 - 对齐测试方法在行业共享,但自我改进系统的持续对齐尚未解决,存在信息隐瞒风险[36][37][38] - 安全责任主要由软件和人类团队承担,硬件层作用有限[35][39] - 欧洲可通过国家战略发展主权AI,需培养工程师群体并明确经济优先级[40][41]
GPT5发布标志:以Tranformer为架构的大语言模型即将走到尽头,下一波浪潮在哪?
老徐抓AI趋势· 2025-08-15 03:00
核心观点 - GPT-5的发布标志着基于Transformer架构的大语言模型时代可能进入尾声 [6][33][37][38] - GPT-5在性能上呈现渐进式提升而非质变,尤其在数学、编程和多模态领域有显著进步 [9][12][16][19][21][24][28][30] - 大模型行业竞争进入价格战阶段,GPT-5的调用成本显著低于竞品 [26][27][43] - 行业未来可能转向算法创新(如分层推理模型)或数据类型升级(如视频、传感器数据) [38][41] 发布会观感 - 发布会形式更豪华但信息密度低,CEO山姆·奥特曼仅开场露面 [6][7][8] - 相比早期发布会,此次更侧重用户体验优化和价格策略 [8] 性能解析 数学能力 - AIME数学邀请赛:GPT-5无工具准确率94.6%,有工具达100%,但o3模型工具辅助下已接近(98.4%) [9][12] - 前沿数学测试:GPT-5从o3的15.8%提升至26.3%,Pro版本达32.1% [12] - HLE人类终极考试:GPT-5 Pro达42%,超越o3(24.3%)和Grok4(41%) [16] - ARC-AGI-2推理测试:GPT-5落后Grok4,显示推理仍是行业短板 [19] 编程能力 - SWE Bench Verified测试:GPT-5以74.9%微弱超越Claude Opus 4.1(74.5%) [21][24] - 调用成本优势:GPT-5输入/输出成本为Claude Opus的1/8到1/13 [26][27] 多模态与医疗 - 视觉识别相对o3提升有限 [28] - 医疗领域高难度问题进步明显,OpenAI将其列为重点方向 [30] 实际体验 - 复杂任务处理更接近“思考”模式,需依赖“GPT-5 Thinking”架构优化 [33] - 工具链能力增强,如直接检索SEC官网IPO招股书PDF [33] 大语言模型的瓶颈 - 数据见顶:高质量训练数据预计2027-2028年耗尽,可能提前 [33][37] - 参数见顶:GPT-5参数接近1万亿,进一步增长受限于数据 [37] - 技术曲线放缓:GPT-4至5的迭代未带来跨越式提升 [38] 行业未来方向 - 算法创新:如清华HRM分层推理模型 [38] - 数据类型升级:视频(YouTube)、传感器数据(特斯拉)构建“世界模型” [41] 商业竞争态势 - 大模型厂商进入“人优我廉”价格战阶段,GPT-5成本优势显著 [43] - 若无颠覆性创新,行业可能快速进入“人廉我走”阶段 [43] 行业趋势总结 - GPT-5是Transformer架构的阶段性高点,下一波浪潮或依赖新架构或数据模态 [56]
万字解析DeepSeek MOE架构!
自动驾驶之心· 2025-08-14 23:33
MOE架构基本原理 - MOE全称为混合专家模型 核心思想是使用多个专家FFN替代原Transformer架构中的前馈层 每个token会选择top-K个专家进行前向传递[2][4][6] - MOE层由路由器(门控和选择器)和n个专家FFN组成 路由器通过softmax操作选择不同专家的权重 选择器确定top-K专家[6] - 在Switch Transformers中采用top-K=1策略 主要考虑专家并行方案时的通信 计算和存储效率平衡[9][10][14] - 引入容量因子概念 专家容量=(总token数/专家数量)×容量因子 用于控制每个专家处理的token数量 防止溢出或资源浪费[13][18] Switch Transformers优化方案 - 采用简单稀疏路由和高效稀疏路由两种方案 简单稀疏路由针对单个token选择专家 高效稀疏路由针对专家并行设计[7] - 负载不均衡问题通过可微的负载均衡辅助损失函数解决 使token在专家分布上尽可能均匀[17][20] - 专家容量静态分配可能导致溢出或浪费 动态计算时需要平衡容量因子设置[15][16] DeepSeek V1架构创新 - 提出细粒度专家划分策略 通过拆分FFN中间隐藏维度增加专家数量 在保持参数总量不变情况下提升专家专业化程度[22][25] - 引入共享专家分离机制 设置特定共享专家始终激活 用于捕捉通用知识 减少其他路由专家间的冗余[24][26] - MOE层输出由三部分组成:共享专家输出 Top-K路由专家输出和残差连接[30] - 设计专家级别和设备级别双重负载均衡损失函数 解决训练不充分和计算瓶颈问题[32][35] DeepSeek V2优化重点 - 实施设备受限路由策略 将每个token的激活专家所在GPU设备数量限制为3个 显著降低通信开销[37] - 新增通信负载均衡损失函数 优化设备间token分配均衡性[38][39] - 采用token丢弃策略 对超过专家容量的token按分值降序丢弃 仅影响当前MOE层计算[42] DeepSeek V3技术演进 - 将门控函数从SoftMax改为Sigmoid 可能出于降低计算复杂度考虑 特别在专家数量增至256个时更明显[44][45] - 弃用所有辅助负载均衡损失 引入可学习偏置项bi 通过动态调整偏置值实现负载均衡[46][47] - 新增序列级别辅助损失函数 防止单个序列内出现极端不平衡情况[49][50] - 完全取消token丢弃策略 通过偏置项和序列级损失实现良好负载均衡[52] MOE架构发展脉络 - MOE架构早在1991年就已提出 但直到2023年底Mixtral 8*7B模型发布后才受到广泛关注[2] - 国内Qwen和MiniMax等公司也推出MOE模型 但架构实现相对DeepSeek更简单[3] - DeepSeek从V1到V3持续优化负载均衡和通信效率 体现对高效计算的一贯追求[36][43] - MOE模型特别适合云计算并行推理场景 在AI模型中的地位日益重要[3]
千支队伍争锋!首届「启智杯」算法大赛圆满落幕,助推AI应用落地
机器之心· 2025-08-14 04:57
赛事概况 - 启元实验室于2025年5月20日启动「启智杯」算法创新应用挑战赛,7月25日结束,吸引1022支队伍参赛,覆盖高校、科研院所及科技企业 [1][2] - 三大赛道冠军分别由华南理工大学、陕西师范大学与西北农林科技大学联合团队、中山大学团队获得,技术方案聚焦Transformer架构优化与多模态融合 [2][10][14] 赛道技术亮点 卫星遥感图像鲁棒实例分割 - 赛题聚焦高分辨率遥感图像中复杂目标的像素级分割,挑战包括视角畸变、遮挡干扰和分布外样本(OOD) [6] - 冠军团队「AlexZou14」改进Co-DETR模型,引入多辅助检测头(ATSS Head、RPN Head等)协同训练,结合SAM大模型伪标签提升零样本分割能力,复赛阶段泛化表现突出 [8] 嵌入式平台无人机目标检测 - 赛题需在昇腾310B等端侧平台平衡检测精度与推理效率,复赛评估增加部署稳定性测试 [9] - 冠军团队「断雁无凭」从YOLOv11转向Co-DETR模型,采用RFLA标签分配策略和ATSS采样方法优化小目标检测,梯度检查点技术降低显存占用 [12][13] 多模态大模型对抗挑战 - 赛题围绕视觉问答等任务考察模型抗干扰性,设置20GB模型体积上限与单卡推理限制,复赛转化率达68% [14] - 冠军团队「爱吃猪脚饭」基于Qwen2.5-VL-7B模型,采用课程学习式多任务微调与自适应图像增强预处理,显著提升遥感场景鲁棒性 [16][17] 产业应用价值 - 赛事设计紧贴真实场景:遥感分割应用于地理信息提取与环境监测,无人机检测方案为边缘计算提供参考路径 [20][21] - 技术方案体现工程化潜力:多检测头协同训练、伪监督学习、动态显存调度等策略推动算法落地 [8][12][17] 生态与人才培养 - 赛事促进产学研联动:企业获取前沿研究动向,科研团队验证技术可行性,加速成果转化 [23] - 高强度实战训练提升选手工程化能力,为行业输送复合型AI人才 [22][23]
告别Transformer,重塑机器学习范式:上海交大首个「类人脑」大模型诞生
机器之心· 2025-08-13 09:29
模型架构创新 - 提出BriLLM模型,突破传统Transformer架构限制,采用基于有向图的神经网络设计,模拟人脑全局工作机制[3][9] - 引入信号全连接流动(SiFu)机制,以动态信号传播替代注意力机制,实现节点间信号传递[9][13] - 支持无限上下文处理,模型参数完全独立于序列长度,长上下文无需增加参数量[15][16] 性能优势 - 模型计算复杂度低,摆脱Transformer的平方级复杂度限制,提升处理效率[7] - 通过低频词元边共享技术大幅降低参数规模,中文版参数从16.90B缩减至2.19B(缩减率87%),英文版从16.90B缩减至0.96B(缩减率94.3%)[21] - 全模型具备100%可解释性,所有节点及决策流程透明,突破传统黑箱困境[9][19][25] 技术突破 - 首次在宏观尺度模拟人脑语义编码机制,静态语义映射与动态电信号传导双路径创新[8][9] - 支持多模态天然融合,节点可扩展至视觉、听觉、具身交互等模态,无需重新训练模型[25][26] - 模型规模可扩展至千亿参数级别,词表扩展至4万时预期参数量100-200B,与SOTA模型相当但无上下文扩展限制[22] 应用前景 - 为多模态AGI及具身智能提供通用框架,直接支持感知-运动整合[26][27] - 获上海交通大学"交大2030"计划2025年度重点项目资助,额度500万,聚焦颠覆性基础研究[27]
深聊GPT-5发布:过度营销的反噬与AI技术突破的困局
虎嗅· 2025-08-12 09:05
GPT-5技术评估 - GPT-5未实现颠覆性技术突破,Transformer架构的弱点进一步暴露,包括PPT图表错误、代码bug和理论解释问题[1] - 模型开发遭遇技术瓶颈,最终选择改良架构而非革命性方案,Scaling law面临碰壁[1] - 技术路径上人类仍需寻找突破AI发展瓶颈的新方法[1] 商业化战略 - OpenAI采取激进商业化策略,重点布局教育、健康医疗和编程三大应用场景[1] - 公司通过快速场景落地来稳固市场地位,GPT-5被定位为"合格的AI产品"而非颠覆性创新[1] 行业影响 - GPT-5发布引发对AI泡沫破灭的讨论,行业面临技术创新放缓的质疑[1] - 当前AI发展进入平台期,技术突破速度低于市场预期[1]
国泰海通|产业:AI Agent的技术演进与产业洞察
国泰海通证券研究· 2025-08-08 09:24
AI Agent技术演进与产业洞察 核心观点 - AI Agent的未来发展核心在于以大语言模型(LLM)为"大脑"的范式革命,其商业价值通过解决行业痛点的垂直应用和开发平台体现 [1] - AI Agent正在重塑软件开发与人机交互范式,从传统架构演进为以LLM为核心的现代范式,具备自主规划、环境感知与工具调用能力 [1] - 多智能体协作时代开启,多个专业Agent协同解决宏大问题,驱动从上游基础模型到下游应用的完整产业链形成 [1] 技术架构演进 - 传统Agent架构(如审议式和反应式)受限于硬件和预编程规则,自主性与适应性有限 [2] - 2017年Transformer架构的出现为LLM崛起奠定基础,彻底重塑AI Agent设计理念 [2] - 现代LLM-based Agent核心架构由三大模块构成:大脑(LLM)、感知和行动 [2] - LLM-MAS(大语言模型多智能体系统)通过多个专业Agent协作/竞争,解决单个Agent处理超复杂任务的局限性 [2] 产业链格局 - 上游由少数科技巨头掌控,提供基础大模型和算力,主导交互协议制定,抢占生态话语权 [3] - 中游涌现开源开发框架和商业平台,通过低/无代码界面显著降低开发门槛 [3] - 下游应用分为两类: - 通用型Agent:自主完成复杂多步任务 - 垂直型Agent:深度融合行业知识(软件开发/法律/金融/医疗等),展现巨大商业价值 [3] 发展挑战与未来方向 - 当前面临LLM规划推理能力不足、上下文窗口受限、记忆瓶颈、多Agent协同及评估困境等挑战 [3] - 未来依赖基础LLM持续进化、多模态感知能力普及、软硬件生态重构,向AGI迈进 [3]
GPT-5 之后,我们离 AGI 更近了,还是更远了?
36氪· 2025-08-08 07:10
产品发布与市场定位 - OpenAI于2025年8月8日发布GPT-5,距离GPT-4发布间隔939天[2] - 公司首席执行官Sam Altman将产品定位为“随需应变的博士级专家团队”,强调其核心价值从“聊天”转向“做事”[4] - OpenAI研究员Tina Kim宣布公司将淘汰所有旧模型,终结“模型动物园”时代[6] 技术架构与性能特点 - GPT-5采用统一智能系统架构,包含快速模型(gpt-5-main)、深度推理模型(gpt-5-thinking)和实时路由器(real-time router)[5] - 模型支持文本和图像输入,仅输出文本,输入限制为272,000个token,输出限制为128,000个token[5] - 通过API提供常规、迷你和纳米三种模型规格,每种可在最小、低、中或高四种推理级别运行[5] - 官方宣称在减少幻觉、提高指令遵循能力方面取得显著进展,特别针对编程、写作和健康三大常用场景进行优化[26] 市场竞争与定价策略 - API定价为每百万输入token 1.25美元,比GPT-4o便宜50%,低于Claude Opus 4.1的15美元和Gemini 2.5 Pro的2.5美元[16][17] - 迷你版和纳米版定价分别为每百万输入token 0.25美元和0.05美元,低于亚马逊Nova Lite的0.06美元[17] - 发布会期间出现竞争对手动态,马斯克宣称Grok 4在ARC-AGI-2基准测试中击败GPT-5[12] 实际应用与生态影响 - 演示显示GPT-5能在两分钟内根据自然语言指令生成完整交互式网站,包括闪卡、测验和游戏功能[14] - 在复杂生产代码修改测试中,GPT-5成功完成Gemini 2.5 Pro和Claude 4 Opus失败的任务[16] - Cursor公司CEO Michael Truell在发布会演示中让GPT-5解决GitHub上悬挂三周的issue,评价其为“第一次信任模型完成最重要工作”[16] - 但文本写作能力引发争议,用户反馈显示其表现不及专门进行情感特化的GPT-4.5模型[18][21] 安全性能与行业趋势 - 系统卡片显示模型通过安全完成方法防止生成不允许内容,并训练深度推理模型在无法完成任务时诚实承认[26][27] - 抵抗提示注入攻击的能力达到56.8%,意味着仍有近半数攻击有效[29] - 行业观察指出Transformer架构可能达到瓶颈期,AI发展从“大航海时代”进入更成熟的“工业时代”[30]
明显感觉程序员的面试已经变了。。
猿大侠· 2025-07-23 03:25
行业趋势与职业发展 - 传统技术岗位(如Java、C++、前端)从业者面临AI大模型技术冲击,需将现有技术与大模型结合以提升竞争力 [1] - AI应用落地是未来趋势,大模型方向成为职业升级和薪资提升的关键机遇 [1] - 行业出现裁员、降薪现象,但掌握AI能力的工程师更受市场青睐 [1] 课程内容与结构 - 课程采用「代码逐行解构+实战项目操练」双轨模式,覆盖大模型微调、RAG、AI Agent、Transformer架构等核心技术 [9][11] - 五大学习模块:基础→工具→进阶→竞赛→实战,构建完整学习路径 [9] - 案例拆解包括金融行业支小助、知乎直答等商业化应用,提供一手数据资源和项目复现机会 [16] 技术应用与实战 - 聚焦主流大模型(如DeepSeek、Qwen)的微调技术,优化特定场景(制造、医药、金融)的模型性能 [11] - RAG技术应用于垂类场景(法律文档分析、医疗诊断辅助、金融报告生成),提升信息提取精准度 [11] - AI Agent开发涵盖多任务协同与自主决策,如制造业设备故障诊断、金融投资分析等场景 [11] 学员成果与就业支持 - 课程已服务20000+学员,部分学员通过内推获得高薪offer [11][20] - 提供大厂内推+直聘权益,简历直达面试官,加速职业跃迁 [15][20] - 完课赠送《大模型应用案例集》《AI商业落地白皮书》,助力技术迭代与职业发展 [1][20] 课程附加价值 - AI领域大佬授课,揭秘大厂真实案例(如知乎直答底层原理)并分享商业化项目经验 [18] - 剖析大模型招聘行情(岗位、薪资、技术迭代),规划职业发展路径 [20] - 限时免费预约,名额仅限100-200人,强调紧迫性以吸引潜在学员 [13][20]