Transformer架构 - 财报，业绩电话会，研报，新闻 - Reportify

Transformer架构

搜索文档

宜信好望角：AI深度赋能，将如何改变创业格局

金投网· 2025-10-10 01:34

B端市场投资与机遇 - B端商业模式成熟且付费逻辑清晰，当前真实需求集中在降本增效领域，投资更倾向AI基础设施与具身智能项目[1] - 工业与智能制造领域的AI提效项目落地速度与效果超预期，尤其值得关注[1] - 针对大型企业复杂场景，通过定制化研发构建技术壁垒是可行策略，因Transformer架构泛化能力强但精准度不足[2] - SaaS模式被预测为短期内最易商业化的路径，AI硬件将在1-2年内爆发，具身智能有望在十年内融入生活[2] C端市场潜力与创新方向 - C端市场面临收费难挑战，但需求需通过持续观察与快速迭代挖掘，结合国内产品人才与工程实力有望打造全球爆款[1] - 陪伴类应用与AI Agent创作平台是已布局方向，观察到AI重塑现有工作流程的创新尝试以及Agent间交互的新生态苗头[1] 全球化战略与出海优势 - 更快的成长机会集中在海外，中国产品经理的全球化能力是核心优势[2] - 星动纪元具身智能业务海外客户占比超50%，2025年作为商业化元年重点拓展全球市场[2] - 生数科技视频生成产品Vidu全球化定位明确，商业化8个月实现ARR突破2000万美元，累计生成视频超3亿条[2] - 中国企业出海优势在于强大的AI技术能力与完备的供应链体系双重支撑，端侧大模型与硬件供应链结合可打造高性价比智能设备抢占全球AGI入口[2] - 只要产品能提供明确生产力价值，国内用户付费意愿并不逊色于海外[2] 机构孵化与创业支持模式 - 创新工场近五年孵化半数投资项目，通过提前1.5-2年布局稀缺方向降低风险[3] - 金浦投资采用产业方加资本方联合模式，为团队提供技术、渠道等全维度支持[3] - 创业者应关注退出端变化，优先对接产业资源丰富的投资机构[3]

创业(US:VEMLY)

机构孵化模式

Transformer架构

机构孵化模式

Transformer架构

刚刚，DeepSeek开源V3.2-Exp，公开新稀疏注意力机制DSA

机器之心· 2025-09-29 10:29

DeepSeek-V3.2-Exp 开源发布 - DeepSeek 在假期前发布实验版本 DeepSeek-V3.2-Exp 并开源 [1][3] - 模型参数量为 685B [3] - 同步公开论文及稀疏注意力机制技术细节 [3][5] 稀疏注意力机制架构创新 - DeepSeek 稀疏注意力机制（DSA）是 3.2 版本唯一架构改进 [6] - DSA 实现细粒度稀疏注意力显著提升长上下文训练和推理效率 [9] - 在 MLA 架构下实例化 DSA [8] - 该机制代表对更高效 Transformer 架构的持续研究特别注重扩展文本序列处理的计算效率 [10] 模型性能基准测试 - DeepSeek-V3.2-Exp 训练配置与 V3.1-Terminus 严格对比 [9] - 在公开基准测试中表现相当例如 MMLU-Pro 均保持 85.0 [9][11] - 部分领域存在微小波动如 GPQA-Diamond 从 80.7 降至 79.9 而 AIME 2025 从 88.4 升至 89.3 [11] - Codeforces 评分从 2046 提升至 2121 [11] - Agentic Tool Use 方面 BrowseComp-zh 从 45.0 升至 47.9 [11] 行业竞争动态 - 智谱 GLM-4.6 即将发布 GLM-4.5 被标识为上一代旗舰模型 [12]

稀疏注意力机制

Transformer架构

Artificial Intelligence

DeepSeek-V3.2-Exp

DeepSeek Sparse Attention (DSA)

DeepSeek-V3.1-Terminus

稀疏注意力机制

Transformer架构

Artificial Intelligence

DeepSeek-V3.2-Exp

DeepSeek Sparse Attention (DSA)

DeepSeek-V3.1-Terminus

人工智能产业“十四五”复盘与“十五五”展望：“两个变局”下的AI要素化跃

搜狐财经· 2025-09-26 17:47

文章核心观点 - 人工智能产业在“十四五”期间完成了从“技术”向“要素”的五大质变跃迁，为“十五五”期间AI要素的“量价齐升”奠定了坚实基础 [8] - “十五五”期间，AI Agent将成为核心载体，驱动AI要素通过价格发现、规模交易和跨境输出实现全面跃迁，并与实体经济深度融合 [8] - AI产业投资可遵循算力基础设施、AI Agent与MaaS服务、智能终端与机器人、AI+绿色低碳四大主线 [8] 技术演进 - Transformer架构统一了AIGC赛道，成为通用引擎，其自注意力机制提供了无与伦比的灵活性和可扩展性 [12][14][18] - 大模型参数量实现跨越式增长，从2018年GPT-2的15亿参数跃升至2024年GPT-4的1.76万亿参数，参数规模突破临界触发“涌现能力”，奠定通用智能雏形 [2][12][21] - 技术发展呈现“高参数量+轻量化”并行分化态势，超大参数模型处理复杂任务，轻量级模型适用于移动端和实时性要求高的场景 [21] - 视觉技术红利在“十四五”初期终结，ImageNet-1K精度逼近理论天花板，模型参数与算力投入的边际收益急剧递减 [11][13][45] 算力硬件 - GPU在算力硬件中占据主导地位，英伟达市场份额约为70%，同时ASIC、FPGA等异构芯片加速发展 [2] - 国产AI芯片奋起直追，华为昇腾910b、寒武纪思元370等产品单卡算力不断提升，能效比与海外差距逐级收敛 [8][26][32] - 数据中心形态由IDC向AIDC演进，功率密度和散热要求大幅提升，液冷等高效散热方案加速普及 [2][25][27] - 国家通过“东数西算”和“算力券”等机制介入算力定价，使算力具备公共事业属性 [25][28][29] 产业生态与数据要素 - AI要素化进程加快，数据经历资源化、资产化、资本化阶段，数据确权、定价、交易体系逐步完善 [2] - 公共数据完成“政务共享→授权运营→资产入表→财政分成”的跃迁，成为可交易、可分成的财政要素 [8][33][35] - 2024年《企业数据资源相关会计处理暂行规定》正式施行，截至2025年中报，110家A股上市公司数据资源入表总金额达26.52亿元 [33][42][44] - 智能体生态崛起，文心智能体平台、腾讯元器KUNLUN等开发平台涌现，通过调用制、订阅制、结果分成制实现价值捕获 [2][8] 应用场景与市场表现 - 企业服务因ROI明确、数据基础好成为AI优先落地领域，金融风控、制造供应链等场景逐步渗透，医疗、教育等领域探索深化 [2] - “十四五”期间视觉安防市场陷入红海，以海康威视、大华股份为代表的企业传统业务增速放缓，行业面临转型 [45][47][50] - 国内SaaS企业估值经历压缩，云计算SaaS的PS从高双位数回落，行业等待生成式AI原生等下一代平台技术带来反弹 [56][57] - “十四五”期间AI产业营收稳步增长，2025年上半年部分企业营收超900亿元，毛利率维持在42%-45%区间 [2] 政策支持 - 中央顶层设计完成“攻关-筑基-应用-变革”四段跳，AI首次写入社会治理层面，定位由“产业工具”升级为“转型引擎” [8][58][63] - 2024年《政府工作报告》首次在“社会治理”段落提及人工智能，2025年《关于深入实施“人工智能+”行动的意见》设定了2027/2030/2035三阶段量化目标 [63] - 政策体系强调场景落地、产业规模、安全治理三位一体，通过专项基金、税收优惠、政府采购等多措并举支持产业发展 [63][64] 未来展望与投资主线 - “十五五”期间AI Agent将驱动交互范式移至CUI，收费基准从Token计价转向“增量收益分成”，使AI部门由成本中心转为利润中心 [8] - 国产全栈闭环有望实现，通过Agent专用芯片、框架层标准定义和数据层资产化，取得要素定价权并实现规模化交易 [8] - 全球南方市场为AI出海提供广阔空间，其总人口超45亿，占世界总人口近60%，数字经济增长率远超传统经济 [8] - 投资建议聚焦四大主线：算力基础设施、AI Agent与MaaS服务、智能终端与机器人、AI+绿色低碳 [8]

人工智能要素化跃迁

Transformer架构

智能体（Agent）

人工智能要素化跃迁

Transformer架构

智能体（Agent）

专访中昊芯英CTO郑瀚寻：国产AI芯片也将兼容不同平台

21世纪经济报道· 2025-09-24 22:22

AI芯片市场趋势 - 旺盛的AI智算需求驱动GPU路线之外的AI芯片获得更多市场关注，例如博通因云服务厂商寻求英伟达替代方案而订单量水涨船高、股价大涨 [1] - 以谷歌TPU和Groq的LPU为代表的非GPU芯片路线受到市场关注 [1] - 定制化ASIC芯片备受关注，博通近期获得百亿美元订单，谷歌持续演进自研TPU芯片 [3] ASIC芯片发展 - 立足于ASIC定制芯片的国内厂商正在快速发展 [2] - 产业界持续追求更高费效比的路径，可能向某个方向收敛 [2] - 随着专用芯片发展，其成本不再高昂，越来越多厂商愿意借力自研专用芯片架构推进个性化AI能力落地 [2] TPU/GPTPU技术优势 - 中昊芯英选择与谷歌类似的GPTPU路线 [4] - 自英伟达Tesla V100加入Tensor Core以来，其对Tensor Core的每次迭代都有新亮点，而对CUDA Core功能实现没有太大变化 [4] - 在大模型时代，每多N倍数据传输量，张量运算单元能完成N²的计算量，实现相对划算的计算效果 [4] - TPU类比3D打印机，能够把计算任务一次性打印成型，而GPU是多人共同运算，CPU是处理复杂题目的博士生但数量极少 [4] 集群互联挑战 - 大模型发展对底层AI算力集群提出更高要求，如何把“单点能效”放大到“集群能效”是国产XPU芯片的挑战 [5] - 未来数据传输是AI基础设施的瓶颈之一，Tensor Core优势在于传输N倍数据量完成N²计算量 [5] - 谷歌第三代TPU产品支持多达千片芯片规模的片间互联 [5] - 中昊芯英支持千卡集群内1024片芯片直接光模块高速片间互联，并探索OCS全光互联等新技术方案 [6] 互联协议竞争 - 英伟达通过InfiniBand高速互联协议构建护城河，该协议被认为更适合大规模数据中心集群部署 [6] - 因英伟达相对封闭，竞争对手更积极推进以太网协议，这是多数国产AI芯片厂商的选择方向 [6] - 头部AI芯片厂商积极构建以太网联盟，该技术路线物理介质和带宽能力大幅提升，已具竞争力 [6] - 特斯拉基于以太网推出TTPoE连接协议实现很低延迟，中昊芯英宣称其互联延迟表现比特斯拉更好 [6] 软件生态与模型架构 - 国产AI芯片平台需自主建设软件栈和工具链，以应对英伟达闭源CUDA生态 [6] - 未来国产AI芯片将通过持续工具链完善，实现不同平台间的兼容与流畅体验，类比安卓系统起步时国产手机的优化过程 [7] - 目前绝大多数大语言模型本质上仍脱胎于Transformer架构，整体结构未出现根本性变化 [7]

英伟达(US:NVDA)

Transformer架构

Transformer架构

中昊芯英CTO郑瀚寻：国产AI芯片也将兼容不同平台

21世纪经济报道· 2025-09-24 10:41

AI芯片市场趋势 - 旺盛的AI智算需求驱动GPU路线之外的AI芯片获得更多市场关注，如博通因云服务厂商寻求英伟达替代方案而订单量和股价大涨 [1] - 以谷歌TPU和Groq的LPU为代表的定制化ASIC芯片正受到更大关注，显示出市场对GPU替代方案的需求 [1][2] - 产业界持续追求更高费效比，随着专用芯片成本降低，越来越多厂商愿意借力自研专用芯片架构推进个性化AI能力落地 [1] 技术路线比较 - 硅谷芯片新玩家如Groq、SambaNova和Cerebras致力于通过架构创新实现性能和能效突破，而非选择GPU或类似GPU架构 [2] - 英伟达GPU的成功很大程度上源于其深厚的工程化实验团队积累，这难以被后来者直接复制 [2] - TPU架构类似新能源车调整传统传动装置，在同样算力数量级下可实现更好的数据迁移和存储表现及更低能耗 [4] - TPU对计算效率和能耗带来突破性变化，在深度学习、AI for science和科学模拟等领域受益于Tensor Core架构 [4] 张量计算单元优势 - 自英伟达Tesla V100加入Tensor Core后，其迭代重点在于Tensor Core的数量和功能提升，而非CUDA Core [3] - 在大模型时代，张量计算单元投资划算，每多N倍数据传输量就能完成N的计算量，实现更优计算效果 [3] - TPU类比3D打印机能将计算任务一次性成型，相比传统CPU（博士生）和GPU（大学生解题）更高效 [3] 集群互联挑战与方案 - 大模型发展对底层AI算力集群提出更高要求，将“单点能效”放大到“集群能效”是国产XPU芯片的挑战 [5] - 未来数据传输是AI基础设施瓶颈之一，Tensor Core优势在于传输N倍数据量完成N的计算量 [5] - 谷歌TPU第三代产品支持多达千片芯片规模的片间互联，中昊芯英支持千卡集群内1024片芯片直接光模块高速互联 [5] - 英伟达通过InfiniBand协议构建护城河，但竞争对手更积极推进以太网协议，后者物理介质和带宽能力已大幅提升 [6] - 特斯拉基于以太网的TTPoE协议可实现很低延迟，中昊芯英宣称其互联延迟表现优于特斯拉 [6] 软件生态与模型架构 - 英伟达闭源的CUDA生态建设十余年，国产芯片平台需自主建设软件栈和工具链 [6] - 国产AI芯片将通过持续工具链完善，实现不同平台间的兼容与流畅体验，类似安卓系统早期优化过程 [6] - 当前绝大多数大语言模型仍基于Transformer架构，整体结构未出现根本性变化，这为AI芯片厂商提供了按1-2年周期有序推进研发的机会 [7]

英伟达(US:NVDA)

Transformer架构

Tensor Core（张量处理单元）

TPU（张量计算单元）芯片

Transformer架构

Tensor Core（张量处理单元）

TPU（张量计算单元）芯片

AI解数学题只靠最后一个token

量子位· 2025-09-14 05:05

研究核心发现 - 大语言模型在心算任务中，几乎所有实际数学计算都集中在序列最后一个token上完成，而非分散在所有token中[1] - 模型内部形成名为“人人为我”的稀疏子图，通过最少的计算层和最有限的信息传递高效完成运算[4][5] - 该过程将任务通用型计算与输入特定型计算分开，表明在特定任务中全局信息访问并非必需[1][10] 研究方法与实验设计 - 研究采用上下文感知平均消融和基于注意力的窥视技术对Llama-3-8B等Transformer模型进行消融实验[2][20] - 实验通过三阶段操作：在初始层抑制token针对特定输入的计算，在少数层限制跨token信息传递，最后强制所有计算在最后一个token上发生[15][18][19] - 在Llama-3-8B的A+B+C任务中，只需前14层做任务通用计算，然后通过2层信息传输让最后token获取全局信息，剩余层仅进行最后token自计算[24] 模型性能表现 - AF1_llama子图在八个算术任务中总体表现出高忠实度，其中A+B+C任务忠实度达0.995，A-B-C任务达0.995[28][29] - 仅少数注意力头对算术计算关键，移除近60个头部后模型仍能保持约95%准确率，表明大部分注意力头冗余[30] - 在Pythia和GPT-J模型中也发现类似AF1子图，但等待期更短、信息传输层更长，且性能边界不如Llama清晰[35] 任务适用性与局限性 - AF1_llama在不含额外语义上下文的直接算术任务中保持高准确率，但在需要语义理解的应用题和Python代码任务上完全失败[33][34] - 该方法聚焦于心算任务，即涉及两个或三个操作数的算术问题，可通过单个token输出解决而无需链式思维推理[11] - 研究方法论具有创新性，可服务于算术任务之外的更广泛应用，为理解大语言模型中的算术推理机制做出贡献[37]

大语言模型

Transformer架构

上下文感知平均消融（CAMA）

基于注意力的窥视（ABP）

大语言模型

Transformer架构

上下文感知平均消融（CAMA）

基于注意力的窥视（ABP）

当导师让我去看多模态感知研究方向后......

自动驾驶之心· 2025-09-07 23:34

自动驾驶多模态感知融合技术发展现状 - 激光雷达在自动驾驶感知中具有核心优势：提供超长感知距离的安全冗余、高帧率实时感知、恶劣环境抗干扰保障和三维空间认知能力 [1] - 多传感器融合是国内高端智能驾驶量产的主流范式激光雷达与视觉感知结合构成可靠工作能力 [1] - 多模态感知融合技术正从传统融合向端到端融合和Transformer架构演进 [1] 多模态融合技术架构演进 - 传统融合分为三种方式：早期融合（输入端拼接原始数据计算量巨大）中期融合（传感器特征提取后融合当前主流方案）后融合（决策层结果融合可解释性强但难以解决信息冲突） [2] - 基于Transformer的端到端融合成为最前沿方向：通过跨模态注意力机制学习不同模态深层关系实现高效鲁棒的特征交互 [2] - 端到端训练减少中间模块误差累积直接从原始传感器数据输出3D目标框提升动态信息捕捉能力和整体性能 [2] 多模态融合科研培训课程体系 - 课程设计为期14周：包含12周在线小组科研 2周论文指导和10周论文维护期 [10][21] - 招生规模为6人/期至多8人采用"2+1"式师资配置（名校教授+行业导师+科研班主任） [5][11] - 硬件要求最低2张4090显卡推荐4张4090或以上性能设备支持云服务器租赁 [11] 课程技术内容体系 - 覆盖多模态融合全技术栈：从传统模块化感知系统到BEV视角融合再到基于Transformer的端到端融合 [15] - 提供完整科研支持：包括公开数据集（nuScenes、KITTI、Waymo Open Dataset）、Baseline代码和论文idea [12][13][14] - 重点讲解激光-视觉深度融合和雷达-视觉-激光三元融合技术涵盖多任务多传感器融合方案 [15][16] 学术产出与培养目标 - 学员将产出论文初稿获得结业证书和推荐信（根据优秀程度） [11] - 培养体系解决三大问题：知识体系碎片化动手能力不足论文写作投稿困难 [5] - 课程包含完整论文方法论：从选题方法、实验方法到写作方法和投稿建议 [4][10]

多模态感知融合

端到端自动驾驶

传感器融合

Transformer架构

多模态感知融合

端到端自动驾驶

传感器融合

Transformer架构

晚点独家丨理想自研智驾芯片上车路测，部分计算性能超英伟达 Thor-U

晚点LatePost· 2025-08-28 06:09

核心观点 - 理想汽车自研智驾芯片M100取得关键进展预计明年量产上车其采用软硬结合研发策略目标是通过软件调度提升硬件算力利用率在性能上实现对竞争对手的降维打击 [4][6][7] 芯片研发进展 - M100于今年一季度样片回片完成功能测试和性能测试后已小批量上样车做道路测试 [4] - 在处理大语言模型计算任务时 1颗M100有效算力相当于2颗英伟达Thor-U 在处理传统视觉任务时 1颗M100有效算力可对标3颗英伟达Thor-U [4] - 芯片研发耗资巨大项目规划资金预算达数十亿美元 [6] 技术战略 - 采用软硬结合研发策略通过软件调度能力提升芯片硬件算力利用率 [6] - 研发工作包括NPU SoC等硬件以及软件开发与适配是一个多层次的解决方案 [6] - 智驾芯片设计与Transformer架构密切相关需要原生高效支持FP4 FP6等超低精度优化 [7] 产品策略 - 采取两条腿走路策略一方面用外部方案确保当下市场竞争力另一方面用自研芯片谋求未来核心优势 [7] - 纯电车型倾向于搭载英伟达高算力芯片如MEGA i8全系搭载英伟达Thor-U i6也有意全系搭载 [7] - L系列增程车型根据AD Max和AD Pro版本分别搭载英伟达Thor-U或地平线征程6M [8] 研发背景 - 理想汽车CTO谢炎主要推动软硬结合研发策略其拥有编译器技术背景曾任AliOS首席架构师华为终端OS部部长等职 [6] - 自研智驾芯片核心原因是作为专用芯片能够针对公司算法进行特定优化性价比和效率都很高 [8] - 目前仍使用英伟达芯片是因为其对新的算子支持较好算力充足且算法仍处于迭代过程中 [8]

理想汽车(US:LI)

Transformer架构

大语言模型（LLM）

卷积神经网络（CNN）

智能电动车

理想智驾芯片M100

Transformer架构

大语言模型（LLM）

卷积神经网络（CNN）

智能电动车

理想智驾芯片M100

独家丨理想自研智驾芯片上车路测，部分计算性能超英伟达 Thor-U

晚点Auto· 2025-08-28 03:51

理想汽车自研智驾芯片M100进展 - M100芯片于今年一季度完成样片回片已通过功能测试和性能测试目前正进行小批量上样车道路测试 [3] - 1颗M100运行大语言模型计算任务时有效算力相当于2颗英伟达Thor-U 处理卷积神经网络任务时算力可对标3颗英伟达Thor-U [3] - 芯片预计明年量产上车项目资金预算达数十亿美元 [5] 技术研发战略特点 - 采用软硬结合研发策略通过软件调度能力提升芯片硬件算力利用率 [5] - 研发涵盖NPU SoC等硬件及软件开发与适配形成多层解决方案 [5] - CTO谢炎主导研发策略其拥有编译器技术背景曾任AliOS首席架构师和华为终端OS部部长 [5] 行业技术发展趋势 - 智驾芯片设计重心从卷积神经网络优化转向对Transformer架构的原生支持 [6] - 需重点优化FP4 FP6等超低精度计算对芯片架构前瞻性和软硬件联合调优能力提出挑战 [6] 当前芯片供应策略 - 纯电车型全系搭载英伟达Thor-U芯片包括MEGA i8及规划中的i6车型 [6] - L系列增程车型按AD Max/Pro版本分别采用英伟达Thor-U或地平线征程6M芯片 [7] - 自研芯片核心目的是针对专用算法优化未来算法锁定后将实现更优效率和成本 [2][7] 项目管控与合作保障 - 近期加强对芯片部门信息管控保障战略安全并维护与现有供应商合作关系 [5] - 现阶段仍依赖英伟达和地平线作为合作伙伴因英伟达对新算子支持较好且算力充足 [5][7]

理想汽车(US:LI)

Transformer架构

软硬结合研发策略

智能电动汽车

理想智驾芯片M100

Transformer架构

软硬结合研发策略

智能电动汽车

理想智驾芯片M100

Meta没做的，英伟达做了，全新架构吞吐量狂飙6倍，20万亿Token训练

36氪· 2025-08-19 02:33

产品发布 - 英伟达发布全新9B参数模型NVIDIA Nemotron Nano 2 采用革命性Mamba-Transformer混合架构在数学代码推理与长上下文任务中表现对标Qwen3-8B并实现推理吞吐量最高提升6倍[1] - 模型通过Mamba-2架构实现性能突破用闪电般快速的Mamba-2层替换传统Transformer中绝大多数自注意力层在处理超长序列时推理速度比Transformer快3-5倍且复杂度为线性级别支持百万级token上下文[10][15] - 模型训练包含三个阶段首先在20万亿token数据集上预训练120亿参数基础模型再结合SFT DPO GRPO RLHF等多阶段对齐方法最后通过Minitron策略进行结构化剪枝与知识蒸馏将12B模型压缩至9B参数[17][19][21][22] 性能表现 - 在数学基准测试GSM8K和MATH500中分别达到72.1%和97.8%准确率在代码基准HumanEval+和MBPP+ 通用推理MMLU-Pro及长上下文RULER128k测试中优于或持平Qwen3-8B和Gemma3-12B等同类开源模型[23][24] - 在8k输入/16k输出场景下实现6.3倍吞吐量提升在GPQA测试中达64.0% LCB测试71.1% BFCL v3测试66.9% 指令遵循能力在IFEVAL-Prompt和IFEVAL-Instruction测试中分别达85.4%和90.3%[23][24] 开源生态 - 在HuggingFace平台全面开放三个模型：对齐并剪枝的9B推理模型经过剪枝的9B基础模型以及未剪枝的12B基础模型均支持128K上下文长度[25] - 同步开源6.6万亿token高质量预训练数据集包含Nemotron-CC-v2网页爬取数据 Nemotron-CC-Math-v1数学数据集（1330亿token） Nemotron-Pretraining-Code-v1代码数据集及Nemotron-Pretraining-SFT-v1指令调优数据集[25][26] - 提供数据集采样版本包含10个代表性子集展示高质量问答数据数学抽取内容代码元数据及SFT指令数据[27] 行业技术趋势 - 混合架构成为新方向 Mamba通过选择性机制动态调整参数专注保留相关信息擅长长上下文建模但记忆复制能力不足而Transformer存在O(n²)计算瓶颈混合架构可互补优势[16] - 多家公司推进新架构研发 Meta推进JEPA和LCMs 谷歌DeepMind在Titans Atlas Genie3等方向投入约50%研究力量 OpenAI可能储备新架构 Ilya的SSI项目疑似采用全新架构[11][14]

英伟达(US:NVDA)

Transformer架构

大概念模型（LCMs）

状态空间模型

Transformer架构

大概念模型（LCMs）

状态空间模型