Workflow
Transformer模型
icon
搜索文档
27亿美元天价回归,谷歌最贵“叛徒”、Transformer作者揭秘AGI下一步
36氪· 2025-09-22 08:48
大模型核心需求 - 大模型最核心需求是算力 具体表现为更多FLOPS意味着更好性能 [5][9][21] - 内存容量和带宽对模型结构灵活性至关重要 不足会限制非线性层添加 [24][26] - 网络带宽是关键但常被忽视因素 影响分布式训练和推理时参数访问速度 [27][28] 硬件资源需求 - 计算资源需求急剧增长 从2015年32个GPU训练发展到需要数十万个GPU [12] - 内存系统需要多层次优化 包括片上SRAM、HBM和DRAM等中高速缓存 [14][26] - 集群需要更大更快设备 更大内存带宽直接决定推理速度 [15][28] 精度与性能平衡 - 低精度运算成为趋势 可使用8-bit甚至4-bit换取更多FLOPs [32][33] - 需确保训练精度足够和推理误差小 accumulator使用更高精度或进行裁剪防止溢出 [34][40] - 可重复性至关重要 除非获得10倍性能否则不应牺牲确定性 [35][39] AI技术发展路径 - AI发展处于早期阶段 当前LLM只是单步预测引擎 [47] - 未来将加入持久记忆和长期预测能力 发展为具备完整规划能力的行动型AI [48] - 技术飞跃可能在2026年底前实现 一切都将发生深刻变化 [49] 行业影响与社会挑战 - AI将导致大规模失业潮 未来20年内白领认知劳动将被高效替代 [52] - 需要政府通过税收等再分配机制缓冲社会巨变 [52] - 面临"遏制困境"挑战 当执行想法成本趋近零时可能引发大量冲突 [54][55] 安全与治理框架 - 设定四条不可逾越红线:递归式自我改进、自主设定目标、获取自身资源、在世界上自主行动 [56] - AI存在于物理数据中心 可通过"拔掉电源"方式控制 [56] - 需要建立识别和集体决策机制来应对可能出现的失控情况 [56]
Mamba一作预告新架构!长文论述Transformer≠最终解法
量子位· 2025-07-09 04:57
序列模型架构比较 - Mamba作为状态空间模型(SSMs)代表,在语言任务上3B规模超越同等Transformer,匹敌两倍规模Transformer [2] - SSMs工作方式类似人类大脑,通过压缩历史信息形成固定大小隐藏状态,适合处理长序列且计算成本呈线性增长 [15][16] - Transformer通过KV缓存完整记录所有token信息,具备精确记忆能力但计算成本呈二次复杂度 [23][25] 模型性能优势 - SSMs在语言/音频/DNA序列模态实现SOTA,计算效率高且内存需求固定 [16] - Mamba通过三大关键改进提升性能:扩大状态维度至RNN的N倍/引入选择性记忆机制/优化训练效率 [17][18][19][20] - Transformer依赖tokenization预处理,在多语言多模态场景存在局限性且违背端到端学习原则 [28][29][30] 架构融合趋势 - 混合架构中SSM层与注意力层最佳比例介于3:1至10:1之间 [37] - 注意力机制二次复杂度并非Transformer主要缺陷,新架构将保持兼容性 [5][7] - 未来方向是结合SSMs的在线处理能力与Transformer的精确检索优势,直接处理原始数据 [36][40] 行业技术发展 - Mamba作者预告几天后将发布架构领域重大进展 [3] - 当前共识可能被推翻,Transformer被视为阶段性最优解而非最终方案 [8] - 架构设计核心指标是FLOPs利用率,需快速转化为模型能力 [39]
心智×算法 如何“共舞”(瞰前沿·人工智能如何改变科研范式)
人民日报· 2025-06-13 21:43
人工智能与心理学融合 - 全球AI for Science论文发表年均增长率达27.2%(2019-2023年)[1] - 心理学原理如条件反射和强化学习启发了AI技术(如AlphaGo的强化学习机制)[2] - 认知心理学的注意力机制被应用于AI模型(如ChatGPT的注意力权重分配)[2] 技术应用与效率提升 - 通过社交媒体和可穿戴设备捕获10亿级行为数据流,心理学研究进入"数据海洋"时代[2] - AI自动评估人格的相关系数达0.5,显著高于传统问卷效率[3] - 情感计算技术通过声波震颤识别孤独指数,深度学习框架分析口语特征以筛查抑郁[3] 研究范式革新 - 大型语言模型开发自助心理支持工具,采用"零样本学习"和"思维链提示"策略提升情感互动能力[5] - AI生成大规模危机文本训练数据,突破敏感数据获取瓶颈,模型识别微弱求助信号的能力增强[5] - 谷歌DeepMind通过"心智进化"实验模拟自然选择,AI推理任务表现超越传统算法[6] 未来发展方向 - 心理学启发的决策机制将提升AI在开放环境中的判断力,多模态整合能力适应复杂情境[7] - 具身智能仿真平台(如"格物")采用进化式学习算法,机器人训练周期从数周压缩至分钟级[6] - AI情感慰藉可能改善人类心理状态,需重新定义情感边界并制定伦理规范[8]