Workflow
告别Transformer,重塑机器学习范式:上海交大首个「类人脑」大模型诞生
机器之心·2025-08-13 09:29

模型架构创新 - 提出BriLLM模型,突破传统Transformer架构限制,采用基于有向图的神经网络设计,模拟人脑全局工作机制[3][9] - 引入信号全连接流动(SiFu)机制,以动态信号传播替代注意力机制,实现节点间信号传递[9][13] - 支持无限上下文处理,模型参数完全独立于序列长度,长上下文无需增加参数量[15][16] 性能优势 - 模型计算复杂度低,摆脱Transformer的平方级复杂度限制,提升处理效率[7] - 通过低频词元边共享技术大幅降低参数规模,中文版参数从16.90B缩减至2.19B(缩减率87%),英文版从16.90B缩减至0.96B(缩减率94.3%)[21] - 全模型具备100%可解释性,所有节点及决策流程透明,突破传统黑箱困境[9][19][25] 技术突破 - 首次在宏观尺度模拟人脑语义编码机制,静态语义映射与动态电信号传导双路径创新[8][9] - 支持多模态天然融合,节点可扩展至视觉、听觉、具身交互等模态,无需重新训练模型[25][26] - 模型规模可扩展至千亿参数级别,词表扩展至4万时预期参数量100-200B,与SOTA模型相当但无上下文扩展限制[22] 应用前景 - 为多模态AGI及具身智能提供通用框架,直接支持感知-运动整合[26][27] - 获上海交通大学"交大2030"计划2025年度重点项目资助,额度500万,聚焦颠覆性基础研究[27]