AI网络技术
搜索文档
联想提出RNL技术,通过多维感知等解决AI训练中的难题
新浪科技· 2025-11-28 11:09
行业技术背景 - AI集群规模随大语言模型参数爆发式增长而不断扩大,RoCEv2已成为AI网络主流协议[1] - AI训练与推理基于通信原语(如all-gather、all-reduce)进行数据传输,导致网络流量呈现“低熵、大象流”特征,易引发负载不均和链路拥塞,严重制约带宽利用率与整体性能[1] 公司技术突破 - 联想万全异构智算研发团队提出创新性RNL技术,其论文被IEEE CyberSciTech 2025大会接收,并将收录于IEEE DL和EI Indexed[1] - RNL技术通过多维感知、路径负载均衡优化与增量流量迁移,有效解决了AI训练与推理场景中RoCE网络负载均衡的长期难题[1] 技术方案细节 - 多维感知机制可实时感知网络拓扑结构、AI任务网络需求及RoCE链路负载状态,为动态调度提供数据基础[2] - 路径负载均衡优化通过虚拟-物理网络映射与路径评分算法,智能选择最优数据传输路径,最大化带宽利用率[2] - 增量流量迁移技术采用增量迁移策略,在链路流量调整时避免瞬时延迟,确保业务连续性[2] 未来发展规划 - 公司计划将RNL技术扩展至高性能存储、HPC等场景,并引入深度学习算法优化拥塞预测能力[2] - 公司将在千卡、万卡节点的大型AI集群中验证其综合性能,持续推动AI网络技术的创新与迭代[2]