RNL技术
搜索文档
联想提出RNL技术,通过多维感知等解决AI训练中的难题
新浪科技· 2025-11-28 11:09
行业技术背景 - AI集群规模随大语言模型参数爆发式增长而不断扩大,RoCEv2已成为AI网络主流协议[1] - AI训练与推理基于通信原语(如all-gather、all-reduce)进行数据传输,导致网络流量呈现“低熵、大象流”特征,易引发负载不均和链路拥塞,严重制约带宽利用率与整体性能[1] 公司技术突破 - 联想万全异构智算研发团队提出创新性RNL技术,其论文被IEEE CyberSciTech 2025大会接收,并将收录于IEEE DL和EI Indexed[1] - RNL技术通过多维感知、路径负载均衡优化与增量流量迁移,有效解决了AI训练与推理场景中RoCE网络负载均衡的长期难题[1] 技术方案细节 - 多维感知机制可实时感知网络拓扑结构、AI任务网络需求及RoCE链路负载状态,为动态调度提供数据基础[2] - 路径负载均衡优化通过虚拟-物理网络映射与路径评分算法,智能选择最优数据传输路径,最大化带宽利用率[2] - 增量流量迁移技术采用增量迁移策略,在链路流量调整时避免瞬时延迟,确保业务连续性[2] 未来发展规划 - 公司计划将RNL技术扩展至高性能存储、HPC等场景,并引入深度学习算法优化拥塞预测能力[2] - 公司将在千卡、万卡节点的大型AI集群中验证其综合性能,持续推动AI网络技术的创新与迭代[2]
联想万全异构智算研发团队论文被IEEE CyberSciTech 2025收录
环球网· 2025-11-28 09:37
技术突破与核心创新 - 论文提出RNL技术,通过多维感知、路径负载均衡优化与增量流量迁移,解决AI训练与推理场景中RoCE网络负载均衡的长期难题 [1] - 技术构建“多维感知+路径负载均衡+增量迁移”闭环体系,多维感知机制可实时感知网络拓扑结构、AI任务网络需求及RoCE链路负载状态 [1] - 路径负载均衡优化通过虚拟-物理网络映射与路径评分算法智能选择最优数据传输路径,增量流量迁移策略在调整链路流量时避免瞬时延迟 [1] - 与传统方案不同,RNL基于通用RoCE交换机实现AI网络优化,无需绑定专用硬件,核心创新在于融合AI业务通信带宽与时延评估算法,结合多维链路拥塞评估机制 [2] 性能表现与成本优势 - 在实测环境中,RNL技术展现出高可靠性,集合通信原语性能提升50%,带宽利用率达85%,负载均衡离散度降低90% [2] - AI推理场景下,TPS(每秒处理事务数)提升26%,TTFT(首字节时间)时长减少30%,TPOT(每输出令牌时间)时长减少22% [2] - 整体部署成本降低60%,为AI集群的规模化落地提供了经济高效的网络基础 [2] 商业应用与战略影响 - RNL技术已纳入联想万全异构智算平台的落地规划,将巩固该平台在AI异构计算市场的技术壁垒 [4] - 该技术有助于提升公司在AI异构计算行业的行业影响力与核心竞争力 [4]