Workflow
DCP(Data Control Partitioning)数控分离技术
icon
搜索文档
网络顶会获奖!华为提出端网协同RDMA传输架构,解决大规模AI集群网络可扩展性问题
机器之心· 2025-09-16 11:57
行业技术突破 - 华为与香港科技大学合作研发的DCP传输架构获得ACM SIGCOMM 2025最佳学生论文奖(荣誉提名),是亚洲地区唯一获奖论文[2][4] - 该会议是网络通信领域顶级学术会议,本届投稿463篇仅录用75篇,接收率16.2%,全球仅3篇论文获奖[2][4] 技术研发背景 - AI大模型发展驱动算力需求激增,智算网络通信距离从园区内2-10公里扩展到跨AZ场景百公里级[7] - 现有基于PFC流控的无损RDMA技术面临头阻、死锁、运维难题及Buffer不足问题[7] - 有损RDMA路线存在ECMP冲突、RTO超时及多路径兼容性问题[7] 技术创新内容 - DCP(数据控制分离)架构通过分离数据平面(有损传输)和控制平面(无损传输)重构RDMA可靠性设计[8] - 采用Packet Trimming技术将丢包头部封装为HO报文传输,通过WRR调度器优先处理控制队列[10][11] - 实现三项关键功能:基于HO报文的重传机制(1.6-72倍效率提升)、乱序包直接写入、无位图包追踪技术[17][18] 性能表现 - 原型测试显示DCP在AI工作负载完成时间降低42%,通用负载性能较IRN和MP-RDMA提升2.1倍和1.6倍[17] - 支持10公里长距近理想吞吐,理论支持百公里传输[17] - 仿真实验表明在智算流量场景任务完成时间降低38%-45%,通算流量P95尾部流完成时间降低10%-16%[20] - 在1000公里长距场景下P95尾部完成时间较MP-RDMA和IRN分别降低95%和51%[20] 技术应用前景 - DCP技术是华为AI原生传输技术(ANT)的核心组成部分,支持逐包均衡/多路径、算效优先调度和容损传输[22] - 可构建百万卡规模、百公里级高性能网络底座,充分释放AI算力潜力[4][22]