找回密码
 注册

微信登录

微信扫一扫,快速登录

查看: 253|回复: 0

AI原生传输(ANT)项目取得阶段性进展

[复制链接]
发表于 2025-8-8 23:58 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
近日,由开放数据中心委员会(ODCC)主导、中国信通院与华为牵头设计,联合多家产学研机构共同研发的“AI原生传输(ANT)技术研究和测试项目”在香港科技大学开展了第一阶段测试,效果显著。

“AI原生传输(ANT)技术研究和测试项目”

该项目旨在面向Scale out超大集群网络,通过AI原生传输(AI-Native Transport,以下简称ANT)技术创新,使能数控分离DCP(Data Control Partitioning)、逐包均衡与算效优先CFS(Computation First Scheduling)等关键技术,大大提高网络利用率、降低训练时间。

数控分离DCP技术:

对控制信息和数据信息采用不同传输策略,对数据信息允许有损传输,对控制信息采用无损传输,可支持百万卡规模、百公里等大规模、长距离、高性能网络传输的需求。

逐包均衡技术:

通过网侧spray、端侧spray、乱序控制、防拥塞扩散等技术,可从根本上解决ECMP冲突问题,在AI流量场景下实现全网的流量理想均衡,大大提高网络利用率。

算效优先CFS技术:

利用AI流量的规律性,通过控制面集中规划配合数据面分布式调度,可将“业务吞吐” 以逼近理论最优方式转换为“训练效率”,大大降低训练时间。

仿真数据结果显示,在大规模集合通信流量(含MoE AlltoAll、AllReduce等)多路径传输场景下,相比传统无损传输技术与有损传输技术,DCP容损传输技术平均可以降低5%~61%的通信算子级任务完成时间。另据小规模原型样机测试验证,在智算集群组网下(网络丢包率0.01%~1%),相比传统GBN(Go-Back-N)可靠重传技术,DCP容损传输技术可以提升网络吞吐1.6~72倍。DCP相关论文成果《Revisiting RDMA Reliability for Lossy Fabrics》已被SIGCOMM 2025接收,将于2025年9月在葡萄牙正式发布。

w1.jpg

期间,多位专家就ANT技术以及一阶段测试结果进行了深入讨论,并为二阶段的测试验证提供了宝贵的建议。中国信通院云大所总工程师郭亮、华为网络技术实验室专家陈哲、香港科技大学教授陈凯、北京大学研究员吴文斐、阿里云智能集团资深总监王伟、腾讯数据中心网络架构师吕建超、快手网络架构师戚宝侃、博通架构专家何宗应、合见工软副总裁杨凯等代表出席了ANT测试成果发布仪式。

后续,ANT项目将持续在更大规模、更高速率、更好算效传输技术方面进行探索与研究,开展逐包均衡、算效优先CFS等关键技术的验证。

w2.jpg

往期回顾

1、存力革命:闪存全面替代机械硬盘的转折点已经到来

2、算力中心安全性等级丨真如数据中心

3、这一“数字成果展”展品征集中!

4、算力中心服务能力等级丨真如数据中心

5、敬请期待! 《综合算力指数》等中国算力大会“1+4”报告即将发布
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-10-4 07:46 , Processed in 0.114945 second(s), 31 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表