大模型训练再提速20%！腾讯云星脉网络2.0来了

发布时间: 2024-07-03 09:11:14 |浏览量：370| 评论: 0

花重金好不容易才买到的GPU，可能有一半时间都在“偷懒”？！

大模型算力集群就像协作严密的“超级工厂”，员工（GPU）完成阶段性“交付”（计算结果输出）后，必须与其他同事“拉通”（计算结果同步）才能开始新一轮工作。

而拉通时间（集群通信时间）在整体工期中最高占比可达50%，任何一个环节出错（单点故障）都可能导致整座工厂停摆（集群宕机）。

算力资源越来越紧缺、成本越来越高昂，事关效率的“夺命三问”，大模型厂商处理好了吗：

协作速度（通信速度）能不能更快一点？

拉通成本（通信损耗）能不能更低一点？

问题处理（故障定位）能不能更准一点？

刚刚，腾讯自研星脉高性能计算网络全面升级，相比上一代：

支持单集群10万卡组网，规模翻倍

网络通信效率提升60%

让大模型训练效率提升20%

故障定位从天级降低至分钟级

比如同样一个大模型训练集群，某个计算结果同步时间从原来的100秒降至现在的40秒，大模型训练训练时间从原来的50天降至40天。

GPU“身价不菲”，主打一个“别闲着”：

//“基建”全面升级，组网规模翻倍

要想GPU这台豪华超跑发挥最大性能，道路“基建”一定要可靠。

鹅厂是个“基建狂魔”，交换机、光模块、网卡等自研网络设备这次又“上新”了：

自研交换机从25.6T升级到51.2T，容量提升一倍；自研硅光模块从200G升级到400G，速率提升一倍；搭载自研算力网卡；整机通信带宽3.2T，为业界最高。

基建升级后，星脉网络2.0可支撑的整体组网规模实现翻倍，支持单集群10万卡GPU以上的规模。

//“治堵”更“高效”，训练效率提升10%

要想保证路网畅通，除了道路更可靠，也要会高效“治堵”。

腾讯自研全新通信协议TiTa2.0的部署位置从交换机转移到了网卡上，拥塞算法也从被动拥塞算法升级为主动拥塞控制算法。

即根据实时网络情况为GPU提供建议“车速”（数据包发送速率），提前避免拥堵发生，并通过拥堵智能调度，实现网络的快速自愈。

高效治堵，将星脉网络的通信效率提升30%，让大模型的训练效率提升10%。

//“改装”更“灵活”，训练效率提升10%

路况（网络情况）复杂多样，如何灵活调整“车况”，也是成功抵达终点的关键。

腾讯全新高性能集合通信库TCCL2.0采用NVLINK+NET异构并行通信，相当于为GPU新建了一条路（网络通道），以实现数据的并行传输。

同时，Auto-Tune Network Expert自适应算法可以根据机型、网络规模、模型算法等差异，自动调整数据包分割大小、匹配算法等参数。

这也就相当于根据实时“路况”对GPU完成灵活“改装”，让其时刻保持最优性能。

此次升级后，星脉网络通信性能提升30%，让大模型的训练效率再提升10%。

做道简单的算术题：

TiTa与TCCL升级带来的效果叠加，让星脉网络的通信效率共提升60%，大模型训练效率共提升20%！

//“排查”更“精准”，从天级到分钟级

集群网络中的运营系统就像一支“维修队”，在故障抢修之前，需要进行全面监控。

星脉网络2.0的运营系统新增了腾讯独家技术灵境仿真平台，可以对网络进行360度无死角立体监控。从过去仅能定位网络问题，升级为精确定位GPU节点问题。

万卡级训练故障卡顿、慢节点的定位时间从天级降低至分钟级。

在分布式计算中，由于时间、空间等物理规律限制，算力并不会随着卡的数量线性增长。没有靠谱的通信网络，卡越多，反而会越卡。

我们无法改变规律本身，却可以通过技术演进不断突破极限。

今天，我们迈出了一小步。未来，我们会走得更远。

有话要说

全部评论

暂无评论

云计算资讯

大模型训练再提速20%！腾讯云星脉网络2.0来了

更多【云服务商动态】相关文章

有话要说

全部评论

最新文章

热点排行

热门活动

云计算资讯

热点推荐

大模型训练再提速20%！腾讯云星脉网络2.0来了

更多【云服务商动态】相关文章

有话要说

全部评论

最新文章

热点排行

热门活动