大模型训练再提速20%!腾讯云星脉网络2.0来了
花重金好不容易才买到的GPU,可能有一半时间都在“偷懒”?! 大模型算力集群就像协作严密的“超级工厂”,员工(GPU)完成阶段性“交付”(计算结果输出)后,必须与其他同事“拉通”(计算结果同步)才能开始新一轮工作。 而拉通时间(集群通信时间)在整体工期中最高占比可达50%,任何一个环节出错(单点故障)都可能导致整座工厂停摆(集群宕机)。 算力资源越来越紧缺、成本越来越高昂,事关效率的“夺命三问”,大模型厂商处理好了吗: 协作速度(通信速度)能不能更快一点? 拉通成本(通信损耗)能不能更低一点? 问题处理(故障定位)能不能更准一点? 刚刚,腾讯自研星脉高性能计算网络全面升级,相比上一代: 支持单集群10万卡组网,规模翻倍 网络通信效率提升60% 让大模型训练效率提升20% 故障定位从天级降低至分钟级
比如同样一个大模型训练集群,某个计算结果同步时间从原来的100秒降至现在的40秒,大模型训练训练时间从原来的50天降至40天。 GPU“身价不菲”,主打一个“别闲着”: //“基建”全面升级,组网规模翻倍 要想GPU这台豪华超跑发挥最大性能,道路“基建”一定要可靠。 鹅厂是个“基建狂魔”,交换机、光模块、网卡等自研网络设备这次又“上新”了: 自研交换机从25.6T升级到51.2T,容量提升一倍;自研硅光模块从200G升级到400G,速率提升一倍;搭载自研算力网卡;整机通信带宽3.2T,为业界最高。 基建升级后,星脉网络2.0可支撑的整体组网规模实现翻倍,支持单集群10万卡GPU以上的规模。 //“治堵”更“高效”,训练效率提升10% 要想保证路网畅通,除了道路更可靠,也要会高效“治堵”。 腾讯自研全新通信协议TiTa2.0的部署位置从交换机转移到了网卡上,拥塞算法也从被动拥塞算法升级为主动拥塞控制算法。 即根据实时网络情况为GPU提供建议“车速”(数据包发送速率),提前避免拥堵发生,并通过拥堵智能调度,实现网络的快速自愈。 高效治堵,将星脉网络的通信效率提升30%,让大模型的训练效率提升10%。 //“改装”更“灵活”,训练效率提升10% 路况(网络情况)复杂多样,如何灵活调整“车况”,也是成功抵达终点的关键。 腾讯全新高性能集合通信库TCCL2.0采用NVLINK+NET异构并行通信,相当于为GPU新建了一条路(网络通道),以实现数据的并行传输。 同时,Auto-Tune Network Expert自适应算法可以根据机型、网络规模、模型算法等差异,自动调整数据包分割大小、匹配算法等参数。 这也就相当于根据实时“路况”对GPU完成灵活“改装”,让其时刻保持最优性能。 此次升级后,星脉网络通信性能提升30%,让大模型的训练效率再提升10%。 做道简单的算术题: TiTa与TCCL升级带来的效果叠加,让星脉网络的通信效率共提升60%,大模型训练效率共提升20%! //“排查”更“精准”,从天级到分钟级 集群网络中的运营系统就像一支“维修队”,在故障抢修之前,需要进行全面监控。 星脉网络2.0的运营系统新增了腾讯独家技术灵境仿真平台,可以对网络进行360度无死角立体监控。从过去仅能定位网络问题,升级为精确定位GPU节点问题。 万卡级训练故障卡顿、慢节点的定位时间从天级降低至分钟级。 在分布式计算中,由于时间、空间等物理规律限制,算力并不会随着卡的数量线性增长。没有靠谱的通信网络,卡越多,反而会越卡。 我们无法改变规律本身,却可以通过技术演进不断突破极限。 今天,我们迈出了一小步。未来,我们会走得更远。 |
全部评论
暂无评论
有话要说