资讯首页 新闻资讯 云计算测评 云服务商动态 技术频道
上云无忧 > 云计算资讯  > 云服务商动态 > 大模型训练再提速20%!腾讯云星脉网络2.0来了

大模型训练再提速20%!腾讯云星脉网络2.0来了

发布时间: 2024-07-03 09:11:14 |浏览量:353| 评论: 0

花重金好不容易才买到的GPU,可能有一半时间都在“偷懒”?!

大模型算力集群就像协作严密的“超级工厂”,员工(GPU)完成阶段性“交付”(计算结果输出)后,必须与其他同事“拉通”(计算结果同步)才能开始新一轮工作。

而拉通时间(集群通信时间)在整体工期中最高占比可达50%,任何一个环节出错(单点故障)都可能导致整座工厂停摆(集群宕机)。

算力资源越来越紧缺、成本越来越高昂,事关效率的“夺命三问”,大模型厂商处理好了吗:

协作速度(通信速度)能不能更快一点?

拉通成本(通信损耗)能不能更低一点?

问题处理(故障定位)能不能更准一点?

刚刚,腾讯自研星脉高性能计算网络全面升级,相比上一代:

支持单集群10万卡组网,规模翻倍

网络通信效率提升60%

让大模型训练效率提升20%

故障定位从天级降低至分钟级


比如同样一个大模型训练集群,某个计算结果同步时间从原来的100秒降至现在的40秒,大模型训练训练时间从原来的50天降至40天。


GPU“身价不菲”,主打一个“别闲着”:

//“基建”全面升级,组网规模翻倍

要想GPU这台豪华超跑发挥最大性能,道路“基建”一定要可靠。

鹅厂是个“基建狂魔”,交换机、光模块、网卡等自研网络设备这次又“上新”了:

自研交换机从25.6T升级到51.2T,容量提升一倍;自研硅光模块从200G升级到400G,速率提升一倍;搭载自研算力网卡;整机通信带宽3.2T,为业界最高。

基建升级后,星脉网络2.0可支撑的整体组网规模实现翻倍,支持单集群10万卡GPU以上的规模。

//“治堵”更“高效”,训练效率提升10%

要想保证路网畅通,除了道路更可靠,也要会高效“治堵”。

腾讯自研全新通信协议TiTa2.0的部署位置从交换机转移到了网卡上,拥塞算法也从被动拥塞算法升级为主动拥塞控制算法。

即根据实时网络情况为GPU提供建议“车速”(数据包发送速率),提前避免拥堵发生,并通过拥堵智能调度,实现网络的快速自愈。

高效治堵,将星脉网络的通信效率提升30%,让大模型的训练效率提升10%。

//“改装”更“灵活”,训练效率提升10%

路况(网络情况)复杂多样,如何灵活调整“车况”,也是成功抵达终点的关键。

腾讯全新高性能集合通信库TCCL2.0采用NVLINK+NET异构并行通信,相当于为GPU新建了一条路(网络通道),以实现数据的并行传输。 

同时,Auto-Tune Network Expert自适应算法可以根据机型、网络规模、模型算法等差异,自动调整数据包分割大小、匹配算法等参数。

这也就相当于根据实时“路况”对GPU完成灵活“改装”,让其时刻保持最优性能。

此次升级后,星脉网络通信性能提升30%,让大模型的训练效率再提升10%。

做道简单的算术题:

TiTa与TCCL升级带来的效果叠加,让星脉网络的通信效率共提升60%,大模型训练效率共提升20%!

//“排查”更“精准”,从天级到分钟级

集群网络中的运营系统就像一支“维修队”,在故障抢修之前,需要进行全面监控。

星脉网络2.0的运营系统新增了腾讯独家技术灵境仿真平台,可以对网络进行360度无死角立体监控。从过去仅能定位网络问题,升级为精确定位GPU节点问题。

万卡级训练故障卡顿、慢节点的定位时间从天级降低至分钟级。

在分布式计算中,由于时间、空间等物理规律限制,算力并不会随着卡的数量线性增长。没有靠谱的通信网络,卡越多,反而会越卡。

我们无法改变规律本身,却可以通过技术演进不断突破极限。

今天,我们迈出了一小步。未来,我们会走得更远。

更多【云服务商动态】相关文章

有话要说

全部评论

暂无评论
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部