上云无忧 > 文档中心 > 腾讯云高性能计算集群 - TI-Deepspeed NLP 大模型训练概述
高性能计算集群
腾讯云高性能计算集群 - TI-Deepspeed NLP 大模型训练概述

文档简介:
背景信息: 在当前人工智能趋势下,自然语言模型越大则提供的准确性越高。但由于成本、时间及代码无优化集成等问题,导致较大的模型难以训练。目前 GPT-3 的模型参数已经达到175B,模型参数的增长速度远超 GPU 显存的增长速度,数据并行和模型并行等传统优化方法在超大模型和过千亿参数面前也显现出了诸多瓶颈。
*此产品及展示信息均由腾讯云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

背景信息

在当前人工智能趋势下,自然语言模型越大则提供的准确性越高。但由于成本、时间及代码无优化集成等问题,导致较大的模型难以训练。目前 GPT-3 的模型参数已经达到175B,模型参数的增长速度远超 GPU 显存的增长速度,数据并行和模型并行等传统优化方法在超大模型和过千亿参数面前也显现出了诸多瓶颈。如下图所示:

为了使这些超大模型能够使用已有的硬件服务器训练,对应的解决方案需要在计算,通信和开发效率之间进行优化和权衡。Deepspeed 是微软开源的深度学习训练优化库,Deepspeed 通过 transformer kernel 性能优化、ZeRO(The Zero Redundancy Optimizer)显存优化及节省、提升模型 scale 能力等多个层面,对大模型训练做了详细的分析以及极致的性能优化,已经成为了超大 NLP 模型预训练的“利器”。

优化方案

TI-Deepspeed 是腾讯云 TI 平台团队在对 Deepspeed 调研和实践的基础上,从性能和易用性两方面对 Deepspeed 框架进行了相关优化的分布式训练框架。通过 TI-Deepspeed 显存节省技术、TI-Deepspeed 单机性能优化、TI-Deepspeed 多机可拓展性优化,并根据 NLP 大模型不同的参数规模沉淀出了完整且高性能的分布式训练方案。腾讯云 TI 平台团队旨在通过“一套框架“+”三套最佳实践”更好的服务有 NLP 预训练需求的客户。

训练平台

面向大规模机器学习训练场景,腾讯云推出了搭载 NVIDIA® Tesla® V100 GPU 和 100G 标准 RDMA 网卡的高性能裸金属云服务器 HCCG5v 实例,TI-Deepspeed 最佳实践选用该机型实例作为底层物理硬件平台。
大规模训练集群以 HCCG5v 实例为节点,通过 RDMA 互联,提供了高带宽和极低延迟的网络服务,能满足大规模高性能计算、人工智能、大数据推荐等应用的并行计算需求。如下图所示:

优化成果

百亿参数模型优化结果 腾讯云 TI 平台使用8台 HCCG5v 实例(共64卡 V100)训练83亿和100亿参数规模 GPT-2, 通过使用 zero-2 纯数据并行,每卡可以达到近 40TFLOPs 的性能。如下表所示:
参数
layers=50
hidden size=4096
attention head=32
sequence_length=1024
max-position-embeddings=1024
优化结果
global_bsz
bsz
model_parallel_size
forward
backward
step
iteration(ms)
TFlops/GPU
64*6=384
6
1
2464.89
9288.21
2400
13200
520/13.2 = 39.3
千亿参数模型训练优化结果 腾讯云 TI 平台使用 zero-stage3 结合 cpu offload,在8台 HCCG5v 实例(共64卡 V100)的有限资源下训练千亿模型,通过增大 batchsize,隐藏通信开销,提升训练效率。如下表所示:
参数
layers=480
hidden size=4096
attention head=32
sequence_length=1024
vocabulary_size= 50258→50304
优化结果
bsz
zero
cpu-offload
mp
dp
globsz
iteration
TFlops/GPU
gpu/cpu 内存占用
1
stage3
no
8
8
8
83s
1.2
-
0
stage3
yes
8
8
48
85.7s
6.8 - 7
显存接近极致,内存220G

实践步骤

实践具体操作步骤请参见 部署及实践
相似文档
  • 本文介绍在裸金属云服务器 HCCG5v 实例上训练 TI-Deepspeed 大模型的具体步骤。 示例操作环境: 本文中 TI-Deepspeed 大模型训练操作环境说明如下: 硬件平台:8台 HCCG5v 实例高性能计算集群、 操作系统版本:CentOS 7.6、 GPU 驱动版本:418.67、 CUDA 版本:10.1、 文件存储 CFS:创建文件系统及挂载点。
  • Q:什么是高性能计算集群? A:高性能计算集群(Tencent Hyper Computing Cluster,THCC)以高性能云服务器为节点,通过 RDMA(Remote Direct Memory Access)互联,提供了高带宽和极低延迟的网络服务,大幅提升网络性能,能满足大规模高性能计算、人工智能、大数据推荐等应用的并行计算需求。
  • 为使用腾讯云高性能计算集群服务(以下简称“本服务”),您应当阅读并遵守《高性能计算集群服务等级协议》(以下简称“本协议”或 “SLA”),以及《腾讯云服务协议》。本协议包含本服务的术语和定义、服务可用性/服务成功率等级指标、赔偿方案、免责条款等相关内容。
  • 高性能应用服务(Hyper Application Inventor,HAI)是一款面向 AI 、科学计算 的GPU 应用服务产品,提供即插即用的澎湃算力与常见环境。助力中小企业及开发者快速部署LLM。 【腾讯云】高性能应用服务 HAI
  • 2023年11月:学术加速功能上线,支持广州地域,其他地域逐步支持中。 【腾讯云】高性能应用服务 HAI
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部