计算加速套件TACO Kit

简介/价格/文档

腾讯云计算加速套件 TACO Kit - TACO Train 加速 Stable Diffusion 模型训练

文档简介：

操作场景：本文将演示如何使用 GPU 云服务器，训练 AI 绘画模型，结合 TACO Train 的加速能力助力您获得 4 倍以上的性能提升。

*此产品及展示信息均由腾讯云官方提供。免费试用咨询热线：400-826-7010，为您提供专业的售前咨询，让您快速了解云产品，助您轻松上云！微信咨询

免费试用、价格特惠

文档详情

操作场景

本文将演示如何使用 GPU 云服务器，训练 AI 绘画模型，结合 TACO Train 的加速能力助力您获得 4 倍以上的性能提升。

操作步骤

购买高性能计算实例

购买实例，其中实例、存储及镜像请参见以下信息选择，其余配置请参见通过购买页创建实例按需选择。

实例：选择 GPU 型 HCCPNV4h、GPU 计算型 GT4。

镜像：建议选择公共镜像，支持自动安装 GPU 驱动。若选择 HCC 机型，公共镜像当中已安装 RDMA 网卡驱动。

操作系统请使用 CentOS 7.6、Ubuntu 18.04 或 TencentOS 2.4（TK4）。

若您选择公共镜像，则请勾选后台自动安装 GPU 驱动，实例将在系统启动后预装对应版本驱动。如下图所示：

安装docker和NVIDIA docker

1. 参见使用标准登录方式登录 Linux 实例，登录实例。

2. 执行以下命令，安装 docker。

				
			curl -s -L http://mirrors.tencent.com/install/GPU/taco/get-docker.sh | sudo bash

若您无法通过该命令安装，请尝试多次执行命令，或参见 Docker 官方文档 Install Docker Engine 进行安装。

3. 执行以下命令，安装 nvidia-docker2。

				
			curl -s -L http://mirrors.tencent.com/install/GPU/taco/get-nvidia-docker2.sh | sudo bash

若您无法通过该命令安装，请尝试多次执行命令，或参见 NVIDIA 官方文档 Installation Guide & mdash 进行安装。

启动训练环境

				
			#!/bin/bash
		
			docker run \
		
			 -itd \
		
			 --gpus all \
		
			 --privileged --cap-add=IPC_LOCK \
		
			 --ulimit memlock=-1 --ulimit stack=67108864 \
		
			 --net=host \
		
			 --ipc=host \
		
			 --name=sd \
		
			 ccr.ccs.tencentyun.com/qcloud/taco-train:torch20-cu117-bm-0.7.2
		
			docker exec -it sd bash

该镜像包含的软件版本信息如下：

OS：Ubuntu 20.04.5 LTS

python: 3.8.10

CUDA toolkits: V11.7.99

cuDNN: 8.5.0

pytorch: 2.0.0+cu117

DeepSpeed: 0.8.2

Transformers: 4.27.1

xformers: 0.0.17+6967620.d20230323

diffusers: 0.15.0.dev0 (main branch untill March/24/2023)

开始测试

				
			cd /workspace/text_to_image
		
			bash run.sh

测试代码来自 stable diffusers 官方的 examples。

说明：

1. 原始的测试代码打印了单步的耗时，波动较大，这里对每步的训练耗时做了平均，方便性能对比。

2. 第一次运行训练脚本会下载预训练模型，耗时5分钟左右。

3. 模型和数据集信息来自 huggingface 官网。

训练过程中的输出如下：

训练过程中的GPU/CPU/内存状态如下：

性能加速效果

总结

本文基于腾讯云高性能计算实例评测运行了官方Stable diffusion训练脚本，运行过程中通过性能分析挖掘了若干个训练性能优化方向并加以实施，最终取得了4倍多的性能提升。

相似文档

腾讯云计算加速套件 TACO Kit - TACO Infer 优化 Stable Diffusion 系列模型
操作场景：本文将演示如何使用 GPU 云服务器优化 AI 绘画模型，模型范围包括以 Stable Diffusion 1.5为基础的系列模型，您可以使用 Lora 结合模型使用，支持ControlNet。TACO Infer 的加速能力优化后，端到端时延可减少约30%～50%。
腾讯云计算加速套件 TACO Kit - TACO Infer 部署 Stable Diffusion web UI
操作场景：本文将演示如何使用 GPU 云服务器部署优化过的 AI 绘画模型 web UI 界面，结合 TACO Infer 的加速能力助力您获得 30% 以上的端到端性能提升。
腾讯云计算加速套件 TACO Kit 常见问题QA
Q：计算加速套件TACO Kit 包含哪些产品？ A：包含 TACO Train AI 训练加速引擎和 TACO Infer AI 推理加速引擎。
什么是腾讯云批量计算 Batch？
利用批量计算（BatchCompute 简称 Batch），您可以在云服务器上运行批量计算工作负载。Batch 是开发人员、科学家和工程师用来访问大量计算资源的常见方法，并且 Batch 可以免去配置和管理所需基础设施的繁重工作。Batch 与传统的批量计算软件类似。此服务可以有效地预配置资源以响应提交的作业，达到消除容量限制、降低计算成本和快速交付的目的。
腾讯云批量计算 Batch 的应用场景
基因测序：生物信息公司或实验室利用测序仪获取基因组序列的原始文件，在完成基因组序列的初步分析后将信息上传到云上存储系统，例如对象存储 COS，然后通过腾讯云批量计算 Batch 对信息进行更进一步分析。

文档中心

全民上云·上云补贴申领

免费试用（限企业）