17 倍加速：PyTorch 模型的 GPU 优化剖析

发布时间: 2020-07-14 14:02:27 |浏览量：1598| 评论: 0

IFX 是滴滴自研的 AI 推理引擎框架，针对云、端、边提供 AI 部署解决方案。目前，滴滴内部有很多 PyTorch 模型已经接入到 IFX 云端框架，并且通过 Serving 方式上线。

在模型从接入到上线的整个流程中，有一个必需的环节：在相同环境下评测 IFX 相比 PyTorch(1.3.1) 带来的性能收益。

下面这个图就是最近接入的几个模型的性能实测结果：

这些模型大概分为两类：resnet 和 mobilenet。从上面结果可以看到 resnet 系列的(A、B、C、D)模型在适配到 IFX 框架之后性能提升大概在3-4倍，mobilenet 系列的(E、F)模型大概是17倍。

针对用户接入的E、F模型，IFX 相比 PyTorch 提升了 17 倍左右，为什么有这么大的优化空间呢，本文就来一步一步分析下。

▎ 基础分析

E、F模型网络结构是 mobilenet-v3，这里是 mobilenet-v3模型介绍，可以看下模型主要的结构以及用途。从 PyTorch 导出的 onnx 模型中粗略估算了下，mobilenet-v3 包含约460个算子；

首先我们先分析一下 PyTorch 的实现，利用 nvprof 看到 PyTorch 的模型执行过程中调用了500+的算子，比460多的原因是 PyTorch 的 conv 算子实现中会额外调用一个数据处理算子。

然后我们具体分析下模型结构，下面这个是 mobilenet-v3 网络中最常见结构。

mobilenet-v3 网络中用到了特殊的激活函数 hswish、hsigmoid，上面的四个黑色算子实现的是 hswish。

其 python 代码如下：

class hswish(nn.Module):
def forward(self, x):
out = x * F.relu6(x + 3, inplace=True) / 6
return out

class hsigmoid(nn.Module):
def forward(self, x):
out = F.relu6(x + 3, inplace=True) / 6
return out

在整个 mobilenet-v3 网络中，hswish 调用了31次，hsigmoid 调用了13次，这样相关的算子总数是31*4+13*3=163个，在模型中占比还是比较大的，而 PyTorch 的计算中没有对这部分做单独的优化实现，只是依次进行基础运算。

nvprof 测试结果如下：

这个图里面包含了 PyTorch 针对 hswish 的实现流程，4个红色箭头指向的计算单元分别实现了 hswish 的 add、clip、mul、div 操作，4个算子总耗时为 10.88us。

下面说一下 IFX 针对此模型的一个优化方法，由于 hswish、hsigmoid 这两个算子具有通用性，所以 IFX 将 hswish、hsigmoid 两个函数整合成了2个单独的算子，这样的融合操作降低了算子个数，同时优化过的算子相比原来性能更好。

具体看下测试结果：

可以看到 IFX 单独实现的 hswish 算子计算耗时为2.14us，仅计算部分性能是 PyTorch 的5倍左右。

其实这个 hswish 的融合操作只是 IFX fusion 策略中的一个，像 conv+elementwise、conv+bn+relu 这种常见的结构是可以 fusion 成一个 conv 的。

在所有 fusion 策略应用到 mobilenet-v3 之后，模型算子个数由原来的460降低为160，数量降低的同时算子性能还有提升。

下面展示 IFX 针对模型优化，带来的性能提升：

（备注：我们没有直接对比 tensorRT，主要原因在于大量的业务模型，包括 mobilenet v3，在 tensorRT5.0.2 上面没办法直接跑起来，适配需要额外的开发工作量）

可以看到在只做了两个算子的融合+基础算子(Conv、Bn、Fc等)优化之后模型性能已经提升8倍左右，当把所有优化策略应用到模型之后，又有1倍+的性能提升。

算子数量优化掉这么多，为什么会产生这么大影响呢，需要理解的是所有的算子调用都需要从cpu 上 launch 到 GPU 上计算，这部分开销在 PyTorch 的实现里是很大的。

下面是针对子网络部分 nvprof 得到的结果：

可以看到完成17个算子的计算，GPU 上的耗时大概1.39ms，而其中真正计算占比很小（大约104us），空白区域是 PyTorch 调用到 GPU 其他的一些 Runtime API，这样看GPU 计算资源没有被充分利用。所以说针对 PyTorch 框架：operations more，waste more.

再来看看 IFX 框架的算子调用：

可以看到实现相同的子网络，IFX 5个算子大概的耗时是80us，其中计算的耗时在53ms，相比 PyTorch 计算效率更高。

这样测下来，针对典型子网络结构，IFX 快了 17 倍左右，和整体性能提升保持一致。测试过程和结果表明，PyTorch 慢是有道理的。

▎拓展分析

接下来我们继续研究下 PyTorch 为什么在 kernel 执行之间调用那么多的 Cuda Runtime API，首先先看下调用的 API 究竟有哪些：

放大之后，看到是CudaSetDevice()，

CudaGetDevice() 这两个 API。基于这个信息，我们可以查看下 PyTorch 源码中这两个 API 的调用点，最终定位到c10/cuda目录。

c10 目录是 PyTorch 最重要的源代码文件夹，也就是几乎所有的源代码都与这里的代码有关系，比如我们的类型定义，PyTorch Tensor 的内存分配方式等等，都在这个文件夹中。

cuda 子目录里面则实现了 GPU 相关的 Device、Stream、Tensor 的调度和管理。

通过查看该目录下的源码，看到 CudaSetDevice()，CudaGetDevice()这两个 api 在这些类中有调用：

那在模型推理时这些类会在什么时候调用 CudaSet/GetDevice 这两个API 呢？查了一些PyTorch 相关 issue 和文档，总结一下。

有下面几种情况：

这里有一个简单的 PyTorch 示例代码，大家可以用 nvprof 来验证下 GPU 上的CudaSet/GetDevice API calls：

CudaSet/GetDevice API calls：
import torch
from torch.autograd import Variable

x = Variable(torch.randn(100000).cuda())
for i in range(20):
z = torch.sigmoid(x)

▎总结

PyTorch 的实现里确实是有一些 cuda 调用机制会直接或间接的带来很大开销。

除了这点之外，我们还可以从 nvprof 中看到在模型推理过程中 PyTorch 除了算子计算耗时、额外的 Runtime API 耗时之外还有很多空白的地方，这些其实是在执行 cpu 上的指令。那这个地方有没有优化空间呢？有的，大家可以分析下这部分耗时的原因。

▎推荐

滴滴云 GPU 云服务器优惠：https://i.didiyun.com/296GrFzdE4H

阿里云 GPU 云服务器优惠：https://www.shangyun51.com/productdetail?id=32

腾讯云 GPU 云服务器优惠：https://www.shangyun51.com/productdetail?id=25

有话要说

全部评论

暂无评论

云计算资讯

17 倍加速：PyTorch 模型的 GPU 优化剖析

更多【技术频道】相关文章

有话要说

全部评论

最新文章

热点排行

热门活动

云计算资讯

热点推荐

17 倍加速：PyTorch 模型的 GPU 优化剖析

更多【技术频道】相关文章

有话要说

全部评论

最新文章

热点排行

热门活动