- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

TensorRT使用INT8 原理总结

lutianfei 发表于 2020/06/12 17:19:54 2020/06/12

【摘要】目标: 在没有明显准确度丢失的情况下将FP32的CNNs网络转换为INT8 理由: INT8类型的存储方式有很高的通量和较低的内存需求挑战: 相对于FP32, INT8有明显较低的精度和动态范围解决方式: 在将权值以及计算时最小化有效信息损失. 结果: 上述转换可以通过TensorRT来进行实现，同时该方法不需要额外的大量调整和重新训练

目标: 在没有明显准确度丢失的情况下将FP32的CNNs网络转换为INT8

理由: INT8类型的存储方式有很高的通量和较低的内存需求

挑战: 相对于FP32, INT8有明显较低的精度和动态范围

解决方式: 在将权值以及计算时最小化有效信息损失.

结果: 上述转换可以通过TensorRT来进行实现，同时该方法不需要额外的大量调整和重新训练

对于INT8 推断（Inference），需要生成一个校准表来量化模型。接下来主要关注INT8推断（Inference）的几个方面，即：如何生成校准表，如何使用校准表，和INT8推断（Inference）实例。

面临的挑战

相对于FP32，INT8的精度和动态范围要小很多：

从FP32到INT8需要不止一次的类型转换

1) 如何生成校准表？

校准表的生成需要输入有代表性的数据集，对于分类任务TensorRT建议输入五百张到一千张有代表性的图片，最好每个类都要包括。生成校准表分为两步：第一步是将输入的数据集转换成batch文件；第二步是将转换好的batch文件喂到TensorRT中来生成基于数据集的校准表，可以去统计每一层的情况。

2) 如何使用校准表？

校准这个过程如果要跑一千次是很昂贵的，所以TensorRT支持将其存入文档，后期使用可以从文档加载，其中存储和加载的功能通过两个方法来支持，即writeCalibrationCache和readCalibrationCache。最简单的实现是从write()和read()返回值，这样就必须每次执行都做一次校准。如果想要存储校准时间，需要实现用户自定义的write/read方法，具体的实现可以参考TensorRT中的simpleINT8实例。

INT8相较于FP32的计算量变小了，同样也需要适合小精度的计算单元来执行，否则同样在FP32计算单元上面执行，则只在模型大小上面有一定的优势，而并不能带来真正性能的提升，这时候就要谈到GPU为INT8计算的提供的硬件支持。

对于sm_61+如Tesla P4/P40 GPU，我们提供了新的INT8点乘运算的指令支持---DP4A，其将FP32单元“拆开“分成4个INT8单元，从而通过两个FP32单元实现4个INT8数的点乘操作，最后累加成INT32的结果，计算过程如下图所示：

从而对于Tesla P4来说，其拥有5.5T的FP32计算性能，通过DP4A指令为其赋予了INT8的计算能力，并达到了FP32的4倍也就是22T的计算性能。

线性量化

对于每一个FP32的Tensor（权值和激活值），我们无法直接用INT8来表示，因此最直接的表达方法为：

Tensor Values = FP32 scale factor * int8 array + FP32 bias

这时候我们需要考虑一个问题，我们是否真的需要FP32的bias？

对于以下两个矩阵：

A = scale_A * QA + bias_A

B = scale_B * QB + bias_B

推理过程中绝大部分为矩阵乘法，因此这两个矩阵相乘的计算可以表示为：

A * B = scale_A * scale_B * QA * QB + scale_A * QA * bias_B + scale_B * QB * bias_A + bias_A * bias_B

如果我们直接将去掉bias，则两者相乘为：

A * B = scale_A * scale_B * QA * QB

通过去掉bias我们能极大的简化计算内容，降低对GPU中寄存器等资源的消耗，而我们的实验也发现去掉bias不会对性能产生很大的影响。故而TensorRT在这里采用的优化的对称线性量化方法：

Tensor Values = FP32 scale factor * int8 array

现在问题就变成如何寻找一个最优的scale factor？

量化有以下两种方法：

图左-非saturation：对weights和activations使用线性量化，即找到其中绝对值最大的值，然后将这个范围映射回INT8
图右-saturation：选择一个阈值T，将范围T的FP32值映射至INT8，对于范围外的使用-127或128

根据实验证明，图左的方法转化后会带来很大的准确度损失。而对于图右的方法：

weights：无法提升准确度
activations：能有效提升准确度

因此对于weights和activations分别采用了不同的量化方法，前者使用了简单的非saturation的方法，而后者采用的是较为复杂的saturation方法。

量化整体流程

以卷积kernel为例：

输入为：INT8_INPUT，I8_weights

输出为：INT8_OUTPUT

所需参数：FP32 bias (来自于FP32模型中)，FP32 scaling factors: input_scale, output_scale, weights_scale[K]

利用DP4A指令计算 INT8_INPUT与I8_weights的乘积获得I32_gemm_out
利用input_scale以及weights_scale将I32_gemm_out转化成为FP32的F32_gemm_out
利用input_scale, output_scale和weights_scale 将FP32的F32_gemm_out映射至输出的activation分布，获得rescaled_F32_gemm_out
给rescaled_F32_gemm_out加上FP32的bias获得rescaled_F32_gemm_out _with_bias
对rescaled_F32_gemm_out _with_bias执行relu从而获得F32_result
最后根据前文的阈值T将F32_result转成I8_output