- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

TensorRT 基础笔记

嵌入式视觉发表于 2023/01/31 19:07:46 2023/01/31

【摘要】 TensorRT 是 NVIDIA 官方推出的基于 CUDA 和 cudnn 的高性能深度学习推理加速引擎，能够使深度学习模型在 GPU 上进行低延迟、高吞吐量的部署。

一，概述

TensorRT 是 NVIDIA 官方推出的基于 CUDA 和 cudnn 的高性能深度学习推理加速引擎，能够使深度学习模型在 GPU 上进行低延迟、高吞吐量的部署。采用 C++ 开发，并提供了 C++ 和 Python 的 API 接口，支持 TensorFlow、Pytorch、Caffe、Mxnet 等深度学习框架，其中 Mxnet、Pytorch 的支持需要先转换为中间模型 ONNX 格式。截止到 2021.4.21 日， TensorRT 最新版本为 v7.2.3.4。

深度学习领域延迟和吞吐量的一般解释：

延迟 (Latency): 人和机器做决策或采取行动时都需要反应时间。延迟是指提出请求与收到反应之间经过的时间。大部分人性化软件系统（不只是 AI 系统），延迟都是以毫秒来计量的。
吞吐量 (Throughput): 在给定创建或部署的深度学习网络规模的情况下，可以传递多少推断结果。简单理解就是在一个时间单元（如：一秒）内网络能处理的最大输入样例数。

二，TensorRT 工作流程

在描述 TensorRT 的优化原理之前，需要先了解 TensorRT 的工作流程。首先输入一个训练好的 FP32 模型文件，并通过 parser 等方式输入到 TensorRT 中做解析，解析完成后 engin 会进行计算图优化（优化原理在下一章）。得到优化好的 engine 可以序列化到内存（buffer）或文件（file），读的时候需要反序列化，将其变成 engine以供使用。然后在执行的时候创建 context，主要是分配预先的资源，engine 加 context 就可以做推理（Inference）。

三，TensorRT 的优化原理

TensorRT 的优化主要有以下几点：

算子融合（网络层合并）：我们知道 GPU 上跑的函数叫 Kernel，TensorRT 是存在 Kernel 调用的，频繁的 Kernel 调用会带来性能开销，主要体现在：数据流图的调度开销，GPU内核函数的启动开销，以及内核函数之间的数据传输开销。大多数网络中存在连续的卷积 conv 层、偏置 bias 层和激活 relu 层，这三层需要调用三次 cuDNN 对应的 API，但实际上这三个算子是可以进行融合（合并）的，合并成一个 CBR 结构。同时目前的网络一方面越来越深，另一方面越来越宽，可能并行做若干个相同大小的卷积，这些卷积计算其实也是可以合并到一起来做的（横向融合）。比如 GoogLeNet 网络，把结构相同，但是权值不同的层合并成一个更宽的层。
concat 层的消除。对于 channel 维度的 concat 层，TensorRT 通过非拷贝方式将层输出定向到正确的内存地址来消除 concat 层，从而减少内存访存次数。
Kernel 可以根据不同 batch size 大小和问题的复杂度，去自动选择最合适的算法，TensorRT 预先写了很多 GPU 实现，有一个自动选择的过程（没找到资料理解）。其问题包括：怎么调用 CUDA 核心、怎么分配、每个 block 里面分配多少个线程、每个 grid 里面有多少个 block。
FP32->FP16、INT8、INT4：低精度量化，模型体积更小、内存占用和延迟更低等。
不同的硬件如 P4 卡还是 V100 卡甚至是嵌入式设备的卡，TensorRT 都会做对应的优化，得到优化后的 engine。

四，参考资料

内核融合：GPU深度学习的“加速神器”
高性能深度学习支持引擎实战——TensorRT
《NVIDIA TensorRT 以及实战记录》PPT
https://www.tiriasresearch.com/wp-content/uploads/2018/05/TIRIAS-Research-NVIDIA-PLASTER-Deep-Learning-Framework.pdf

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

TensorRT 基础笔记

一，概述

二，TensorRT 工作流程

三，TensorRT 的优化原理

四，参考资料

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

TensorRT 基础笔记

一，概述

二，TensorRT 工作流程

三，TensorRT 的优化原理

四，参考资料

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品