TensorRT-LLM：英伟达推出的专为提升大模型推理速度优化的全新框架

随着大型语言模型（LLM）如 GPT-3 和 BERT 在 AI 领域的崛起，如何在实际应用中高效地进行模型推断成为了一个关键问题。为此，英伟达推出了全新的大模型推理提速框架TensorRT-LM，可以将现有的大模型推理速度提升4倍！2016年，英伟达已经推出了TensorRT，此次发布的TensorRT-LM是在TensorRT基础上针对大模型进一步优化的加速推理库。

TensorRT简介

TensorRT是英伟达的一个深度学习模型优化器和运行时库，它可以将深度学习模型转换为优化的格式，从而在英伟达GPU上实现更快的推断速度。TensorRT的第一个版本是在2016年11月发布的，当时叫做GPU Inference Engine (GIE)。后来在2017年3月，英伟达将其改名为TensorRT，并发布了TensorRT 2.0版本。从那以后，英伟达一直不断更新和改进TensorRT。

上图是英伟达官方针对TensorRT的示意图，可以看到，TensorRT定位的是将训练结束的模型优化达到加速目的，因此与你使用的训练框架和训练过程不强相关。TensorRT通过自动识别可以合并的连续层，并将它们融合成一个操作。这减少了在 GPU 上的操作数量，从而提高了执行速度。

TensorRT-LLM：英伟达推出的专为提升大模型推理速度优化的全新框架

TensorRT简介

TensorRT-LLM简介

DataLearner 官方微信

TensorRT、TensorRT-LLM与PyTorch之间的关系和差异

TensorRT-LLM的加速结果测试

TensorRT-LLM支持的硬件和模型