TensorRT-LLM:英伟达推出的专为提升大模型推理速度优化的全新框架
随着大型语言模型(LLM)如 GPT-3 和 BERT 在 AI 领域的崛起,如何在实际应用中高效地进行模型推断成为了一个关键问题。为此,英伟达推出了全新的大模型推理提速框架TensorRT-LM,可以将现有的大模型推理速度提升4倍!2016年,英伟达已经推出了TensorRT,此次发布的TensorRT-LM是在TensorRT基础上针对大模型进一步优化的加速推理库。

TensorRT简介
TensorRT是英伟达的一个深度学习模型优化器和运行时库,它可以将深度学习模型转换为优化的格式,从而在英伟达GPU上实现更快的推断速度。TensorRT的第一个版本是在2016年11月发布的,当时叫做GPU Inference Engine (GIE)。后来在2017年3月,英伟达将其改名为TensorRT,并发布了TensorRT 2.0版本。从那以后,英伟达一直不断更新和改进TensorRT。

上图是英伟达官方针对TensorRT的示意图,可以看到,TensorRT定位的是将训练结束的模型优化达到加速目的,因此与你使用的训练框架和训练过程不强相关。TensorRT通过自动识别可以合并的连续层,并将它们融合成一个操作。这减少了在 GPU 上的操作数量,从而提高了执行速度。


