标签:TensorRT-LLM

为用户提供了一个易于使用的 Python API 来定义大型语言模型 LLM ,并构建包含最先进的优化的TensorRT引擎,以便在NVIDIA gpu上有效地执行推理。还包含用于创建执行这些TensorRT引擎的Python和c++运行时的组件。