tensorrt-llm

Optimise l'inférence des LLM avec NVIDIA TensorRT pour un débit

npx skills add https://github.com/firecrawl/ai-research-skills --skill tensorrt-llm

TensorRT-LLM

NVIDIA's open-source library for optimizing LLM inference with state-of-the-art performance on NVIDIA GPUs.

When to use TensorRT-LLM

Use TensorRT-LLM when:

  • Deploying on NVIDIA GPUs (A100, H100, GB200)
  • Need maximum throughput (24,000+ tokens/sec on Llama 3)
  • Require low latency for real-time applications
  • Working with quantized models (FP8, INT4, FP4)
  • Scaling across multiple GPUs or nodes

Use vLLM instead when:

  • Need simpler setup and Python-first API
  • Want PagedAttention without TensorRT compilation
  • Working with AMD GPUs or non-NVIDIA hardware

Use llama.cpp instead when:

  • Deploying on CPU or Apple Silicon
  • Need edge deployment without NVIDIA GPUs
  • Want simpler GGUF quantization format

Quick start

Installation

# Docker (recommended)
docker pull nvidia/tensorrt_llm:latest

# pip install
pip install tensorrt_llm==1.2.0rc3

# Requires CUDA 13.0.0, TensorRT 10.13.2, Python 3.10-3.12

Basic inference

from tensorrt_llm import LLM, SamplingParams

# Initialize model
llm = LLM(model="meta-llama/Meta-Llama-3-8B")

# Configure sampling
sampling_params = SamplingParams(
    max_tokens=100,
    temperature=0.7,
    top_p=0.9
)

# Generate
prompts = ["Explain quantum computing"]
outputs = llm.generate(prompts, sampling_params)

for output in outputs:
    print(output.text)

Serving with trtllm-serve

# Start server (automatic model download and compilation)
trtllm-serve meta-llama/Meta-Llama-3-8B \
    --tp_size 4 \              # Tensor parallelism (4 GPUs)
    --max_batch_size 256 \
    --max_num_tokens 4096

# Client request
curl -X POST http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "meta-llama/Meta-Llama-3-8B",
    "messages": [{"role": "user", "content": "Hello!"}],
    "temperature": 0.7,
    "max_tokens": 100
  }'

Key features

Performance optimizations

  • In-flight batching: Dynamic batching during generation
  • Paged KV cache: Efficient memory management
  • Flash Attention: Optimized attention kernels
  • Quantization: FP8, INT4, FP4 for 2-4× faster inference
  • CUDA graphs: Reduced kernel launch overhead

Parallelism

  • Tensor parallelism (TP): Split model across GPUs
  • Pipeline parallelism (PP): Layer-wise distribution
  • Expert parallelism: For Mixture-of-Experts models
  • Multi-node: Scale beyond single machine

Advanced features

  • Speculative decoding: Faster generation with draft models
  • LoRA serving: Efficient multi-adapter deployment
  • Disaggregated serving: Separate prefill and generation

Common patterns

Quantized model (FP8)

from tensorrt_llm import LLM

# Load FP8 quantized model (2× faster, 50% memory)
llm = LLM(
    model="meta-llama/Meta-Llama-3-70B",
    dtype="fp8",
    max_num_tokens=8192
)

# Inference same as before
outputs = llm.generate(["Summarize this article..."])

Multi-GPU deployment

# Tensor parallelism across 8 GPUs
llm = LLM(
    model="meta-llama/Meta-Llama-3-405B",
    tensor_parallel_size=8,
    dtype="fp8"
)

Batch inference

# Process 100 prompts efficiently
prompts = [f"Question {i}: ..." for i in range(100)]

outputs = llm.generate(
    prompts,
    sampling_params=SamplingParams(max_tokens=200)
)

# Automatic in-flight batching for maximum throughput

Performance benchmarks

Meta Llama 3-8B (H100 GPU):

  • Throughput: 24,000 tokens/sec
  • Latency: ~10ms per token
  • vs PyTorch: 100× faster

Llama 3-70B (8× A100 80GB):

  • FP8 quantization: 2× faster than FP16
  • Memory: 50% reduction with FP8

Supported models

  • LLaMA family: Llama 2, Llama 3, CodeLlama
  • GPT family: GPT-2, GPT-J, GPT-NeoX
  • Qwen: Qwen, Qwen2, QwQ
  • DeepSeek: DeepSeek-V2, DeepSeek-V3
  • Mixtral: Mixtral-8x7B, Mixtral-8x22B
  • Vision: LLaVA, Phi-3-vision
  • 100+ models on HuggingFace

References

Resources

Plus de skills de firecrawl

oracle
firecrawl
Meilleures pratiques pour utiliser l'interface en ligne de commande oracle (invite + regroupement de fichiers, moteurs, sessions et modèles de pièces jointes).
official
firecrawl-monitor
firecrawl
Détectez quand le contenu d'un site web change et recevez une notification par webhook ou e-mail — sans cron jobs, scrapers ni scripts de diff. Utilisez cette compétence lorsque l'utilisateur souhaite suivre les modifications d'une page, surveiller les prix des concurrents, être alerté de nouvelles offres d'emploi ou articles de blog, surveiller les pages de documentation/changelog/statut, ou dit « surveiller », « suivre », « tracker », « alerte-moi quand », « notifie-moi quand X change », « préviens-moi si », « envoie-moi un e-mail quand » ou « envoie un webhook quand ». Un juge IA intégré filtre la mise en forme, les horodatages et...
officialweb-scrapingresearch
firecrawl-deep-research
firecrawl
Effectuer une recherche approfondie multi-sources avec Firecrawl. À utiliser lorsque l'utilisateur demande de rechercher un sujet, comparer des perspectives, produire un briefing sourcé, investiguer une question technique ou de marché, ou synthétiser des preuves web provenant de nombreuses sources.
officialresearchweb-scraping
firecrawl-research-papers
firecrawl
Trouver et synthétiser des articles de recherche, livres blancs, PDF, rapports techniques et sources académiques avec Firecrawl. À utiliser lorsque l'utilisateur souhaite une revue de littérature, un résumé d'article, un panorama de la recherche ou une synthèse sourcée à partir de PDF et de publications académiques ou industrielles.
officialresearchweb-scraping
firecrawl-market-research
firecrawl
Extraire les métriques de marché, financières, de résultats, sectorielles et d'entreprise avec Firecrawl. À utiliser lorsque l'utilisateur demande des études de marché, des tendances sectorielles, des données sur les entreprises publiques, des comparaisons financières, des recherches sur les résultats ou des rapports de marché structurés.
officialresearchweb-scraping
firecrawl-website-design-clone
firecrawl
Extraire le système de design de n'importe quel site web dans un DESIGN.md prêt pour un agent, en utilisant les preuves de scraping de Firecrawl. À utiliser lorsque l'utilisateur souhaite obtenir des couleurs, polices, espacements, composants, motifs de mise en page ou directives de marque/UI d'un site web, afin que des agents IA puissent créer de nouveaux sites web, cloner une apparence ou construire des pages inspirées de ce design.
officialdesignweb-scraping
firecrawl-knowledge-base
firecrawl
Construisez une base de connaissances à partir de contenu web avec Firecrawl. Utilisez-la pour des documents de référence locaux, des segments prêts pour le RAG, des jeux de données de fine-tuning, des miroirs de documentation, des corpus thématiques ou du markdown prêt pour LLM organisé à partir de sources web.
officialweb-scrapingresearch
firecrawl-lead-research
firecrawl
Produire des fiches de renseignement pré-réunion avec Firecrawl. À utiliser lorsque l'utilisateur a besoin de recherches sur une entreprise, une personne, d'actualités récentes, de points de discussion, de points sensibles ou de préparation de prospection avant un appel commercial, une réunion de partenariat, une conversation avec un investisseur ou un entretien client.
officialresearchweb-scraping