tensorrt-llm

Optimiert die LLM-Inferenz mit NVIDIA TensorRT für maximalen Durchsatz und niedrigste Latenz. Verwenden Sie für die Produktionsbereitstellung auf NVIDIA GPUs (A100/H100), wenn Sie…

npx skills add https://github.com/firecrawl/ai-research-skills --skill tensorrt-llm

TensorRT-LLM

NVIDIA's open-source library for optimizing LLM inference with state-of-the-art performance on NVIDIA GPUs.

When to use TensorRT-LLM

Use TensorRT-LLM when:

  • Deploying on NVIDIA GPUs (A100, H100, GB200)
  • Need maximum throughput (24,000+ tokens/sec on Llama 3)
  • Require low latency for real-time applications
  • Working with quantized models (FP8, INT4, FP4)
  • Scaling across multiple GPUs or nodes

Use vLLM instead when:

  • Need simpler setup and Python-first API
  • Want PagedAttention without TensorRT compilation
  • Working with AMD GPUs or non-NVIDIA hardware

Use llama.cpp instead when:

  • Deploying on CPU or Apple Silicon
  • Need edge deployment without NVIDIA GPUs
  • Want simpler GGUF quantization format

Quick start

Installation

# Docker (recommended)
docker pull nvidia/tensorrt_llm:latest

# pip install
pip install tensorrt_llm==1.2.0rc3

# Requires CUDA 13.0.0, TensorRT 10.13.2, Python 3.10-3.12

Basic inference

from tensorrt_llm import LLM, SamplingParams

# Initialize model
llm = LLM(model="meta-llama/Meta-Llama-3-8B")

# Configure sampling
sampling_params = SamplingParams(
    max_tokens=100,
    temperature=0.7,
    top_p=0.9
)

# Generate
prompts = ["Explain quantum computing"]
outputs = llm.generate(prompts, sampling_params)

for output in outputs:
    print(output.text)

Serving with trtllm-serve

# Start server (automatic model download and compilation)
trtllm-serve meta-llama/Meta-Llama-3-8B \
    --tp_size 4 \              # Tensor parallelism (4 GPUs)
    --max_batch_size 256 \
    --max_num_tokens 4096

# Client request
curl -X POST http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "meta-llama/Meta-Llama-3-8B",
    "messages": [{"role": "user", "content": "Hello!"}],
    "temperature": 0.7,
    "max_tokens": 100
  }'

Key features

Performance optimizations

  • In-flight batching: Dynamic batching during generation
  • Paged KV cache: Efficient memory management
  • Flash Attention: Optimized attention kernels
  • Quantization: FP8, INT4, FP4 for 2-4× faster inference
  • CUDA graphs: Reduced kernel launch overhead

Parallelism

  • Tensor parallelism (TP): Split model across GPUs
  • Pipeline parallelism (PP): Layer-wise distribution
  • Expert parallelism: For Mixture-of-Experts models
  • Multi-node: Scale beyond single machine

Advanced features

  • Speculative decoding: Faster generation with draft models
  • LoRA serving: Efficient multi-adapter deployment
  • Disaggregated serving: Separate prefill and generation

Common patterns

Quantized model (FP8)

from tensorrt_llm import LLM

# Load FP8 quantized model (2× faster, 50% memory)
llm = LLM(
    model="meta-llama/Meta-Llama-3-70B",
    dtype="fp8",
    max_num_tokens=8192
)

# Inference same as before
outputs = llm.generate(["Summarize this article..."])

Multi-GPU deployment

# Tensor parallelism across 8 GPUs
llm = LLM(
    model="meta-llama/Meta-Llama-3-405B",
    tensor_parallel_size=8,
    dtype="fp8"
)

Batch inference

# Process 100 prompts efficiently
prompts = [f"Question {i}: ..." for i in range(100)]

outputs = llm.generate(
    prompts,
    sampling_params=SamplingParams(max_tokens=200)
)

# Automatic in-flight batching for maximum throughput

Performance benchmarks

Meta Llama 3-8B (H100 GPU):

  • Throughput: 24,000 tokens/sec
  • Latency: ~10ms per token
  • vs PyTorch: 100× faster

Llama 3-70B (8× A100 80GB):

  • FP8 quantization: 2× faster than FP16
  • Memory: 50% reduction with FP8

Supported models

  • LLaMA family: Llama 2, Llama 3, CodeLlama
  • GPT family: GPT-2, GPT-J, GPT-NeoX
  • Qwen: Qwen, Qwen2, QwQ
  • DeepSeek: DeepSeek-V2, DeepSeek-V3
  • Mixtral: Mixtral-8x7B, Mixtral-8x22B
  • Vision: LLaVA, Phi-3-vision
  • 100+ models on HuggingFace

References

Resources

Mehr Skills von firecrawl

oracle
firecrawl
Bewährte Verfahren für die Verwendung der oracle CLI (Prompt- und Dateibündelung, Engines, Sitzungen und Dateianhänge-Muster).
official
firecrawl-monitor
firecrawl
Erkennen, wenn sich Inhalte auf einer Website ändern, und per Webhook oder E-Mail benachrichtigt werden – keine Cron-Jobs, Scraper oder Diff-Skripte erforderlich. Verwenden Sie diese Fähigkeit immer dann, wenn der Benutzer Änderungen auf einer Seite verfolgen, Wettbewerbspreise beobachten, über neue Stellenausschreibungen oder Blogbeiträge benachrichtigt werden, Dokumentationen/Changelogs/Statusseiten überwachen möchte oder sagt: „überwachen“, „beobachten“, „verfolgen“, „benachrichtige mich, wenn“, „informiere mich, wenn X sich ändert“, „melde dich bei mir, wenn“, „sende mir eine E-Mail, wenn“ oder „sende einen Webhook, wenn“. Ein integrierter KI-Richter filtert Formatierung, Zeitstempel und...
officialweb-scrapingresearch
firecrawl-deep-research
firecrawl
Führen Sie eine multi-quellen Tiefenrecherche mit Firecrawl durch. Verwenden Sie dies, wenn der Nutzer bittet, ein Thema zu recherchieren, Perspektiven zu vergleichen, eine belegte Zusammenfassung zu erstellen, eine technische oder marktbezogene Frage zu untersuchen oder Webquellen aus vielen Quellen zu synthetisieren.
officialresearchweb-scraping
firecrawl-research-papers
firecrawl
Finde und synthetisiere Forschungspapiere, Whitepapers, PDFs, technische Berichte und akademische Quellen mit Firecrawl. Verwende dies, wenn der Nutzer eine Literaturübersicht, eine Zusammenfassung von Papieren, eine Forschungslandschaft oder eine quellenbasierte Synthese aus PDFs und wissenschaftlichen/industriellen Veröffentlichungen wünscht.
officialresearchweb-scraping
firecrawl-market-research
firecrawl
Extrahiere Markt-, Finanz-, Gewinn-, Branchen- und Unternehmenskennzahlen mit Firecrawl. Verwende dies, wenn der Nutzer nach Marktforschung, Branchentrends, Daten zu öffentlichen Unternehmen, Finanzvergleichen, Gewinnforschung oder strukturierten Marktberichten fragt.
officialresearchweb-scraping
firecrawl-website-design-clone
firecrawl
Extrahiere das Design-System jeder Website in eine agentenbereite DESIGN.md mittels Firecrawl-Scrape-Evidenz. Verwende dies, wenn der Nutzer Farben, Schriftarten, Abstände, Komponenten, Layoutmuster oder Marken-/UI-Vorgaben von einer Website wünscht, damit KI-Agenten neue Websites erstellen, ein Design klonen oder von diesem Design inspirierte Seiten aufbauen können.
officialdesignweb-scraping
firecrawl-knowledge-base
firecrawl
Erstellen Sie eine Wissensdatenbank aus Webinhalten mit Firecrawl. Nutzbar für lokale Referenzdokumente, RAG-fähige Chunks, Feintuning-Datensätze, Dokumentationsspiegel, Themenkorpora oder LLM-fähiges Markdown, organisiert aus Webquellen.
officialweb-scrapingresearch
firecrawl-lead-research
firecrawl
Erstellen Sie Pre-Meeting-Lead-Intelligence-Briefings mit Firecrawl. Verwenden Sie dies, wenn der Benutzer Unternehmensrecherche, Personenrecherche, aktuelle Nachrichten, Gesprächsthemen, Schmerzpunkte oder Vorbereitung für ein Verkaufsgespräch, eine Partnerschaftsbesprechung, ein Investorengespräch oder ein Kundeninterview benötigt.
officialresearchweb-scraping