llama-cpp

作成者: firecrawl

CPU、Apple Silicon、およびコンシューマ向けGPU上で、NVIDIAハードウェアなしでLLM推論を実行します。エッジデプロイメント、M1/M2/M3 Mac、AMD/Intel GPU、またはCUDAが利用できない環境で使用します。

npx skills add https://github.com/firecrawl/ai-research-skills --skill llama-cpp

llama.cpp

Pure C/C++ LLM inference with minimal dependencies, optimized for CPUs and non-NVIDIA hardware.

When to use llama.cpp

Use llama.cpp when:

  • Running on CPU-only machines
  • Deploying on Apple Silicon (M1/M2/M3/M4)
  • Using AMD or Intel GPUs (no CUDA)
  • Edge deployment (Raspberry Pi, embedded systems)
  • Need simple deployment without Docker/Python

Use TensorRT-LLM instead when:

  • Have NVIDIA GPUs (A100/H100)
  • Need maximum throughput (100K+ tok/s)
  • Running in datacenter with CUDA

Use vLLM instead when:

  • Have NVIDIA GPUs
  • Need Python-first API
  • Want PagedAttention

Quick start

Installation

# macOS/Linux
brew install llama.cpp

# Or build from source
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make

# With Metal (Apple Silicon)
make LLAMA_METAL=1

# With CUDA (NVIDIA)
make LLAMA_CUDA=1

# With ROCm (AMD)
make LLAMA_HIP=1

Download model

# Download from HuggingFace (GGUF format)
huggingface-cli download \
    TheBloke/Llama-2-7B-Chat-GGUF \
    llama-2-7b-chat.Q4_K_M.gguf \
    --local-dir models/

# Or convert from HuggingFace
python convert_hf_to_gguf.py models/llama-2-7b-chat/

Run inference

# Simple chat
./llama-cli \
    -m models/llama-2-7b-chat.Q4_K_M.gguf \
    -p "Explain quantum computing" \
    -n 256  # Max tokens

# Interactive chat
./llama-cli \
    -m models/llama-2-7b-chat.Q4_K_M.gguf \
    --interactive

Server mode

# Start OpenAI-compatible server
./llama-server \
    -m models/llama-2-7b-chat.Q4_K_M.gguf \
    --host 0.0.0.0 \
    --port 8080 \
    -ngl 32  # Offload 32 layers to GPU

# Client request
curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama-2-7b-chat",
    "messages": [{"role": "user", "content": "Hello!"}],
    "temperature": 0.7,
    "max_tokens": 100
  }'

Quantization formats

GGUF format overview

FormatBitsSize (7B)SpeedQualityUse Case
Q4_K_M4.54.1 GBFastGoodRecommended default
Q4_K_S4.33.9 GBFasterLowerSpeed critical
Q5_K_M5.54.8 GBMediumBetterQuality critical
Q6_K6.55.5 GBSlowerBestMaximum quality
Q8_08.07.0 GBSlowExcellentMinimal degradation
Q2_K2.52.7 GBFastestPoorTesting only

Choosing quantization

# General use (balanced)
Q4_K_M  # 4-bit, medium quality

# Maximum speed (more degradation)
Q2_K or Q3_K_M

# Maximum quality (slower)
Q6_K or Q8_0

# Very large models (70B, 405B)
Q3_K_M or Q4_K_S  # Lower bits to fit in memory

Hardware acceleration

Apple Silicon (Metal)

# Build with Metal
make LLAMA_METAL=1

# Run with GPU acceleration (automatic)
./llama-cli -m model.gguf -ngl 999  # Offload all layers

# Performance: M3 Max 40-60 tokens/sec (Llama 2-7B Q4_K_M)

NVIDIA GPUs (CUDA)

# Build with CUDA
make LLAMA_CUDA=1

# Offload layers to GPU
./llama-cli -m model.gguf -ngl 35  # Offload 35/40 layers

# Hybrid CPU+GPU for large models
./llama-cli -m llama-70b.Q4_K_M.gguf -ngl 20  # GPU: 20 layers, CPU: rest

AMD GPUs (ROCm)

# Build with ROCm
make LLAMA_HIP=1

# Run with AMD GPU
./llama-cli -m model.gguf -ngl 999

Common patterns

Batch processing

# Process multiple prompts from file
cat prompts.txt | ./llama-cli \
    -m model.gguf \
    --batch-size 512 \
    -n 100

Constrained generation

# JSON output with grammar
./llama-cli \
    -m model.gguf \
    -p "Generate a person: " \
    --grammar-file grammars/json.gbnf

# Outputs valid JSON only

Context size

# Increase context (default 512)
./llama-cli \
    -m model.gguf \
    -c 4096  # 4K context window

# Very long context (if model supports)
./llama-cli -m model.gguf -c 32768  # 32K context

Performance benchmarks

CPU performance (Llama 2-7B Q4_K_M)

CPUThreadsSpeedCost
Apple M3 Max1650 tok/s$0 (local)
AMD Ryzen 9 7950X3235 tok/s$0.50/hour
Intel i9-13900K3230 tok/s$0.40/hour
AWS c7i.16xlarge6440 tok/s$2.88/hour

GPU acceleration (Llama 2-7B Q4_K_M)

GPUSpeedvs CPUCost
NVIDIA RTX 4090120 tok/s3-4×$0 (local)
NVIDIA A1080 tok/s2-3×$1.00/hour
AMD MI25070 tok/s$2.00/hour
Apple M3 Max (Metal)50 tok/s~Same$0 (local)

Supported models

LLaMA family:

  • Llama 2 (7B, 13B, 70B)
  • Llama 3 (8B, 70B, 405B)
  • Code Llama

Mistral family:

  • Mistral 7B
  • Mixtral 8x7B, 8x22B

Other:

  • Falcon, BLOOM, GPT-J
  • Phi-3, Gemma, Qwen
  • LLaVA (vision), Whisper (audio)

Find models: https://huggingface.co/models?library=gguf

References

Resources

firecrawlのその他のスキル

oracle
firecrawl
oracle CLIのベストプラクティス(プロンプトとファイルのバンドル、エンジン、セッション、ファイル添付パターン)
official
firecrawl-monitor
firecrawl
ウェブサイトのコンテンツ変更を検出し、webhookまたはメールで通知を受け取ります。cronジョブ、スクレイパー、差分スクリプトは不要です。このスキルは、ユーザーがページの変更を追跡したい、競合の価格を監視したい、新しい求人やブログ記事のアラートを受け取りたい、ドキュメント/変更履歴/ステータスページを監視したい、または「監視」「ウォッチ」「追跡」「変更があったら通知」「Xが変わったら通知」「変更があれば知らせて」「変更があったらメール」「webhookを送信」と言った場合に使用します。組み込みのAI判定機能が、フォーマット、タイムスタンプなどをフィルタリングします。
officialweb-scrapingresearch
firecrawl-deep-research
firecrawl
Firecrawlを使用して複数ソースの深層リサーチを実行します。ユーザーがトピックの調査、視点の比較、引用付きブリーフィングの作成、技術的または市場に関する質問の調査、多数のソースにわたるウェブエビデンスの統合を依頼した場合に使用します。
officialresearchweb-scraping
firecrawl-research-papers
firecrawl
Firecrawlを使用して、研究論文、ホワイトペーパー、PDF、技術レポート、学術資料を検索・統合します。ユーザーが文献レビュー、論文要約、研究動向、またはPDFや学術・業界出版物からの情報を引用した統合を求める場合に使用します。
officialresearchweb-scraping
firecrawl-market-research
firecrawl
Firecrawlを使用して、市場、財務、収益、業界、企業の指標を抽出します。ユーザーが市場調査、業界動向、公開企業データ、財務比較、収益調査、または構造化された市場レポートを求めた場合に使用します。
officialresearchweb-scraping
firecrawl-website-design-clone
firecrawl
Firecrawlのスクレイピング結果をもとに、あらゆるウェブサイトのデザインシステムをエージェント対応のDESIGN.mdに抽出します。ユーザーがウェブサイトから色、フォント、余白、コンポーネント、レイアウトパターン、ブランドやUIのガイダンスを取得し、AIエージェントが新しいウェブサイトを作成したり、見た目をクローンしたり、そのデザインにインスパイアされたページを構築できるようにする場合に使用します。
officialdesignweb-scraping
firecrawl-knowledge-base
firecrawl
Firecrawlを使ってウェブコンテンツから知識ベースを構築します。ローカル参照ドキュメント、RAG対応チャンク、ファインチューニング用データセット、ドキュメントミラー、トピックコーパス、またはウェブソースから整理されたLLM対応マークダウンとして利用できます。
officialweb-scrapingresearch
firecrawl-lead-research
firecrawl
Firecrawlを使用して、ミーティング前のリードインテリジェンスブリーフを作成します。営業電話、パートナーシップミーティング、投資家との会話、顧客インタビューの前に、企業調査、人物調査、最近のニュース、トーキングポイント、ペインポイント、アウトリーチ準備が必要な場合に使用します。
officialresearchweb-scraping