llama-cpp

द्वारा firecrawl

CPU, Apple Silicon और उपभोक्ता GPU पर NVIDIA हार्डवेयर के बिना LLM इन्फ्रेंस चलाता है। एज डिप्लॉयमेंट, M1/M2/M3 Macs, AMD/Intel GPUs, या जब CUDA उपलब्ध न हो, के लिए उपयोग करें।

npx skills add https://github.com/firecrawl/ai-research-skills --skill llama-cpp

llama.cpp

Pure C/C++ LLM inference with minimal dependencies, optimized for CPUs and non-NVIDIA hardware.

When to use llama.cpp

Use llama.cpp when:

  • Running on CPU-only machines
  • Deploying on Apple Silicon (M1/M2/M3/M4)
  • Using AMD or Intel GPUs (no CUDA)
  • Edge deployment (Raspberry Pi, embedded systems)
  • Need simple deployment without Docker/Python

Use TensorRT-LLM instead when:

  • Have NVIDIA GPUs (A100/H100)
  • Need maximum throughput (100K+ tok/s)
  • Running in datacenter with CUDA

Use vLLM instead when:

  • Have NVIDIA GPUs
  • Need Python-first API
  • Want PagedAttention

Quick start

Installation

# macOS/Linux
brew install llama.cpp

# Or build from source
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make

# With Metal (Apple Silicon)
make LLAMA_METAL=1

# With CUDA (NVIDIA)
make LLAMA_CUDA=1

# With ROCm (AMD)
make LLAMA_HIP=1

Download model

# Download from HuggingFace (GGUF format)
huggingface-cli download \
    TheBloke/Llama-2-7B-Chat-GGUF \
    llama-2-7b-chat.Q4_K_M.gguf \
    --local-dir models/

# Or convert from HuggingFace
python convert_hf_to_gguf.py models/llama-2-7b-chat/

Run inference

# Simple chat
./llama-cli \
    -m models/llama-2-7b-chat.Q4_K_M.gguf \
    -p "Explain quantum computing" \
    -n 256  # Max tokens

# Interactive chat
./llama-cli \
    -m models/llama-2-7b-chat.Q4_K_M.gguf \
    --interactive

Server mode

# Start OpenAI-compatible server
./llama-server \
    -m models/llama-2-7b-chat.Q4_K_M.gguf \
    --host 0.0.0.0 \
    --port 8080 \
    -ngl 32  # Offload 32 layers to GPU

# Client request
curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama-2-7b-chat",
    "messages": [{"role": "user", "content": "Hello!"}],
    "temperature": 0.7,
    "max_tokens": 100
  }'

Quantization formats

GGUF format overview

FormatBitsSize (7B)SpeedQualityUse Case
Q4_K_M4.54.1 GBFastGoodRecommended default
Q4_K_S4.33.9 GBFasterLowerSpeed critical
Q5_K_M5.54.8 GBMediumBetterQuality critical
Q6_K6.55.5 GBSlowerBestMaximum quality
Q8_08.07.0 GBSlowExcellentMinimal degradation
Q2_K2.52.7 GBFastestPoorTesting only

Choosing quantization

# General use (balanced)
Q4_K_M  # 4-bit, medium quality

# Maximum speed (more degradation)
Q2_K or Q3_K_M

# Maximum quality (slower)
Q6_K or Q8_0

# Very large models (70B, 405B)
Q3_K_M or Q4_K_S  # Lower bits to fit in memory

Hardware acceleration

Apple Silicon (Metal)

# Build with Metal
make LLAMA_METAL=1

# Run with GPU acceleration (automatic)
./llama-cli -m model.gguf -ngl 999  # Offload all layers

# Performance: M3 Max 40-60 tokens/sec (Llama 2-7B Q4_K_M)

NVIDIA GPUs (CUDA)

# Build with CUDA
make LLAMA_CUDA=1

# Offload layers to GPU
./llama-cli -m model.gguf -ngl 35  # Offload 35/40 layers

# Hybrid CPU+GPU for large models
./llama-cli -m llama-70b.Q4_K_M.gguf -ngl 20  # GPU: 20 layers, CPU: rest

AMD GPUs (ROCm)

# Build with ROCm
make LLAMA_HIP=1

# Run with AMD GPU
./llama-cli -m model.gguf -ngl 999

Common patterns

Batch processing

# Process multiple prompts from file
cat prompts.txt | ./llama-cli \
    -m model.gguf \
    --batch-size 512 \
    -n 100

Constrained generation

# JSON output with grammar
./llama-cli \
    -m model.gguf \
    -p "Generate a person: " \
    --grammar-file grammars/json.gbnf

# Outputs valid JSON only

Context size

# Increase context (default 512)
./llama-cli \
    -m model.gguf \
    -c 4096  # 4K context window

# Very long context (if model supports)
./llama-cli -m model.gguf -c 32768  # 32K context

Performance benchmarks

CPU performance (Llama 2-7B Q4_K_M)

CPUThreadsSpeedCost
Apple M3 Max1650 tok/s$0 (local)
AMD Ryzen 9 7950X3235 tok/s$0.50/hour
Intel i9-13900K3230 tok/s$0.40/hour
AWS c7i.16xlarge6440 tok/s$2.88/hour

GPU acceleration (Llama 2-7B Q4_K_M)

GPUSpeedvs CPUCost
NVIDIA RTX 4090120 tok/s3-4×$0 (local)
NVIDIA A1080 tok/s2-3×$1.00/hour
AMD MI25070 tok/s$2.00/hour
Apple M3 Max (Metal)50 tok/s~Same$0 (local)

Supported models

LLaMA family:

  • Llama 2 (7B, 13B, 70B)
  • Llama 3 (8B, 70B, 405B)
  • Code Llama

Mistral family:

  • Mistral 7B
  • Mixtral 8x7B, 8x22B

Other:

  • Falcon, BLOOM, GPT-J
  • Phi-3, Gemma, Qwen
  • LLaVA (vision), Whisper (audio)

Find models: https://huggingface.co/models?library=gguf

References

Resources

firecrawl की और Skills

oracle
firecrawl
ओरेकल CLI के उपयोग के लिए सर्वोत्तम अभ्यास (प्रॉम्प्ट + फ़ाइल बंडलिंग, इंजन, सत्र और फ़ाइल अटैचमेंट पैटर्न)।
official
firecrawl-monitor
firecrawl
वेबसाइट पर सामग्री बदलने का पता लगाएं और वेबहुक या ईमेल द्वारा सूचित हों — किसी क्रॉन जॉब, स्क्रैपर या डिफ स्क्रिप्ट की आवश्यकता नहीं। इस कौशल का उपयोग तब करें जब उपयोगकर्ता किसी पेज पर बदलाव ट्रैक करना चाहता हो, प्रतिस्पर्धी मूल्य निर्धारण पर नज़र रखना चाहता हो, नई नौकरी पोस्टिंग या ब्लॉग पोस्ट पर अलर्ट चाहता हो, डॉक्स/चेंजलॉग/स्टेटस पेजों की निगरानी कर
officialweb-scrapingresearch
firecrawl-deep-research
firecrawl
Firecrawl के साथ बहु-स्रोत गहन शोध चलाएँ। इसका उपयोग तब करें जब उपयोगकर्ता किसी विषय पर शोध करने, दृष्टिकोणों की तुलना करने, स्रोत-आधारित ब्रीफिंग तैयार करने, किसी तकनीकी या बाजार प्रश्न की जांच करने, या कई स्रोतों से वेब साक्ष्य को संश्लेषित करने के लिए कहे।
officialresearchweb-scraping
firecrawl-research-papers
firecrawl
Firecrawl के साथ शोध पत्र, श्वेतपत्र, PDF, तकनीकी रिपोर्ट और शैक्षणिक स्रोत खोजें और संश्लेषित करें। इसका उपयोग तब करें जब उपयोगकर्ता साहित्य समीक्षा, पत्र सारांश, शोध परिदृश्य, या PDF और शैक्षणिक/उद्योग प्रकाशनों से स्रोतित संश्लेषण चाहता हो।
officialresearchweb-scraping
firecrawl-market-research
firecrawl
Firecrawl के साथ बाजार, वित्तीय, आय, उद्योग और कंपनी मीट्रिक्स निकालें। इसका उपयोग तब करें जब उपयोगकर्ता बाजार अनुसंधान, उद्योग रुझान, सार्वजनिक कंपनी डेटा, वित्तीय तुलना, आय अनुसंधान या संरचित बाजार रिपोर्ट मांगे।
officialresearchweb-scraping
firecrawl-website-design-clone
firecrawl
किसी भी वेबसाइट के डिज़ाइन सिस्टम को Firecrawl स्क्रेप एविडेंस का उपयोग करके एजेंट-रेडी DESIGN.md में निकालें। इसका उपयोग तब करें जब उपयोगकर्ता किसी वेबसाइट से रंग, फ़ॉन्ट, स्पेसिंग, कंपोनेंट, लेआउट पैटर्न या ब्रांड/UI मार्गदर्शन चाहता है ताकि AI एजेंट नई वेबसाइट बना सकें, लुक क्लोन कर सकें या उस डिज़ाइन से प्रेरित पेज बना सकें।
officialdesignweb-scraping
firecrawl-knowledge-base
firecrawl
फायरक्रॉल के साथ वेब सामग्री से एक ज्ञानकोष बनाएं। स्थानीय संदर्भ दस्तावेज़ों, RAG-तैयार खंडों, फाइन-ट्यूनिंग डेटासेट, दस्तावेज़ीकरण मिरर, विषय कोष, या वेब स्रोतों से व्यवस्थित LLM-तैयार मार्कडाउन के लिए उपयोग करें।
officialweb-scrapingresearch
firecrawl-lead-research
firecrawl
फायरक्रॉल के साथ मीटिंग से पहले लीड इंटेलिजेंस ब्रीफ तैयार करें। इसका उपयोग तब करें जब उपयोगकर्ता को सेल्स कॉल, पार्टनरशिप मीटिंग, निवेशक वार्तालाप या ग्राहक साक्षात्कार से पहले कंपनी अनुसंधान, व्यक्ति अनुसंधान, हालिया समाचार, बातचीत के बिंदु, समस्या बिंदु या आउटरीच तैयारी की आवश्यकता हो।
officialresearchweb-scraping