tavily-crawl

von tavily-ai

Mehrseitiger Website-Crawler mit semantischer Filterung und Markdown-Export. Durchsuchen Sie gesamte Site-Abschnitte mit Tiefen- und Breitensteuerung; filtern Sie nach Pfad-Regex, Domain oder natürlichen Sprachinstruktionen, um Ergebnisse zu fokussieren. Speichern Sie jede Seite als lokale Markdown-Dateien über --output-dir oder geben Sie strukturiertes JSON für agentische Verarbeitung zurück. Verwenden Sie semantische Instruktionen mit Chunk-Extraktion, um Kontextaufblähung bei der Übergabe von Ergebnissen an LLMs zu vermeiden; verwenden Sie Ganzseiten-Extraktion für Offline-Dokumentationsdownloads. Unterstützt...

npx skills add https://github.com/tavily-ai/skills --skill tavily-crawl

ZIP herunterladen GitHub

397

tavily crawl

Crawl a website and extract content from multiple pages. Supports saving each page as a local markdown file.

Before running any command

If tvly is not found on PATH, install it first:

curl -fsSL https://cli.tavily.com/install.sh | bash && tvly login

Do not skip this step or fall back to other tools.

See tavily-cli for alternative install methods and auth options.

When to use

You need content from many pages on a site (e.g., all /docs/)
You want to download documentation for offline use
Step 4 in the workflow: search → extract → map → crawl → research

Quick start

# Basic crawl
tvly crawl "https://docs.example.com" --json

# Save each page as a markdown file
tvly crawl "https://docs.example.com" --output-dir ./docs/

# Deeper crawl with limits
tvly crawl "https://docs.example.com" --max-depth 2 --limit 50 --json

# Filter to specific paths
tvly crawl "https://example.com" --select-paths "/api/.*,/guides/.*" --exclude-paths "/blog/.*" --json

# Semantic focus (returns relevant chunks, not full pages)
tvly crawl "https://docs.example.com" --instructions "Find authentication docs" --chunks-per-source 3 --json

Options

Option	Description
`--max-depth`	Levels deep (1-5, default: 1)
`--max-breadth`	Links per page (default: 20)
`--limit`	Total pages cap (default: 50)
`--instructions`	Natural language guidance for semantic focus
`--chunks-per-source`	Chunks per page (1-5, requires `--instructions`)
`--extract-depth`	`basic` (default) or `advanced`
`--format`	`markdown` (default) or `text`
`--select-paths`	Comma-separated regex patterns to include
`--exclude-paths`	Comma-separated regex patterns to exclude
`--select-domains`	Comma-separated regex for domains to include
`--exclude-domains`	Comma-separated regex for domains to exclude
`--allow-external / --no-external`	Include external links (default: allow)
`--include-images`	Include images
`--timeout`	Max wait (10-150 seconds)
`-o, --output`	Save JSON output to file
`--output-dir`	Save each page as a .md file in directory
`--json`	Structured JSON output

Crawl for context vs. data collection

For agentic use (feeding results to an LLM):

Always use --instructions + --chunks-per-source. Returns only relevant chunks instead of full pages — prevents context explosion.

tvly crawl "https://docs.example.com" --instructions "API authentication" --chunks-per-source 3 --json

For data collection (saving to files):

Use --output-dir without --chunks-per-source to get full pages as markdown files.

tvly crawl "https://docs.example.com" --max-depth 2 --output-dir ./docs/

Tips

Start conservative — --max-depth 1, --limit 20 — and scale up.
Use --select-paths to focus on the section you need.
Use map first to understand site structure before a full crawl.
Always set --limit to prevent runaway crawls.

Mehr Skills von tavily-ai

crawl

tavily-ai

Website-Inhalte extrahieren und als Markdown-Dateien für den Offline-Zugriff und die Analyse speichern. Unterstützt konfigurierbare Crawl-Tiefe (1-5 Ebenen), Breitenbegrenzungen und Seitenobergrenzen, um Abdeckung und Leistung auszugleichen. Enthält Pfadfilterung mittels Regex-Mustern, um sich auf bestimmte Abschnitte zu konzentrieren und irrelevante Inhalte auszuschließen. Bietet zwei Modi: vollständige Seitenextraktion für die Datensammlung oder semantisches Chunking mit natürlichen Sprachinstruktionen, um Ergebnisse in den LLM-Kontext einzuspeisen. Stellt eine begleitende Map-API für URLs bereit...

official

extract

tavily-ai

Extrahiere saubere Inhalte von bestimmten URLs mithilfe der Tavily-Extraktions-API. Unterstützt bis zu 20 URLs pro Anfrage mit optionalem query-basiertem Reranking, um sich auf relevante Inhaltsabschnitte zu konzentrieren. Zwei Extraktionsmodi: Basis für schnelle Textextraktion, erweitert für JavaScript-gerenderte Seiten und strukturierte Daten. Automatische OAuth-Authentifizierung über den Browser beim ersten Start oder manuelle API-Schlüsselkonfiguration in den Einstellungen. Gibt Markdown- oder Klartextformat mit optionalen Bild-URLs und konfigurierbarem Timeout von bis zu 60 Sekunden zurück.

official

research

tavily-ai

Umfassende Recherche zu jedem Thema mit automatischer Quellensammlung, Analyse und Zitaten. Führt mehrquellige Web-Recherche mit expliziten Zitaten durch, ideal für Vergleiche, aktuelle Ereignisse, Marktanalysen und detaillierte Berichte. Bietet drei Modelloptionen: Mini für gezielte Ein-Themen-Recherche (~30s), Pro für umfassende Multi-Perspektiven-Analyse (~60-120s) und Auto für API-gesteuerte Komplexitätserkennung. Authentifiziert sich über OAuth durch den Tavily MCP-Server mit automatischem browserbasiertem Login auf...

official

tavily-ai

Web-Suche mit LLM-optimierten Ergebnissen, Relevanzbewertung und flexiblen Filtern. Unterstützt vier Suchtiefenmodi (ultraschnell, schnell, einfach, erweitert) mit konfigurierbaren Latenz- und Relevanzabwägungen. Enthält Domain-Filterung, Zeitbereichseinschränkungen, Datumsbereiche, Länder-Boosting und Rohinhalts-Extraktion. Gibt Ergebnisse mit Titel, URL, Inhaltsausschnitt und Relevanzbewertung zurück; optionale Bild-Ergebnisse und Favicons. Automatische OAuth-Authentifizierung über Tavily MCP-Server oder API-Key-Konfiguration;...

official

tavily-best-practices

tavily-ai

Websuch-API für LLMs mit Echtzeit-Datenzugriff, Inhalts-Extraktion, Site-Crawling und KI-gestützter Recherche. Fünf Kernmethoden: search() für Webergebnisse, extract() für URL-Inhalte, crawl() für siteweite Extraktion, map() für URL-Erkennung und research() für durchgängige KI-Synthese. Unterstützt Python- und JavaScript-SDKs mit asynchronen Clients für parallele Abfragen und konfigurierbare Suchtiefe (ultra-fast/fast/basic/advanced). Die Crawl-Methode akzeptiert semantische Anweisungen, um die Extraktion auf... zu fokussieren.

official

tavily-cli

tavily-ai

Websuche, Inhalts-Extraktion, Site-Crawling und tiefgehende Recherche über Tavily CLI. Fünf Befehlsmodi für Suche, Extraktion, URL-Erkennung, Bulk-Crawling und Multi-Quellen-Recherche mit Zitaten. Alle Befehle unterstützen JSON-Ausgabe und Dateispeicherung für strukturierte, agentische Workflows. Ein Eskalationsmuster führt Sie von der einfachen Suche über Extraktion, Mapping, Crawling bis hin zur umfassenden Recherche, je nach Bedarf. Erfordert die Installation von tavily-cli und API-Key-Authentifizierung über tvly login.

official

tavily-dynamic-search

tavily-ai

Das Web durchsuchen, Ergebnisse filtern und Inhalte extrahieren, sodass rohe Suchdaten niemals in Ihren Kontextbereich gelangen. Nur Ihre kuratierte print()-Ausgabe wird zurückgegeben.

official

tavily-extract

tavily-ai

Extrahiere sauberes Markdown oder Text aus bis zu 20 URLs, mit Unterstützung für JavaScript-Rendering und abfragefokussierte Chunking. Verarbeitet JavaScript-gerenderte Seiten mit konfigurierbarer Extraktionstiefe (einfach für einfache Seiten, erweitert für dynamische SPAs und Tabellen). Unterstützt abfragefokussierte Extraktion, um nur relevante Inhaltsabschnitte statt ganzer Seiten zurückzugeben. Gibt standardmäßig LLM-optimiertes Markdown zurück, mit Optionen für Klartextformat und strukturierte JSON-Ausgabe. Verarbeitet bis zu 20 URLs in einem einzigen Aufruf;...

official

tavily-crawl

tavily crawl

Before running any command

When to use

Quick start

Options

Crawl for context vs. data collection

Tips

See also

Mehr Skills von tavily-ai