tavily-crawl

tarafından tavily-ai

Çok sayfalı web sitesi tarayıcısı, anlamsal filtreleme ve markdown dışa aktarma ile. Derinlik ve genişlik kontrolü ile tüm site bölümlerini tarayın; sonuçları odaklamak için yol regex'i, alan adı veya doğal dil talimatlarıyla filtreleyin Her sayfayı --output-dir aracılığıyla yerel markdown dosyaları olarak kaydedin veya aracı işleme için yapılandırılmış JSON döndürün Sonuçları LLM'lere beslerken bağlam şişmesini önlemek için parça çıkarma ile anlamsal talimatlar kullanın; çevrimdışı dokümantasyon indirmeleri için tam sayfa çıkarma kullanın Destekler...

npx skills add https://github.com/tavily-ai/skills --skill tavily-crawl

tavily crawl

Crawl a website and extract content from multiple pages. Supports saving each page as a local markdown file.

Before running any command

If tvly is not found on PATH, install it first:

curl -fsSL https://cli.tavily.com/install.sh | bash && tvly login

Do not skip this step or fall back to other tools.

See tavily-cli for alternative install methods and auth options.

When to use

  • You need content from many pages on a site (e.g., all /docs/)
  • You want to download documentation for offline use
  • Step 4 in the workflow: search → extract → map → crawl → research

Quick start

# Basic crawl
tvly crawl "https://docs.example.com" --json

# Save each page as a markdown file
tvly crawl "https://docs.example.com" --output-dir ./docs/

# Deeper crawl with limits
tvly crawl "https://docs.example.com" --max-depth 2 --limit 50 --json

# Filter to specific paths
tvly crawl "https://example.com" --select-paths "/api/.*,/guides/.*" --exclude-paths "/blog/.*" --json

# Semantic focus (returns relevant chunks, not full pages)
tvly crawl "https://docs.example.com" --instructions "Find authentication docs" --chunks-per-source 3 --json

Options

OptionDescription
--max-depthLevels deep (1-5, default: 1)
--max-breadthLinks per page (default: 20)
--limitTotal pages cap (default: 50)
--instructionsNatural language guidance for semantic focus
--chunks-per-sourceChunks per page (1-5, requires --instructions)
--extract-depthbasic (default) or advanced
--formatmarkdown (default) or text
--select-pathsComma-separated regex patterns to include
--exclude-pathsComma-separated regex patterns to exclude
--select-domainsComma-separated regex for domains to include
--exclude-domainsComma-separated regex for domains to exclude
--allow-external / --no-externalInclude external links (default: allow)
--include-imagesInclude images
--timeoutMax wait (10-150 seconds)
-o, --outputSave JSON output to file
--output-dirSave each page as a .md file in directory
--jsonStructured JSON output

Crawl for context vs. data collection

For agentic use (feeding results to an LLM):

Always use --instructions + --chunks-per-source. Returns only relevant chunks instead of full pages — prevents context explosion.

tvly crawl "https://docs.example.com" --instructions "API authentication" --chunks-per-source 3 --json

For data collection (saving to files):

Use --output-dir without --chunks-per-source to get full pages as markdown files.

tvly crawl "https://docs.example.com" --max-depth 2 --output-dir ./docs/

Tips

  • Start conservative--max-depth 1, --limit 20 — and scale up.
  • Use --select-paths to focus on the section you need.
  • Use map first to understand site structure before a full crawl.
  • Always set --limit to prevent runaway crawls.

See also

tavily-ai tarafından daha fazla skill

crawl
tavily-ai
Web sitesi içeriğini çevrimdışı erişim ve analiz için markdown dosyaları olarak çıkarır ve kaydeder. Kapsam ve performans dengesi için yapılandırılabilir tarama derinliği (1-5 seviye), genişlik sınırları ve sayfa sınırlamalarını destekler. Belirli bölümlere odaklanmak ve ilgisiz içeriği hariç tutmak için regex desenleriyle yol filtreleme sunar. Veri toplama için tam sayfa çıkarma veya sonuçları LLM bağlamına beslemek için doğal dil talimatlarıyla anlamsal parçalama olmak üzere iki mod sağlar. URL için bir tamamlayıcı Map API sunar...
official
extract
tavily-ai
Tavily'nin çıkarma API'sini kullanarak belirli URL'lerden temiz içerik çıkarır. İsteğe bağlı sorgu tabanlı yeniden sıralama ile ilgili içerik parçalarına odaklanarak istek başına en fazla 20 URL'yi destekler. İki çıkarma modu: hızlı metin çıkarma için temel, JavaScript ile işlenmiş sayfalar ve yapılandırılmış veriler için gelişmiş. İlk çalıştırmada tarayıcı üzerinden otomatik OAuth kimlik doğrulaması veya ayarlarda manuel API anahtarı yapılandırması. İsteğe bağlı resim URL'leri ve 60 saniyeye kadar yapılandırılabilir zaman aşımı ile markdown veya düz metin bi
official
research
tavily-ai
Herhangi bir konuda otomatik kaynak toplama, analiz ve alıntılarla kapsamlı araştırma. Açık alıntılarla çoklu kaynak web araştırması yapar; karşılaştırmalar, güncel olaylar, pazar analizi ve detaylı raporlar için idealdir. Üç model seçeneği sunar: hedefli tek konulu araştırma için mini (~30 sn), kapsamlı çok açılı analiz için pro (~60-120 sn) ve API tabanlı karmaşıklık algılama için auto. Tavily MCP sunucusu üzerinden OAuth ile kimlik doğrulama yapar ve otomatik tarayıcı tabanlı giriş ile...
official
search
tavily-ai
LLM için optimize edilmiş sonuçlar, alaka düzeyi puanlaması ve esnek filtreleme ile web araması. Yapılandırılabilir gecikme ve alaka düzeyi dengeleriyle dört arama derinliği modunu (ultra hızlı, hızlı, temel, gelişmiş) destekler. Alan filtresi, zaman aralığı kısıtlamaları, tarih aralıkları, ülke önceliklendirmesi ve ham içerik çıkarma içerir. Başlık, URL, içerik parçacığı ve alaka düzeyi puanı ile sonuçlar döndürür; isteğe bağlı görsel sonuçları ve faviconlar. Tavily MCP sunucusu veya API anahtarı yapılandırması aracılığıyla
official
tavily-best-practices
tavily-ai
We need to translate the given English text into Turkish, preserving the name "tavily-best-practices" but not including it unless it appears in the source. The source text does not include the name, so we just translate the description. We must preserve product names, protocol names, URLs, numbers, technical terms. No extra commentary. The text: "Web search API for LLMs with real-time data access, content extraction, site crawling, and AI-powered research. Five core methods: search() for web results, extract() for URL content, crawl() for site-wide extraction, map() for URL discovery, and research() for end-to-end AI synthesis Supports Python and JavaScript SDKs with async clients for parallel queries and configurable search depth (ultra-fast/fast/basic/advanced) Crawl method accepts semantic instructions to focus extraction on..." Translate to Turkish. Note: "LLMs" should remain as is. "API" remains. Method names like search(), extract(), etc. remain. "SDKs" remains. "async clients" - maybe "asenk
official
tavily-cli
tavily-ai
Web araması, içerik çıkarma, site tarama ve Tavily CLI üzerinden derin araştırma. Arama, çıkarma, URL keşfi, toplu tarama ve alıntılarla çoklu kaynak araştırmasını kapsayan beş komut modu. Tüm komutlar, yapılandırılmış, aracı tabanlı iş akışları için JSON çıktısı ve dosyaya kaydetmeyi destekler. İhtiyaçlarınıza göre basit aramadan çıkarma, haritalama, tarama ve kapsamlı araştırmaya yönlendiren bir yükseltme deseni. tavily-cli kurulumu ve tvly login ile API anahtarı kimlik doğrulaması gerektirir.
official
tavily-dynamic-search
tavily-ai
Web'de arama yap, sonuçları filtrele ve içerik çıkar, böylece ham arama verileri asla bağlam pencerene girmez. Yalnızca düzenlenmiş print() çıktın geri döner.
official
tavily-extract
tavily-ai
20 URL'ye kadar temiz markdown veya metin çıkarır; JavaScript işleme ve sorgu odaklı parçalama desteği sunar. JavaScript ile oluşturulmuş sayfaları, yapılandırılabilir çıkarma derinliğiyle (basit sayfalar için temel, dinamik SPA'lar ve tablolar için gelişmiş) işler. Tam sayfalar yerine yalnızca ilgili içerik parçalarını döndürmek için sorgu odaklı çıkarmayı destekler. Varsayılan olarak LLM için optimize edilmiş markdown döndürür; düz metin biçimi ve yapılandırılmış JSON çıktısı seçenekleri sunar. Tek bir çağrıda 20 URL'ye kadar işler;...
official