tavily-crawl

por tavily-ai

Rastreador de sites com múltiplas páginas, filtragem semântica e exportação em markdown. Rastreie seções inteiras do site com controle de profundidade e largura; filtre por regex de caminho, domínio ou instruções em linguagem natural para focar os resultados. Salve cada página como arquivos markdown locais via --output-dir, ou retorne JSON estruturado para processamento agêntico. Use instruções semânticas com extração por chunks para evitar inchaço de contexto ao alimentar resultados para LLMs; use extração de página completa para downloads de documentação offline. Suporta...

npx skills add https://github.com/tavily-ai/skills --skill tavily-crawl

Baixar ZIP GitHub

397

tavily crawl

Crawl a website and extract content from multiple pages. Supports saving each page as a local markdown file.

Before running any command

If tvly is not found on PATH, install it first:

curl -fsSL https://cli.tavily.com/install.sh | bash && tvly login

Do not skip this step or fall back to other tools.

See tavily-cli for alternative install methods and auth options.

When to use

You need content from many pages on a site (e.g., all /docs/)
You want to download documentation for offline use
Step 4 in the workflow: search → extract → map → crawl → research

Quick start

# Basic crawl
tvly crawl "https://docs.example.com" --json

# Save each page as a markdown file
tvly crawl "https://docs.example.com" --output-dir ./docs/

# Deeper crawl with limits
tvly crawl "https://docs.example.com" --max-depth 2 --limit 50 --json

# Filter to specific paths
tvly crawl "https://example.com" --select-paths "/api/.*,/guides/.*" --exclude-paths "/blog/.*" --json

# Semantic focus (returns relevant chunks, not full pages)
tvly crawl "https://docs.example.com" --instructions "Find authentication docs" --chunks-per-source 3 --json

Options

Option	Description
`--max-depth`	Levels deep (1-5, default: 1)
`--max-breadth`	Links per page (default: 20)
`--limit`	Total pages cap (default: 50)
`--instructions`	Natural language guidance for semantic focus
`--chunks-per-source`	Chunks per page (1-5, requires `--instructions`)
`--extract-depth`	`basic` (default) or `advanced`
`--format`	`markdown` (default) or `text`
`--select-paths`	Comma-separated regex patterns to include
`--exclude-paths`	Comma-separated regex patterns to exclude
`--select-domains`	Comma-separated regex for domains to include
`--exclude-domains`	Comma-separated regex for domains to exclude
`--allow-external / --no-external`	Include external links (default: allow)
`--include-images`	Include images
`--timeout`	Max wait (10-150 seconds)
`-o, --output`	Save JSON output to file
`--output-dir`	Save each page as a .md file in directory
`--json`	Structured JSON output

Crawl for context vs. data collection

For agentic use (feeding results to an LLM):

Always use --instructions + --chunks-per-source. Returns only relevant chunks instead of full pages — prevents context explosion.

tvly crawl "https://docs.example.com" --instructions "API authentication" --chunks-per-source 3 --json

For data collection (saving to files):

Use --output-dir without --chunks-per-source to get full pages as markdown files.

tvly crawl "https://docs.example.com" --max-depth 2 --output-dir ./docs/

Tips

Start conservative — --max-depth 1, --limit 20 — and scale up.
Use --select-paths to focus on the section you need.
Use map first to understand site structure before a full crawl.
Always set --limit to prevent runaway crawls.

Mais skills de tavily-ai

crawl

tavily-ai

Extraia e salve o conteúdo de sites como arquivos markdown para acesso e análise offline. Suporta profundidade de rastreamento configurável (1 a 5 níveis), limites de largura e teto de páginas para equilibrar cobertura e desempenho. Inclui filtragem de caminhos por padrões regex para focar em seções específicas e excluir conteúdo irrelevante. Oferece dois modos: extração de página completa para coleta de dados, ou fragmentação semântica com instruções em linguagem natural para alimentar resultados no contexto de LLMs. Fornece uma API de Mapa complementar para URL...

official

extract

tavily-ai

Extraia conteúdo limpo de URLs específicas usando a API de extração da Tavily. Suporta até 20 URLs por requisição com reclassificação opcional baseada em consulta para focar em trechos de conteúdo relevantes. Dois modos de extração: básico para extração rápida de texto, avançado para páginas renderizadas com JavaScript e dados estruturados. Autenticação OAuth automática via navegador na primeira execução, ou configuração manual de chave de API nas configurações. Retorna formato markdown ou texto simples com URLs de imagem opcionais e tempo limite configurável de até 60 segundos.

official

research

tavily-ai

Pesquisa abrangente sobre qualquer tópico com coleta automática de fontes, análise e citações. Realiza pesquisa web em múltiplas fontes com citações explícitas, ideal para comparações, eventos atuais, análise de mercado e relatórios detalhados. Oferece três opções de modelo: mini para pesquisa direcionada em tópico único (~30s), pro para análise abrangente multi-ângulo (~60-120s) e auto para detecção de complexidade orientada por API. Autentica via OAuth através do servidor MCP do Tavily com login automático baseado em navegador em...

official

tavily-ai

Pesquisa na web com resultados otimizados para LLM, pontuação de relevância e filtragem flexível. Suporta quatro modos de profundidade de pesquisa (ultra-rápido, rápido, básico, avançado) com latência configurável e compensações de relevância. Inclui filtragem por domínio, restrições de intervalo de tempo, intervalos de datas, priorização por país e extração de conteúdo bruto. Retorna resultados com título, URL, trecho de conteúdo e pontuação de relevância; resultados opcionais de imagem e favicons. Autenticação automática OAuth via servidor Tavily MCP ou configuração de chave de API;...

official

tavily-best-practices

tavily-ai

We need to translate the given text from English to Brazilian Portuguese. The text describes a web search API for LLMs with various methods. We must preserve product names, protocol names, URLs, numbers, technical terms. The name "tavily-best-practices" is not in the text, so we don't include it. We translate only the text inside <text>. No extra commentary, no labels. Let's translate: "Web search API for LLMs with real-time data access, content extraction, site crawling, and AI-powered research." -> "API de busca web para LLMs com acesso a dados em tempo real, extração de conteúdo, crawling de sites e pesquisa com IA." "Five core methods: search() for web results, extract() for URL content, crawl() for site-wide extraction, map() for URL discovery, and research() for end-to-end AI synthesis" -> "Cinco métodos principais: search() para resultados web, extract() para conteúdo de URL, crawl() para extração em todo o site, map() para descoberta de URLs e

official

tavily-cli

tavily-ai

Pesquisa na web, extração de conteúdo, rastreamento de sites e pesquisa aprofundada via Tavily CLI. Cinco modos de comando que abrangem pesquisa, extração, descoberta de URLs, rastreamento em massa e pesquisa com múltiplas fontes e citações. Todos os comandos suportam saída em JSON e salvamento em arquivo para fluxos de trabalho estruturados e agentivos. O padrão de escalonamento orienta você desde a pesquisa simples até extração, mapeamento, rastreamento e pesquisa abrangente, conforme suas necessidades. Requer instalação do tavily-cli e autenticação via chave de API com tvly login.

official

tavily-dynamic-search

tavily-ai

Pesquise na web, filtre resultados e extraia conteúdo para que dados brutos de pesquisa nunca entrem na sua janela de contexto. Apenas sua saída print() selecionada retorna.

official

tavily-extract

tavily-ai

Extrai markdown ou texto limpo de até 20 URLs, com suporte a renderização JavaScript e chunking focado em consultas. Lida com páginas renderizadas por JavaScript com profundidade de extração configurável (básica para páginas simples, avançada para SPAs dinâmicas e tabelas). Suporta extração focada em consulta para retornar apenas trechos de conteúdo relevantes, em vez de páginas inteiras. Retorna markdown otimizado para LLMs por padrão, com opções para formato de texto simples e saída JSON estruturada. Processa até 20 URLs em uma única chamada;...

official

tavily-crawl

tavily crawl

Before running any command

When to use

Quick start

Options

Crawl for context vs. data collection

Tips

See also

Mais skills de tavily-ai