tavily-crawl

Rastreador de sitios web multipágina con filtrado semántico y exportación a Markdown. Rastrea secciones completas del sitio con control de profundidad y amplitud; filtra por expresión regular de ruta, dominio o instrucciones en lenguaje natural para enfocar los resultados. Guarda cada página como archivos Markdown locales mediante --output-dir, o devuelve JSON estructurado para procesamiento agéntico. Usa instrucciones semánticas con extracción por fragmentos para evitar la saturación de contexto al alimentar resultados a LLMs; usa extracción de página completa para descargas de documentación sin conexión. Compatible con...

npx skills add https://github.com/tavily-ai/skills --skill tavily-crawl

tavily crawl

Crawl a website and extract content from multiple pages. Supports saving each page as a local markdown file.

Before running any command

If tvly is not found on PATH, install it first:

curl -fsSL https://cli.tavily.com/install.sh | bash && tvly login

Do not skip this step or fall back to other tools.

See tavily-cli for alternative install methods and auth options.

When to use

  • You need content from many pages on a site (e.g., all /docs/)
  • You want to download documentation for offline use
  • Step 4 in the workflow: search → extract → map → crawl → research

Quick start

# Basic crawl
tvly crawl "https://docs.example.com" --json

# Save each page as a markdown file
tvly crawl "https://docs.example.com" --output-dir ./docs/

# Deeper crawl with limits
tvly crawl "https://docs.example.com" --max-depth 2 --limit 50 --json

# Filter to specific paths
tvly crawl "https://example.com" --select-paths "/api/.*,/guides/.*" --exclude-paths "/blog/.*" --json

# Semantic focus (returns relevant chunks, not full pages)
tvly crawl "https://docs.example.com" --instructions "Find authentication docs" --chunks-per-source 3 --json

Options

OptionDescription
--max-depthLevels deep (1-5, default: 1)
--max-breadthLinks per page (default: 20)
--limitTotal pages cap (default: 50)
--instructionsNatural language guidance for semantic focus
--chunks-per-sourceChunks per page (1-5, requires --instructions)
--extract-depthbasic (default) or advanced
--formatmarkdown (default) or text
--select-pathsComma-separated regex patterns to include
--exclude-pathsComma-separated regex patterns to exclude
--select-domainsComma-separated regex for domains to include
--exclude-domainsComma-separated regex for domains to exclude
--allow-external / --no-externalInclude external links (default: allow)
--include-imagesInclude images
--timeoutMax wait (10-150 seconds)
-o, --outputSave JSON output to file
--output-dirSave each page as a .md file in directory
--jsonStructured JSON output

Crawl for context vs. data collection

For agentic use (feeding results to an LLM):

Always use --instructions + --chunks-per-source. Returns only relevant chunks instead of full pages — prevents context explosion.

tvly crawl "https://docs.example.com" --instructions "API authentication" --chunks-per-source 3 --json

For data collection (saving to files):

Use --output-dir without --chunks-per-source to get full pages as markdown files.

tvly crawl "https://docs.example.com" --max-depth 2 --output-dir ./docs/

Tips

  • Start conservative--max-depth 1, --limit 20 — and scale up.
  • Use --select-paths to focus on the section you need.
  • Use map first to understand site structure before a full crawl.
  • Always set --limit to prevent runaway crawls.

See also

Más skills de tavily-ai

crawl
tavily-ai
Extrae y guarda el contenido de sitios web como archivos markdown para acceso y análisis sin conexión. Admite profundidad de rastreo configurable (1-5 niveles), límites de amplitud y topes de páginas para equilibrar la cobertura con el rendimiento. Incluye filtrado de rutas mediante patrones regex para enfocarse en secciones específicas y excluir contenido irrelevante. Ofrece dos modos: extracción de página completa para recopilación de datos, o fragmentación semántica con instrucciones en lenguaje natural para alimentar resultados en el contexto de un LLM. Proporciona una API de mapa complementaria para URL...
official
extract
tavily-ai
Extrae contenido limpio de URLs específicas usando la API de extracción de Tavily. Admite hasta 20 URLs por solicitud con reordenamiento opcional basado en consultas para enfocarse en fragmentos de contenido relevantes. Dos modos de extracción: básico para extracción rápida de texto, avanzado para páginas renderizadas con JavaScript y datos estructurados. Autenticación automática OAuth mediante navegador en la primera ejecución, o configuración manual de clave API en ajustes. Devuelve formato markdown o texto plano con URLs de imágenes opcionales y tiempo de espera configurable de hasta 60 segundos.
official
research
tavily-ai
Investigación exhaustiva sobre cualquier tema con recopilación automática de fuentes, análisis y citas. Realiza investigación web de múltiples fuentes con citas explícitas, ideal para comparaciones, eventos actuales, análisis de mercado e informes detallados. Ofrece tres opciones de modelo: mini para investigación dirigida de un solo tema (~30s), pro para análisis integral de múltiples ángulos (~60-120s) y auto para detección de complejidad impulsada por API. Se autentica mediante OAuth a través del servidor MCP de Tavily con inicio de sesión automático basado en navegador en...
official
search
tavily-ai
Búsqueda web con resultados optimizados para LLM, puntuación de relevancia y filtrado flexible. Compatible con cuatro modos de profundidad de búsqueda (ultrarrápido, rápido, básico, avanzado) con compensaciones configurables entre latencia y relevancia. Incluye filtrado por dominio, restricciones de rango temporal, rangos de fechas, priorización por país y extracción de contenido sin procesar. Devuelve resultados con título, URL, fragmento de contenido y puntuación de relevancia; resultados de imágenes opcionales y favicons. Autenticación OAuth automática a través del servidor MCP de Tavily o configuración de clave API;...
official
tavily-best-practices
tavily-ai
API de búsqueda web para LLMs con acceso a datos en tiempo real, extracción de contenido, rastreo de sitios e investigación impulsada por IA. Cinco métodos principales: search() para resultados web, extract() para contenido de URL, crawl() para extracción en todo el sitio, map() para descubrimiento de URL y research() para síntesis de IA de extremo a extremo. Compatible con SDKs de Python y JavaScript con clientes asíncronos para consultas paralelas y profundidad de búsqueda configurable (ultra-rápida/rápida/básica/avanzada). El método crawl acepta instrucciones semánticas para enfocar la extracción en...
official
tavily-cli
tavily-ai
Búsqueda web, extracción de contenido, rastreo de sitios e investigación profunda a través de Tavily CLI. Cinco modos de comando que cubren búsqueda, extracción, descubrimiento de URL, rastreo masivo e investigación multifuente con citas. Todos los comandos admiten salida JSON y guardado en archivos para flujos de trabajo estructurados y agentivos. Un patrón de escalamiento te guía desde la búsqueda simple hasta la extracción, mapeo, rastreo e investigación exhaustiva según tus necesidades. Requiere instalación de tavily-cli y autenticación mediante clave API a través de tvly login.
official
tavily-dynamic-search
tavily-ai
Busca en la web, filtra resultados y extrae contenido para que los datos de búsqueda sin procesar nunca entren en tu ventana de contexto. Solo tu salida curada de print() regresa.
official
tavily-extract
tavily-ai
Extrae markdown limpio o texto de hasta 20 URL, con renderizado de JavaScript y soporte de fragmentación enfocada en consultas. Maneja páginas renderizadas con JavaScript con profundidad de extracción configurable (básica para páginas simples, avanzada para SPA dinámicas y tablas). Admite extracción enfocada en consultas para devolver solo fragmentos de contenido relevantes en lugar de páginas completas. Devuelve markdown optimizado para LLM de forma predeterminada, con opciones para formato de texto plano y salida JSON estructurada. Procesa hasta 20 URL en una sola llamada;...
official