tavily-extract

Extrae markdown limpio o texto de hasta 20 URL, con renderizado de JavaScript y soporte de fragmentación enfocada en consultas. Maneja páginas renderizadas con JavaScript con profundidad de extracción configurable (básica para páginas simples, avanzada para SPA dinámicas y tablas). Admite extracción enfocada en consultas para devolver solo fragmentos de contenido relevantes en lugar de páginas completas. Devuelve markdown optimizado para LLM de forma predeterminada, con opciones para formato de texto plano y salida JSON estructurada. Procesa hasta 20 URL en una sola llamada;...

npx skills add https://github.com/tavily-ai/skills --skill tavily-extract

tavily extract

Extract clean markdown or text content from one or more URLs.

Before running any command

If tvly is not found on PATH, install it first:

curl -fsSL https://cli.tavily.com/install.sh | bash && tvly login

Do not skip this step or fall back to other tools.

See tavily-cli for alternative install methods and auth options.

When to use

  • You have a specific URL and want its content
  • You need text from JavaScript-rendered pages
  • Step 2 in the workflow: search → extract → map → crawl → research

Quick start

# Single URL
tvly extract "https://example.com/article" --json

# Multiple URLs
tvly extract "https://example.com/page1" "https://example.com/page2" --json

# Query-focused extraction (returns relevant chunks only)
tvly extract "https://example.com/docs" --query "authentication API" --chunks-per-source 3 --json

# JS-heavy pages
tvly extract "https://app.example.com" --extract-depth advanced --json

# Save to file
tvly extract "https://example.com/article" -o article.md

Options

OptionDescription
--queryRerank chunks by relevance to this query
--chunks-per-sourceChunks per URL (1-5, requires --query)
--extract-depthbasic (default) or advanced (for JS pages)
--formatmarkdown (default) or text
--include-imagesInclude image URLs
--timeoutMax wait time (1-60 seconds)
-o, --outputSave output to file
--jsonStructured JSON output

Extract depth

DepthWhen to use
basicSimple pages, fast — try this first
advancedJS-rendered SPAs, dynamic content, tables

Tips

  • Max 20 URLs per request — batch larger lists into multiple calls.
  • Use --query + --chunks-per-source to get only relevant content instead of full pages.
  • Try basic first, fall back to advanced if content is missing.
  • Set --timeout for slow pages (up to 60s).
  • If search results already contain the content you need (via --include-raw-content), skip the extract step.

See also

Más skills de tavily-ai

crawl
tavily-ai
Extrae y guarda el contenido de sitios web como archivos markdown para acceso y análisis sin conexión. Admite profundidad de rastreo configurable (1-5 niveles), límites de amplitud y topes de páginas para equilibrar la cobertura con el rendimiento. Incluye filtrado de rutas mediante patrones regex para enfocarse en secciones específicas y excluir contenido irrelevante. Ofrece dos modos: extracción de página completa para recopilación de datos, o fragmentación semántica con instrucciones en lenguaje natural para alimentar resultados en el contexto de un LLM. Proporciona una API de mapa complementaria para URL...
official
extract
tavily-ai
Extrae contenido limpio de URLs específicas usando la API de extracción de Tavily. Admite hasta 20 URLs por solicitud con reordenamiento opcional basado en consultas para enfocarse en fragmentos de contenido relevantes. Dos modos de extracción: básico para extracción rápida de texto, avanzado para páginas renderizadas con JavaScript y datos estructurados. Autenticación automática OAuth mediante navegador en la primera ejecución, o configuración manual de clave API en ajustes. Devuelve formato markdown o texto plano con URLs de imágenes opcionales y tiempo de espera configurable de hasta 60 segundos.
official
research
tavily-ai
Investigación exhaustiva sobre cualquier tema con recopilación automática de fuentes, análisis y citas. Realiza investigación web de múltiples fuentes con citas explícitas, ideal para comparaciones, eventos actuales, análisis de mercado e informes detallados. Ofrece tres opciones de modelo: mini para investigación dirigida de un solo tema (~30s), pro para análisis integral de múltiples ángulos (~60-120s) y auto para detección de complejidad impulsada por API. Se autentica mediante OAuth a través del servidor MCP de Tavily con inicio de sesión automático basado en navegador en...
official
search
tavily-ai
Búsqueda web con resultados optimizados para LLM, puntuación de relevancia y filtrado flexible. Compatible con cuatro modos de profundidad de búsqueda (ultrarrápido, rápido, básico, avanzado) con compensaciones configurables entre latencia y relevancia. Incluye filtrado por dominio, restricciones de rango temporal, rangos de fechas, priorización por país y extracción de contenido sin procesar. Devuelve resultados con título, URL, fragmento de contenido y puntuación de relevancia; resultados de imágenes opcionales y favicons. Autenticación OAuth automática a través del servidor MCP de Tavily o configuración de clave API;...
official
tavily-best-practices
tavily-ai
API de búsqueda web para LLMs con acceso a datos en tiempo real, extracción de contenido, rastreo de sitios e investigación impulsada por IA. Cinco métodos principales: search() para resultados web, extract() para contenido de URL, crawl() para extracción en todo el sitio, map() para descubrimiento de URL y research() para síntesis de IA de extremo a extremo. Compatible con SDKs de Python y JavaScript con clientes asíncronos para consultas paralelas y profundidad de búsqueda configurable (ultra-rápida/rápida/básica/avanzada). El método crawl acepta instrucciones semánticas para enfocar la extracción en...
official
tavily-cli
tavily-ai
Búsqueda web, extracción de contenido, rastreo de sitios e investigación profunda a través de Tavily CLI. Cinco modos de comando que cubren búsqueda, extracción, descubrimiento de URL, rastreo masivo e investigación multifuente con citas. Todos los comandos admiten salida JSON y guardado en archivos para flujos de trabajo estructurados y agentivos. Un patrón de escalamiento te guía desde la búsqueda simple hasta la extracción, mapeo, rastreo e investigación exhaustiva según tus necesidades. Requiere instalación de tavily-cli y autenticación mediante clave API a través de tvly login.
official
tavily-crawl
tavily-ai
Rastreador de sitios web multipágina con filtrado semántico y exportación a Markdown. Rastrea secciones completas del sitio con control de profundidad y amplitud; filtra por expresión regular de ruta, dominio o instrucciones en lenguaje natural para enfocar los resultados. Guarda cada página como archivos Markdown locales mediante --output-dir, o devuelve JSON estructurado para procesamiento agéntico. Usa instrucciones semánticas con extracción por fragmentos para evitar la saturación de contexto al alimentar resultados a LLMs; usa extracción de página completa para descargas de documentación sin conexión. Compatible con...
official
tavily-dynamic-search
tavily-ai
Busca en la web, filtra resultados y extrae contenido para que los datos de búsqueda sin procesar nunca entren en tu ventana de contexto. Solo tu salida curada de print() regresa.
official