tavily-extract

Извлекает чистый Markdown или текст из до 20 URL-адресов с поддержкой рендеринга JavaScript и разбивки на фрагменты по запросу. Обрабатывает страницы с рендерингом JavaScript с настраиваемой глубиной извлечения (базовая для простых страниц, продвинутая для динамических SPA и таблиц). Поддерживает извлечение по запросу, возвращая только релевантные фрагменты контента вместо полных страниц. По умолчанию возвращает оптимизированный для LLM Markdown с возможностью выбора формата обычного текста и структурированного вывода JSON. Обрабатывает до 20 URL-адресов за один вызов;...

npx skills add https://github.com/tavily-ai/skills --skill tavily-extract

tavily extract

Extract clean markdown or text content from one or more URLs.

Before running any command

If tvly is not found on PATH, install it first:

curl -fsSL https://cli.tavily.com/install.sh | bash && tvly login

Do not skip this step or fall back to other tools.

See tavily-cli for alternative install methods and auth options.

When to use

  • You have a specific URL and want its content
  • You need text from JavaScript-rendered pages
  • Step 2 in the workflow: search → extract → map → crawl → research

Quick start

# Single URL
tvly extract "https://example.com/article" --json

# Multiple URLs
tvly extract "https://example.com/page1" "https://example.com/page2" --json

# Query-focused extraction (returns relevant chunks only)
tvly extract "https://example.com/docs" --query "authentication API" --chunks-per-source 3 --json

# JS-heavy pages
tvly extract "https://app.example.com" --extract-depth advanced --json

# Save to file
tvly extract "https://example.com/article" -o article.md

Options

OptionDescription
--queryRerank chunks by relevance to this query
--chunks-per-sourceChunks per URL (1-5, requires --query)
--extract-depthbasic (default) or advanced (for JS pages)
--formatmarkdown (default) or text
--include-imagesInclude image URLs
--timeoutMax wait time (1-60 seconds)
-o, --outputSave output to file
--jsonStructured JSON output

Extract depth

DepthWhen to use
basicSimple pages, fast — try this first
advancedJS-rendered SPAs, dynamic content, tables

Tips

  • Max 20 URLs per request — batch larger lists into multiple calls.
  • Use --query + --chunks-per-source to get only relevant content instead of full pages.
  • Try basic first, fall back to advanced if content is missing.
  • Set --timeout for slow pages (up to 60s).
  • If search results already contain the content you need (via --include-raw-content), skip the extract step.

See also

Больше skills от tavily-ai

crawl
tavily-ai
Извлекать и сохранять содержимое веб-сайтов в виде Markdown-файлов для офлайн-доступа и анализа. Поддерживает настраиваемую глубину обхода (1–5 уровней), ограничения по ширине и лимиты страниц для баланса между охватом и производительностью. Включает фильтрацию путей с помощью регулярных выражений для фокусировки на определённых разделах и исключения нерелевантного контента. Предлагает два режима: извлечение полной страницы для сбора данных или семантическое разбиение с инструкциями на естественном языке для передачи результатов в контекст LLM. Предоставляет сопутствующий Map API для URL...
official
extract
tavily-ai
Извлечение чистого контента из конкретных URL-адресов с помощью API извлечения Tavily. Поддержи
official
research
tavily-ai
Всестороннее исследование любой темы с автоматическим сбором источников, анализом и цитированием. Проводит многоисточниковый веб-поиск с явными ссылками, идеально подходит для сравнений, текущих событий, анализа рынка и детальных отчетов. Предлагает три варианта модели: mini для целенаправленного исследования одной темы (~30 с), pro для всестороннего многоаспектного анализа (~60–120 с) и auto для автоматического определения сложности через API. Аутентификация через OAuth через сервер MCP Tavily с автоматическим входом через браузер...
official
search
tavily-ai
Веб-поиск с оптимизированными для LLM результатами, оценкой релевантности и гибкой фильтрацией. Поддерживает четыре режима глубины поиска (ультрабыстрый, быстрый, базовый, расширенный) с настраиваемыми компромиссами между задержкой и релевантностью. Включает фильтрацию доменов, ограничения по временному диапазону, даты, повышение приоритета стран и извлечение необработанного контента. Возвращает результаты с заголовком, URL, фрагментом содержимого и оценкой релевантности; опционально изображения и фавиконы. Автоматическая аутентификация OAuth через сервер Tavily MCP или настройка API-ключа;...
official
tavily-best-practices
tavily-ai
Веб-поисковый API для LLM с доступом к данным в реальном времени, извлечением контента, сканированием сайтов и AI-исследованиями. Пять основных методов: search() для веб-результатов, extract() для контента URL, crawl() для сканирования всего сайта, map() для обнаружения URL и research() для сквозного AI-синтеза. Поддерживает SDK для Python и JavaScript с асинхронными клиентами для параллельных запросов и настраиваемой глубиной поиска (ultra-fast/fast/basic/advanced). Метод crawl принимает семантические инструкции для фокусировки извлечения на...
official
tavily-cli
tavily-ai
Веб-поиск, извлечение контента, сканирование сайтов и глубокое исследование через Tavily CLI. Пять режимов команд, охватывающих поиск, извлечение, обнаружение URL, массовое сканирование и многоисточниковое исследование с цитированием. Все команды поддерживают вывод в JSON и сохранение в файл для структурированных агентных рабочих процессов. Схема эскалации ведет вас от простого поиска через извлечение, картографирование, сканирование к всестороннему исследованию в зависимости от ваших потребностей. Требуется установка tavily-cli и аутентификация по API-ключу через tvly login.
official
tavily-crawl
tavily-ai
Многостраничный веб-сканер с семантической фильтрацией и экспортом в Markdown. Сканируйте целые разделы сайтов с контролем глубины и ширины; фильтруйте по регулярному выражению пути, домену или инструкциям на естественном языке для фокусировки результатов. Сохраняйте каждую страницу в виде локальных Markdown-файлов через --output-dir или возвращайте структурированный JSON для агентной обработки. Используйте семантические инструкции с извлечением фрагментов для предотвращения раздувания контекста при передаче результатов LLM; используйте извлечение полных страниц для загрузки офлайн-документации. Поддерживает...
official
tavily-dynamic-search
tavily-ai
Поиск в интернете, фильтрация результатов и извлечение контента, чтобы необработанные данные
official