tavily-crawl

от tavily-ai

Многостраничный веб-сканер с семантической фильтрацией и экспортом в Markdown. Сканируйте целые разделы сайтов с контролем глубины и ширины; фильтруйте по регулярному выражению пути, домену или инструкциям на естественном языке для фокусировки результатов. Сохраняйте каждую страницу в виде локальных Markdown-файлов через --output-dir или возвращайте структурированный JSON для агентной обработки. Используйте семантические инструкции с извлечением фрагментов для предотвращения раздувания контекста при передаче результатов LLM; используйте извлечение полных страниц для загрузки офлайн-документации. Поддерживает...

npx skills add https://github.com/tavily-ai/skills --skill tavily-crawl

Скачать ZIP GitHub

397

tavily crawl

Crawl a website and extract content from multiple pages. Supports saving each page as a local markdown file.

Before running any command

If tvly is not found on PATH, install it first:

curl -fsSL https://cli.tavily.com/install.sh | bash && tvly login

Do not skip this step or fall back to other tools.

See tavily-cli for alternative install methods and auth options.

When to use

You need content from many pages on a site (e.g., all /docs/)
You want to download documentation for offline use
Step 4 in the workflow: search → extract → map → crawl → research

Quick start

# Basic crawl
tvly crawl "https://docs.example.com" --json

# Save each page as a markdown file
tvly crawl "https://docs.example.com" --output-dir ./docs/

# Deeper crawl with limits
tvly crawl "https://docs.example.com" --max-depth 2 --limit 50 --json

# Filter to specific paths
tvly crawl "https://example.com" --select-paths "/api/.*,/guides/.*" --exclude-paths "/blog/.*" --json

# Semantic focus (returns relevant chunks, not full pages)
tvly crawl "https://docs.example.com" --instructions "Find authentication docs" --chunks-per-source 3 --json

Options

Option	Description
`--max-depth`	Levels deep (1-5, default: 1)
`--max-breadth`	Links per page (default: 20)
`--limit`	Total pages cap (default: 50)
`--instructions`	Natural language guidance for semantic focus
`--chunks-per-source`	Chunks per page (1-5, requires `--instructions`)
`--extract-depth`	`basic` (default) or `advanced`
`--format`	`markdown` (default) or `text`
`--select-paths`	Comma-separated regex patterns to include
`--exclude-paths`	Comma-separated regex patterns to exclude
`--select-domains`	Comma-separated regex for domains to include
`--exclude-domains`	Comma-separated regex for domains to exclude
`--allow-external / --no-external`	Include external links (default: allow)
`--include-images`	Include images
`--timeout`	Max wait (10-150 seconds)
`-o, --output`	Save JSON output to file
`--output-dir`	Save each page as a .md file in directory
`--json`	Structured JSON output

Crawl for context vs. data collection

For agentic use (feeding results to an LLM):

Always use --instructions + --chunks-per-source. Returns only relevant chunks instead of full pages — prevents context explosion.

tvly crawl "https://docs.example.com" --instructions "API authentication" --chunks-per-source 3 --json

For data collection (saving to files):

Use --output-dir without --chunks-per-source to get full pages as markdown files.

tvly crawl "https://docs.example.com" --max-depth 2 --output-dir ./docs/

Tips

Start conservative — --max-depth 1, --limit 20 — and scale up.
Use --select-paths to focus on the section you need.
Use map first to understand site structure before a full crawl.
Always set --limit to prevent runaway crawls.

Больше skills от tavily-ai

crawl

tavily-ai

Извлекать и сохранять содержимое веб-сайтов в виде Markdown-файлов для офлайн-доступа и анализа. Поддерживает настраиваемую глубину обхода (1–5 уровней), ограничения по ширине и лимиты страниц для баланса между охватом и производительностью. Включает фильтрацию путей с помощью регулярных выражений для фокусировки на определённых разделах и исключения нерелевантного контента. Предлагает два режима: извлечение полной страницы для сбора данных или семантическое разбиение с инструкциями на естественном языке для передачи результатов в контекст LLM. Предоставляет сопутствующий Map API для URL...

official

extract

tavily-ai

Извлечение чистого контента из конкретных URL-адресов с помощью API извлечения Tavily. Поддержи

official

research

tavily-ai

Всестороннее исследование любой темы с автоматическим сбором источников, анализом и цитированием. Проводит многоисточниковый веб-поиск с явными ссылками, идеально подходит для сравнений, текущих событий, анализа рынка и детальных отчетов. Предлагает три варианта модели: mini для целенаправленного исследования одной темы (~30 с), pro для всестороннего многоаспектного анализа (~60–120 с) и auto для автоматического определения сложности через API. Аутентификация через OAuth через сервер MCP Tavily с автоматическим входом через браузер...

official

tavily-ai

Веб-поиск с оптимизированными для LLM результатами, оценкой релевантности и гибкой фильтрацией. Поддерживает четыре режима глубины поиска (ультрабыстрый, быстрый, базовый, расширенный) с настраиваемыми компромиссами между задержкой и релевантностью. Включает фильтрацию доменов, ограничения по временному диапазону, даты, повышение приоритета стран и извлечение необработанного контента. Возвращает результаты с заголовком, URL, фрагментом содержимого и оценкой релевантности; опционально изображения и фавиконы. Автоматическая аутентификация OAuth через сервер Tavily MCP или настройка API-ключа;...

official

tavily-best-practices

tavily-ai

Веб-поисковый API для LLM с доступом к данным в реальном времени, извлечением контента, сканированием сайтов и AI-исследованиями. Пять основных методов: search() для веб-результатов, extract() для контента URL, crawl() для сканирования всего сайта, map() для обнаружения URL и research() для сквозного AI-синтеза. Поддерживает SDK для Python и JavaScript с асинхронными клиентами для параллельных запросов и настраиваемой глубиной поиска (ultra-fast/fast/basic/advanced). Метод crawl принимает семантические инструкции для фокусировки извлечения на...

official

tavily-cli

tavily-ai

Веб-поиск, извлечение контента, сканирование сайтов и глубокое исследование через Tavily CLI. Пять режимов команд, охватывающих поиск, извлечение, обнаружение URL, массовое сканирование и многоисточниковое исследование с цитированием. Все команды поддерживают вывод в JSON и сохранение в файл для структурированных агентных рабочих процессов. Схема эскалации ведет вас от простого поиска через извлечение, картографирование, сканирование к всестороннему исследованию в зависимости от ваших потребностей. Требуется установка tavily-cli и аутентификация по API-ключу через tvly login.

official

tavily-dynamic-search

tavily-ai

Поиск в интернете, фильтрация результатов и извлечение контента, чтобы необработанные данные

official

tavily-extract

tavily-ai

Извлекает чистый Markdown или текст из до 20 URL-адресов с поддержкой рендеринга JavaScript и разбивки на фрагменты по запросу. Обрабатывает страницы с рендерингом JavaScript с настраиваемой глубиной извлечения (базовая для простых страниц, продвинутая для динамических SPA и таблиц). Поддерживает извлечение по запросу, возвращая только релевантные фрагменты контента вместо полных страниц. По умолчанию возвращает оптимизированный для LLM Markdown с возможностью выбора формата обычного текста и структурированного вывода JSON. Обрабатывает до 20 URL-адресов за один вызов;...

official

tavily-crawl

tavily crawl

Before running any command

When to use

Quick start

Options

Crawl for context vs. data collection

Tips

See also

Больше skills от tavily-ai