tavily-crawl

bởi tavily-ai

Trình thu thập trang web nhiều trang với bộ lọc ngữ nghĩa và xuất định dạng markdown. Thu thập toàn bộ các phần của trang web với kiểm soát độ sâu và độ rộng; lọc theo biểu thức chính quy đường dẫn, tên miền hoặc hướng dẫn ngôn ngữ tự nhiên để tập trung kết quả. Lưu mỗi trang dưới dạng tệp markdown cục bộ qua --output-dir, hoặc trả về JSON có cấu trúc để xử lý theo tác nhân. Sử dụng hướng dẫn ngữ nghĩa với trích xuất khối để tránh phình to ngữ cảnh khi đưa kết quả vào LLM; sử dụng trích xuất toàn trang để tải tài liệu ngoại tuyến. Hỗ trợ...

npx skills add https://github.com/tavily-ai/skills --skill tavily-crawl

Tải ZIP GitHub

397

tavily crawl

Crawl a website and extract content from multiple pages. Supports saving each page as a local markdown file.

Before running any command

If tvly is not found on PATH, install it first:

curl -fsSL https://cli.tavily.com/install.sh | bash && tvly login

Do not skip this step or fall back to other tools.

See tavily-cli for alternative install methods and auth options.

When to use

You need content from many pages on a site (e.g., all /docs/)
You want to download documentation for offline use
Step 4 in the workflow: search → extract → map → crawl → research

Quick start

# Basic crawl
tvly crawl "https://docs.example.com" --json

# Save each page as a markdown file
tvly crawl "https://docs.example.com" --output-dir ./docs/

# Deeper crawl with limits
tvly crawl "https://docs.example.com" --max-depth 2 --limit 50 --json

# Filter to specific paths
tvly crawl "https://example.com" --select-paths "/api/.*,/guides/.*" --exclude-paths "/blog/.*" --json

# Semantic focus (returns relevant chunks, not full pages)
tvly crawl "https://docs.example.com" --instructions "Find authentication docs" --chunks-per-source 3 --json

Options

Option	Description
`--max-depth`	Levels deep (1-5, default: 1)
`--max-breadth`	Links per page (default: 20)
`--limit`	Total pages cap (default: 50)
`--instructions`	Natural language guidance for semantic focus
`--chunks-per-source`	Chunks per page (1-5, requires `--instructions`)
`--extract-depth`	`basic` (default) or `advanced`
`--format`	`markdown` (default) or `text`
`--select-paths`	Comma-separated regex patterns to include
`--exclude-paths`	Comma-separated regex patterns to exclude
`--select-domains`	Comma-separated regex for domains to include
`--exclude-domains`	Comma-separated regex for domains to exclude
`--allow-external / --no-external`	Include external links (default: allow)
`--include-images`	Include images
`--timeout`	Max wait (10-150 seconds)
`-o, --output`	Save JSON output to file
`--output-dir`	Save each page as a .md file in directory
`--json`	Structured JSON output

Crawl for context vs. data collection

For agentic use (feeding results to an LLM):

Always use --instructions + --chunks-per-source. Returns only relevant chunks instead of full pages — prevents context explosion.

tvly crawl "https://docs.example.com" --instructions "API authentication" --chunks-per-source 3 --json

For data collection (saving to files):

Use --output-dir without --chunks-per-source to get full pages as markdown files.

tvly crawl "https://docs.example.com" --max-depth 2 --output-dir ./docs/

Tips

Start conservative — --max-depth 1, --limit 20 — and scale up.
Use --select-paths to focus on the section you need.
Use map first to understand site structure before a full crawl.
Always set --limit to prevent runaway crawls.

Thêm skills từ tavily-ai

crawl

tavily-ai

Trích xuất và lưu nội dung trang web dưới dạng tệp markdown để truy cập và phân tích ngoại tuyến. Hỗ trợ cấu hình độ sâu thu thập (1-5 cấp), giới hạn phạm vi và giới hạn trang để cân bằng giữa phạm vi bao phủ và hiệu suất. Bao gồm lọc đường dẫn qua mẫu regex để tập trung vào các phần cụ thể và loại trừ nội dung không liên quan. Cung cấp hai chế độ: trích xuất toàn trang để thu thập dữ liệu, hoặc phân đoạn ngữ nghĩa với hướng dẫn ngôn ngữ tự nhiên để đưa kết quả vào ngữ cảnh LLM. Cung cấp API Bản đồ đồng hành cho URL...

official

extract

tavily-ai

Trích xuất nội dung sạch từ các URL cụ thể bằng API trích xuất của Tavily. Hỗ trợ tối đa 20 URL mỗi yêu cầu với tùy chọn sắp xếp lại dựa trên truy vấn để tập trung vào các đoạn nội dung liên quan. Hai chế độ trích xuất: cơ bản để trích xuất văn bản nhanh, nâng cao cho các trang được hiển thị bằng JavaScript và dữ liệu có cấu trúc. Xác thực OAuth tự động qua trình duyệt khi chạy lần đầu, hoặc cấu hình khóa API thủ công trong cài đặt. Trả về định dạng markdown hoặc văn bản thuần với tùy chọn URL hình ảnh và thời gian chờ có thể cấu hình lên đến 60 giây.

official

research

tavily-ai

Nghiên cứu toàn diện về bất kỳ chủ đề nào với khả năng tự động thu thập nguồn, phân tích và trích dẫn. Thực hiện nghiên cứu web đa nguồn với trích dẫn rõ ràng, lý tưởng cho so sánh, sự kiện hiện tại, phân tích thị trường và báo cáo chi tiết. Cung cấp ba tùy chọn mô hình: mini cho nghiên cứu chủ đề đơn lẻ có mục tiêu (~30 giây), pro cho phân tích đa góc độ toàn diện (~60-120 giây) và auto để phát hiện độ phức tạp dựa trên API. Xác thực qua OAuth thông qua máy chủ Tavily MCP với tính năng đăng nhập tự động dựa trên trình duyệt trên...

official

tavily-ai

Tìm kiếm web với kết quả tối ưu hóa cho LLM, chấm điểm mức độ liên quan và bộ lọc linh hoạt. Hỗ trợ bốn chế độ tìm kiếm theo độ sâu (siêu nhanh, nhanh, cơ bản, nâng cao) với khả năng tùy chỉnh độ trễ và mức độ liên quan. Bao gồm lọc theo tên miền, giới hạn khung thời gian, phạm vi ngày tháng, ưu tiên quốc gia và trích xuất nội dung thô. Trả về kết quả với tiêu đề, URL, đoạn trích nội dung và điểm liên quan; tùy chọn kết quả hình ảnh và biểu tượng trang web. Xác thực OAuth tự động qua máy chủ Tavily MCP ho

official

tavily-best-practices

tavily-ai

API tìm kiếm web dành cho LLM với truy cập dữ liệu thời gian thực, trích xuất nội dung, thu thập dữ liệu trang web và nghiên cứu hỗ trợ AI. Năm phương thức cốt lõi: search() cho kết quả web, extract() cho nội dung URL, crawl() cho trích xuất toàn bộ trang web, map() cho khám phá URL và research() cho tổng hợp AI đầu cuối. Hỗ trợ SDK Python và JavaScript với các client bất đồng bộ cho truy vấn song song và độ sâu tìm kiếm có thể cấu hình (siêu nhanh/nhanh/cơ bản/nâng cao). Phương thức Crawl chấp nhận hướng dẫn ngữ nghĩa để tập trung trích xuất vào...

official

tavily-cli

tavily-ai

Tìm kiếm web, trích xuất nội dung, thu thập dữ liệu trang web và nghiên cứu chuyên sâu qua Tavily CLI. Năm chế độ lệnh bao gồm tìm kiếm, trích xuất, khám phá URL, thu thập dữ liệu hàng loạt và nghiên cứu đa nguồn có trích dẫn. Tất cả lệnh đều hỗ trợ đầu ra JSON và lưu tệp cho các quy trình làm việc có cấu trúc, tự động. Mô hình leo thang hướng dẫn bạn từ tìm kiếm đơn giản qua trích xuất, lập bản đồ, thu thập dữ liệu đến nghiên cứu toàn diện dựa trên nhu cầu của bạn. Yêu cầu cài đặt tavily-cli và xác thực kh

official

tavily-dynamic-search

tavily-ai

Tìm kiếm trên web, lọc kết quả và trích xuất nội dung để dữ liệu tìm kiếm thô không bao giờ lọt vào cửa sổ ngữ cảnh của bạn. Chỉ đầu ra print() đã được chọn lọc mới được trả về.

official

tavily-extract

tavily-ai

Trích xuất markdown hoặc văn bản sạch từ tối đa 20 URL, hỗ trợ kết xuất JavaScript và phân đoạn theo truy vấn. Xử lý các trang được kết xuất JavaScript với độ sâu trích xuất có thể cấu hình (cơ bản cho trang đơn giản, nâng cao cho SPA động và bảng). Hỗ trợ trích xuất theo truy vấn để chỉ trả về các đoạn nội dung liên quan thay vì toàn bộ trang. Trả về markdown tối ưu cho LLM theo mặc định, với các tùy chọn định dạng văn bản thuần và đầu ra JSON có cấu trúc. Xử lý tối đa 20 URL trong một lần gọi;...

official

tavily-crawl

tavily crawl

Before running any command

When to use

Quick start

Options

Crawl for context vs. data collection

Tips

See also

Thêm skills từ tavily-ai