tavily-extract

bởi tavily-ai

Trích xuất markdown hoặc văn bản sạch từ tối đa 20 URL, hỗ trợ kết xuất JavaScript và phân đoạn theo truy vấn. Xử lý các trang được kết xuất JavaScript với độ sâu trích xuất có thể cấu hình (cơ bản cho trang đơn giản, nâng cao cho SPA động và bảng). Hỗ trợ trích xuất theo truy vấn để chỉ trả về các đoạn nội dung liên quan thay vì toàn bộ trang. Trả về markdown tối ưu cho LLM theo mặc định, với các tùy chọn định dạng văn bản thuần và đầu ra JSON có cấu trúc. Xử lý tối đa 20 URL trong một lần gọi;...

npx skills add https://github.com/tavily-ai/skills --skill tavily-extract

Tải ZIP GitHub

tavily extract

Extract clean markdown or text content from one or more URLs.

Before running any command

If tvly is not found on PATH, install it first:

curl -fsSL https://cli.tavily.com/install.sh | bash && tvly login

Do not skip this step or fall back to other tools.

See tavily-cli for alternative install methods and auth options.

When to use

You have a specific URL and want its content
You need text from JavaScript-rendered pages
Step 2 in the workflow: search → extract → map → crawl → research

Quick start

# Single URL
tvly extract "https://example.com/article" --json

# Multiple URLs
tvly extract "https://example.com/page1" "https://example.com/page2" --json

# Query-focused extraction (returns relevant chunks only)
tvly extract "https://example.com/docs" --query "authentication API" --chunks-per-source 3 --json

# JS-heavy pages
tvly extract "https://app.example.com" --extract-depth advanced --json

# Save to file
tvly extract "https://example.com/article" -o article.md

Options

Option	Description
`--query`	Rerank chunks by relevance to this query
`--chunks-per-source`	Chunks per URL (1-5, requires `--query`)
`--extract-depth`	`basic` (default) or `advanced` (for JS pages)
`--format`	`markdown` (default) or `text`
`--include-images`	Include image URLs
`--timeout`	Max wait time (1-60 seconds)
`-o, --output`	Save output to file
`--json`	Structured JSON output

Extract depth

Depth	When to use
`basic`	Simple pages, fast — try this first
`advanced`	JS-rendered SPAs, dynamic content, tables

Tips

Max 20 URLs per request — batch larger lists into multiple calls.
Use --query + --chunks-per-source to get only relevant content instead of full pages.
Try basic first, fall back to advanced if content is missing.
Set --timeout for slow pages (up to 60s).
If search results already contain the content you need (via --include-raw-content), skip the extract step.

See also

tavily-search — find pages when you don't have a URL
tavily-crawl — extract content from many pages on a site

Thêm skills từ tavily-ai

Trích xuất và lưu nội dung trang web dưới dạng tệp markdown để truy cập và phân tích ngoại tuyến. Hỗ trợ cấu hình độ sâu thu thập (1-5 cấp), giới hạn phạm vi và giới hạn trang để cân bằng giữa phạm vi bao phủ và hiệu suất. Bao gồm lọc đường dẫn qua mẫu regex để tập trung vào các phần cụ thể và loại trừ nội dung không liên quan. Cung cấp hai chế độ: trích xuất toàn trang để thu thập dữ liệu, hoặc phân đoạn ngữ nghĩa với hướng dẫn ngôn ngữ tự nhiên để đưa kết quả vào ngữ cảnh LLM. Cung cấp API Bản đồ đồng hành cho URL...

Trích xuất nội dung sạch từ các URL cụ thể bằng API trích xuất của Tavily. Hỗ trợ tối đa 20 URL mỗi yêu cầu với tùy chọn sắp xếp lại dựa trên truy vấn để tập trung vào các đoạn nội dung liên quan. Hai chế độ trích xuất: cơ bản để trích xuất văn bản nhanh, nâng cao cho các trang được hiển thị bằng JavaScript và dữ liệu có cấu trúc. Xác thực OAuth tự động qua trình duyệt khi chạy lần đầu, hoặc cấu hình khóa API thủ công trong cài đặt. Trả về định dạng markdown hoặc văn bản thuần với tùy chọn URL hình ảnh và thời gian chờ có thể cấu hình lên đến 60 giây.

Nghiên cứu toàn diện về bất kỳ chủ đề nào với khả năng tự động thu thập nguồn, phân tích và trích dẫn. Thực hiện nghiên cứu web đa nguồn với trích dẫn rõ ràng, lý tưởng cho so sánh, sự kiện hiện tại, phân tích thị trường và báo cáo chi tiết. Cung cấp ba tùy chọn mô hình: mini cho nghiên cứu chủ đề đơn lẻ có mục tiêu (~30 giây), pro cho phân tích đa góc độ toàn diện (~60-120 giây) và auto để phát hiện độ phức tạp dựa trên API. Xác thực qua OAuth thông qua máy chủ Tavily MCP với tính năng đăng nhập tự động dựa trên trình duyệt trên...

Tìm kiếm web với kết quả tối ưu hóa cho LLM, chấm điểm mức độ liên quan và bộ lọc linh hoạt. Hỗ trợ bốn chế độ tìm kiếm theo độ sâu (siêu nhanh, nhanh, cơ bản, nâng cao) với khả năng tùy chỉnh độ trễ và mức độ liên quan. Bao gồm lọc theo tên miền, giới hạn khung thời gian, phạm vi ngày tháng, ưu tiên quốc gia và trích xuất nội dung thô. Trả về kết quả với tiêu đề, URL, đoạn trích nội dung và điểm liên quan; tùy chọn kết quả hình ảnh và biểu tượng trang web. Xác thực OAuth tự động qua máy chủ Tavily MCP ho

tavily-best-practices

API tìm kiếm web dành cho LLM với truy cập dữ liệu thời gian thực, trích xuất nội dung, thu thập dữ liệu trang web và nghiên cứu hỗ trợ AI. Năm phương thức cốt lõi: search() cho kết quả web, extract() cho nội dung URL, crawl() cho trích xuất toàn bộ trang web, map() cho khám phá URL và research() cho tổng hợp AI đầu cuối. Hỗ trợ SDK Python và JavaScript với các client bất đồng bộ cho truy vấn song song và độ sâu tìm kiếm có thể cấu hình (siêu nhanh/nhanh/cơ bản/nâng cao). Phương thức Crawl chấp nhận hướng dẫn ngữ nghĩa để tập trung trích xuất vào...

Tìm kiếm web, trích xuất nội dung, thu thập dữ liệu trang web và nghiên cứu chuyên sâu qua Tavily CLI. Năm chế độ lệnh bao gồm tìm kiếm, trích xuất, khám phá URL, thu thập dữ liệu hàng loạt và nghiên cứu đa nguồn có trích dẫn. Tất cả lệnh đều hỗ trợ đầu ra JSON và lưu tệp cho các quy trình làm việc có cấu trúc, tự động. Mô hình leo thang hướng dẫn bạn từ tìm kiếm đơn giản qua trích xuất, lập bản đồ, thu thập dữ liệu đến nghiên cứu toàn diện dựa trên nhu cầu của bạn. Yêu cầu cài đặt tavily-cli và xác thực kh

Trình thu thập trang web nhiều trang với bộ lọc ngữ nghĩa và xuất định dạng markdown. Thu thập toàn bộ các phần của trang web với kiểm soát độ sâu và độ rộng; lọc theo biểu thức chính quy đường dẫn, tên miền hoặc hướng dẫn ngôn ngữ tự nhiên để tập trung kết quả. Lưu mỗi trang dưới dạng tệp markdown cục bộ qua --output-dir, hoặc trả về JSON có cấu trúc để xử lý theo tác nhân. Sử dụng hướng dẫn ngữ nghĩa với trích xuất khối để tránh phình to ngữ cảnh khi đưa kết quả vào LLM; sử dụng trích xuất toàn trang để tải tài liệu ngoại tuyến. Hỗ trợ...

tavily-dynamic-search

Tìm kiếm trên web, lọc kết quả và trích xuất nội dung để dữ liệu tìm kiếm thô không bao giờ lọt vào cửa sổ ngữ cảnh của bạn. Chỉ đầu ra print() đã được chọn lọc mới được trả về.