tavily-extract

作成者： tavily-ai

最大20件のURLからクリーンなマークダウンまたはテキストを抽出。JavaScriptレンダリングとクエリに焦点を当てたチャンク分割をサポート。JavaScriptでレンダリングされたページを処理し、抽出深度を設定可能（シンプルなページは基本、動的なSPAやテーブルは高度）。クエリに焦点を当てた抽出をサポートし、全ページではなく関連コンテンツのチャンクのみを返却。デフォルトでLLM最適化されたマークダウンを返し、プレーンテキスト形式や構造化JSON出力のオプションも提供。1回の呼び出しで最大20件のURLを処理。

npx skills add https://github.com/tavily-ai/skills --skill tavily-extract

ZIPダウンロード GitHub

tavily extract

Extract clean markdown or text content from one or more URLs.

Before running any command

If tvly is not found on PATH, install it first:

curl -fsSL https://cli.tavily.com/install.sh | bash && tvly login

Do not skip this step or fall back to other tools.

See tavily-cli for alternative install methods and auth options.

When to use

You have a specific URL and want its content
You need text from JavaScript-rendered pages
Step 2 in the workflow: search → extract → map → crawl → research

Quick start

# Single URL
tvly extract "https://example.com/article" --json

# Multiple URLs
tvly extract "https://example.com/page1" "https://example.com/page2" --json

# Query-focused extraction (returns relevant chunks only)
tvly extract "https://example.com/docs" --query "authentication API" --chunks-per-source 3 --json

# JS-heavy pages
tvly extract "https://app.example.com" --extract-depth advanced --json

# Save to file
tvly extract "https://example.com/article" -o article.md

Options

Option	Description
`--query`	Rerank chunks by relevance to this query
`--chunks-per-source`	Chunks per URL (1-5, requires `--query`)
`--extract-depth`	`basic` (default) or `advanced` (for JS pages)
`--format`	`markdown` (default) or `text`
`--include-images`	Include image URLs
`--timeout`	Max wait time (1-60 seconds)
`-o, --output`	Save output to file
`--json`	Structured JSON output

Extract depth

Depth	When to use
`basic`	Simple pages, fast — try this first
`advanced`	JS-rendered SPAs, dynamic content, tables

Tips

Max 20 URLs per request — batch larger lists into multiple calls.
Use --query + --chunks-per-source to get only relevant content instead of full pages.
Try basic first, fall back to advanced if content is missing.
Set --timeout for slow pages (up to 60s).
If search results already contain the content you need (via --include-raw-content), skip the extract step.

See also

tavily-search — find pages when you don't have a URL
tavily-crawl — extract content from many pages on a site

tavily-aiのその他のスキル

ウェブサイトのコンテンツを抽出し、マークダウンファイルとして保存して、オフラインでのアクセスや分析を可能にします。クロール深度（1～5レベル）、幅の制限、ページ上限を設定可能で、カバレッジとパフォーマンスのバランスを調整できます。正規表現パターンによるパスフィルタリングをサポートし、特定のセクションに焦点を当てたり、無関係なコンテンツを除外できます。データ収集のための全ページ抽出、または結果をLLMコンテキストに取り込むための自然言語指示によるセマンティックチャンキングの2つのモードを提供します。URL用のコンパニオンMap APIも提供します...

Tavilyの抽出APIを使用して、特定のURLからクリーンなコンテンツを抽出します。1リクエストあたり最大20URLに対応し、オプションのクエリベースの再ランキングにより関連するコンテンツチャンクに焦点を当てます。2つの抽出モードがあります：高速テキスト抽出用のベーシックモードと、JavaScriptレンダリングページや構造化データ用のアドバンストモード。初回実行時にブラウザ経由で自動OAuth認証を行うか、設定で手動APIキーを構成します。マークダウンまたはプレーンテキスト形式で返され、オプションで画像URLを含み、最大60秒までのタイムアウト設定が可能です。

あらゆるトピックについて、自動的な情報収集、分析、引用を伴う包括的なリサーチを実施。明示的な引用付きで複数ソースのウェブリサーチを行い、比較、時事問題、市場分析、詳細レポートに最適。3つのモデルオプションを提供：ミニ（対象を絞った単一トピックのリサーチ、約30秒）、プロ（包括的な多角的分析、約60～120秒）、オート（APIによる複雑性検出で自動選択）。Tavily MCPサーバーを通じてOAuth認証を行い、自動ブラウザベースのログインを...

LLM最適化された結果、関連性スコアリング、柔軟なフィルタリングを備えたWeb検索。4つの検索深度モード（超高速、高速、基本、高度）をサポートし、レイテンシと関連性のトレードオフを設定可能。ドメインフィルタリング、時間範囲制約、日付範囲、国別ブースト、生コンテンツ抽出を含む。タイトル、URL、コンテンツスニペット、関連性スコアを含む結果を返し、オプションで画像結果とファビコンも提供。Tavily MCPサーバーまたはAPIキー設定による自動OAuth認証。

tavily-best-practices

LLM向けWeb検索API。リアルタイムデータアクセス、コンテンツ抽出、サイトクローリング、AI駆動のリサーチを提供。5つのコアメソッド：search()（Web結果取得）、extract()（URLコンテンツ抽出）、crawl()（サイト全体の抽出）、map()（URL発見）、research()（エンドツーエンドのAI合成）。PythonおよびJavaScript SDKに対応し、非同期クライアントによる並列クエリと設定可能な検索深度（ultra-fast/fast/basic/advanced）をサポート。Crawlメソッドはセマンティック指示を受け付け、抽出を特定の内容に集中させる。

Web検索、コンテンツ抽出、サイトクローリング、およびTavily CLIによる深層リサーチ。検索、抽出、URL発見、一括クローリング、引用付きマルチソースリサーチをカバーする5つのコマンドモード。すべてのコマンドはJSON出力とファイル保存に対応し、構造化されたエージェントワークフローを実現。エスカレーションパターンにより、単純な検索から抽出、マッピング、クローリング、包括的なリサーチまで、ニーズに応じてガイド。tavily-cliのインストールと、tvly loginによるAPIキー認証が必要。

マルチページウェブサイトクローラーで、セマンティックフィルタリングとマークダウンエクスポート機能を備えています。深さと幅を制御してサイト全体のセクションをクロールし、パス正規表現、ドメイン、または自然言語の指示でフィルタリングして結果を絞り込みます。各ページを--output-dirでローカルのマークダウンファイルとして保存するか、エージェント処理用に構造化JSONを返します。結果をLLMに渡す際のコンテキスト肥大化を防ぐために、チャンク抽出を伴うセマンティック指示を使用します。オフラインのドキュメントダウンロードには全ページ抽出を使用します。対応...

tavily-dynamic-search

ウェブを検索し、結果をフィルタリングしてコンテンツを抽出することで、生の検索データがコンテキストウィンドウに入ることはありません。厳選されたprint()出力のみが返されます。