tavily-crawl

โดย tavily-ai

โปรแกรมรวบรวมข้อมูลเว็บไซต์หลายหน้าที่มีการกรองเชิงความหมายและส่งออกเป็นมาร์กดาวน์ เรียกดูส่วนต่างๆ ของไซต์ทั้งหมดพร้อมควบคุมความลึกและความกว้าง กรองตาม regex ของเส้นทาง โดเมน หรือคำสั่งภาษาธรรมชาติเพื่อเน้นผลลัพธ์ บันทึกแต่ละหน้าเป็นไฟล์มาร์กดาวน์ในเครื่องผ่าน --output-dir หรือส่งคืน JSON ที่มีโครงสร้างสำหรับการประมวลผลแบบเอเจนต์ ใช้คำสั่งเชิงความหมายพร้อมการแยกส่วนเพื่อป้องกันการขยายบริบทเมื่อป้อนผลลัพธ์ให้กับ LLM ใช้การแยกทั้งหน้าสำหรับการดาวน์โหลดเอกสารออฟไลน์ รองรับ...

npx skills add https://github.com/tavily-ai/skills --skill tavily-crawl

ดาวน์โหลด ZIP GitHub

397

tavily crawl

Crawl a website and extract content from multiple pages. Supports saving each page as a local markdown file.

Before running any command

If tvly is not found on PATH, install it first:

curl -fsSL https://cli.tavily.com/install.sh | bash && tvly login

Do not skip this step or fall back to other tools.

See tavily-cli for alternative install methods and auth options.

When to use

You need content from many pages on a site (e.g., all /docs/)
You want to download documentation for offline use
Step 4 in the workflow: search → extract → map → crawl → research

Quick start

# Basic crawl
tvly crawl "https://docs.example.com" --json

# Save each page as a markdown file
tvly crawl "https://docs.example.com" --output-dir ./docs/

# Deeper crawl with limits
tvly crawl "https://docs.example.com" --max-depth 2 --limit 50 --json

# Filter to specific paths
tvly crawl "https://example.com" --select-paths "/api/.*,/guides/.*" --exclude-paths "/blog/.*" --json

# Semantic focus (returns relevant chunks, not full pages)
tvly crawl "https://docs.example.com" --instructions "Find authentication docs" --chunks-per-source 3 --json

Options

Option	Description
`--max-depth`	Levels deep (1-5, default: 1)
`--max-breadth`	Links per page (default: 20)
`--limit`	Total pages cap (default: 50)
`--instructions`	Natural language guidance for semantic focus
`--chunks-per-source`	Chunks per page (1-5, requires `--instructions`)
`--extract-depth`	`basic` (default) or `advanced`
`--format`	`markdown` (default) or `text`
`--select-paths`	Comma-separated regex patterns to include
`--exclude-paths`	Comma-separated regex patterns to exclude
`--select-domains`	Comma-separated regex for domains to include
`--exclude-domains`	Comma-separated regex for domains to exclude
`--allow-external / --no-external`	Include external links (default: allow)
`--include-images`	Include images
`--timeout`	Max wait (10-150 seconds)
`-o, --output`	Save JSON output to file
`--output-dir`	Save each page as a .md file in directory
`--json`	Structured JSON output

Crawl for context vs. data collection

For agentic use (feeding results to an LLM):

Always use --instructions + --chunks-per-source. Returns only relevant chunks instead of full pages — prevents context explosion.

tvly crawl "https://docs.example.com" --instructions "API authentication" --chunks-per-source 3 --json

For data collection (saving to files):

Use --output-dir without --chunks-per-source to get full pages as markdown files.

tvly crawl "https://docs.example.com" --max-depth 2 --output-dir ./docs/

Tips

Start conservative — --max-depth 1, --limit 20 — and scale up.
Use --select-paths to focus on the section you need.
Use map first to understand site structure before a full crawl.
Always set --limit to prevent runaway crawls.

Skills เพิ่มเติมจาก tavily-ai

crawl

tavily-ai

แยกและบันทึกเนื้อหาเว็บไซต์เป็นไฟล์ markdown เพื่อการเข้าถึงและวิเคราะห์แบบออฟไลน์ รองรับการกำหนดความลึกในการรวบรวมข้อมูล (1-5 ระดับ) ขีดจำกัดความกว้าง และขีดจำกัดหน้าเพื่อปรับสมดุลระหว่างความครอบคลุมและประสิทธิภาพ รวมถึงการกรองเส้นทางด้วยรูปแบบ regex เพื่อเน้นส่วนที่ต้องการและแยกเนื้อหาที่ไม่เกี่ยวข้อง มีสองโหมด: การแยกเนื้อหาทั้งหน้าเพื่อรวบรวมข้อมูล หรือการแบ่งส่วนเชิงความหมายพร้อมคำสั่งภาษาธรรมชาติเพื่อป้อนผลลัพธ์เข้าสู่บริบทของ LLM มี API แผนที่เสริมสำหรับ URL...

official

extract

tavily-ai

แยกเนื้อหาที่สะอาดจาก URL ที่ระบุโดยใช้ API การสกัดของ Tavily รองรับสูงสุด 20 URL ต่อคำขอ พร้อมการจัดลำดับใหม่ตามคำค้นหาเพื่อเน้นเนื้อหาที่เกี่ยวข้อง โหมดการสกัดสองแบบ: พื้นฐานสำหรับการสกัดข้อความที่รวดเร็ว ขั้นสูงสำหรับหน้าที่เรนเดอร์ด้วย JavaScript และข้อมูลที่มีโครงสร้าง การตรวจสอบสิทธิ์ OAuth อัตโนมัติผ่านเบราว์เซอร์ในครั้งแรกที่ใช้งาน หรือกำหนดค่า API key ด้วยตนเองในการตั้งค่า ส่งคืนรูปแบบ markdown หรือข้อความธรรมดาพร้อม URL รูปภาพที่ไม่บังคับ และกำหนดเวลาหมดอายุได้สูงสุด 60 วินาที

official

research

tavily-ai

การวิจัยเชิงลึกในทุกหัวข้อ พร้อมการรวบรวมแหล่งข้อมูล วิเคราะห์ และอ้างอิงโดยอัตโนมัติ ดำเนินการวิจัยทางเว็บจากหลายแหล่งพร้อมการอ้างอิงที่ชัดเจน เหมาะสำหรับการเปรียบเทียบ เหตุการณ์ปัจจุบัน การวิเคราะห์ตลาด และรายงานโดยละเอียด มีสามตัวเลือกโมเดล: mini สำหรับการวิจัยหัวข้อเดียวแบบเจาะจง (~30 วินาที), pro สำหรับการวิเคราะห์หลายมุมแบบครอบคลุม (~60-120 วินาที) และ auto สำหรับการตรวจจับความซับซ้อนผ่าน API ยืนยันตัวตนผ่าน OAuth ผ่านเซิร์ฟเวอร์ Tavily MCP พร้อมการเข้าสู่ระบบผ่านเบราว์เซอร์อัตโนมัติบน...

official

tavily-ai

ค้นหาเว็บด้วยผลลัพธ์ที่ปรับให้เหมาะสมกับ LLM การให้คะแนนความเกี่ยวข้อง และการกรองที่ยืดหยุ่น รองรับโหมดความลึกในการค้นหาสี่โหมด (เร็วพิเศษ เร็ว พื้นฐาน ขั้นสูง) พร้อมการปรับแต่งความหน่วงและความเกี่ยวข้องที่กำหนดค่าได้ รวมถึงการกรองโดเมน ข้อจำกัดช่วงเวลา ช่วงวันที่ การเพิ่มน้ำหนักประเทศ และการดึงเนื้อหาดิบ ส่งคืนผลลัพธ์พร้อมชื่อเรื่อง URL ตัวอย่างเนื้อหา และคะแนนความเกี่ยวข้อง ผลลัพธ์รูปภาพและ favicon แบบเลือกได้ การรับรองความถูกต้อง OAuth อัตโนมัติผ่านเซิร์ฟเวอร์ Tavily MCP หรือการกำหนดค่าคีย์ API...

official

tavily-best-practices

tavily-ai

Web search API สำหรับ LLMs ที่เข้าถึงข้อมูลแบบเรียลไทม์ ดึงเนื้อหา ค้นหาเว็บไซต์ และวิจัยด้วย AI มีห้าวิธีหลัก: search() สำหรับผลลัพธ์เว็บ, extract() สำหรับเนื้อหา URL, crawl() สำหรับดึงข้อมูลทั้งเว็บไซต์, map() สำหรับค้นหา URL, และ research() สำหรับสังเคราะห์ AI แบบครบวงจร รองรับ Python และ JavaScript SDK พร้อม async clients สำหรับการค้นหาแบบขนานและปรับความลึกการค้นหาได้ (ultra-fast/fast/basic/advanced) วิธี crawl รองรับคำสั่งเชิงความหมายเพื่อโฟกัสการดึงข้อมูลที่...

official

tavily-cli

tavily-ai

การค้นหาเว็บ การดึงเนื้อหา การรวบรวมข้อมูลเว็บไซต์ และการวิจัยเชิงลึกผ่าน Tavily CLI มีโหมดคำสั่งห้าโหมดครอบคลุมการค้นหา การดึงข้อมูล การค้นพบ URL การรวบรวมข้อมูลจำนวนมาก และการวิจัยหลายแหล่งพร้อมการอ้างอิง คำสั่งทั้งหมดรองรับเอาต์พุต JSON และการบันทึกไฟล์สำหรับเวิร์กโฟลว์แบบมีโครงสร้างและแบบเอเจนต์ รูปแบบการเพิ่มระดับจะแนะนำคุณจากการค้นหาอย่างง่ายผ่านการดึงข้อมูล การทำแผนที่ การรวบรวมข้อมูล ไปจนถึงการวิจัยที่ครอบคลุมตามความต้องการของคุณ ต้องติดตั้ง tavily-cli และการตรวจสอบสิทธิ์คีย์ API ผ่าน tvly login

official

tavily-dynamic-search

tavily-ai

ค้นหาเว็บ กรองผลลัพธ์ และดึงเนื้อหา เพื่อให้ข้อมูลการค้นหาดิบไม่เข้าสู่หน้าต่างบริบทของคุณ มีเพียงผลลัพธ์ print() ที่คุณจัดเตรียมไว้เท่านั้นที่จะถูกส่งกลับมา

official

tavily-extract

tavily-ai

แยกข้อมูลเป็น markdown หรือข้อความที่สะอาดจาก URL สูงสุด 20 รายการ พร้อมรองรับการเรนเดอร์ JavaScript และการแบ่งส่วนตามคำค้นหา จัดการหน้าเว็บที่เรนเดอร์ด้วย JavaScript ได้ โดยปรับระดับการแยกข้อมูลได้ (พื้นฐานสำหรับหน้าเว็บธรรมดา ขั้นสูงสำหรับ SPA และตารางแบบไดนามิก) รองรับการแยกข้อมูลตามคำค้นหาเพื่อส่งคืนเฉพาะเนื้อหาที่เกี่ยวข้อง แทนที่จะส่งคืนทั้งหน้า ส่งคืน markdown ที่ปรับให้เหมาะสมกับ LLM โดยค่าเริ่มต้น พร้อมตัวเลือกรูปแบบข้อความธรรมดาและเอาต์พุต JSON แบบมีโครงสร้าง ประมวลผล URL สูงสุด 20 รายการในการเรียกครั้งเดียว...

official

tavily-crawl

tavily crawl

Before running any command

When to use

Quick start

Options

Crawl for context vs. data collection

Tips

See also

Skills เพิ่มเติมจาก tavily-ai