firecrawl-crawl

bởi firecrawl

Trích xuất nội dung hàng loạt từ toàn bộ trang web hoặc các phần của trang web với bộ lọc độ sâu và đường dẫn. Thu thập các trang theo liên kết đến giới hạn độ sâu và số trang có thể cấu hình, với bộ lọc bao gồm/loại trừ đường dẫn để phạm vi trích xuất. Hỗ trợ thăm dò công việc không đồng bộ hoặc chờ đồng bộ với hiển thị tiến trình qua cờ --wait và --progress. Cung cấp kiểm soát đồng thời, độ trễ yêu cầu và định dạng đầu ra JSON để tích hợp vào quy trình làm việc của tác nhân. Là một phần của mô hình leo thang bốn bước: tìm kiếm → cạo →...

npx skills add https://github.com/firecrawl/cli --skill firecrawl-crawl

Tải ZIP GitHub

firecrawl crawl

Bulk extract content from a website. Crawls pages following links up to a depth/limit.

When to use

You need content from many pages on a site (e.g., all /docs/)
You want to extract an entire site section
Step 4 in the workflow escalation pattern: search → scrape → map → crawl → interact

Quick start

# Crawl a docs section
firecrawl crawl "<url>" --include-paths /docs --limit 50 --wait -o .firecrawl/crawl.json

# Full crawl with depth limit
firecrawl crawl "<url>" --max-depth 3 --wait --progress -o .firecrawl/crawl.json

# Check status of a running crawl
firecrawl crawl <job-id>

Options

Option	Description
`--wait`	Wait for crawl to complete before returning
`--progress`	Show progress while waiting
`--limit <n>`	Max pages to crawl
`--max-depth <n>`	Max link depth to follow
`--include-paths <paths>`	Only crawl URLs matching these paths
`--exclude-paths <paths>`	Skip URLs matching these paths
`--delay <ms>`	Delay between requests
`--max-concurrency <n>`	Max parallel crawl workers
`--pretty`	Pretty print JSON output
`-o, --output <path>`	Output file path

Tips

Always use --wait when you need the results immediately. Without it, crawl returns a job ID for async polling.
Use --include-paths to scope the crawl — don't crawl an entire site when you only need one section.
Crawl consumes credits per page. Check firecrawl credit-usage before large crawls.

See also

firecrawl-scrape — scrape individual pages
firecrawl-map — discover URLs before deciding to crawl
firecrawl-download — download site to local files (uses map + scrape)

Thêm skills từ firecrawl

Các phương pháp hay nhất khi sử dụng CLI oracle (gộp lời nhắc + tệp, engine, phiên và các mẫu đính kèm tệp).

firecrawl-monitor

Phát hiện khi nội dung trên một trang web thay đổi và nhận thông báo qua webhook hoặc email — không cần cron job, trình thu thập dữ liệu hay tập lệnh diff. Sử dụng kỹ năng này bất cứ khi nào người dùng muốn theo dõi thay đổi trên một trang, theo dõi giá của đối thủ cạnh tranh, cảnh báo về tin tuyển dụng hoặc bài đăng blog mới, giám sát trang tài liệu/thay đổi/trạng thái, hoặc nói "giám sát", "theo dõi", "cảnh báo tôi khi", "thông báo khi X thay đổi", "nhắn tôi nếu", "gửi email cho tôi khi", hoặc "gửi webhook khi". Một bộ đánh giá AI tích hợp sẽ lọc ra

officialweb-scrapingresearch

firecrawl-deep-research

Thực hiện nghiên cứu sâu đa nguồn với Firecrawl. Sử dụng khi người dùng yêu cầu nghiên cứu một chủ đề, so sánh các góc nhìn, tạo bản tóm tắt có nguồn, điều tra câu hỏi kỹ thuật hoặc thị trường, hoặc tổng hợp bằng chứng từ web từ nhiều nguồn.

officialresearchweb-scraping

firecrawl-research-papers

Tìm kiếm và tổng hợp các bài báo nghiên cứu, sách trắng, tệp PDF, báo cáo kỹ thuật và nguồn học thuật với Firecrawl. Sử dụng khi người dùng muốn một bài tổng quan tài liệu, tóm tắt bài báo, bức tranh nghiên cứu, hoặc tổng hợp có nguồn từ các tệp PDF và ấn phẩm học thuật/ngành.

officialresearchweb-scraping

firecrawl-market-research

Trích xuất các chỉ số thị trường, tài chính, thu nhập, ngành và công ty với Firecrawl. Sử dụng khi người dùng yêu cầu nghiên cứu thị trường, xu hướng ngành, dữ liệu công ty đại chúng, so sánh tài chính, nghiên cứu thu nhập hoặc báo cáo thị trường có cấu trúc.

officialresearchweb-scraping

firecrawl-website-design-clone

Trích xuất hệ thống thiết kế của bất kỳ trang web nào thành tệp DESIGN.md sẵn sàng cho agent bằng cách sử dụng bằng chứng thu thập từ Firecrawl. Sử dụng khi người dùng muốn lấy màu sắc, phông chữ, khoảng cách, thành phần, mẫu bố cục hoặc hướng dẫn thương hiệu/giao diện từ một trang web để các agent AI có thể tạo trang web mới, sao chép giao diện hoặc xây dựng các trang lấy cảm hứng từ thiết kế đó.

officialdesignweb-scraping

firecrawl-knowledge-base

Xây dựng cơ sở tri thức từ nội dung web với Firecrawl. Dùng cho tài liệu tham khảo cục bộ, các đoạn dữ liệu sẵn sàng cho RAG, tập dữ liệu tinh chỉnh, bản sao tài liệu, kho ngữ liệu chủ đề, hoặc markdown sẵn sàng cho LLM được tổ chức từ các nguồn web.

officialweb-scrapingresearch

firecrawl-lead-research

Tạo bản tóm tắt thông tin khách hàng tiềm năng trước cuộc họp với Firecrawl. Sử dụng khi người dùng cần nghiên cứu công ty, nghiên cứu cá nhân, tin tức gần đây, điểm thảo luận, điểm khó khăn hoặc chuẩn bị tiếp cận trước cuộc gọi bán hàng, cuộc họp đối tác, cuộc trò chuyện với nhà đầu tư hoặc phỏng vấn khách hàng.

officialresearchweb-scraping