firecrawl-knowledge-ingest
作者: firecrawl
使用 Firecrawl 瀏覽器攝取公開或經過驗證的知識庫與文檔入口。適用於 JavaScript 密集型文檔、需登入的入口網站、分頁式幫助中心、支援知識庫,或從文檔網站提取結構化 JSON/Markdown 內容。
npx skills add https://github.com/firecrawl/firecrawl-workflows --skill firecrawl-knowledge-ingestFirecrawl Knowledge Ingest
Use this when a docs portal needs browser navigation, auth, pagination, or JS rendering.
Onboarding Interview
Infer the portal URL, output format, auth needs, and page limit from context. If the portal is clear, proceed immediately.
Ask at most 1-3 concise questions only if blocked, such as the portal URL, whether authentication is required, or the desired output format.
Firecrawl Collection Plan
Use Firecrawl browser to:
- open the portal and inspect navigation
- identify sections, categories, sidebar links, and article URLs
- follow sidebar navigation, next links, pagination, load-more controls, or search
- scrape article content as markdown
- extract metadata such as title, section, last updated date, author, and tags
Try Firecrawl map as a supplement for public URLs, but use browser navigation for auth-gated or JS-heavy content.
Final Deliverable
# Knowledge Ingest: [Portal]
## Summary
[Pages extracted, sections covered, limitations]
## Output
[JSON/markdown/merged file path or content]
## Sections
[Section names and article counts]
## Failed Or Restricted Pages
[Any access/loading issues]
## Sources
[URLs extracted]
## Rerun Inputs
workflow: firecrawl-knowledge-ingest
url: [portal url]
format: [json/markdown/merged]
max_pages: [number]
JSON Shape
Use source, url, extractedAt, totalArticles, and sections[] with article title, url, section, content, and metadata.
Quality Bar
- Preserve code examples, tables, and formatting.
- Strip nav chrome, headers, and footers.
- Track extraction progress and page failures.
- Respect authentication boundaries.
來自 firecrawl 的更多技能
oracle
firecrawl
使用 oracle CLI 的最佳實踐(提示與檔案捆綁、引擎、會話及檔案附加模式)。
official
firecrawl-monitor
firecrawl
偵測網站內容何時變更,並透過 Webhook 或電子郵件接收通知 — 無需 Cron 任務、爬蟲或比對腳本。當使用者想追蹤頁面變更、監控競爭對手定價、在新職缺或部落格文章出現時收到提醒、監控文件/更新紀錄/狀態頁面,或說出「監控」、「觀察」、「追蹤」、「當...時提醒我」、「當 X 變更時通知我」、「如果...請通知我」、「當...時寄信給我」或「當...時傳送 Webhook」時,請使用此技能。內建的 AI 判斷器會過濾格式、時間戳記及...
officialweb-scrapingresearch
firecrawl-deep-research
firecrawl
使用 Firecrawl 執行多來源深度研究。當使用者要求研究某個主題、比較不同觀點、產出具來源的簡報、調查技術或市場問題,或綜合多個來源的網路證據時使用。
officialresearchweb-scraping
firecrawl-research-papers
firecrawl
使用 Firecrawl 查找並綜合研究論文、白皮書、PDF、技術報告及學術來源。適用於用戶需要文獻回顧、論文摘要、研究現狀分析,或從 PDF 及學術/行業出版物中獲取有來源的綜合資訊時。
officialresearchweb-scraping
firecrawl-market-research
firecrawl
使用 Firecrawl 提取市場、財務、收益、行業及公司指標。適用於用戶查詢市場研究、行業趨勢、上市公司數據、財務比較、收益研究或結構化市場報告時使用。
officialresearchweb-scraping
firecrawl-website-design-clone
firecrawl
使用 Firecrawl 抓取證據,將任何網站的設計系統提取為可供代理程式使用的 DESIGN.md。當使用者需要從網站取得顏色、字型、間距、元件、版面配置模式或品牌/UI 指引,以便 AI 代理程式能建立新網站、複製外觀或根據該設計建構頁面時使用。
officialdesignweb-scraping
firecrawl-knowledge-base
firecrawl
使用 Firecrawl 從網頁內容建立知識庫。適用於本地參考文件、RAG 就緒區塊、微調資料集、文件鏡像、主題語料庫,或從網路來源整理而成的 LLM 就緒 Markdown。
officialweb-scrapingresearch
firecrawl-lead-research
firecrawl
使用 Firecrawl 生成會前潛在客戶情報簡報。適用於用戶在銷售通話、合作會議、投資人對話或客戶訪談前,需要進行公司研究、人物研究、最新新聞、談話要點、痛點分析或外展準備時。
officialresearchweb-scraping