firecrawl-parse

作者: firecrawl

将本地文档转换为磁盘上的干净Markdown格式。支持PDF、DOCX、DOC、ODT、RTF、XLSX、XLS、HTML/HTM/XHTML。

npx skills add https://github.com/firecrawl/cli --skill firecrawl-parse

firecrawl parse

Turn a local document into clean markdown on disk. Supports PDF, DOCX, DOC, ODT, RTF, XLSX, XLS, HTML/HTM/XHTML.

When to use

  • You have a file on disk (not a URL) and want its text as markdown
  • User drops a PDF/DOCX and asks what it says, or to summarize it
  • Use scrape instead when the source is a URL

Quick start

Always save to .firecrawl/ with -o — parsed docs can be hundreds of KB and blow up context if streamed to stdout. Add .firecrawl/ to .gitignore.

mkdir -p .firecrawl

# File → markdown
firecrawl parse ./paper.pdf -o .firecrawl/paper.md

# AI summary
firecrawl parse ./paper.pdf -S -o .firecrawl/paper-summary.md

# Ask a question about the doc
firecrawl parse ./paper.pdf -Q "What are the main conclusions?" \
  -o .firecrawl/paper-qa.md

Then head, grep, rg etc., or incrementally read the file - don't load the whole thing at once.

Options

OptionDescription
-S, --summaryAI-generated summary
-Q, --query <prompt>Ask a question about the parsed content
-o, --output <path>Output file path — always use this
-f, --format <fmt>markdown (default), html, summary
--timeout <ms>Timeout for the parse job
--timingShow request duration

Tips

  • Quote paths with spaces: firecrawl parse "./My Doc.pdf" -o .firecrawl/mydoc.md.
  • Max upload size: 50 MB per file.
  • Credits: ~1 per PDF page; HTML is 1 flat.
  • Check .firecrawl/ before re-parsing the same file.
  • To check your credit balance (recommended for batch processing and similar workflows), use the firecrawl credit-usage command.

See also

来自 firecrawl 的更多技能

oracle
firecrawl
使用oracle CLI的最佳实践(提示词与文件打包、引擎、会话及文件附件模式)。
official
firecrawl-monitor
firecrawl
检测网站内容变化,并通过webhook或邮件接收通知——无需cron任务、爬虫或差异脚本。当用户想要追踪页面变化、监控竞争对手定价、在新职位或博客发布时接收提醒、监测文档/更新日志/状态页面,或说出“监控”、“关注”、“追踪”、“当……时提醒我”、“当X变化时通知我”、“如果……请通知我”、“当……时发邮件给我”或“当……时发送webhook”时,使用此技能。内置AI判断器会过滤掉格式、时间戳和……
officialweb-scrapingresearch
firecrawl-deep-research
firecrawl
使用 Firecrawl 进行多源深度研究。当用户要求研究某个主题、比较不同观点、生成带来源的简报、调查技术或市场问题,或综合多个来源的网络证据时使用。
officialresearchweb-scraping
firecrawl-research-papers
firecrawl
使用Firecrawl查找并综合研究论文、白皮书、PDF文件、技术报告及学术来源。适用于用户需要文献综述、论文摘要、研究现状分析,或从PDF及学术/行业出版物中获取有来源的综合内容时。
officialresearchweb-scraping
firecrawl-market-research
firecrawl
使用Firecrawl提取市场、财务、收益、行业和公司指标。当用户询问市场研究、行业趋势、上市公司数据、财务比较、收益研究或结构化市场报告时使用。
officialresearchweb-scraping
firecrawl-website-design-clone
firecrawl
使用 Firecrawl 抓取证据,将任意网站的设计系统提取为可供智能体使用的 DESIGN.md 文件。当用户需要从网站获取颜色、字体、间距、组件、布局模式或品牌/UI 指导,以便 AI 智能体创建新网站、克隆外观或受该设计启发构建页面时使用。
officialdesignweb-scraping
firecrawl-knowledge-base
firecrawl
使用Firecrawl从网页内容构建知识库。适用于本地参考文档、RAG就绪文本块、微调数据集、文档镜像、主题语料库,或从网页来源整理的LLM就绪Markdown。
officialweb-scrapingresearch
firecrawl-lead-research
firecrawl
使用Firecrawl生成会前潜在客户情报简报。适用于用户在销售通话、合作会议、投资者对话或客户访谈前需要公司调研、人物调研、最新动态、谈话要点、痛点分析或外联准备时。
officialresearchweb-scraping