firecrawl-parse

作者： firecrawl

将本地文档转换为磁盘上的干净Markdown格式。支持PDF、DOCX、DOC、ODT、RTF、XLSX、XLS、HTML/HTM/XHTML。

npx skills add https://github.com/firecrawl/cli --skill firecrawl-parse

下载 ZIP GitHub

firecrawl parse

Turn a local document into clean markdown on disk. Supports PDF, DOCX, DOC, ODT, RTF, XLSX, XLS, HTML/HTM/XHTML.

When to use

You have a file on disk (not a URL) and want its text as markdown
User drops a PDF/DOCX and asks what it says, or to summarize it
Use scrape instead when the source is a URL

Quick start

Always save to .firecrawl/ with -o — parsed docs can be hundreds of KB and blow up context if streamed to stdout. Add .firecrawl/ to .gitignore.

mkdir -p .firecrawl

# File → markdown
firecrawl parse ./paper.pdf -o .firecrawl/paper.md

# AI summary
firecrawl parse ./paper.pdf -S -o .firecrawl/paper-summary.md

# Ask a question about the doc
firecrawl parse ./paper.pdf -Q "What are the main conclusions?" \
  -o .firecrawl/paper-qa.md

Then head, grep, rg etc., or incrementally read the file - don't load the whole thing at once.

Options

Option	Description
`-S, --summary`	AI-generated summary
`-Q, --query <prompt>`	Ask a question about the parsed content
`-o, --output <path>`	Output file path — always use this
`-f, --format <fmt>`	`markdown` (default), `html`, `summary`
`--timeout <ms>`	Timeout for the parse job
`--timing`	Show request duration

Tips

Quote paths with spaces: firecrawl parse "./My Doc.pdf" -o .firecrawl/mydoc.md.
Max upload size: 50 MB per file.
Credits: ~1 per PDF page; HTML is 1 flat.
Check .firecrawl/ before re-parsing the same file.
To check your credit balance (recommended for batch processing and similar workflows), use the firecrawl credit-usage command.

See also

firecrawl-scrape — same idea for URLs

来自 firecrawl 的更多技能

使用oracle CLI的最佳实践（提示词与文件打包、引擎、会话及文件附件模式）。

firecrawl-monitor

检测网站内容变化，并通过webhook或邮件接收通知——无需cron任务、爬虫或差异脚本。当用户想要追踪页面变化、监控竞争对手定价、在新职位或博客发布时接收提醒、监测文档/更新日志/状态页面，或说出“监控”、“关注”、“追踪”、“当……时提醒我”、“当X变化时通知我”、“如果……请通知我”、“当……时发邮件给我”或“当……时发送webhook”时，使用此技能。内置AI判断器会过滤掉格式、时间戳和……

officialweb-scrapingresearch

firecrawl-deep-research

使用 Firecrawl 进行多源深度研究。当用户要求研究某个主题、比较不同观点、生成带来源的简报、调查技术或市场问题，或综合多个来源的网络证据时使用。

officialresearchweb-scraping

firecrawl-research-papers

使用Firecrawl查找并综合研究论文、白皮书、PDF文件、技术报告及学术来源。适用于用户需要文献综述、论文摘要、研究现状分析，或从PDF及学术/行业出版物中获取有来源的综合内容时。

officialresearchweb-scraping

firecrawl-market-research

使用Firecrawl提取市场、财务、收益、行业和公司指标。当用户询问市场研究、行业趋势、上市公司数据、财务比较、收益研究或结构化市场报告时使用。

officialresearchweb-scraping

firecrawl-website-design-clone

使用 Firecrawl 抓取证据，将任意网站的设计系统提取为可供智能体使用的 DESIGN.md 文件。当用户需要从网站获取颜色、字体、间距、组件、布局模式或品牌/UI 指导，以便 AI 智能体创建新网站、克隆外观或受该设计启发构建页面时使用。

officialdesignweb-scraping

firecrawl-knowledge-base

使用Firecrawl从网页内容构建知识库。适用于本地参考文档、RAG就绪文本块、微调数据集、文档镜像、主题语料库，或从网页来源整理的LLM就绪Markdown。

officialweb-scrapingresearch

firecrawl-lead-research

使用Firecrawl生成会前潜在客户情报简报。适用于用户在销售通话、合作会议、投资者对话或客户访谈前需要公司调研、人物调研、最新动态、谈话要点、痛点分析或外联准备时。

officialresearchweb-scraping