Scrapeless MCP Server
官方将实时Scrapeless Google SERP(Google搜索、Google航班、Google地图、Google职位等)结果集成到您的LLM应用中。该服务器可为AI工作流、聊天机器人和研究工具提供动态上下文检索。
文档

Scrapeless MCP Server
欢迎使用官方 Scrapeless 模型上下文协议 (MCP) Server —— 这是一个强大的集成层,让 LLM、AI Agent 和 AI 应用能够实时与网络交互。
基于开放的 MCP 标准构建,Scrapeless MCP Server 可将 ChatGPT、Claude 等模型以及 Cursor、Windsurf 等工具无缝连接到广泛的外部能力,包括:
- Google 服务集成(搜索、趋势)
- 浏览器自动化,用于页面级导航和交互
- 抓取动态、重度依赖 JS 的网站——导出为 HTML、Markdown 或截图
无论你是在构建 AI 研究助手、编程副驾驶,还是自主网络 Agent,此服务器都能为你的工作流提供所需的动态上下文和真实世界数据——且不会被拦截。
使用示例
- 使用 Claude 进行自动化网络交互和数据提取
借助 Scrapeless MCP Browser,Claude 可以通过对话式命令执行复杂任务,如网页导航、点击、滚动和抓取,并通过 live sessions 实时预览网络交互结果。

- 绕过 Cloudflare 获取目标页面内容
使用 Scrapeless MCP Browser 服务,自动访问 Cloudflare 页面,流程完成后提取页面内容并以 Markdown 格式返回。

- 提取动态渲染的页面内容并写入文件
使用 Scrapeless MCP Universal API,抓取上述目标页面的 JavaScript 渲染内容,以 Markdown 格式导出,最后写入名为 text.md 的本地文件。

- 自动化 SERP 抓取
使用 Scrapeless MCP Server,在 Google 搜索中查询关键词“web scraping”,获取前 10 条搜索结果(包括标题、链接和摘要),并将内容写入名为 serp.text 的文件。

以下是一些如何使用这些服务器的额外示例:
| 示例 |
|---|
| 通过 Google 搜索 scrapeless。 |
| 查找过去一年“AI”的搜索热度。 |
| 使用浏览器访问 chatgpt.com,搜索“今天天气怎么样?”,并总结结果。 |
| 抓取 scrapeless.com 页面的 HTML 内容。 |
| 抓取 scrapeless.com 页面的 Markdown 内容。 |
| 获取 scrapeless.com 的截图。 |
设置指南
- 获取 Scrapeless Key
- 登录 Scrapeless 控制台(提供免费试用)
- 然后点击左侧的“设置” -> 选择“API Key 管理” -> 点击“创建 API Key”。最后,点击你创建的 API Key 进行复制。

- 配置你的 MCP 客户端
Scrapeless MCP Server 支持 Stdio 和 Streamable HTTP 两种传输模式。
🖥️ Stdio(本地执行)
{
"mcpServers": {
"Scrapeless MCP Server": {
"command": "npx",
"args": ["-y", "scrapeless-mcp-server"],
"env": {
"SCRAPELESS_KEY": "YOUR_SCRAPELESS_KEY"
}
}
}
}
🌐 Streamable HTTP(托管 API 模式)
{
"mcpServers": {
"Scrapeless MCP Server": {
"type": "streamable-http",
"url": "https://api.scrapeless.com/mcp",
"headers": {
"x-api-token": "YOUR_SCRAPELESS_KEY"
},
"disabled": false,
"alwaysAllow": []
}
}
}
高级选项
使用可选参数自定义浏览器会话行为。这些参数可以通过环境变量(适用于 Stdio)或 HTTP 头(适用于 Streamable HTTP)设置:
| Stdio (环境变量) | Streamable HTTP (HTTP 头) | 描述 |
|---|---|---|
| BROWSER_PROFILE_ID | x-browser-profile-id | 指定一个可复用的浏览器配置文件 ID,用于会话连续性。 |
| BROWSER_PROFILE_PERSIST | x-browser-profile-persist | 启用持久化存储,用于 cookies、本地存储等。 |
| BROWSER_SESSION_TTL | x-browser-session-ttl | 定义最大会话超时时间(秒)。会话将在不活动达到此持续时间后自动过期。 |
与 Claude Desktop 集成
- 打开 Claude Desktop
- 导航至:
Settings→Tools→MCP Servers - 点击 “添加 MCP Server”
- 粘贴上述
Stdio或Streamable HTTP配置 - 保存并启用服务器
- Claude 现在将能够使用 Scrapeless 发起网络查询、提取内容并与页面交互
与 Cursor IDE 集成
- 打开 Cursor
- 按下
Cmd + Shift + P并搜索:Configure MCP Servers - 使用上述格式添加 Scrapeless MCP 配置
- 保存文件并重启 Cursor(如果需要)
- 现在你可以向 Cursor 询问类似以下内容:
"Search StackOverflow for a solution to this error""Scrape the HTML from this page"
- 它将在后台使用 Scrapeless。
支持的 MCP 工具
| 名称 | 描述 |
|---|---|
| google_search | 通用信息搜索引擎。 |
| google_trends | 从 Google Trends 获取热门搜索数据。 |
| browser_create | 使用 Scrapeless 创建或复用云浏览器会话。 |
| browser_close | 通过断开云浏览器连接来关闭当前会话。 |
| browser_goto | 将浏览器导航到指定 URL。 |
| browser_go_back | 在浏览器历史记录中后退一步。 |
| browser_go_forward | 在浏览器历史记录中前进一步。 |
| browser_click | 点击页面上的特定元素。 |
| browser_type | 在指定输入字段中键入文本。 |
| browser_press_key | 模拟按键。 |
| browser_wait_for | 等待特定页面元素出现。 |
| browser_wait | 暂停执行一段固定时间。 |
| browser_screenshot | 捕获当前页面的截图。 |
| browser_get_html | 获取当前页面的完整 HTML。 |
| browser_get_text | 获取当前页面的所有可见文本。 |
| browser_scroll | 滚动到页面底部。 |
| browser_scroll_to | 将特定元素滚动到视图中。 |
| scrape_html | 抓取一个 URL 并返回其完整 HTML 内容。 |
| scrape_markdown | 抓取一个 URL 并将其内容作为 Markdown 返回。 |
| scrape_screenshot | 捕获任何网页的高质量截图。 |
安全最佳实践
当将 Scrapeless MCP Server 与 LLM(如 ChatGPT、Claude 或 Cursor)一起使用时,谨慎处理所有抓取或提取的网络内容至关重要。网络数据默认不可信,不当处理可能会使你的应用面临提示注入或其他安全漏洞的风险。
✅ 推荐做法
- 切勿将原始抓取内容直接传入 LLM 提示。 原始 HTML、JavaScript 或用户生成的文本可能包含隐藏的注入载荷。
- 清理并验证所有提取的内容。 在将内容用于下游逻辑或 AI 模型之前,剥离或转义潜在有害的标签和脚本。
- 优先使用结构化提取,而非自由格式文本。 使用
scrape_html、scrape_markdown或带有已知安全选择器的定向browser_get_text等工具,仅提取你信任的内容。 - 在抓取动态生成的页面时应用域名或选择器白名单,将数据流限制在已知和可信的来源。
- 记录并监控所有通过浏览器或抓取工具发出的出站请求,尤其是在处理敏感数据、令牌或内部网络访问时。
🚫 避免
- 将抓取的 HTML 直接注入提示
- 让用户指定任意 URL 或 CSS 选择器而不进行验证
- 存储未经过滤的抓取内容以供将来提示使用
社区
联系我们
如有问题、建议或合作咨询,请随时通过以下方式联系我们: