Scrapeless MCP Server

官方

将实时Scrapeless Google SERP（Google搜索、Google航班、Google地图、Google职位等）结果集成到您的LLM应用中。该服务器可为AI工作流、聊天机器人和研究工具提供动态上下文检索。

GitHub

162

文档

Scrapeless MCP Server

欢迎使用官方 Scrapeless 模型上下文协议 (MCP) Server —— 这是一个强大的集成层，让 LLM、AI Agent 和 AI 应用能够实时与网络交互。

基于开放的 MCP 标准构建，Scrapeless MCP Server 可将 ChatGPT、Claude 等模型以及 Cursor、Windsurf 等工具无缝连接到广泛的外部能力，包括：

Google 服务集成（搜索、趋势）
浏览器自动化，用于页面级导航和交互
抓取动态、重度依赖 JS 的网站——导出为 HTML、Markdown 或截图

无论你是在构建 AI 研究助手、编程副驾驶，还是自主网络 Agent，此服务器都能为你的工作流提供所需的动态上下文和真实世界数据——且不会被拦截。

使用示例

使用 Claude 进行自动化网络交互和数据提取

借助 Scrapeless MCP Browser，Claude 可以通过对话式命令执行复杂任务，如网页导航、点击、滚动和抓取，并通过 live sessions 实时预览网络交互结果。

preview

绕过 Cloudflare 获取目标页面内容

使用 Scrapeless MCP Browser 服务，自动访问 Cloudflare 页面，流程完成后提取页面内容并以 Markdown 格式返回。

preview

提取动态渲染的页面内容并写入文件

使用 Scrapeless MCP Universal API，抓取上述目标页面的 JavaScript 渲染内容，以 Markdown 格式导出，最后写入名为 text.md 的本地文件。

preview

自动化 SERP 抓取

使用 Scrapeless MCP Server，在 Google 搜索中查询关键词“web scraping”，获取前 10 条搜索结果（包括标题、链接和摘要），并将内容写入名为 serp.text 的文件。

preview

以下是一些如何使用这些服务器的额外示例：

示例
通过 Google 搜索 scrapeless。
查找过去一年“AI”的搜索热度。
使用浏览器访问 chatgpt.com，搜索“今天天气怎么样？”，并总结结果。
抓取 scrapeless.com 页面的 HTML 内容。
抓取 scrapeless.com 页面的 Markdown 内容。
获取 scrapeless.com 的截图。

设置指南

获取 Scrapeless Key

登录 Scrapeless 控制台（提供免费试用）
然后点击左侧的“设置” -> 选择“API Key 管理” -> 点击“创建 API Key”。最后，点击你创建的 API Key 进行复制。

preview

配置你的 MCP 客户端

Scrapeless MCP Server 支持 Stdio 和 Streamable HTTP 两种传输模式。

🖥️ Stdio（本地执行）

{
  "mcpServers": {
    "Scrapeless MCP Server": {
      "command": "npx",
      "args": ["-y", "scrapeless-mcp-server"],
      "env": {
        "SCRAPELESS_KEY": "YOUR_SCRAPELESS_KEY"
      }
    }
  }
}

🌐 Streamable HTTP（托管 API 模式）

{
  "mcpServers": {
    "Scrapeless MCP Server": {
      "type": "streamable-http",
      "url": "https://api.scrapeless.com/mcp",
      "headers": {
        "x-api-token": "YOUR_SCRAPELESS_KEY"
      },
      "disabled": false,
      "alwaysAllow": []
    }
  }
}

高级选项

使用可选参数自定义浏览器会话行为。这些参数可以通过环境变量（适用于 Stdio）或 HTTP 头（适用于 Streamable HTTP）设置：

Stdio (环境变量)	Streamable HTTP (HTTP 头)	描述
BROWSER_PROFILE_ID	x-browser-profile-id	指定一个可复用的浏览器配置文件 ID，用于会话连续性。
BROWSER_PROFILE_PERSIST	x-browser-profile-persist	启用持久化存储，用于 cookies、本地存储等。
BROWSER_SESSION_TTL	x-browser-session-ttl	定义最大会话超时时间（秒）。会话将在不活动达到此持续时间后自动过期。

与 Claude Desktop 集成

打开 Claude Desktop
导航至：Settings → Tools → MCP Servers
点击 “添加 MCP Server”
粘贴上述 Stdio 或 Streamable HTTP 配置
保存并启用服务器
Claude 现在将能够使用 Scrapeless 发起网络查询、提取内容并与页面交互

与 Cursor IDE 集成

打开 Cursor
按下 Cmd + Shift + P 并搜索：Configure MCP Servers
使用上述格式添加 Scrapeless MCP 配置
保存文件并重启 Cursor（如果需要）
现在你可以向 Cursor 询问类似以下内容：
1. "Search StackOverflow for a solution to this error"
2. "Scrape the HTML from this page"
它将在后台使用 Scrapeless。

支持的 MCP 工具

名称	描述
google_search	通用信息搜索引擎。
google_trends	从 Google Trends 获取热门搜索数据。
browser_create	使用 Scrapeless 创建或复用云浏览器会话。
browser_close	通过断开云浏览器连接来关闭当前会话。
browser_goto	将浏览器导航到指定 URL。
browser_go_back	在浏览器历史记录中后退一步。
browser_go_forward	在浏览器历史记录中前进一步。
browser_click	点击页面上的特定元素。
browser_type	在指定输入字段中键入文本。
browser_press_key	模拟按键。
browser_wait_for	等待特定页面元素出现。
browser_wait	暂停执行一段固定时间。
browser_screenshot	捕获当前页面的截图。
browser_get_html	获取当前页面的完整 HTML。
browser_get_text	获取当前页面的所有可见文本。
browser_scroll	滚动到页面底部。
browser_scroll_to	将特定元素滚动到视图中。
scrape_html	抓取一个 URL 并返回其完整 HTML 内容。
scrape_markdown	抓取一个 URL 并将其内容作为 Markdown 返回。
scrape_screenshot	捕获任何网页的高质量截图。

安全最佳实践

当将 Scrapeless MCP Server 与 LLM（如 ChatGPT、Claude 或 Cursor）一起使用时，谨慎处理所有抓取或提取的网络内容至关重要。网络数据默认不可信，不当处理可能会使你的应用面临提示注入或其他安全漏洞的风险。

✅ 推荐做法

切勿将原始抓取内容直接传入 LLM 提示。 原始 HTML、JavaScript 或用户生成的文本可能包含隐藏的注入载荷。
清理并验证所有提取的内容。 在将内容用于下游逻辑或 AI 模型之前，剥离或转义潜在有害的标签和脚本。
优先使用结构化提取，而非自由格式文本。 使用 scrape_html、scrape_markdown 或带有已知安全选择器的定向 browser_get_text 等工具，仅提取你信任的内容。
在抓取动态生成的页面时应用域名或选择器白名单，将数据流限制在已知和可信的来源。
记录并监控所有通过浏览器或抓取工具发出的出站请求，尤其是在处理敏感数据、令牌或内部网络访问时。

🚫 避免

将抓取的 HTML 直接注入提示
让用户指定任意 URL 或 CSS 选择器而不进行验证
存储未经过滤的抓取内容以供将来提示使用

社区

MCP Server Discord

联系我们

如有问题、建议或合作咨询，请随时通过以下方式联系我们：