Scrapeless MCP Server

官方

将实时Scrapeless Google SERP(Google搜索、Google航班、Google地图、Google职位等)结果集成到您的LLM应用中。该服务器可为AI工作流、聊天机器人和研究工具提供动态上下文检索。

文档

preview

Scrapeless MCP Server

欢迎使用官方 Scrapeless 模型上下文协议 (MCP) Server —— 这是一个强大的集成层,让 LLM、AI Agent 和 AI 应用能够实时与网络交互。

基于开放的 MCP 标准构建,Scrapeless MCP Server 可将 ChatGPTClaude 等模型以及 CursorWindsurf 等工具无缝连接到广泛的外部能力,包括:

  • Google 服务集成(搜索、趋势)
  • 浏览器自动化,用于页面级导航和交互
  • 抓取动态、重度依赖 JS 的网站——导出为 HTML、Markdown 或截图

无论你是在构建 AI 研究助手、编程副驾驶,还是自主网络 Agent,此服务器都能为你的工作流提供所需的动态上下文和真实世界数据——且不会被拦截

使用示例

  1. 使用 Claude 进行自动化网络交互和数据提取

借助 Scrapeless MCP Browser,Claude 可以通过对话式命令执行复杂任务,如网页导航、点击、滚动和抓取,并通过 live sessions 实时预览网络交互结果。

preview

  1. 绕过 Cloudflare 获取目标页面内容

使用 Scrapeless MCP Browser 服务,自动访问 Cloudflare 页面,流程完成后提取页面内容并以 Markdown 格式返回。

preview

  1. 提取动态渲染的页面内容并写入文件

使用 Scrapeless MCP Universal API,抓取上述目标页面的 JavaScript 渲染内容,以 Markdown 格式导出,最后写入名为 text.md 的本地文件。

preview

  1. 自动化 SERP 抓取

使用 Scrapeless MCP Server,在 Google 搜索中查询关键词“web scraping”,获取前 10 条搜索结果(包括标题、链接和摘要),并将内容写入名为 serp.text 的文件。

preview

以下是一些如何使用这些服务器的额外示例:

示例
通过 Google 搜索 scrapeless。
查找过去一年“AI”的搜索热度。
使用浏览器访问 chatgpt.com,搜索“今天天气怎么样?”,并总结结果。
抓取 scrapeless.com 页面的 HTML 内容。
抓取 scrapeless.com 页面的 Markdown 内容。
获取 scrapeless.com 的截图。

设置指南

  1. 获取 Scrapeless Key
  • 登录 Scrapeless 控制台(提供免费试用)
  • 然后点击左侧的“设置” -> 选择“API Key 管理” -> 点击“创建 API Key”。最后,点击你创建的 API Key 进行复制

preview

  1. 配置你的 MCP 客户端

Scrapeless MCP Server 支持 StdioStreamable HTTP 两种传输模式。

🖥️ Stdio(本地执行)

{
  "mcpServers": {
    "Scrapeless MCP Server": {
      "command": "npx",
      "args": ["-y", "scrapeless-mcp-server"],
      "env": {
        "SCRAPELESS_KEY": "YOUR_SCRAPELESS_KEY"
      }
    }
  }
}

🌐 Streamable HTTP(托管 API 模式)

{
  "mcpServers": {
    "Scrapeless MCP Server": {
      "type": "streamable-http",
      "url": "https://api.scrapeless.com/mcp",
      "headers": {
        "x-api-token": "YOUR_SCRAPELESS_KEY"
      },
      "disabled": false,
      "alwaysAllow": []
    }
  }
}

高级选项

使用可选参数自定义浏览器会话行为。这些参数可以通过环境变量(适用于 Stdio)或 HTTP 头(适用于 Streamable HTTP)设置:

Stdio (环境变量)Streamable HTTP (HTTP 头)描述
BROWSER_PROFILE_IDx-browser-profile-id指定一个可复用的浏览器配置文件 ID,用于会话连续性。
BROWSER_PROFILE_PERSISTx-browser-profile-persist启用持久化存储,用于 cookies、本地存储等。
BROWSER_SESSION_TTLx-browser-session-ttl定义最大会话超时时间(秒)。会话将在不活动达到此持续时间后自动过期。

与 Claude Desktop 集成

  1. 打开 Claude Desktop
  2. 导航至:SettingsToolsMCP Servers
  3. 点击 “添加 MCP Server”
  4. 粘贴上述 StdioStreamable HTTP 配置
  5. 保存并启用服务器
  6. Claude 现在将能够使用 Scrapeless 发起网络查询、提取内容并与页面交互

与 Cursor IDE 集成

  1. 打开 Cursor
  2. 按下 Cmd + Shift + P 并搜索:Configure MCP Servers
  3. 使用上述格式添加 Scrapeless MCP 配置
  4. 保存文件并重启 Cursor(如果需要)
  5. 现在你可以向 Cursor 询问类似以下内容:
    1. "Search StackOverflow for a solution to this error"
    2. "Scrape the HTML from this page"
  6. 它将在后台使用 Scrapeless。

支持的 MCP 工具

名称描述
google_search通用信息搜索引擎。
google_trends从 Google Trends 获取热门搜索数据。
browser_create使用 Scrapeless 创建或复用云浏览器会话。
browser_close通过断开云浏览器连接来关闭当前会话。
browser_goto将浏览器导航到指定 URL。
browser_go_back在浏览器历史记录中后退一步。
browser_go_forward在浏览器历史记录中前进一步。
browser_click点击页面上的特定元素。
browser_type在指定输入字段中键入文本。
browser_press_key模拟按键。
browser_wait_for等待特定页面元素出现。
browser_wait暂停执行一段固定时间。
browser_screenshot捕获当前页面的截图。
browser_get_html获取当前页面的完整 HTML。
browser_get_text获取当前页面的所有可见文本。
browser_scroll滚动到页面底部。
browser_scroll_to将特定元素滚动到视图中。
scrape_html抓取一个 URL 并返回其完整 HTML 内容。
scrape_markdown抓取一个 URL 并将其内容作为 Markdown 返回。
scrape_screenshot捕获任何网页的高质量截图。

安全最佳实践

当将 Scrapeless MCP Server 与 LLM(如 ChatGPT、Claude 或 Cursor)一起使用时,谨慎处理所有抓取或提取的网络内容至关重要。网络数据默认不可信,不当处理可能会使你的应用面临提示注入或其他安全漏洞的风险。

✅ 推荐做法

  • 切勿将原始抓取内容直接传入 LLM 提示。 原始 HTML、JavaScript 或用户生成的文本可能包含隐藏的注入载荷。
  • 清理并验证所有提取的内容。 在将内容用于下游逻辑或 AI 模型之前,剥离或转义潜在有害的标签和脚本。
  • 优先使用结构化提取,而非自由格式文本。 使用 scrape_htmlscrape_markdown 或带有已知安全选择器的定向 browser_get_text 等工具,仅提取你信任的内容。
  • 在抓取动态生成的页面时应用域名或选择器白名单,将数据流限制在已知和可信的来源。
  • 记录并监控所有通过浏览器或抓取工具发出的出站请求,尤其是在处理敏感数据、令牌或内部网络访问时。

🚫 避免

  • 将抓取的 HTML 直接注入提示
  • 让用户指定任意 URL 或 CSS 选择器而不进行验证
  • 存储未经过滤的抓取内容以供将来提示使用

社区

联系我们

如有问题、建议或合作咨询,请随时通过以下方式联系我们: