Decodo

官方

轻松访问网页数据。简化从网站和在线来源获取信息的过程。

GitHub

你可以用 Decodo MCP 做什么？

将任意网页抓取为 Markdown — 通过 scrape_as_markdown 从 URL 提取干净、适合 LLM 处理的内容。
捕获网页截图 — 使用 screenshot 为任意网站拍摄视觉快照。
搜索 Google 和 Bing — 通过 google_search 和 bing_search 获取解析后的 SERP 结果。
获取电商产品数据 — 在 Amazon、Walmart 或 Target 上查询价格、卖家及畅销商品。
收集社交媒体内容 — 抓取 Reddit 帖子、TikTok 视频或 YouTube 元数据及字幕。
查询 AI 搜索工具 — 与 ChatGPT、Perplexity 或 Google AI Mode 交互，获取 AI 驱动的答案。

文档

Decodo MCP 服务器

使用 MCP（模型上下文协议）将 LLM 和 AI 代理连接到实时网络数据。Decodo MCP 服务器让您可以直接从 Claude、Cursor 和 Windsurf 等 AI 工具中抓取网站、搜索引擎、电商平台和社交媒体，无需从头构建抓取基础设施。

结构化输出：JSON、Markdown 和截图
服务器端 JavaScript 渲染和反机器人处理
覆盖 195+ 个地区的 1.25 亿+ IP

什么是 Decodo MCP 服务器？

Decodo MCP 服务器是 AI 代理的网络抓取层。它将兼容 MCP 的客户端连接到 Decodo 的网络抓取 API，从而实现：

面向 LLM 的网络抓取
用于 RAG 的实时数据检索
AI 代理浏览和研究
从动态网站提取结构化数据

无需维护代理、解析器和重试逻辑，您只需一个集成点即可可靠地访问网络数据。

为什么使用 MCP 进行网络抓取？

模型上下文协议 (MCP) 是将 AI 代理连接到外部工具和数据源的新兴标准。借助 MCP：

代理可以动态调用工具
集成保持标准化
工作流可跨环境扩展

Decodo MCP 服务器通过此标准为您的代理提供可靠、生产就绪的网络访问。

主要功能

面向 AI 代理的网络抓取，无需基础设施。 抓取任何网站，包括重度使用 JavaScript 的页面，无需处理代理轮换、CAPTCHA 解决或反机器人系统。

适用于 LLM 工作流的结构化输出。 Markdown（LLM 就绪）、JSON（用于结构化管道）和截图（用于视觉上下文），专为 RAG 管道、AI 研究代理和自动化流程构建。

内置对热门目标的支持。 为 Google 和 Bing（SERP）、Amazon、Walmart 和 Target（电商）、Reddit、TikTok 和 YouTube（社交媒体）以及 ChatGPT 和 Perplexity（AI 搜索）提供现成工具。

全球代理基础设施。 1.25 亿+ 住宅 IP，195+ 个地理位置，即使在最受保护的目标上也能达到 99.99% 的成功率。

模块化 MCP 工具集。 仅启用您需要的功能：web、search、ecommerce、social_media、ai，以实现更清晰的工具选择和更好的代理性能。

快速实现价值。 从 API 密钥到首次抓取只需几分钟，无设置开销。

使用场景

当您需要为 AI 代理进行网络抓取、大规模结构化数据提取、可靠访问动态网站、为 RAG 获取实时数据，或作为从头构建抓取基础设施的替代方案时，可使用 Decodo MCP 服务器。常见场景：

AI 驱动的网络抓取 – 让 LLM 能够收集最新数据，而不是依赖静态训练数据。
使用实时数据的 RAG – 将实时 Google、Bing 和 AI 搜索结果拉入检索管道。
电商情报 – 在不被屏蔽的情况下，追踪各市场的产品价格、列表和卖家。
社交媒体数据收集 – 从 Reddit、TikTok 和 YouTube 收集帖子、频道和参与度数据。
旅行和价格聚合 – 构建跨网站收集实时定价和可用性的工具。

快速开始

创建免费账户，访问 dashboard.decodo.com – 高达 2K 次免费请求，无需信用卡。
获取您的 API 密钥。 从仪表板获取 Web Scraping API 基本身份验证令牌。
下载 Node.js 18+，从 https://nodejs.org.
获取 MCP 客户端，如 Claude Desktop、Cursor、Windsurf 或其他兼容 MCP 的工具。
在您的 AI 客户端中配置 MCP 服务器（请参阅下面的配置示例）。

连接到 Decodo 的 MCP 服务器

打开您首选的 MCP 客户端并添加以下配置（请参阅下方 Claude Code、Cursor、Windsurf 的示例）：

{
  "mcpServers": {
    "Decodo": {
      "url": "https://mcp.decodo.com/mcp",
      "headers": {
        "Authorization": "Basic <basic_auth_token>"
      }
    }
  }
}

Claude Desktop

打开 Claude Desktop → 设置 → 开发者 → 编辑配置。
添加到 claude_desktop_config.json：

{
  "mcpServers": {
    "Decodo": {
      "command": "npx",
      "args": ["-y", "@decodo/mcp-server"],
      "env": {
        "SCRAPER_API_TOKEN": "<basic_auth_token>",
        "TOOLSETS": "web,ai"
      }
    }
  }
}

保存并重启 Claude Desktop。

Cursor

打开设置 → MCP。
点击添加新的全局 MCP 服务器（打开 mcp.json）。
添加与上述相同的配置。
保存 — 在 Decodo 旁边寻找绿色状态指示器。

Windsurf

打开设置 → Windsurf 设置。
滚动到 Cascade → 添加自定义服务器 +（打开 mcp_config.json）。
添加与上述相同的配置。
保存并重启 Windsurf。

测试您的设置

连接后，在您的客户端中尝试此提示：

▎ "抓取 Hacker News 上排名前 5 的文章标题"

您应该在几秒钟内收到一个结构化的列表。如果看到身份验证错误，请仔细检查仪表板中的令牌。

可选：启用特定工具集

在本地运行 MCP 服务器

先决条件

Node.js 18.0+
一个 MCP 客户端 - 热门选择有 Claude Desktop 和 Cursor

分步指南

克隆此仓库：

git clone https://github.com/Decodo/mcp-server

在终端中运行以下命令：

cd decodo-mcp-server
npm install
npm run build

记下您的构建位置：

cd build/
pwd

将 index.js 添加到此目录的末尾，您的构建文件位置应类似于：

/Users/your.user/projects/decodo-mcp/build/index.js

使用服务器信息更新您的 MCP 客户端：

{
  "mcpServers": {
    "decodo-mcp": {
      "command": "node",
      "args": ["/Users/your.user/projects/decodo-mcp/build/index.js"],
      "env": {
        "SCRAPER_API_TOKEN": "<web_scraping_api_base64_token>"
      }
    }
  }
}

工具集

工具被组织成工具集。您可以通过 toolsets 查询参数传递逗号分隔的列表，有选择地启用特定工具集：

    "Decodo MCP Server": {
      "url": "https://mcp.decodo.com/mcp?toolsets=web,ai",
      "headers": {
        "Authorization": "Basic <your_auth_token>"
      }
    }

未指定工具集时，将注册所有工具。

工具集	工具
`web`	`scrape_as_markdown`、`screenshot`
`search`	`google_search`、`google_ads`、`google_lens`、`google_travel_hotels`、`bing_search`
`ecommerce`	`amazon_search`、`amazon_product`、`amazon_pricing`、`amazon_sellers`、`amazon_bestsellers`、`walmart_search`、`walmart_product`、`target_search`、`target_product`、`tiktok_shop_search`、`tiktok_shop_product`、`tiktok_shop_url`
`social_media`	`reddit_post`、`reddit_subreddit`、`reddit_user`、`tiktok_post`、`youtube_metadata`、`youtube_channel`、`youtube_subtitles`、`youtube_search`
`ai`	`chatgpt`、`perplexity`、`google_ai_mode`

工具

服务器公开以下工具：

工具	描述	示例提示
`scrape_as_markdown`	抓取任意目标 URL，需要通过提示词提供 URL。以 Markdown 格式返回结果。	从美国 IP 地址抓取 peacock.com，并告诉我定价信息。
`screenshot`	捕获任意网页的截图，并以 PNG 图片格式返回。	从美国 IP 地址截取 github.com 的截图。
`google_search`	针对给定查询抓取 Google 搜索结果，并返回解析后的结果。	抓取 Google 搜索“鞋子”的结果，并告诉我排名第一的结果。
`google_ads`	抓取 Google Ads 搜索结果。	抓取 Google Ads 中“笔记本电脑”的搜索结果，并展示排名靠前的广告。
`google_lens`	抓取 Google Lens 图片搜索结果。	用 Google Lens 搜索这张图片：https://example.com/image.jpg
`google_ai_mode`	抓取 Google AI 模式（AI 搜索）结果。	询问 Google AI 模式：排名前三的犬种是什么？
`google_travel_hotels`	抓取 Google Travel 酒店搜索结果。	在 Google Travel 酒店中搜索巴黎的酒店。
`amazon_search`	针对给定查询抓取 Amazon 搜索结果，并返回解析后的结果。	抓取 Amazon 搜索“无线键盘”的结果。
`amazon_product`	抓取 Amazon 商品页面。	抓取 Amazon 商品 B09H74FXNW 并显示详细信息。
`amazon_pricing`	抓取 Amazon 商品定价信息。	获取 Amazon 商品 B09H74FXNW 的定价信息。
`amazon_sellers`	抓取 Amazon 卖家信息。	获取 Amazon 卖家 A1R0Z7FJGTKESH 的信息。
`amazon_bestsellers`	抓取 Amazon 畅销商品列表。	显示 Amazon 电子产品类的畅销商品。
`walmart_search`	针对给定查询抓取 Walmart 搜索结果，并返回解析后的结果。	抓取 Walmart 搜索“露营帐篷”的结果。
`walmart_product`	抓取 Walmart 商品页面。	抓取 Walmart 商品 15296401808。
`target_search`	针对给定查询抓取 Target 搜索结果，并返回解析后的结果。	抓取 Target 搜索“厨房电器”的结果。
`target_product`	抓取 Target 商品页面。	抓取 Target 商品 92186007。
`tiktok_post`	抓取 TikTok 帖子 URL 以获取结构化数据（例如互动数据、标题、话题标签）。	抓取这个 TikTok 帖子：https://www.tiktok.com/@nba/video/7393013274725403950
`tiktok_shop_search`	针对给定查询抓取 TikTok Shop 搜索结果，并返回解析后的结果。	抓取 TikTok Shop 搜索“手机壳”的结果。
`tiktok_shop_product`	抓取 TikTok Shop 商品页面。	抓取 TikTok Shop 商品 1731541214379741272。
`tiktok_shop_url`	通过 URL 抓取 TikTok Shop 页面。	抓取这个 TikTok Shop URL：https://www.tiktok.com/shop/s?q=HEADPHONES
`youtube_metadata`	抓取 YouTube 视频元数据。	获取 YouTube 视频 dFu9aKJoqGg 的元数据。
`youtube_channel`	抓取 YouTube 频道视频。	抓取 YouTube 频道 @decodo_official。
`youtube_subtitles`	抓取 YouTube 视频字幕。	获取 YouTube 视频 L8zSWbQN-v8 的字幕。
`youtube_search`	搜索 YouTube 视频。	在 YouTube 上搜索“如何照顾龙猫”。
`reddit_post`	抓取特定的 Reddit 帖子。	抓取以下 Reddit 帖子：https://www.reddit.com/r/horseracing/comments/1nsrn3/
`reddit_subreddit`	抓取 Reddit 子版块结果。	抓取本周 r/Python 排名前 5 的帖子。
`reddit_user`	抓取 Reddit 用户资料及其帖子/评论。	抓取这个 Reddit 用户：https://www.reddit.com/user/IWasRightOnce/
`bing_search`	抓取 Bing 搜索结果。	搜索 Bing 中的笔记本电脑评测。
`chatgpt`	搜索并与 ChatGPT 交互，获取 AI 驱动的回复和对话。	让 ChatGPT 用简单的术语解释量子计算。
`perplexity`	搜索并与 Perplexity 交互，获取 AI 驱动的回复和对话。	询问 Perplexity 网页开发的最新趋势是什么。

参数

以下参数从用户提示词中推断得出：

参数	描述
`jsRender`	在无头浏览器中渲染目标 URL。
`geo`	设置请求来源的国家/地区。
`locale`	设置请求的语言环境。
`tokenLimit`	将响应内容截断到此限制。在上下文窗口较小时很有用。
`prompt`	发送给 AI 工具的提示词（`chatgpt`、`perplexity`）。
`search`	激活 ChatGPT 的网页搜索功能（仅限 `chatgpt`）。
`xhr`	当为 true 时，在支持的抓取结果中包含 XHR 或 fetch 响应（例如 `tiktok_post`）。
`deviceType`	为请求模拟的设备类型（`desktop`、`mobile`、`tablet`）。
`domain`	用于请求的域名（例如 `amazon.com`、`amazon.co.uk`、`bing.com`）。
`pageFrom`	分页的起始页码。
`deliveryZip`	配送地点的邮政编码（Target、Walmart）。
`storeId`	本地库存的商店 ID（Target、Walmart）。
`country`	TikTok Shop 请求的国家/地区。
`limit`	返回的最大结果数（例如 YouTube 频道视频）。
`language_code`	字幕的语言代码（例如 `en`、`es`）。

示例

抓取有地域限制的内容

使用以下提示词查询您的 AI 代理：

Scrape peacock.com from a German IP address and tell me the pricing.

此提示词会表明 peacock.com 有地域限制。要绕过地域限制：

Scrape peacock.com from a US IP address and tell me the pricing.

限制响应令牌数量

如果您的代理上下文窗口较小，抓取返回的内容将自动截断，以避免上下文溢出。您可以在提示词中增加返回的令牌数量：

Scrape hacker news, return 50k tokens.

如果您的代理上下文窗口较大，告诉它返回 full content：

Scrape hacker news, return full content.

与 Decodo 代理技能一起使用

此服务器为您的代理提供了抓取工具。Decodo/agent-skills 教会它何时使用这些工具、使用哪个平台以及如何调用——这样代理就能自行选择合适的工具和参数，而不是靠猜测。

这些技能在 decodo CLI、此托管 MCP 服务器和原始 HTTP API 之间进行路由，并在没有 shell 可用时自动回退到 MCP 服务器。将两者配对，可在单一设置中为您的代理提供执行层（此服务器）和决策层（技能）。

快速入门（Claude Code）：

/plugin marketplace add Decodo/agent-skills
/plugin install decodo@decodo-skills

有关手动安装和其他代理（Cursor、Codex、Gemini CLI、Windsurf）的信息，请参阅 agent-skills README。

试用

只需点击几下，即可将 Decodo MCP Server 集成到您的 AI 工作流程中，并为您的 AI 代理配备来自任何网站的实时数据。

免费开始 | 文档 | Discord

许可证

所有代码均在 MIT 许可证下发布。