Decodo MCP Server

chính thức

Truy cập dữ liệu web dễ dàng. Truy xuất thông tin đơn giản từ các trang web và nguồn trực tuyến.

Tài liệu

Máy chủ Decodo MCP

Install MCP Server

Kết nối LLM và tác nhân AI với dữ liệu web trực tiếp bằng MCP (Model Context Protocol). Máy chủ Decodo MCP cho phép bạn cạo dữ liệu từ trang web, công cụ tìm kiếm, nền tảng thương mại điện tử và mạng xã hội trực tiếp từ các công cụ AI như Claude, Cursor và Windsurf, tất cả đều không cần xây dựng cơ sở hạ tầng cạo dữ liệu từ đầu.

  • Đầu ra có cấu trúc ở dạng JSON, Markdown và ảnh chụp màn hình
  • Kết xuất JavaScript phía máy chủ và xử lý chống bot
  • Hơn 125 triệu IP trên 195+ vị trí

Máy chủ Decodo MCP là gì?

Máy chủ Decodo MCP là một lớp cạo dữ liệu web cho các tác nhân AI. Nó kết nối các máy khách tương thích MCP với API Cạo dữ liệu Web của Decodo, cho phép:

  • Cạo dữ liệu web cho LLM
  • Truy xuất dữ liệu thời gian thực cho RAG
  • Duyệt web và nghiên cứu của tác nhân AI
  • Trích xuất dữ liệu có cấu trúc từ các trang web động

Thay vì phải duy trì proxy, trình phân tích cú pháp và logic thử lại, bạn có một điểm tích hợp duy nhất để truy cập dữ liệu web đáng tin cậy.

Tại sao sử dụng MCP để cạo dữ liệu web?

Model Context Protocol (MCP) là tiêu chuẩn mới nổi để kết nối các tác nhân AI với các công cụ và nguồn dữ liệu bên ngoài. Với MCP:

  • Tác nhân có thể gọi công cụ một cách linh hoạt
  • Tích hợp được chuẩn hóa
  • Quy trình làm việc có thể mở rộng trên nhiều môi trường

Máy chủ Decodo MCP cung cấp cho tác nhân của bạn quyền truy cập web đáng tin cậy, sẵn sàng cho sản xuất thông qua tiêu chuẩn này.

Tính năng chính

Cạo dữ liệu web cho tác nhân AI, không cần cơ sở hạ tầng. Cạo bất kỳ trang web nào, bao gồm các trang sử dụng nhiều JavaScript, mà không cần xử lý xoay vòng proxy, giải CAPTCHA hoặc hệ thống chống bot.

Đầu ra có cấu trúc cho quy trình LLM. Markdown (sẵn sàng cho LLM), JSON (cho pipeline có cấu trúc) và ảnh chụp màn hình (cho ngữ cảnh trực quan), được xây dựng cho pipeline RAG, tác nhân nghiên cứu AI và luồng tự động hóa.

Hỗ trợ tích hợp cho các mục tiêu phổ biến. Công cụ sẵn có cho Google và Bing (SERP), Amazon, Walmart và Target (thương mại điện tử), Reddit, TikTok và YouTube (mạng xã hội), và ChatGPT và Perplexity (tìm kiếm AI).

Cơ sở hạ tầng proxy toàn cầu. Hơn 125 triệu IP dân cư, 195+ vị trí địa lý và tỷ lệ thành công 99,99% ngay cả trên các mục tiêu được bảo vệ nghiêm ngặt nhất.

Bộ công cụ MCP mô-đun. Chỉ kích hoạt những gì bạn cần: web, search, ecommerce, social_media, ai để lựa chọn công cụ gọn gàng hơn và hiệu suất tác nhân tốt hơn.

Thời gian đạt giá trị nhanh chóng. Từ khóa API đến lần cạo đầu tiên chỉ trong vài phút, không mất thời gian thiết lập.

Trường hợp sử dụng

Sử dụng Máy chủ Decodo MCP khi bạn cần cạo dữ liệu web cho tác nhân AI, trích xuất dữ liệu có cấu trúc ở quy mô lớn, truy cập đáng tin cậy vào các trang web động, dữ liệu thời gian thực cho RAG hoặc thay thế cho việc xây dựng cơ sở hạ tầng cạo dữ liệu từ đầu. Các tình huống phổ biến:

  • Cạo dữ liệu web hỗ trợ AI – cho phép LLM thu thập dữ liệu mới thay vì dựa vào dữ liệu huấn luyện tĩnh.
  • RAG với dữ liệu trực tiếp – kéo kết quả tìm kiếm thời gian thực từ Google, Bing và AI vào pipeline truy xuất.
  • Thông tin thương mại điện tử – theo dõi giá sản phẩm, danh sách và người bán trên các sàn thương mại mà không bị chặn.
  • Thu thập dữ liệu mạng xã hội – thu thập bài đăng, kênh và dữ liệu tương tác từ Reddit, TikTok và YouTube.
  • Tổng hợp giá và du lịch – xây dựng công cụ thu thập giá trực tiếp và tình trạng còn hàng trên các trang web.

Bắt đầu nhanh

  1. Tạo tài khoản miễn phí tại dashboard.decodo.com – tối đa 2K yêu cầu miễn phí, không cần thẻ tín dụng.
  2. Lấy khóa API của bạn. Lấy mã thông báo xác thực cơ bản của API Cạo dữ liệu Web từ bảng điều khiển.
  3. Tải xuống Node.js 18+ từ https://nodejs.org.
  4. Tải máy khách MCP như Claude Desktop, Cursor, Windsurf hoặc các công cụ tương thích MCP khác.
  5. Cấu hình máy chủ MCP trong máy khách AI của bạn (xem ví dụ cấu hình bên dưới).

Kết nối với Máy chủ Decodo MCP

Mở máy khách MCP ưa thích của bạn và thêm cấu hình sau (xem ví dụ cho Claude Code, Cursor, Windsurf bên dưới):

{
  "mcpServers": {
    "Decodo": {
      "url": "https://mcp.decodo.com/mcp",
      "headers": {
        "Authorization": "Basic <basic_auth_token>"
      }
    }
  }
}

Claude Desktop

  1. Mở Claude Desktop → Cài đặt → Nhà phát triển → Chỉnh sửa Cấu hình.
  2. Thêm vào claude_desktop_config.json:
{
  "mcpServers": {
    "Decodo": {
      "command": "npx",
      "args": ["-y", "@decodo/mcp-server"],
      "env": {
        "SCRAPER_API_TOKEN": "<basic_auth_token>",
        "TOOLSETS": "web,ai"
      }
    }
  }
}
  1. Lưu và khởi động lại Claude Desktop.

Cursor

  1. Mở Cài đặt → MCP.
  2. Nhấp vào Thêm máy chủ MCP toàn cục mới (mở mcp.json).
  3. Thêm cấu hình tương tự như trên.
  4. Lưu — tìm chỉ báo trạng thái màu xanh bên cạnh Decodo.

Windsurf

  1. Mở Cài đặt → Cài đặt Windsurf.
  2. Cuộn đến Cascade → Thêm máy chủ tùy chỉnh + (mở mcp_config.json).
  3. Thêm cấu hình tương tự như trên.
  4. Lưu và khởi động lại Windsurf.

Kiểm tra thiết lập của bạn

Sau khi kết nối, hãy thử lời nhắc này trong máy khách của bạn:

▎ "Cạo tiêu đề của 5 bài viết hàng đầu từ Hacker News"

Bạn sẽ nhận được danh sách có cấu trúc trở lại trong vài giây. Nếu thấy lỗi xác thực, hãy kiểm tra lại mã thông báo từ bảng điều khiển.

Tùy chọn: kích hoạt bộ công cụ cụ thể

Chạy máy chủ MCP cục bộ

Điều kiện tiên quyết

  • Node.js 18.0+
  • Một máy khách MCP - các lựa chọn phổ biến là Claude DesktopCursor

Hướng dẫn từng bước

  1. Sao chép kho lưu trữ này:
git clone https://github.com/Decodo/mcp-server
  1. Chạy các lệnh sau trong terminal:
cd decodo-mcp-server
npm install
npm run build
  1. Ghi lại vị trí build của bạn:
cd build/
pwd

Thêm index.js vào cuối thư mục này, vị trí tệp build của bạn sẽ trông giống như sau:

/Users/your.user/projects/decodo-mcp/build/index.js
  1. Cập nhật máy khách MCP của bạn với thông tin máy chủ:
{
  "mcpServers": {
    "decodo-mcp": {
      "command": "node",
      "args": ["/Users/your.user/projects/decodo-mcp/build/index.js"],
      "env": {
        "SCRAPER_API_TOKEN": "<web_scraping_api_base64_token>"
      }
    }
  }
}

Bộ công cụ

Các công cụ được tổ chức thành các bộ công cụ. Bạn có thể kích hoạt có chọn lọc các bộ công cụ cụ thể bằng cách truyền danh sách phân tách bằng dấu phẩy qua tham số truy vấn toolsets:

    "Decodo MCP Server": {
      "url": "https://mcp.decodo.com/mcp?toolsets=web,ai",
      "headers": {
        "Authorization": "Basic <your_auth_token>"
      }
    }

Khi không có bộ công cụ nào được chỉ định, tất cả các công cụ sẽ được đăng ký.

Bộ công cụCông cụ
webscrape_as_markdown, screenshot
searchgoogle_search, google_ads, google_lens, google_travel_hotels, bing_search
ecommerceamazon_search, amazon_product, amazon_pricing, amazon_sellers, amazon_bestsellers, walmart_search, walmart_product, target_search, target_product, tiktok_shop_search, tiktok_shop_product, tiktok_shop_url
social_mediareddit_post, reddit_subreddit, reddit_user, tiktok_post, youtube_metadata, youtube_channel, youtube_subtitles, youtube_search
aichatgpt, perplexity, google_ai_mode

Công cụ

Máy chủ cung cấp các công cụ sau:

Công cụMô tảLời nhắc ví dụ
scrape_as_markdownCạo bất kỳ URL mục tiêu nào, mong đợi URL được cung cấp qua lời nhắc. Trả về kết quả dưới dạng Markdown.Cạo peacock.com từ địa chỉ IP Hoa Kỳ và cho tôi biết giá.
screenshotChụp ảnh màn hình của bất kỳ trang web nào và trả về dưới dạng ảnh PNG.Chụp ảnh màn hình github.com từ địa chỉ IP Hoa Kỳ.
google_searchCạo Google Search cho một truy vấn nhất định và trả về kết quả đã phân tích cú pháp.Cạo Google Search cho giày và cho tôi biết vị trí hàng đầu.
google_adsCạo kết quả tìm kiếm Google Ads.Cạo Google Ads cho máy tính xách tay và hiển thị cho tôi các quảng cáo hàng đầu.
google_lensCạo kết quả tìm kiếm hình ảnh Google Lens.Tìm kiếm Google Lens cho hình ảnh này: https://example.com/image.jpg
google_ai_modeCạo kết quả Google AI Mode (Tìm kiếm với AI).Hỏi Google AI Mode: Ba giống chó hàng đầu là gì?
google_travel_hotelsCạo kết quả tìm kiếm Google Travel Hotels.Tìm kiếm Google Travel Hotels cho khách sạn ở Paris.
amazon_searchCạo Amazon Search cho một truy vấn nhất định và trả về kết quả đã phân tích cú pháp.Cạo Amazon Search cho bàn phím không dây.
amazon_productCạo trang Sản phẩm Amazon.Cạo sản phẩm Amazon B09H74FXNW và hiển thị cho tôi chi tiết.
amazon_pricingCạo thông tin giá sản phẩm Amazon.Lấy giá cho sản phẩm Amazon B09H74FXNW.
amazon_sellersCạo thông tin Người bán Amazon.Lấy thông tin về người bán Amazon A1R0Z7FJGTKESH.
amazon_bestsellersCạo danh sách Amazon Bestsellers.Hiển thị cho tôi Amazon bestsellers trong lĩnh vực điện tử.
walmart_searchCạo Walmart Search cho một truy vấn nhất định và trả về kết quả đã phân tích cú pháp.Cạo Walmart Search cho lều cắm trại.
walmart_productCạo trang Sản phẩm Walmart.Cạo sản phẩm Walmart 15296401808.
target_searchCạo Target Search cho một truy vấn nhất định và trả về kết quả đã phân tích cú pháp.Cạo Target Search cho thiết bị nhà bếp.
target_productCạo trang Sản phẩm Target.Cạo sản phẩm Target 92186007.
tiktok_postCạo URL bài đăng TikTok để lấy dữ liệu có cấu trúc (ví dụ: tương tác, chú thích, hashtag).Cạo bài đăng TikTok này: https://www.tiktok.com/@nba/video/7393013274725403950
tiktok_shop_searchCạo TikTok Shop Search cho một truy vấn nhất định và trả về kết quả đã phân tích cú pháp.Cạo TikTok Shop Search cho ốp điện thoại.
tiktok_shop_productCạo trang Sản phẩm TikTok Shop.Cạo sản phẩm TikTok Shop 1731541214379741272.
tiktok_shop_urlCạo trang TikTok Shop theo URL.Cạo URL TikTok Shop này: https://www.tiktok.com/shop/s?q=HEADPHONES
youtube_metadataCạo siêu dữ liệu video YouTube.Lấy siêu dữ liệu cho video YouTube dFu9aKJoqGg.
youtube_channelCạo video kênh YouTube.Cạo kênh YouTube @decodo_official.
youtube_subtitlesCạo phụ đề video YouTube.Lấy phụ đề cho video YouTube L8zSWbQN-v8.
youtube_searchTìm kiếm video YouTube.Tìm kiếm YouTube cho "Cách chăm sóc chinchillas".
reddit_postCạo một bài đăng Reddit cụ thể.Cạo bài đăng Reddit sau: https://www.reddit.com/r/horseracing/comments/1nsrn3/
reddit_subredditCạo kết quả subreddit.Cạo 5 bài đăng hàng đầu trên r/Python tuần này.
reddit_userCạo hồ sơ người dùng Reddit và các bài đăng/bình luận của họ.Cạo người dùng Reddit này: https://www.reddit.com/user/IWasRightOnce/
bing_searchCạo kết quả Bing Search.Tìm kiếm Bing cho đánh giá máy tính xách tay.
chatgptTìm kiếm và tương tác với ChatGPT để nhận phản hồi và hội thoại do AI hỗ trợ.Yêu cầu ChatGPT giải thích điện toán lượng tử bằng thuật ngữ đơn giản.
perplexityTìm kiếm và tương tác với Perplexity để nhận phản hồi và hội thoại do AI hỗ trợ.Hỏi Perplexity về các xu hướng mới nhất trong phát triển web.

Tham số

Các tham số sau được suy ra từ lời nhắc của người dùng:

Tham sốMô tả
jsRenderKết xuất URL mục tiêu trong trình duyệt headless.
geoĐặt quốc gia mà yêu cầu sẽ xuất phát.
localeĐặt ngôn ngữ của yêu cầu.
tokenLimitCắt bớt nội dung phản hồi đến giới hạn này. Hữu ích nếu cửa sổ ngữ cảnh nhỏ.
promptLời nhắc gửi đến các công cụ AI (chatgpt, perplexity).
searchKích hoạt chức năng tìm kiếm web của ChatGPT (chỉ chatgpt).
xhrKhi true, bao gồm phản hồi XHR hoặc fetch trong kết quả cạo nếu được hỗ trợ (ví dụ: tiktok_post).
deviceTypeLoại thiết bị để mô phỏng cho yêu cầu (desktop, mobile, tablet).
domainTên miền sử dụng cho yêu cầu (ví dụ: amazon.com, amazon.co.uk, bing.com).
pageFromSố trang bắt đầu cho phân trang.
deliveryZipMã ZIP cho vị trí giao hàng (Target, Walmart).
storeIdID cửa hàng cho hàng tồn kho cục bộ (Target, Walmart).
countryQuốc gia cho yêu cầu TikTok Shop.
limitSố lượng kết quả tối đa trả về (ví dụ: video kênh YouTube).
language_codeMã ngôn ngữ cho phụ đề (ví dụ: en, es).

Ví dụ

Cạo nội dung bị giới hạn địa lý

Truy vấn tác nhân AI của bạn với lời nhắc sau:

Scrape peacock.com from a German IP address and tell me the pricing.

Lời nhắc này sẽ cho biết peacock.com bị giới hạn địa lý. Để vượt qua giới hạn địa lý:

Scrape peacock.com from a US IP address and tell me the pricing.

Giới hạn số lượng token phản hồi

Nếu tác nhân của bạn có cửa sổ ngữ cảnh nhỏ, nội dung trả về từ việc cạo sẽ tự động bị cắt bớt để tránh tràn ngữ cảnh. Bạn có thể tăng số lượng token trả về trong lời nhắc của mình:

Scrape hacker news, return 50k tokens.

Nếu tác nhân của bạn có cửa sổ ngữ cảnh lớn, hãy yêu cầu nó trả về full content:

Scrape hacker news, return full content.

Kho lưu trữ liên quan

Web Scraping API, Decodo OpenClaw skill

Dùng thử

Tích hợp Máy chủ Decodo MCP vào quy trình làm việc AI của bạn chỉ trong vài cú nhấp chuột và trang bị cho tác nhân AI của bạn dữ liệu thời gian thực từ bất kỳ trang web nào.

Bắt đầu miễn phí | Tài liệu | Discord

Giấy phép

Tất cả mã được phát hành theo Giấy phép MIT.