Scrapeless MCP Server

chính thức

Tích hợp kết quả Scrapeless Google SERP thời gian thực (Google Search, Google Flight, Google Map, Google Jobs...) vào các ứng dụng LLM của bạn. Máy chủ này cho phép truy xuất ngữ cảnh động cho các quy trình AI, chatbot và công cụ nghiên cứu.

Tài liệu

preview

Máy chủ Scrapeless MCP

Chào mừng bạn đến với Máy chủ Giao thức Ngữ cảnh Mô hình (MCP) chính thức của Scrapeless — một lớp tích hợp mạnh mẽ trao quyền cho các LLM, Tác nhân AI và ứng dụng AI tương tác với web theo thời gian thực.

Được xây dựng trên tiêu chuẩn MCP mở, Máy chủ Scrapeless MCP kết nối liền mạch các mô hình như ChatGPT, Claude và các công cụ như CursorWindsurf với nhiều khả năng bên ngoài, bao gồm:

  • Tích hợp dịch vụ Google (Tìm kiếm, Xu hướng)
  • Tự động hóa trình duyệt để điều hướng và tương tác ở cấp độ trang
  • Thu thập các trang web động, nhiều JavaScript—xuất dưới dạng HTML, Markdown hoặc ảnh chụp màn hình

Cho dù bạn đang xây dựng trợ lý nghiên cứu AI, trợ lý lập trình hay tác nhân web tự động, máy chủ này cung cấp ngữ cảnh động và dữ liệu thế giới thực mà quy trình làm việc của bạn cần—mà không bị chặn.

Ví dụ sử dụng

  1. Tương tác Web Tự động và Trích xuất Dữ liệu với Claude

Sử dụng Trình duyệt Scrapeless MCP, Claude có thể thực hiện các tác vụ phức tạp như điều hướng web, nhấp chuột, cuộn trang và thu thập dữ liệu thông qua các lệnh hội thoại, với bản xem trước thời gian thực kết quả tương tác web qua live sessions.

preview

  1. Vượt qua Cloudflare để Truy xuất Nội dung Trang Mục tiêu

Sử dụng dịch vụ Trình duyệt Scrapeless MCP, trang Cloudflare được tự động truy cập và sau khi quá trình hoàn tất, nội dung trang được trích xuất và trả về ở định dạng Markdown.

preview

  1. Trích xuất Nội dung Trang Được Kết xuất Động và Ghi vào Tệp

Sử dụng API Chung Scrapeless MCP, nội dung được kết xuất bằng JavaScript của trang mục tiêu ở trên được thu thập, xuất ở định dạng Markdown và cuối cùng được ghi vào tệp cục bộ có tên text.md.

preview

  1. Thu thập SERP Tự động

Sử dụng Máy chủ Scrapeless MCP, truy vấn từ khóa “web scraping” trên Google Tìm kiếm, truy xuất 10 kết quả tìm kiếm đầu tiên (bao gồm tiêu đề, liên kết và tóm tắt) và ghi nội dung vào tệp có tên serp.text.

preview

Dưới đây là một số ví dụ bổ sung về cách sử dụng các máy chủ này:

Ví dụ
Tìm kiếm scrapeless bằng Google tìm kiếm.
Tìm mức độ quan tâm tìm kiếm cho "AI" trong năm qua.
Sử dụng trình duyệt để truy cập chatgpt.com, tìm kiếm "Thời tiết hôm nay thế nào?" và tóm tắt kết quả.
Thu thập nội dung HTML của trang scrapeless.com.
Thu thập nội dung Markdown của trang scrapeless.com.
Chụp ảnh màn hình của scrapeless.com.

Hướng dẫn Thiết lập

  1. Lấy Khóa Scrapeless
  • Đăng nhập vào Bảng điều khiển Scrapeless (Có bản dùng thử miễn phí)
  • Sau đó nhấp "Cài đặt" ở bên trái -> chọn "Quản lý Khóa API" -> nhấp "Tạo Khóa API". Cuối cùng, nhấp vào Khóa API bạn đã tạo để sao chép nó.

preview

  1. Cấu hình Máy khách MCP của Bạn

Máy chủ Scrapeless MCP hỗ trợ cả hai chế độ truyền tải StdioHTTP Có thể Truyền phát.

🖥️ Stdio (Thực thi Cục bộ)

{
  "mcpServers": {
    "Scrapeless MCP Server": {
      "command": "npx",
      "args": ["-y", "scrapeless-mcp-server"],
      "env": {
        "SCRAPELESS_KEY": "YOUR_SCRAPELESS_KEY"
      }
    }
  }
}

🌐 HTTP Có thể Truyền phát (Chế độ API Lưu trữ)

{
  "mcpServers": {
    "Scrapeless MCP Server": {
      "type": "streamable-http",
      "url": "https://api.scrapeless.com/mcp",
      "headers": {
        "x-api-token": "YOUR_SCRAPELESS_KEY"
      },
      "disabled": false,
      "alwaysAllow": []
    }
  }
}

Tùy chọn Nâng cao

Tùy chỉnh hành vi phiên trình duyệt với các tham số tùy chọn. Chúng có thể được đặt qua biến môi trường (cho Stdio) hoặc tiêu đề HTTP (cho HTTP Có thể Truyền phát):

Stdio (Biến Môi trường)HTTP Có thể Truyền phát (Tiêu đề HTTP)Mô tả
BROWSER_PROFILE_IDx-browser-profile-idChỉ định ID hồ sơ trình duyệt có thể tái sử dụng để duy trì phiên liên tục.
BROWSER_PROFILE_PERSISTx-browser-profile-persistBật lưu trữ liên tục cho cookie, bộ nhớ cục bộ, v.v.
BROWSER_SESSION_TTLx-browser-session-ttlXác định thời gian chờ phiên tối đa tính bằng giây. Phiên sẽ tự động hết hạn sau khoảng thời gian không hoạt động này.

Tích hợp với Claude Desktop

  1. Mở Claude Desktop
  2. Điều hướng đến: SettingsToolsMCP Servers
  3. Nhấp "Thêm Máy chủ MCP"
  4. Dán cấu hình Stdio hoặc Streamable HTTP ở trên
  5. Lưu và kích hoạt máy chủ
  6. Claude giờ đây sẽ có thể đưa ra truy vấn web, trích xuất nội dung và tương tác với các trang bằng Scrapeless

Tích hợp với Cursor IDE

  1. Mở Cursor
  2. Nhấn Cmd + Shift + P và tìm kiếm: Configure MCP Servers
  3. Thêm cấu hình Scrapeless MCP bằng định dạng ở trên
  4. Lưu tệp và khởi động lại Cursor (nếu cần)
  5. Bây giờ bạn có thể hỏi Cursor những điều như:
    1. "Search StackOverflow for a solution to this error"
    2. "Scrape the HTML from this page"
  6. Và nó sẽ sử dụng Scrapeless ở chế độ nền.

Công cụ MCP được Hỗ trợ

TênMô tả
google_searchCông cụ tìm kiếm thông tin chung.
google_trendsLấy dữ liệu tìm kiếm thịnh hành từ Google Xu hướng.
browser_createTạo hoặc tái sử dụng phiên trình duyệt đám mây bằng Scrapeless.
browser_closeĐóng phiên hiện tại bằng cách ngắt kết nối trình duyệt đám mây.
browser_gotoĐiều hướng trình duyệt đến một URL được chỉ định.
browser_go_backQuay lại một bước trong lịch sử trình duyệt.
browser_go_forwardTiến lên một bước trong lịch sử trình duyệt.
browser_clickNhấp vào một phần tử cụ thể trên trang.
browser_typeNhập văn bản vào trường nhập liệu được chỉ định.
browser_press_keyMô phỏng một lần nhấn phím.
browser_wait_forChờ một phần tử trang cụ thể xuất hiện.
browser_waitTạm dừng thực thi trong một khoảng thời gian cố định.
browser_screenshotChụp ảnh màn hình của trang hiện tại.
browser_get_htmlLấy toàn bộ HTML của trang hiện tại.
browser_get_textLấy tất cả văn bản hiển thị từ trang hiện tại.
browser_scrollCuộn xuống cuối trang.
browser_scroll_toCuộn một phần tử cụ thể vào tầm nhìn.
scrape_htmlThu thập một URL và trả về toàn bộ nội dung HTML của nó.
scrape_markdownThu thập một URL và trả về nội dung của nó dưới dạng Markdown.
scrape_screenshotChụp ảnh màn hình chất lượng cao của bất kỳ trang web nào.

Thực hành Bảo mật Tốt nhất

Khi sử dụng Máy chủ Scrapeless MCP với các LLM (như ChatGPT, Claude hoặc Cursor), điều quan trọng là phải xử lý cẩn thận tất cả nội dung web được thu thập hoặc trích xuất. Dữ liệu web mặc định là không đáng tin cậy và việc xử lý không đúng cách có thể khiến ứng dụng của bạn gặp phải lỗ hổng chèn lệnh hoặc các lỗ hổng bảo mật khác.

✅ Thực hành được Khuyến nghị

  • Không bao giờ truyền trực tiếp nội dung thu thập thô vào lời nhắc LLM. HTML, JavaScript thô hoặc văn bản do người dùng tạo có thể chứa các tải trọng chèn lệnh ẩn.
  • Làm sạch và xác thực tất cả nội dung được trích xuất. Loại bỏ hoặc thoát các thẻ và tập lệnh có khả năng gây hại trước khi sử dụng nội dung trong logic hạ nguồn hoặc mô hình AI.
  • Ưu tiên trích xuất có cấu trúc hơn văn bản dạng tự do. Sử dụng các công cụ như scrape_html, scrape_markdown hoặc browser_get_text có mục tiêu với các bộ chọn an toàn đã biết để chỉ trích xuất nội dung bạn tin tưởng.
  • Áp dụng danh sách trắng tên miền hoặc bộ chọn khi thu thập các trang được tạo động, để hạn chế luồng dữ liệu đến các nguồn đã biết và đáng tin cậy.
  • Ghi nhật ký và giám sát tất cả các yêu cầu đi được thực hiện qua trình duyệt hoặc công cụ thu thập, đặc biệt nếu bạn đang xử lý dữ liệu nhạy cảm, mã thông báo hoặc quyền truy cập mạng nội bộ.

🚫 Tránh

  • Chèn HTML đã thu thập trực tiếp vào lời nhắc
  • Cho phép người dùng chỉ định URL hoặc bộ chọn CSS tùy ý mà không xác thực
  • Lưu trữ nội dung thu thập chưa lọc để sử dụng cho lời nhắc trong tương lai

Cộng đồng

Liên hệ Chúng tôi

Nếu có câu hỏi, đề xuất hoặc yêu cầu hợp tác, vui lòng liên hệ với chúng tôi qua: