Scrapeless MCP Server

chính thức

Tích hợp kết quả Scrapeless Google SERP thời gian thực (Google Search, Google Flight, Google Map, Google Jobs...) vào các ứng dụng LLM của bạn. Máy chủ này cho phép truy xuất ngữ cảnh động cho các quy trình AI, chatbot và công cụ nghiên cứu.

GitHub

162

Tài liệu

Máy chủ Scrapeless MCP

Chào mừng bạn đến với Máy chủ Giao thức Ngữ cảnh Mô hình (MCP) chính thức của Scrapeless — một lớp tích hợp mạnh mẽ trao quyền cho các LLM, Tác nhân AI và ứng dụng AI tương tác với web theo thời gian thực.

Được xây dựng trên tiêu chuẩn MCP mở, Máy chủ Scrapeless MCP kết nối liền mạch các mô hình như ChatGPT, Claude và các công cụ như Cursor và Windsurf với nhiều khả năng bên ngoài, bao gồm:

Tích hợp dịch vụ Google (Tìm kiếm, Xu hướng)
Tự động hóa trình duyệt để điều hướng và tương tác ở cấp độ trang
Thu thập các trang web động, nhiều JavaScript—xuất dưới dạng HTML, Markdown hoặc ảnh chụp màn hình

Cho dù bạn đang xây dựng trợ lý nghiên cứu AI, trợ lý lập trình hay tác nhân web tự động, máy chủ này cung cấp ngữ cảnh động và dữ liệu thế giới thực mà quy trình làm việc của bạn cần—mà không bị chặn.

Ví dụ sử dụng

Tương tác Web Tự động và Trích xuất Dữ liệu với Claude

Sử dụng Trình duyệt Scrapeless MCP, Claude có thể thực hiện các tác vụ phức tạp như điều hướng web, nhấp chuột, cuộn trang và thu thập dữ liệu thông qua các lệnh hội thoại, với bản xem trước thời gian thực kết quả tương tác web qua live sessions.

preview

Vượt qua Cloudflare để Truy xuất Nội dung Trang Mục tiêu

Sử dụng dịch vụ Trình duyệt Scrapeless MCP, trang Cloudflare được tự động truy cập và sau khi quá trình hoàn tất, nội dung trang được trích xuất và trả về ở định dạng Markdown.

preview

Trích xuất Nội dung Trang Được Kết xuất Động và Ghi vào Tệp

Sử dụng API Chung Scrapeless MCP, nội dung được kết xuất bằng JavaScript của trang mục tiêu ở trên được thu thập, xuất ở định dạng Markdown và cuối cùng được ghi vào tệp cục bộ có tên text.md.

preview

Thu thập SERP Tự động

Sử dụng Máy chủ Scrapeless MCP, truy vấn từ khóa “web scraping” trên Google Tìm kiếm, truy xuất 10 kết quả tìm kiếm đầu tiên (bao gồm tiêu đề, liên kết và tóm tắt) và ghi nội dung vào tệp có tên serp.text.

preview

Dưới đây là một số ví dụ bổ sung về cách sử dụng các máy chủ này:

Ví dụ
Tìm kiếm scrapeless bằng Google tìm kiếm.
Tìm mức độ quan tâm tìm kiếm cho "AI" trong năm qua.
Sử dụng trình duyệt để truy cập chatgpt.com, tìm kiếm "Thời tiết hôm nay thế nào?" và tóm tắt kết quả.
Thu thập nội dung HTML của trang scrapeless.com.
Thu thập nội dung Markdown của trang scrapeless.com.
Chụp ảnh màn hình của scrapeless.com.

Hướng dẫn Thiết lập

Lấy Khóa Scrapeless

Đăng nhập vào Bảng điều khiển Scrapeless (Có bản dùng thử miễn phí)
Sau đó nhấp "Cài đặt" ở bên trái -> chọn "Quản lý Khóa API" -> nhấp "Tạo Khóa API". Cuối cùng, nhấp vào Khóa API bạn đã tạo để sao chép nó.

preview

Cấu hình Máy khách MCP của Bạn

Máy chủ Scrapeless MCP hỗ trợ cả hai chế độ truyền tải Stdio và HTTP Có thể Truyền phát.

🖥️ Stdio (Thực thi Cục bộ)

{
  "mcpServers": {
    "Scrapeless MCP Server": {
      "command": "npx",
      "args": ["-y", "scrapeless-mcp-server"],
      "env": {
        "SCRAPELESS_KEY": "YOUR_SCRAPELESS_KEY"
      }
    }
  }
}

🌐 HTTP Có thể Truyền phát (Chế độ API Lưu trữ)

{
  "mcpServers": {
    "Scrapeless MCP Server": {
      "type": "streamable-http",
      "url": "https://api.scrapeless.com/mcp",
      "headers": {
        "x-api-token": "YOUR_SCRAPELESS_KEY"
      },
      "disabled": false,
      "alwaysAllow": []
    }
  }
}

Tùy chọn Nâng cao

Tùy chỉnh hành vi phiên trình duyệt với các tham số tùy chọn. Chúng có thể được đặt qua biến môi trường (cho Stdio) hoặc tiêu đề HTTP (cho HTTP Có thể Truyền phát):

Stdio (Biến Môi trường)	HTTP Có thể Truyền phát (Tiêu đề HTTP)	Mô tả
BROWSER_PROFILE_ID	x-browser-profile-id	Chỉ định ID hồ sơ trình duyệt có thể tái sử dụng để duy trì phiên liên tục.
BROWSER_PROFILE_PERSIST	x-browser-profile-persist	Bật lưu trữ liên tục cho cookie, bộ nhớ cục bộ, v.v.
BROWSER_SESSION_TTL	x-browser-session-ttl	Xác định thời gian chờ phiên tối đa tính bằng giây. Phiên sẽ tự động hết hạn sau khoảng thời gian không hoạt động này.

Tích hợp với Claude Desktop

Mở Claude Desktop
Điều hướng đến: Settings → Tools → MCP Servers
Nhấp "Thêm Máy chủ MCP"
Dán cấu hình Stdio hoặc Streamable HTTP ở trên
Lưu và kích hoạt máy chủ
Claude giờ đây sẽ có thể đưa ra truy vấn web, trích xuất nội dung và tương tác với các trang bằng Scrapeless

Tích hợp với Cursor IDE

Mở Cursor
Nhấn Cmd + Shift + P và tìm kiếm: Configure MCP Servers
Thêm cấu hình Scrapeless MCP bằng định dạng ở trên
Lưu tệp và khởi động lại Cursor (nếu cần)
Bây giờ bạn có thể hỏi Cursor những điều như:
1. "Search StackOverflow for a solution to this error"
2. "Scrape the HTML from this page"
Và nó sẽ sử dụng Scrapeless ở chế độ nền.

Công cụ MCP được Hỗ trợ

Tên	Mô tả
google_search	Công cụ tìm kiếm thông tin chung.
google_trends	Lấy dữ liệu tìm kiếm thịnh hành từ Google Xu hướng.
browser_create	Tạo hoặc tái sử dụng phiên trình duyệt đám mây bằng Scrapeless.
browser_close	Đóng phiên hiện tại bằng cách ngắt kết nối trình duyệt đám mây.
browser_goto	Điều hướng trình duyệt đến một URL được chỉ định.
browser_go_back	Quay lại một bước trong lịch sử trình duyệt.
browser_go_forward	Tiến lên một bước trong lịch sử trình duyệt.
browser_click	Nhấp vào một phần tử cụ thể trên trang.
browser_type	Nhập văn bản vào trường nhập liệu được chỉ định.
browser_press_key	Mô phỏng một lần nhấn phím.
browser_wait_for	Chờ một phần tử trang cụ thể xuất hiện.
browser_wait	Tạm dừng thực thi trong một khoảng thời gian cố định.
browser_screenshot	Chụp ảnh màn hình của trang hiện tại.
browser_get_html	Lấy toàn bộ HTML của trang hiện tại.
browser_get_text	Lấy tất cả văn bản hiển thị từ trang hiện tại.
browser_scroll	Cuộn xuống cuối trang.
browser_scroll_to	Cuộn một phần tử cụ thể vào tầm nhìn.
scrape_html	Thu thập một URL và trả về toàn bộ nội dung HTML của nó.
scrape_markdown	Thu thập một URL và trả về nội dung của nó dưới dạng Markdown.
scrape_screenshot	Chụp ảnh màn hình chất lượng cao của bất kỳ trang web nào.

Thực hành Bảo mật Tốt nhất

Khi sử dụng Máy chủ Scrapeless MCP với các LLM (như ChatGPT, Claude hoặc Cursor), điều quan trọng là phải xử lý cẩn thận tất cả nội dung web được thu thập hoặc trích xuất. Dữ liệu web mặc định là không đáng tin cậy và việc xử lý không đúng cách có thể khiến ứng dụng của bạn gặp phải lỗ hổng chèn lệnh hoặc các lỗ hổng bảo mật khác.

✅ Thực hành được Khuyến nghị

Không bao giờ truyền trực tiếp nội dung thu thập thô vào lời nhắc LLM. HTML, JavaScript thô hoặc văn bản do người dùng tạo có thể chứa các tải trọng chèn lệnh ẩn.
Làm sạch và xác thực tất cả nội dung được trích xuất. Loại bỏ hoặc thoát các thẻ và tập lệnh có khả năng gây hại trước khi sử dụng nội dung trong logic hạ nguồn hoặc mô hình AI.
Ưu tiên trích xuất có cấu trúc hơn văn bản dạng tự do. Sử dụng các công cụ như scrape_html, scrape_markdown hoặc browser_get_text có mục tiêu với các bộ chọn an toàn đã biết để chỉ trích xuất nội dung bạn tin tưởng.
Áp dụng danh sách trắng tên miền hoặc bộ chọn khi thu thập các trang được tạo động, để hạn chế luồng dữ liệu đến các nguồn đã biết và đáng tin cậy.
Ghi nhật ký và giám sát tất cả các yêu cầu đi được thực hiện qua trình duyệt hoặc công cụ thu thập, đặc biệt nếu bạn đang xử lý dữ liệu nhạy cảm, mã thông báo hoặc quyền truy cập mạng nội bộ.

🚫 Tránh

Chèn HTML đã thu thập trực tiếp vào lời nhắc
Cho phép người dùng chỉ định URL hoặc bộ chọn CSS tùy ý mà không xác thực
Lưu trữ nội dung thu thập chưa lọc để sử dụng cho lời nhắc trong tương lai

Cộng đồng

MCP Server Discord

Liên hệ Chúng tôi

Nếu có câu hỏi, đề xuất hoặc yêu cầu hợp tác, vui lòng liên hệ với chúng tôi qua:

Email: [email protected]
Trang web Chính thức: https://www.scrapeless.com
Diễn đàn Cộng đồng: https://discord.gg/Np4CAHxB9a