Scrapeless MCP Server

officiel

Intégrez les résultats en temps réel de Scrapeless Google SERP (Google Search, Google Flight, Google Map, Google Jobs...) dans vos applications LLM. Ce serveur permet la récupération dynamique de contexte pour les workflows IA, chatbots et outils de recherche.

Documentation

preview

Serveur MCP Scrapeless

Bienvenue sur le serveur officiel Scrapeless Model Context Protocol (MCP) — une couche d'intégration puissante qui permet aux LLM, agents IA et applications IA d'interagir avec le web en temps réel.

Construit sur le standard ouvert MCP, le serveur MCP Scrapeless connecte de manière transparente des modèles comme ChatGPT, Claude et des outils comme Cursor et Windsurf à un large éventail de capacités externes, notamment :

  • Intégration des services Google (Search, Trends)
  • Automatisation du navigateur pour la navigation et l'interaction au niveau des pages
  • Scraping de sites dynamiques riches en JavaScript — export en HTML, Markdown ou captures d'écran

Que vous construisiez un assistant de recherche IA, un copilote de codage ou des agents web autonomes, ce serveur fournit le contexte dynamique et les données du monde réel dont vos flux de travail ont besoin — sans être bloqué.

Exemples d'utilisation

  1. Interaction web automatisée et extraction de données avec Claude

En utilisant le navigateur MCP Scrapeless, Claude peut effectuer des tâches complexes telles que la navigation web, le clic, le défilement et le scraping via des commandes conversationnelles, avec un aperçu en temps réel des résultats d'interaction web via live sessions.

preview

  1. Contournement de Cloudflare pour récupérer le contenu de la page cible

En utilisant le service de navigateur MCP Scrapeless, la page Cloudflare est automatiquement accédée, et une fois le processus terminé, le contenu de la page est extrait et renvoyé au format Markdown.

preview

  1. Extraction du contenu de page rendu dynamiquement et écriture dans un fichier

En utilisant l'API universelle MCP Scrapeless, le contenu rendu par JavaScript de la page cible ci-dessus est scrapé, exporté au format Markdown, et finalement écrit dans un fichier local nommé text.md.

preview

  1. Scraping automatisé de SERP

En utilisant le serveur MCP Scrapeless, interrogez le mot-clé « web scraping » sur Google Search, récupérez les 10 premiers résultats de recherche (incluant le titre, le lien et le résumé), et écrivez le contenu dans le fichier nommé serp.text.

preview

Voici quelques exemples supplémentaires d'utilisation de ces serveurs :

Exemple
Rechercher scrapeless via Google search.
Trouver l'intérêt de recherche pour « IA » au cours de la dernière année.
Utiliser un navigateur pour visiter chatgpt.com, rechercher « Quel temps fait-il aujourd'hui ? », et résumer les résultats.
Scraper le contenu HTML de la page scrapeless.com.
Scraper le contenu Markdown de la page scrapeless.com.
Obtenir des captures d'écran de scrapeless.com.

Guide de configuration

  1. Obtenir une clé Scrapeless
  • Connectez-vous au tableau de bord Scrapeless (essai gratuit disponible)
  • Cliquez ensuite sur « Paramètres » à gauche → sélectionnez « Gestion des clés API » → cliquez sur « Créer une clé API ». Enfin, cliquez sur la clé API que vous avez créée pour la copier.

preview

  1. Configurer votre client MCP

Le serveur MCP Scrapeless prend en charge les modes de transport Stdio et HTTP diffusable.

🖥️ Stdio (Exécution locale)

{
  "mcpServers": {
    "Scrapeless MCP Server": {
      "command": "npx",
      "args": ["-y", "scrapeless-mcp-server"],
      "env": {
        "SCRAPELESS_KEY": "YOUR_SCRAPELESS_KEY"
      }
    }
  }
}

🌐 HTTP diffusable (Mode API hébergé)

{
  "mcpServers": {
    "Scrapeless MCP Server": {
      "type": "streamable-http",
      "url": "https://api.scrapeless.com/mcp",
      "headers": {
        "x-api-token": "YOUR_SCRAPELESS_KEY"
      },
      "disabled": false,
      "alwaysAllow": []
    }
  }
}

Options avancées

Personnalisez le comportement de la session du navigateur avec des paramètres optionnels. Ceux-ci peuvent être définis via des variables d'environnement (pour Stdio) ou des en-têtes HTTP (pour HTTP diffusable) :

Stdio (Var env)HTTP diffusable (En-tête HTTP)Description
BROWSER_PROFILE_IDx-browser-profile-idSpécifie un ID de profil de navigateur réutilisable pour la continuité de session.
BROWSER_PROFILE_PERSISTx-browser-profile-persistActive le stockage persistant pour les cookies, le stockage local, etc.
BROWSER_SESSION_TTLx-browser-session-ttlDéfinit le délai d'expiration maximal de la session en secondes. La session expirera automatiquement après cette durée d'inactivité.

Intégration avec Claude Desktop

  1. Ouvrez Claude Desktop
  2. Accédez à : SettingsToolsMCP Servers
  3. Cliquez sur « Ajouter un serveur MCP »
  4. Collez la configuration Stdio ou Streamable HTTP ci-dessus
  5. Enregistrez et activez le serveur
  6. Claude pourra désormais émettre des requêtes web, extraire du contenu et interagir avec des pages en utilisant Scrapeless

Intégration avec Cursor IDE

  1. Ouvrez Cursor
  2. Appuyez sur Cmd + Shift + P et recherchez : Configure MCP Servers
  3. Ajoutez la configuration MCP Scrapeless en utilisant le format ci-dessus
  4. Enregistrez le fichier et redémarrez Cursor (si nécessaire)
  5. Vous pouvez maintenant demander à Cursor des choses comme :
    1. "Search StackOverflow for a solution to this error"
    2. "Scrape the HTML from this page"
  6. Et il utilisera Scrapeless en arrière-plan.

Outils MCP pris en charge

NomDescription
google_searchMoteur de recherche d'informations universel.
google_trendsObtenir les données de recherche tendance de Google Trends.
browser_createCréer ou réutiliser une session de navigateur cloud avec Scrapeless.
browser_closeFerme la session en cours en déconnectant le navigateur cloud.
browser_gotoNavigue le navigateur vers une URL spécifiée.
browser_go_backRecule d'une étape dans l'historique du navigateur.
browser_go_forwardAvance d'une étape dans l'historique du navigateur.
browser_clickClique sur un élément spécifique de la page.
browser_typeTape du texte dans un champ de saisie spécifié.
browser_press_keySimule une pression de touche.
browser_wait_forAttend qu'un élément de page spécifique apparaisse.
browser_waitSuspend l'exécution pendant une durée fixe.
browser_screenshotCapture une capture d'écran de la page actuelle.
browser_get_htmlObtient le HTML complet de la page actuelle.
browser_get_textObtient tout le texte visible de la page actuelle.
browser_scrollFait défiler jusqu'en bas de la page.
browser_scroll_toFait défiler un élément spécifique pour le rendre visible.
scrape_htmlScrape une URL et renvoie son contenu HTML complet.
scrape_markdownScrape une URL et renvoie son contenu en Markdown.
scrape_screenshotCapture une capture d'écran de haute qualité de n'importe quelle page web.

Meilleures pratiques de sécurité

Lors de l'utilisation du serveur MCP Scrapeless avec des LLM (comme ChatGPT, Claude ou Cursor), il est essentiel de manipuler avec soin tout le contenu web scrapé ou extrait. Les données web ne sont pas fiables par défaut, et une manipulation inappropriée peut exposer votre application à des injections de prompt ou à d'autres vulnérabilités de sécurité.

✅ Pratiques recommandées

  • Ne jamais transmettre directement du contenu brut scrapé dans les prompts LLM. Le HTML brut, le JavaScript ou le texte généré par l'utilisateur peuvent contenir des charges d'injection cachées.
  • Nettoyer et valider tout le contenu extrait. Supprimer ou échapper les balises et scripts potentiellement dangereux avant d'utiliser le contenu dans la logique en aval ou les modèles d'IA.
  • Préférer l'extraction structurée au texte libre. Utiliser des outils comme scrape_html, scrape_markdown ou des browser_get_text ciblés avec des sélecteurs connus et sûrs pour extraire uniquement le contenu auquel vous faites confiance.
  • Appliquer une liste blanche de domaines ou de sélecteurs lors du scraping de pages générées dynamiquement, pour restreindre le flux de données à des sources connues et fiables.
  • Journaliser et surveiller toutes les requêtes sortantes effectuées via le navigateur ou les outils de scraping, surtout si vous manipulez des données sensibles, des jetons ou un accès réseau interne.

🚫 À éviter

  • Injecter du HTML scrapé directement dans les prompts
  • Laisser les utilisateurs spécifier des URL ou des sélecteurs CSS arbitraires sans validation
  • Stocker du contenu scrapé non filtré pour une utilisation future dans les prompts

Communauté

Contactez-nous

Pour toute question, suggestion ou demande de collaboration, n'hésitez pas à nous contacter via :