Scrapeless MCP Server

oficial

Integra resultados en tiempo real de Scrapeless Google SERP (Google Search, Google Flight, Google Map, Google Jobs...) en tus aplicaciones LLM. Este servidor permite la recuperación dinámica de contexto para flujos de trabajo de IA, chatbots y herramientas de investigación.

Documentación

preview

Servidor MCP de Scrapeless

Bienvenido al Servidor oficial de Protocolo de Contexto de Modelo (MCP) de Scrapeless — una potente capa de integración que permite a los LLMs, Agentes de IA y aplicaciones de IA interactuar con la web en tiempo real.

Construido sobre el estándar abierto MCP, el Servidor MCP de Scrapeless conecta de forma fluida modelos como ChatGPT, Claude y herramientas como Cursor y Windsurf a una amplia gama de capacidades externas, incluyendo:

  • Integración de servicios de Google (Search, Trends)
  • Automatización de navegador para navegación e interacción a nivel de página
  • Extracción de sitios dinámicos con mucho JavaScript: exporta como HTML, Markdown o capturas de pantalla

Ya sea que estés construyendo un asistente de investigación de IA, un copiloto de codificación o agentes web autónomos, este servidor proporciona el contexto dinámico y los datos del mundo real que tus flujos de trabajo necesitan—sin ser bloqueado.

Ejemplos de Uso

  1. Interacción Web Automatizada y Extracción de Datos con Claude

Usando el Navegador MCP de Scrapeless, Claude puede realizar tareas complejas como navegación web, clics, desplazamiento y extracción mediante comandos conversacionales, con vista previa en tiempo real de los resultados de la interacción web a través de live sessions.

preview

  1. Evitar Cloudflare para Recuperar el Contenido de la Página Objetivo

Usando el servicio de Navegador MCP de Scrapeless, se accede automáticamente a la página de Cloudflare y, una vez completado el proceso, se extrae el contenido de la página y se devuelve en formato Markdown.

preview

  1. Extraer Contenido de Página Renderizado Dinámicamente y Escribirlo en un Archivo

Usando la API Universal MCP de Scrapeless, se extrae el contenido renderizado con JavaScript de la página objetivo anterior, se exporta en formato Markdown y finalmente se escribe en un archivo local llamado text.md.

preview

  1. Extracción Automatizada de SERP

Usando el Servidor MCP de Scrapeless, consulta la palabra clave “web scraping” en Google Search, recupera los primeros 10 resultados de búsqueda (incluyendo título, enlace y resumen) y escribe el contenido en el archivo llamado serp.text.

preview

Aquí hay algunos ejemplos adicionales de cómo usar estos servidores:

Ejemplo
Buscar scrapeless mediante búsqueda de Google.
Encontrar el interés de búsqueda para "IA" durante el último año.
Usar un navegador para visitar chatgpt.com, buscar "¿Qué tiempo hace hoy?" y resumir los resultados.
Extraer el contenido HTML de la página scrapeless.com.
Extraer el contenido Markdown de la página scrapeless.com.
Obtener capturas de pantalla de scrapeless.com.

Guía de Configuración

  1. Obtener la Clave de Scrapeless
  • Inicia sesión en el Panel de Scrapeless (Prueba gratuita disponible)
  • Luego haz clic en "Configuración" a la izquierda -> selecciona "Gestión de Claves API" -> haz clic en "Crear Clave API". Finalmente, haz clic en la Clave API que creaste para copiarla.

preview

  1. Configurar tu Cliente MCP

El Servidor MCP de Scrapeless soporta los modos de transporte Stdio y HTTP Transmisible.

🖥️ Stdio (Ejecución Local)

{
  "mcpServers": {
    "Scrapeless MCP Server": {
      "command": "npx",
      "args": ["-y", "scrapeless-mcp-server"],
      "env": {
        "SCRAPELESS_KEY": "YOUR_SCRAPELESS_KEY"
      }
    }
  }
}

🌐 HTTP Transmisible (Modo API Alojado)

{
  "mcpServers": {
    "Scrapeless MCP Server": {
      "type": "streamable-http",
      "url": "https://api.scrapeless.com/mcp",
      "headers": {
        "x-api-token": "YOUR_SCRAPELESS_KEY"
      },
      "disabled": false,
      "alwaysAllow": []
    }
  }
}

Opciones Avanzadas

Personaliza el comportamiento de la sesión del navegador con parámetros opcionales. Estos se pueden establecer mediante variables de entorno (para Stdio) o cabeceras HTTP (para HTTP Transmisible):

Stdio (Var. Entorno)HTTP Transmisible (Cabecera HTTP)Descripción
BROWSER_PROFILE_IDx-browser-profile-idEspecifica un ID de perfil de navegador reutilizable para la continuidad de la sesión.
BROWSER_PROFILE_PERSISTx-browser-profile-persistHabilita el almacenamiento persistente para cookies, almacenamiento local, etc.
BROWSER_SESSION_TTLx-browser-session-ttlDefine el tiempo máximo de espera de sesión en segundos. La sesión expirará automáticamente después de esta duración de inactividad.

Integración con Claude Desktop

  1. Abre Claude Desktop
  2. Navega a: SettingsToolsMCP Servers
  3. Haz clic en "Añadir Servidor MCP"
  4. Pega la configuración Stdio o Streamable HTTP de arriba
  5. Guarda y habilita el servidor
  6. Claude ahora podrá realizar consultas web, extraer contenido e interactuar con páginas usando Scrapeless

Integración con Cursor IDE

  1. Abre Cursor
  2. Presiona Cmd + Shift + P y busca: Configure MCP Servers
  3. Añade la configuración MCP de Scrapeless usando el formato de arriba
  4. Guarda el archivo y reinicia Cursor (si es necesario)
  5. Ahora puedes preguntar a Cursor cosas como:
    1. "Search StackOverflow for a solution to this error"
    2. "Scrape the HTML from this page"
  6. Y usará Scrapeless en segundo plano.

Herramientas MCP Soportadas

NombreDescripción
google_searchMotor de búsqueda de información universal.
google_trendsObtener datos de tendencias de búsqueda de Google Trends.
browser_createCrear o reutilizar una sesión de navegador en la nube con Scrapeless.
browser_closeCierra la sesión actual desconectando el navegador en la nube.
browser_gotoNavegar el navegador a una URL especificada.
browser_go_backRetroceder un paso en el historial del navegador.
browser_go_forwardAvanzar un paso en el historial del navegador.
browser_clickHacer clic en un elemento específico de la página.
browser_typeEscribir texto en un campo de entrada especificado.
browser_press_keySimular la pulsación de una tecla.
browser_wait_forEsperar a que aparezca un elemento específico de la página.
browser_waitPausar la ejecución durante una duración fija.
browser_screenshotCapturar una pantalla de la página actual.
browser_get_htmlObtener el HTML completo de la página actual.
browser_get_textObtener todo el texto visible de la página actual.
browser_scrollDesplazarse hasta el final de la página.
browser_scroll_toDesplazar un elemento específico a la vista.
scrape_htmlExtraer una URL y devolver su contenido HTML completo.
scrape_markdownExtraer una URL y devolver su contenido como Markdown.
scrape_screenshotCapturar una pantalla de alta calidad de cualquier página web.

Mejores Prácticas de Seguridad

Al usar el Servidor MCP de Scrapeless con LLMs (como ChatGPT, Claude o Cursor), es crítico manejar todo el contenido web extraído o raspado con cuidado. Los datos web no son de confianza por defecto, y un manejo inadecuado puede exponer tu aplicación a inyección de prompts u otras vulnerabilidades de seguridad.

✅ Prácticas Recomendadas

  • Nunca pases contenido extraído sin procesar directamente a los prompts del LLM. El HTML, JavaScript o texto generado por el usuario sin procesar puede contener cargas útiles de inyección ocultas.
  • Desinfecta y valida todo el contenido extraído. Elimina o escapa las etiquetas y scripts potencialmente dañinos antes de usar el contenido en la lógica posterior o en modelos de IA.
  • Prefiere la extracción estructurada sobre el texto de formato libre. Usa herramientas como scrape_html, scrape_markdown o browser_get_text dirigido con selectores de confianza conocida para extraer solo el contenido en el que confías.
  • Aplica listas blancas de dominio o selector al extraer páginas generadas dinámicamente, para restringir el flujo de datos a fuentes conocidas y de confianza.
  • Registra y monitoriza todas las solicitudes salientes realizadas a través del navegador o herramientas de extracción, especialmente si manejas datos sensibles, tokens o acceso a la red interna.

🚫 Evitar

  • Inyectar HTML extraído directamente en los prompts
  • Permitir que los usuarios especifiquen URLs o selectores CSS arbitrarios sin validación
  • Almacenar contenido extraído sin filtrar para uso futuro en prompts

Comunidad

Contáctanos

Para preguntas, sugerencias o consultas de colaboración, no dudes en contactarnos a través de: