langsmith-evaluator

por langchain-ai

Construye pipelines de evaluación para LangSmith con LLM-as-Judge y evaluadores de código personalizados. Tres componentes principales: crear evaluadores (LLM-as-Judge o código personalizado), definir funciones de ejecución para capturar salidas y trayectorias del agente, y ejecutar evaluaciones localmente o mediante ejecución automática a través de evaluadores cargados. Admite tanto evaluadores offline (comparando salidas de ejecución con ejemplos del dataset) como evaluadores online (verificaciones de calidad en tiempo real sobre ejecuciones en producción). Requiere clave API de LangSmith y proyecto...

npx skills add https://github.com/langchain-ai/langsmith-skills --skill langsmith-evaluator

Descargar ZIP GitHub

Más skills de langchain-ai

Busca en arXiv prepublicaciones y artículos académicos por tema con recuperación de resúmenes. Búsqueda basada en consultas en física, matemáticas, ciencias de la computación, biología, estadística y campos relacionados. Límite de resultados configurable (por defecto 10 artículos) con resultados ordenados por relevancia. Devuelve título y resumen de cada artículo coincidente. Requiere el paquete arxiv de Python; instálelo mediante pip si aún no está presente.

Redacción de publicaciones de blog de formato largo con delegación de investigación, plantillas de contenido estructurado e imágenes de portada generadas por IA. Delega la investigación a subagentes antes de escribir, almacenando los hallazgos en markdown para referencia y contexto. Aplica una estructura de publicación de cinco partes: gancho, contexto, contenido principal (3–5 secciones), aplicación práctica y conclusión con llamado a la acción. Genera imágenes de portada optimizadas para SEO utilizando indicaciones detalladas que cubren tema, estilo, composición, color e iluminación. Genera publicaciones para...

Realizar una revisión estructurada de código de los cambios, verificando corrección, estilo, pruebas y posibles problemas.

Lee las preferencias de codificación del usuario desde /memory/coding-prefs.md antes de tomar decisiones de estilo no triviales, y agrega nuevas preferencias cuando el usuario las proporcione…

competitor-analysis

Cuando se le pide analizar competidores:

Útil para análisis de datos acelerados por GPU en conjuntos de datos, archivos CSV o datos tabulares utilizando NVIDIA cuDF. Se activa cuando las tareas implican agregaciones groupby, estadísticas…

cuml-machine-learning

Útil para aprendizaje automático acelerado por GPU en datos tabulares usando NVIDIA cuML. Se activa cuando las tareas implican clasificación, regresión, agrupamiento, reducción de dimensionalidad…

data-visualization

Úsalo para crear gráficos de calidad de publicación y resúmenes de análisis de múltiples paneles. Se activa cuando las tareas implican visualizar datos, trazar resultados, crear…