behavioral-evals

Guía para crear, ejecutar, corregir y promover evaluaciones conductuales. Úsese al verificar la lógica de decisión del agente, depurar fallos, depurar indicaciones…

npx skills add https://github.com/google-gemini/gemini-cli --skill behavioral-evals

Behavioral Evals

Overview

Behavioral evaluations (evals) are tests that validate the agent's decision-making (e.g., tool choice) rather than pure functionality. They are critical for verifying prompt changes, debugging steerability, and preventing regressions.

[!NOTE] Single Source of Truth: For core concepts, policies, running tests, and general best practices, always refer to evals/README.md.


🔄 Workflow Decision Tree

  1. Does a prompt/tool change need validation?
    • No -> Normal integration tests.
    • Yes -> Continue below.
  2. Is it UI/Interaction heavy?
  3. Is it a new test?
    • Yes -> Set policy to USUALLY_PASSES.
    • No -> ALWAYS_PASSES (locks in regression).
  4. Are you fixing a failure or promoting a test?

📋 Quick Checklist

1. Setup Workspace

Seed the workspace with necessary files using the files object to simulate a realistic scenario (e.g., NodeJS project with package.json).

2. Write Assertions

Audit agent decisions using rig.setBreakpoint() (AppRig only) or index verification on rig.readToolLogs().

3. Verify

Run single tests locally with Vitest. Confirm stability locally before relying on CI workflows.


📦 Bundled Resources

Detailed procedural guides:

  • creating.md: Assertion strategies, Rig selection, Mock MCPs.
  • fixing.md: Step-by-step automated investigation, architecture diagnosis guidelines.
  • promoting.md: Candidate identification criteria and threshold guidelines.

Más skills de google-gemini

greeter
google-gemini
Una habilidad de saludo amigable
official
async-pr-review
google-gemini
Activa esta habilidad cuando el usuario quiera iniciar una revisión asíncrona de PR, ejecutar verificaciones en segundo plano en un PR o consultar el estado de una revisión asíncrona de PR iniciada previamente…
official
ci
google-gemini
Una habilidad especializada para Gemini CLI que proporciona alto rendimiento y fallo rápido
official
code-reviewer
google-gemini
Revisión automatizada de código para cambios locales y solicitudes de extracción remotas con análisis estructurado en corrección, mantenibilidad y seguridad. Admite cambios en el sistema de archivos local (preparados y no preparados) y PRs remotos (por número o URL) con verificación automática mediante GitHub CLI. Analiza el código en siete dimensiones: corrección, mantenibilidad, legibilidad, eficiencia, seguridad, manejo de casos límite y cobertura de pruebas. Ejecuta conjuntos de verificación previa opcionales (por ejemplo, npm run preflight) para detectar...
official
docs-changelog
google-gemini
Genera y formatea archivos de changelog para nuevas versiones con plantillas sensibles a la versión y extracción de aspectos destacados. Maneja tres tipos de lanzamiento: versiones menores estables, parches estables y versiones preliminares, cada uno con procedimientos de actualización de archivos distintos. Procesa automáticamente notas de lanzamiento en markdown sin formato, reformateando URLs de PR a enlaces markdown y eliminando secciones de colaboradores. Genera resúmenes destacados concisos de 3 a 5 puntos para anuncios de lanzamiento, priorizando nuevas funciones sobre correcciones de errores. Soporta...
official
docs-writer
google-gemini
Redacción y edición técnica para la documentación de Gemini CLI con estricta adherencia al estilo. Aplica estándares integrales de documentación que cubren voz, tono, gramática, formato y estructura para garantizar la coherencia en todos los archivos .md y el contenido del directorio /docs. Requiere investigación del código relevante y la documentación existente antes de realizar cambios, con verificaciones de páginas afectadas y actualizaciones de navegación en la barra lateral. Aplica reglas específicas para encabezados, listas, procedimientos, enlaces y accesibilidad,...
official
github-issue-creator
google-gemini
Usa esta habilidad cuando se te pida crear un issue de GitHub. Maneja diferentes tipos de issue.
official
pirate-skill
google-gemini
Habla como un pirata.
official