phoenix-evals
par github
Construisez et exécutez des évaluateurs pour les applications IA/LLM en utilisant Phoenix.
npx skills add https://github.com/github/awesome-copilot --skill phoenix-evalsPhoenix Evals
Build evaluators for AI/LLM applications. Code first, LLM for nuance, validate against humans.
Quick Reference
Workflows
Starting Fresh: observe-tracing-setup → error-analysis → axial-coding → evaluators-overview
Building Evaluator: fundamentals → common-mistakes-python → evaluators-{code|llm}-{python|typescript} → validation-evaluators-{python|typescript}
RAG Systems: evaluators-rag → evaluators-code-* (retrieval) → evaluators-llm-* (faithfulness)
Production: production-overview → production-guardrails → production-continuous
Reference Categories
| Prefix | Description |
|---|---|
fundamentals-* | Types, scores, anti-patterns |
observe-* | Tracing, sampling |
error-analysis-* | Finding failures |
axial-coding-* | Categorizing failures |
evaluators-* | Code, LLM, RAG evaluators |
experiments-* | Datasets, running experiments |
validation-* | Validating evaluator accuracy against human labels |
production-* | CI/CD, monitoring |
Key Principles
| Principle | Action |
|---|---|
| Error analysis first | Can't automate what you haven't observed |
| Custom > generic | Build from your failures |
| Code first | Deterministic before LLM |
| Validate judges | >80% TPR/TNR |
| Binary > Likert | Pass/fail, not 1-5 |
Plus de skills de github
console-rendering
github
Instructions pour utiliser le système de rendu console basé sur les tags de struct en Go
official
acquire-codebase-knowledge
github
Utilisez cette compétence lorsque l'utilisateur demande explicitement de cartographier, documenter ou s'intégrer dans une base de code existante. Déclenchez-la pour des requêtes comme "cartographier cette base de code", "documenter…
official
acreadiness-assess
github
Run the AgentRC readiness assessment on the current repository and produce a static HTML dashboard at reports/index.html. Wraps `npx github:microsoft/agentrc…
official
acreadiness-generate-instructions
github
Génère des fichiers d'instructions d'agent IA personnalisés via la commande d'instructions AgentRC. Produit .github/copilot-instructions.md (par défaut, recommandé pour Copilot dans VS…
official
acreadiness-policy
github
Aider l'utilisateur à choisir, rédiger ou appliquer une politique AgentRC. Les politiques personnalisent le score de préparation en désactivant les vérifications non pertinentes, en remplaçant l'impact/niveau, en définissant…
official
add-educational-comments
github
Ajouter des commentaires pédagogiques aux fichiers de code pour les transformer en ressources d'apprentissage efficaces. Adapte la profondeur et le ton des explications à trois niveaux de connaissances configurables : débutant, intermédiaire et avancé. Demande automatiquement un fichier si aucun n'est fourni, avec une liste numérotée pour une sélection rapide. Étend les fichiers jusqu'à 125 % en utilisant uniquement des commentaires pédagogiques (limite stricte : 400 nouvelles lignes ; 300 pour les fichiers de plus de 1 000 lignes). Préserve l'encodage du fichier, le style d'indentation, la correction syntaxique et...
official
adobe-illustrator-scripting
github
Rédigez, déboguez et optimisez des scripts d'automatisation Adobe Illustrator en utilisant ExtendScript (JavaScript/JSX). Utilisez lors de la création ou de la modification de scripts qui manipulent…
official
agent-governance
github
Politiques déclaratives, classification d'intention et pistes d'audit pour contrôler l'accès et le comportement des outils d'agents IA. Des politiques de gouvernance composables définissent les outils autorisés/bloqués, les filtres de contenu, les limites de débit et les exigences d'approbation — stockées en tant que configuration, pas de code. La classification d'intention sémantique détecte les invites dangereuses (exfiltration de données, escalade de privilèges, injection d'invite) avant l'exécution des outils à l'aide de signaux basés sur des motifs. Le décorateur de gouvernance au niveau des outils applique les politiques au niveau de la fonction...
official