phoenix-evals

por github

Crie e execute avaliadores para aplicações de IA/LLM usando o Phoenix.

npx skills add https://github.com/github/awesome-copilot --skill phoenix-evals

Phoenix Evals

Build evaluators for AI/LLM applications. Code first, LLM for nuance, validate against humans.

Quick Reference

TaskFiles
Setupsetup-python, setup-typescript
Decide what to evaluateevaluators-overview
Choose a judge modelfundamentals-model-selection
Use pre-built evaluatorsevaluators-pre-built
Build code evaluatorevaluators-code-python, evaluators-code-typescript
Build LLM evaluatorevaluators-llm-python, evaluators-llm-typescript, evaluators-custom-templates
Batch evaluate DataFrameevaluate-dataframe-python
Run experimentexperiments-running-python, experiments-running-typescript
Create datasetexperiments-datasets-python, experiments-datasets-typescript
Generate synthetic dataexperiments-synthetic-python, experiments-synthetic-typescript
Validate evaluator accuracyvalidation, validation-evaluators-python, validation-evaluators-typescript
Sample traces for reviewobserve-sampling-python, observe-sampling-typescript
Analyze errorserror-analysis, error-analysis-multi-turn, axial-coding
RAG evalsevaluators-rag
Avoid common mistakescommon-mistakes-python, fundamentals-anti-patterns
Productionproduction-overview, production-guardrails, production-continuous

Workflows

Starting Fresh: observe-tracing-setuperror-analysisaxial-codingevaluators-overview

Building Evaluator: fundamentalscommon-mistakes-python → evaluators-{code|llm}-{python|typescript} → validation-evaluators-{python|typescript}

RAG Systems: evaluators-rag → evaluators-code-* (retrieval) → evaluators-llm-* (faithfulness)

Production: production-overviewproduction-guardrailsproduction-continuous

Reference Categories

PrefixDescription
fundamentals-*Types, scores, anti-patterns
observe-*Tracing, sampling
error-analysis-*Finding failures
axial-coding-*Categorizing failures
evaluators-*Code, LLM, RAG evaluators
experiments-*Datasets, running experiments
validation-*Validating evaluator accuracy against human labels
production-*CI/CD, monitoring

Key Principles

PrincipleAction
Error analysis firstCan't automate what you haven't observed
Custom > genericBuild from your failures
Code firstDeterministic before LLM
Validate judges>80% TPR/TNR
Binary > LikertPass/fail, not 1-5

Mais skills de github

console-rendering
github
Instruções para usar o sistema de renderização de console baseado em tags de struct em Go
official
acquire-codebase-knowledge
github
Use esta habilidade quando o usuário solicitar explicitamente mapear, documentar ou integrar-se a uma base de código existente. Ative para comandos como "mapeie esta base de código", "documente…
official
acreadiness-assess
github
Run the AgentRC readiness assessment on the current repository and produce a static HTML dashboard at reports/index.html. Wraps `npx github:microsoft/agentrc…
official
acreadiness-generate-instructions
github
Gera arquivos de instrução de agente de IA personalizados através do comando de instruções do AgentRC. Produz .github/copilot-instructions.md (padrão, recomendado para o Copilot no VS…
official
acreadiness-policy
github
Ajude o usuário a escolher, escrever ou aplicar uma política AgentRC. Políticas personalizam a pontuação de prontidão desabilitando verificações irrelevantes, substituindo impacto/nível, definindo…
official
add-educational-comments
github
Adiciona comentários educacionais a arquivos de código para transformá-los em recursos de aprendizado eficazes. Adapta a profundidade e o tom das explicações para três níveis de conhecimento configuráveis: iniciante, intermediário e avançado. Solicita automaticamente um arquivo caso nenhum seja fornecido, com correspondência de lista numerada para seleção rápida. Expande arquivos em até 125% usando apenas comentários educacionais (limite máximo: 400 novas linhas; 300 para arquivos com mais de 1.000 linhas). Preserva a codificação do arquivo, o estilo de indentação, a correção sintática e...
official
adobe-illustrator-scripting
github
Escreva, depure e otimize scripts de automação do Adobe Illustrator usando ExtendScript (JavaScript/JSX). Use ao criar ou modificar scripts que manipulam…
official
agent-governance
github
Políticas declarativas, classificação de intenção e trilhas de auditoria para controlar o acesso e comportamento de ferramentas de agentes de IA. Políticas de governança componíveis definem ferramentas permitidas/bloqueadas, filtros de conteúdo, limites de taxa e requisitos de aprovação — armazenados como configuração, não código. A classificação semântica de intenção detecta prompts perigosos (exfiltração de dados, escalada de privilégio, injeção de prompt) antes da execução da ferramenta usando sinais baseados em padrões. O decorador de governança em nível de ferramenta aplica políticas em funções...
official