phoenix-evals
por github
Crie e execute avaliadores para aplicações de IA/LLM usando o Phoenix.
npx skills add https://github.com/github/awesome-copilot --skill phoenix-evalsPhoenix Evals
Build evaluators for AI/LLM applications. Code first, LLM for nuance, validate against humans.
Quick Reference
Workflows
Starting Fresh: observe-tracing-setup → error-analysis → axial-coding → evaluators-overview
Building Evaluator: fundamentals → common-mistakes-python → evaluators-{code|llm}-{python|typescript} → validation-evaluators-{python|typescript}
RAG Systems: evaluators-rag → evaluators-code-* (retrieval) → evaluators-llm-* (faithfulness)
Production: production-overview → production-guardrails → production-continuous
Reference Categories
| Prefix | Description |
|---|---|
fundamentals-* | Types, scores, anti-patterns |
observe-* | Tracing, sampling |
error-analysis-* | Finding failures |
axial-coding-* | Categorizing failures |
evaluators-* | Code, LLM, RAG evaluators |
experiments-* | Datasets, running experiments |
validation-* | Validating evaluator accuracy against human labels |
production-* | CI/CD, monitoring |
Key Principles
| Principle | Action |
|---|---|
| Error analysis first | Can't automate what you haven't observed |
| Custom > generic | Build from your failures |
| Code first | Deterministic before LLM |
| Validate judges | >80% TPR/TNR |
| Binary > Likert | Pass/fail, not 1-5 |
Mais skills de github
console-rendering
github
Instruções para usar o sistema de renderização de console baseado em tags de struct em Go
official
acquire-codebase-knowledge
github
Use esta habilidade quando o usuário solicitar explicitamente mapear, documentar ou integrar-se a uma base de código existente. Ative para comandos como "mapeie esta base de código", "documente…
official
acreadiness-assess
github
Run the AgentRC readiness assessment on the current repository and produce a static HTML dashboard at reports/index.html. Wraps `npx github:microsoft/agentrc…
official
acreadiness-generate-instructions
github
Gera arquivos de instrução de agente de IA personalizados através do comando de instruções do AgentRC. Produz .github/copilot-instructions.md (padrão, recomendado para o Copilot no VS…
official
acreadiness-policy
github
Ajude o usuário a escolher, escrever ou aplicar uma política AgentRC. Políticas personalizam a pontuação de prontidão desabilitando verificações irrelevantes, substituindo impacto/nível, definindo…
official
add-educational-comments
github
Adiciona comentários educacionais a arquivos de código para transformá-los em recursos de aprendizado eficazes. Adapta a profundidade e o tom das explicações para três níveis de conhecimento configuráveis: iniciante, intermediário e avançado. Solicita automaticamente um arquivo caso nenhum seja fornecido, com correspondência de lista numerada para seleção rápida. Expande arquivos em até 125% usando apenas comentários educacionais (limite máximo: 400 novas linhas; 300 para arquivos com mais de 1.000 linhas). Preserva a codificação do arquivo, o estilo de indentação, a correção sintática e...
official
adobe-illustrator-scripting
github
Escreva, depure e otimize scripts de automação do Adobe Illustrator usando ExtendScript (JavaScript/JSX). Use ao criar ou modificar scripts que manipulam…
official
agent-governance
github
Políticas declarativas, classificação de intenção e trilhas de auditoria para controlar o acesso e comportamento de ferramentas de agentes de IA. Políticas de governança componíveis definem ferramentas permitidas/bloqueadas, filtros de conteúdo, limites de taxa e requisitos de aprovação — armazenados como configuração, não código. A classificação semântica de intenção detecta prompts perigosos (exfiltração de dados, escalada de privilégio, injeção de prompt) antes da execução da ferramenta usando sinais baseados em padrões. O decorador de governança em nível de ferramenta aplica políticas em funções...
official