langsmith-code-eval

Crée des évaluateurs basés sur le code pour les agents tracés par LangSmith. À utiliser lors de la construction d'une logique d'évaluation personnalisée, du test de schémas d'utilisation d'outils ou de la notation des sorties d'agents…

npx skills add https://github.com/langchain-ai/lca-skills --skill langsmith-code-eval

LangSmith Code Evaluator Creation

Creates evaluators for LangSmith experiments through structured inspection and implementation.

Prerequisites

  • langsmith Python package installed
  • LANGSMITH_API_KEY environment variable set (check project's .env file)

Workflow

Copy this checklist and track progress:

Evaluator Creation Progress:
- [ ] Step 1: Gather info from user
- [ ] Step 2: Inspect trace and dataset structure
- [ ] Step 3: Read agent code
- [ ] Step 4: Write evaluator
- [ ] Step 5: Write experiment runner
- [ ] Step 6: Run and iterate

Step 1: Gather Info from User

IMPORTANT: Do NOT search or explore the codebase. Ask the user all of these questions upfront using AskUserQuestion before doing anything else.

Ask the user the following in a single AskUserQuestion call:

  1. Python command: How do you run Python in this project? (e.g., python, python3, uv run python, poetry run python)
  2. Agent file path: What is the path to your agent file?
  3. LangSmith project name: What is your LangSmith project name (where traces are logged)?
  4. LangSmith dataset name: What is the name of the dataset to evaluate against?
  5. Evaluation goal: What behavior should pass vs fail? Common types:
    • Tool usage: Did the agent call the correct tool?
    • Output correctness: Does output match expected format/content?
    • Policy compliance: Did it follow specific rules?
    • Classification: Did it categorize correctly?

Step 2: Inspect Trace and Dataset Structure

Using the info from Step 1, run the inspection scripts located in this skill's directory:

{python_cmd} {skill_dir}/scripts/inspect_trace.py PROJECT_NAME [RUN_ID]
{python_cmd} {skill_dir}/scripts/inspect_dataset.py DATASET_NAME

Replace {python_cmd} with the command from Step 1, and {skill_dir} with this skill's directory path.

Verify the trace matches the agent:

  • Does the trace type match? (e.g., OpenAI trace for OpenAI agent)
  • Does it contain the data needed for evaluation?
  • If mismatched, clarify before proceeding.

From the dataset inspection, note:

  • Input schema (what gets passed to the agent)
  • Output schema (reference/expected outputs)
  • Metadata fields (e.g., expected_tool, difficulty, labels)

The dataset metadata often contains ground truth for evaluation (e.g., which tool should be called, expected classification).

Step 3: Read Agent Code

Read the agent file provided in Step 1 to identify:

  • Entry point function (look for @traceable decorator)
  • Available tools
  • Output format (what the function returns)

Step 4: Write the Evaluator

Create evaluator functions based on trace and dataset structure. See EVALUATOR_REFERENCE.md for function signatures and return formats.

Step 5: Write Experiment Runner

Create a script that:

  1. Imports the agent's entry function
  2. Wraps it as a target function
  3. Runs evaluate() or aevaluate() against the dataset

See EVALUATOR_REFERENCE.md for evaluate() usage.

Step 6: Run and Iterate

Execute the experiment, review results in LangSmith, refine evaluators as needed.

Plus de skills de langchain-ai

arxiv-search
langchain-ai
Recherche dans arXiv des prépublications et articles académiques par sujet avec récupération des résumés. Recherche par requête en physique, mathématiques, informatique, biologie, statistiques et domaines connexes. Limite de résultats configurable (10 articles par défaut) avec résultats triés par pertinence. Renvoie le titre et le résumé de chaque article correspondant. Nécessite le package Python arxiv ; installez-le via pip s'il n'est pas déjà présent.
official
blog-post
langchain-ai
Rédaction d'articles de blog longs avec délégation de recherche, modèles de contenu structurés et images de couverture générées par IA. Délègue la recherche à des sous-agents avant la rédaction, stocke les résultats en markdown pour référence et contexte. Impose une structure en cinq parties : accroche, contexte, contenu principal (3 à 5 sections), application pratique et conclusion avec appel à l'action. Génère des images de couverture optimisées pour le référencement à l'aide de prompts détaillés couvrant le sujet, le style, la composition, la couleur et l'éclairage. Produit des articles vers...
official
code-review
langchain-ai
Effectuer une revue de code structurée des modifications, en vérifiant l'exactitude, le style, les tests et les problèmes potentiels.
official
coding-prefs
langchain-ai
Lire les préférences de codage de l'utilisateur depuis /memory/coding-prefs.md avant de prendre des décisions de style non triviales, et ajouter de nouvelles préférences lorsque l'utilisateur donne…
official
competitor-analysis
langchain-ai
Lorsqu'on lui demande d'analyser des concurrents :
official
cudf-analytics
langchain-ai
Utiliser pour l'analyse de données accélérée par GPU sur des ensembles de données, des CSV ou des données tabulaires avec NVIDIA cuDF. Se déclenche lorsque les tâches impliquent des agrégations groupby, des statistiques…
official
cuml-machine-learning
langchain-ai
Utiliser pour l'apprentissage automatique accéléré par GPU sur des données tabulaires avec NVIDIA cuML. Se déclenche lorsque les tâches impliquent la classification, la régression, le clustering, la réduction de dimensionnalité…
official
data-visualization
langchain-ai
Utiliser pour créer des graphiques de qualité publication et des résumés d'analyse multi-panneaux. Se déclenche lorsque les tâches impliquent la visualisation de données, le traçage de résultats, la création…
official