langsmith-code-eval

Создаёт код-ориентированные оценщики для агентов, отслеживаемых через LangSmith. Используйте при построении пользовательской логики оценки, тестировании шаблонов использования инструментов или оценке выходных данных агентов…

npx skills add https://github.com/langchain-ai/lca-skills --skill langsmith-code-eval

LangSmith Code Evaluator Creation

Creates evaluators for LangSmith experiments through structured inspection and implementation.

Prerequisites

  • langsmith Python package installed
  • LANGSMITH_API_KEY environment variable set (check project's .env file)

Workflow

Copy this checklist and track progress:

Evaluator Creation Progress:
- [ ] Step 1: Gather info from user
- [ ] Step 2: Inspect trace and dataset structure
- [ ] Step 3: Read agent code
- [ ] Step 4: Write evaluator
- [ ] Step 5: Write experiment runner
- [ ] Step 6: Run and iterate

Step 1: Gather Info from User

IMPORTANT: Do NOT search or explore the codebase. Ask the user all of these questions upfront using AskUserQuestion before doing anything else.

Ask the user the following in a single AskUserQuestion call:

  1. Python command: How do you run Python in this project? (e.g., python, python3, uv run python, poetry run python)
  2. Agent file path: What is the path to your agent file?
  3. LangSmith project name: What is your LangSmith project name (where traces are logged)?
  4. LangSmith dataset name: What is the name of the dataset to evaluate against?
  5. Evaluation goal: What behavior should pass vs fail? Common types:
    • Tool usage: Did the agent call the correct tool?
    • Output correctness: Does output match expected format/content?
    • Policy compliance: Did it follow specific rules?
    • Classification: Did it categorize correctly?

Step 2: Inspect Trace and Dataset Structure

Using the info from Step 1, run the inspection scripts located in this skill's directory:

{python_cmd} {skill_dir}/scripts/inspect_trace.py PROJECT_NAME [RUN_ID]
{python_cmd} {skill_dir}/scripts/inspect_dataset.py DATASET_NAME

Replace {python_cmd} with the command from Step 1, and {skill_dir} with this skill's directory path.

Verify the trace matches the agent:

  • Does the trace type match? (e.g., OpenAI trace for OpenAI agent)
  • Does it contain the data needed for evaluation?
  • If mismatched, clarify before proceeding.

From the dataset inspection, note:

  • Input schema (what gets passed to the agent)
  • Output schema (reference/expected outputs)
  • Metadata fields (e.g., expected_tool, difficulty, labels)

The dataset metadata often contains ground truth for evaluation (e.g., which tool should be called, expected classification).

Step 3: Read Agent Code

Read the agent file provided in Step 1 to identify:

  • Entry point function (look for @traceable decorator)
  • Available tools
  • Output format (what the function returns)

Step 4: Write the Evaluator

Create evaluator functions based on trace and dataset structure. See EVALUATOR_REFERENCE.md for function signatures and return formats.

Step 5: Write Experiment Runner

Create a script that:

  1. Imports the agent's entry function
  2. Wraps it as a target function
  3. Runs evaluate() or aevaluate() against the dataset

See EVALUATOR_REFERENCE.md for evaluate() usage.

Step 6: Run and Iterate

Execute the experiment, review results in LangSmith, refine evaluators as needed.

Больше skills от langchain-ai

arxiv-search
langchain-ai
Поиск препринтов и научных статей на arXiv по теме с извлечением аннотаций. Поиск на основе запросов по физике, математике, информатике, биологии, статистике и смежным областям. Настраиваемый лимит результатов (по умолчанию 10 статей) с сортировкой по релевантности. Возвращает заголовок и аннотацию для каждой подходящей статьи. Требуется пакет arxiv для Python; установите через pip, если он ещё не установлен.
official
blog-post
langchain-ai
Написание длинных блогов с делегированием исследований, структурированными шаблонами контента и изображениями, созданными ИИ. Делегирует исследование сабагентам перед написанием, сохраняя результаты в Markdown для справки и контекста. Придерживается пятичастной структуры поста: зацепка, контекст, основной контент (3–5 разделов), практическое применение и заключение с призывом к действию. Генерирует SEO-оптимизированные изображения с помощью подробных промптов, охватывающих тему, стиль, композицию, цвет и освещение. Выводит посты в...
official
code-review
langchain-ai
Выполнить структурированное ревью кода изменений, проверяя корректность, стиль, тесты и потенциальные проблемы.
official
coding-prefs
langchain-ai
Читать предпочтения пользователя по кодированию из /memory/coding-prefs.md перед принятием нетривиальных стилевых решений и добавлять новые предпочтения, когда пользователь предоставляет…
official
competitor-analysis
langchain-ai
Когда просят проанализировать конкурентов:
official
cudf-analytics
langchain-ai
Используется для ускоренного на GPU анализа данных, CSV-файлов или табличных данных с помощью NVIDIA cuDF. Срабатывает, когда задачи включают группировку с агрегацией, статистические...
official
cuml-machine-learning
langchain-ai
Используется для ускоренного на GPU машинного обучения на табличных данных с помощью NVIDIA cuML. Запускается, когда задачи включают классификацию, регрессию, кластеризацию, снижение размерности…
official
data-visualization
langchain-ai
Используется для создания диаграмм публикационного качества и многопанельных сводок анализа. Срабатывает, когда задачи включают визуализацию данных, построение графиков результатов, создание…
official