toml-config

How to write and use TOML configs in prime-rl. Use when creating config files, running commands with configs, or overriding config values via CLI.

npx skills add https://github.com/huggingface/prime-rl --skill toml-config

TOML Config

All prime-rl commands use pydantic_config (tyro-backed) with TOML configs and CLI overrides.

Running with configs

# Load a config file with @ syntax
uv run inference @ configs/debug/infer.toml
uv run sft @ configs/debug/sft/train.toml
uv run rl @ configs/debug/rl/train.toml

# CLI overrides (take precedence over TOML)
uv run inference @ config.toml --model.name Qwen/Qwen3-0.6B --server.port 8001

# Boolean flags: no value needed
uv run inference --model.enforce-eager          # sets to true
uv run inference --no-model.enforce-eager       # sets to false

# CLI-only (no TOML file)
uv run inference --model.name Qwen/Qwen3-0.6B --model.max-model-len 2048

# Compose multiple config files (later files override earlier ones)
uv run rl @ examples/reverse_text/rl.toml @ examples/reverse_text/slurm_rl.toml

# Nested config files: load a config for a specific section
uv run rl --model @ model.toml --data @ data.toml

TOML structure

Top-level fields must come before any [section] header — this is a TOML rule.

# Top-level fields first
gpu_memory_utilization = 0.5
seed = 42

# Then sections
[model]
name = "Qwen/Qwen3-0.6B"
max_model_len = 4096

[server]
port = 8000

Putting a top-level field after a section header nests it inside that section, which causes validation errors.

Setting None

Use the string "None" in TOML to set a field to None:

max_model_len = "None"

SLURM mode

Both rl and sft commands support SLURM execution via an optional [slurm] section. When present, the run is submitted as a SLURM job instead of running locally.

SLURM configs are composed with the base config via CLI:

uv run rl @ examples/reverse_text/rl.toml @ examples/reverse_text/slurm_rl.toml

RL SLURM

output_dir = "/shared/experiments/my-run"

[deployment]
type = "multi_node"
num_train_nodes = 2
num_infer_nodes = 1
gpus_per_node = 8
# nodes_per_fsdp_group = 1

[slurm]
job_name = "my-rl-job"
# dry_run = true          # generate script without submitting
# template_path = "path/to/custom.sh.j2"
# project_dir = "/path/to/project"

When [slurm] is set for RL:

  • output_dir must be explicitly set (the default outputs is rejected)
  • Teacher inference is not supported in multi-node deployment

SFT SLURM

output_dir = "/shared/experiments/my-sft-run"

[deployment]
type = "multi_node"
num_nodes = 2
gpus_per_node = 8
# nodes_per_fsdp_group = 1

[slurm]
job_name = "my-sft-job"
# dry_run = true
# template_path = "path/to/custom.sh.j2"
# project_dir = "/path/to/project"

SFT deployment follows the same pattern as RL:

  • [deployment] configures node/GPU allocation (single_node default or multi_node)
  • [slurm] configures SLURM submission (job name, partition, template)
  • output_dir must be explicitly set when using SLURM
  • Multi-node deployment requires [slurm] to be set

Available commands

All accept @ config.toml and CLI overrides:

CommandConfig classDescription
uv run rlfull RL pipelineOrchestrator + inference + trainer (local or SLURM)
uv run inferenceInferenceConfigvLLM inference server
uv run trainertrainer configRL trainer
uv run orchestratororchestrator configRollout orchestrator
uv run env-serverenv server configEnvironment server
uv run sftSFT configSupervised fine-tuning (local or SLURM)

Key files

  • src/prime_rl/utils/config.pyBaseConfig, cli, get_all_fields
  • src/prime_rl/entrypoints/rl.py — unified RL entrypoint (local + SLURM)
  • src/prime_rl/configs/rl.pyRLConfig, SlurmConfig, DeploymentConfig
  • src/prime_rl/entrypoints/sft.py — unified SFT entrypoint (local + SLURM)
  • src/prime_rl/configs/sft.pySFTConfig
  • configs/ — all config files, organized by task

Más skills de huggingface

Hugging Face Cli
huggingface
Execute Hugging Face Hub operations using the `hf` CLI. Use when the user needs to download models/datasets/spaces, upload files to Hub repositories, create repos, manage local cache, or run compute jobs on HF infrastructure. Covers authentication, file transfers, repository creation, cache operations, and cloud compute.
official
Hugging Face Datasets
huggingface
Crear y gestionar conjuntos de datos en Hugging Face Hub. Permite inicializar repositorios, definir configuraciones/indicaciones del sistema, transmitir actualizaciones de filas y realizar consultas/transformaciones de conjuntos de datos basadas en SQL. Diseñado para funcionar junto con el servidor HF MCP para flujos de trabajo integrales de conjuntos de datos.
official
Hugging Face Evaluation
huggingface
Agregar y gestionar resultados de evaluación en tarjetas de modelo de Hugging Face. Permite extraer tablas de evaluación del contenido README, importar puntuaciones desde la API de Artificial Analysis y ejecutar evaluaciones de modelo personalizadas con vLLM/lighteval. Funciona con el formato de metadatos model-index.
official
Hugging Face Jobs
huggingface
Ejecuta cualquier carga de trabajo en la infraestructura de Hugging Face Jobs. Incluye scripts UV, trabajos basados en Docker, selección de hardware, estimación de costos, autenticación con tokens, gestión de secretos, configuración de tiempo de espera y persistencia de resultados. Diseñado para cargas de trabajo de cómputo de propósito general, incluyendo procesamiento de datos, inferencia, experimentos, trabajos por lotes y cualquier tarea basada en Python.
official
Hugging Face Model Trainer
huggingface
Entrena o ajusta modelos de lenguaje usando TRL (Transformer Reinforcement Learning) en la infraestructura de trabajos de Hugging Face. Cubre los métodos de entrenamiento SFT, DPO, GRPO y modelado de recompensas, además de la conversión a GGUF para implementación local. Incluye orientación sobre preparación de conjuntos de datos, selección de hardware, estimación de costos y persistencia del modelo.
official
Hugging Face Paper Publisher
huggingface
Publica y gestiona artículos de investigación en Hugging Face Hub. Permite crear páginas de artículos, vincularlos a modelos/conjuntos de datos, reclamar autoría y generar artículos de investigación profesionales basados en Markdown.
official
Hugging Face Tool Builder
huggingface
Construye scripts y herramientas reutilizables usando la API de Hugging Face. Útil al encadenar o combinar llamadas a la API, o cuando las tareas se repetirán o automatizarán. Crea scripts reutilizables de línea de comandos para obtener, enriquecer o procesar datos de Hugging Face Hub.
official
Hugging Face Trackio
huggingface
Seguimiento y visualización de experimentos de entrenamiento de ML con Trackio. Úsalo para registrar métricas durante el entrenamiento (API de Python) o para recuperar/analizar métricas registradas (CLI). Admite visualización en tablero en tiempo real, sincronización con HF Space y salida JSON para automatización.
official