Forge MCP Server

Optimisation des noyaux GPU - 32 agents en essaim transforment PyTorch en noyaux CUDA/Triton rapides sur des GPU de centre de données réels avec un gain de vitesse allant jusqu'à 14x