Forge
Tối ưu hóa kernel GPU - 32 tác tử bầy đàn biến PyTorch thành các kernel CUDA/Triton nhanh trên GPU trung tâm dữ liệu thực với tốc độ tăng lên đến 14 lần
Tài liệu
Không có tài liệu.
Tối ưu hóa kernel GPU - 32 tác tử bầy đàn biến PyTorch thành các kernel CUDA/Triton nhanh trên GPU trung tâm dữ liệu thực với tốc độ tăng lên đến 14 lần
Không có tài liệu.