Search Results: distributed-mode

Found 2 Skills

torch-pipeline-parallelism

Guidance for implementing PyTorch pipeline parallelism for distributed model training. This skill should be used when tasks involve implementing pipeline parallelism, distributed training with model partitioning across GPUs/ranks, AFAB (All-Forward-All-Backward) scheduling, or inter-rank tensor communication using torch.distributed.

🇺🇸|EnglishTranslated

AI & Machine Learningboshu2/agentops

shared

Shared reference documents for distributed mode skills (not directly invocable)

🇺🇸|EnglishTranslated