Search Results: pytorch

Found 115 Skills

nemo-mbridge-perf-memory-tuning

Techniques for reducing peak GPU memory in Megatron Bridge — expandable segments, parallelism resizing, activation recompute, CPU offloading constraints, and common OOM fixes.

🇺🇸|EnglishTranslated

AI & Machine Learningnvidia/skills

nemo-mbridge-perf-expert-parallel-overlap

Validate and use MoE expert-parallel communication overlap in Megatron-Bridge, including overlap_moe_expert_parallel_comm, delay_wgrad_compute, and flex dispatcher backends such as DeepEP and HybridEP.

🇺🇸|EnglishTranslated

AI & Machine Learningnvidia/skills

nemo-automodel-distributed-training

Guide for selecting and configuring distributed training strategies in NeMo AutoModel, including FSDP2, Megatron FSDP, DDP, and parallelism settings.

🇺🇸|EnglishTranslated

AI & Machine Learningascend/agent-skills

triton-operator-env-config

Verify and build the required environment for Triton operator development on the Ascend platform, including configurations of dependencies such as CANN, Python/torch/torch_npu/triton-ascend and PATH environment variables. This is used when users need to configure the Triton operator development environment, check the installation of CANN/torch/triton-ascend, or verify whether the environment is available.

🇨🇳|ChineseTranslated

1 scripts/Checked

AI & Machine Learningabsolutelyskilled/absolut...

computer-vision

Use this skill when building computer vision applications, implementing image classification, object detection, or segmentation pipelines. Triggers on image classification, object detection, YOLO, semantic segmentation, image preprocessing, data augmentation, transfer learning, CNN architectures, vision transformers, and any task requiring visual recognition or image analysis.

🇺🇸|EnglishTranslated

AI & Machine Learningdavila7/claude-code-templ...

nanogpt

Educational GPT implementation in ~300 lines. Reproduces GPT-2 (124M) on OpenWebText. Clean, hackable code for learning transformers. By Andrej Karpathy. Perfect for understanding GPT architecture from scratch. Train on Shakespeare (CPU) or OpenWebText (multi-GPU).

🇺🇸|EnglishTranslated

AI & Machine Learningjg-chalk-io/nora-livekit

moai-ml-llm-fine-tuning

Enterprise LLM Fine-Tuning with LoRA, QLoRA, and PEFT techniques

🇺🇸|EnglishTranslated

AI & Machine Learningnvidia/skills

dali-dynamic-mode

Use when writing DALI data loading or preprocessing code with `nvidia.dali.experimental.dynamic` (ndd), or when converting DALI pipeline-mode code to dynamic mode, or when the user asks about DALI dynamic mode, imperative DALI, or ndd. Use this skill any time someone mentions 'ndd', 'dynamic mode', or wants to load/augment data with DALI outside of a pipeline definition.

🇺🇸|EnglishTranslated

1 scripts/Checked

AI & Machine Learningnvidia/skills

perf-memory-tuning

Techniques for reducing peak GPU memory in Megatron Bridge — expandable segments, parallelism resizing, activation recompute, CPU offloading constraints, and common OOM fixes.

🇺🇸|EnglishTranslated

AI & Machine Learningpluginagentmarketplace/cu...

computer-vision

Image processing, object detection, segmentation, and vision models. Use for image classification, object detection, or visual analysis tasks.

🇺🇸|EnglishTranslated

1 scripts/Checked

AI & Machine Learningascend-ai-coding/awesome-...

ai-for-science-generator

GENERator DNA 序列生成模型的昇腾 NPU 迁移 Skill，适用于将基于 HuggingFace Transformers 的 Causal LM 从 CUDA 迁移到华为 Ascend NPU，覆盖环境搭建、依赖安装、代码适配、多进程处理和 sequence recovery 验证。

🇺🇸|EnglishTranslated

1 scripts/Attention

AI & Machine Learningnvidia/skills

perf-workload-profiling

Code instrumentation for timing workloads. Two scenarios: (1) Training loop — inject manual timing to report per-iteration latency, throughput (samples/sec), and data load time. (2) Standalone kernel/op — write CUDA event timing code with warmup, per-iteration statistics, and anti-pattern avoidance. Also covers NVTX annotation for labeling profiler timelines. NOT for: running or analyzing profiler tools (nsys, ncu, Nsight Systems, Nsight Compute), writing kernels (Triton, CuTe, CUDA), applying optimizations (CUDA Graphs, gradient checkpointing, fusion), or interpreting roofline/SOL% metrics. Triggers: "measure throughput", "benchmark this function", "time my training loop", "samples per second", "NVTX annotate", "instrument my dataloader", "data load time", "kernel timing", "how do I time".

🇺🇸|EnglishTranslated