Search Results: dataset

Found 288 Skills

Backend Developmentaj-geddes/useful-ai-promp...

api-pagination

Implement efficient pagination strategies for large datasets using offset/limit, cursor-based, and keyset pagination. Use when returning collections, managing large result sets, or optimizing query performance.

🇺🇸|EnglishTranslated

Data Processingletta-ai/skills

count-dataset-tokens

Guidance for counting tokens in datasets, particularly from HuggingFace or similar sources. This skill should be used when tasks involve counting tokens in datasets, understanding dataset schemas, filtering by categories/domains, or working with tokenizers. It helps avoid common pitfalls like incomplete field identification and ambiguous terminology interpretation.

🇺🇸|EnglishTranslated

Data Processing404kidwiz/claude-supercod...

data-researcher

Data discovery and analysis specialist focused on extracting actionable insights from complex datasets, identifying patterns and anomalies, and transforming raw data into strategic intelligence. Excels at multi-source data integration, advanced analytics, and data-driven decision support.

🇺🇸|EnglishTranslated

Testing & QAspatie/freek.dev

pest-testing

Tests applications using the Pest 4 PHP framework. Activates when writing tests, creating unit or feature tests, adding assertions, testing Livewire components, browser testing, debugging test failures, working with datasets or mocking; or when the user mentions test, spec, TDD, expects, assertion, coverage, or needs to verify functionality works.

🇺🇸|EnglishTranslated

Data Processingaxiomhq/skills

query-metrics

Runs metrics queries against Axiom MetricsDB via scripts. Discovers available metrics, tags, and tag values. Use when asked to query metrics, explore metric datasets, check metric values, or investigate OTel metrics data.

🇺🇸|EnglishTranslated

5 scripts/Checked

Data Processingmims-harvard/tooluniverse

tooluniverse-statistical-modeling

Perform statistical modeling and regression analysis on biomedical datasets. Supports linear regression, logistic regression (binary/ordinal/multinomial), mixed-effects models, Cox proportional hazards survival analysis, Kaplan-Meier estimation, and comprehensive model diagnostics. Extracts odds ratios, hazard ratios, confidence intervals, p-values, and effect sizes. Designed to solve BixBench statistical reasoning questions involving clinical/experimental data. Use when asked to fit regression models, compute odds ratios, perform survival analysis, run statistical tests, or interpret model coefficients from provided data.

🇺🇸|EnglishTranslated

3 scripts/Checked

Frontend Developmentsyncfusion/wpf-ui-compone...

syncfusion-wpf-treeview

Comprehensive guide for implementing Syncfusion WPF TreeView (SfTreeView) control to display hierarchical data in Windows Presentation Foundation applications. Use this when working with tree structures, folder hierarchies, organizational charts, or parent-child data relationships. Supports drag-and-drop reordering, checkbox selection, load-on-demand for large datasets, and inline editing of tree nodes.

🇺🇸|EnglishTranslated

AI & Machine Learningorq-ai/assistant-plugins

generate-synthetic-dataset

Generate and curate evaluation datasets — structured generation via dimensions-tuples-NL, quick from description, expansion from existing data, plus dataset maintenance through deduplication, rebalancing, and gap-filling. Use when creating eval data, expanding test coverage, or cleaning datasets. Do NOT use when sufficient real production data exists (use analyze-trace-failures instead). Do NOT use for evaluator creation (use build-evaluator).

🇺🇸|EnglishTranslated

Data Processingpostplusai/postplus-skill...

xiaohongshu-media-collector

Collect validated Xiaohongshu image assets from normalized XHS datasets into local manifests and downloaded files. Use this when you need reproducible local media artifacts from note covers or other already-exposed remote asset URLs.

🇺🇸|EnglishTranslated

5 scripts/Attention

Data Processingdavila7/claude-code-templ...

nemo-curator

GPU-accelerated data curation for LLM training. Supports text/image/video/audio. Features fuzzy deduplication (16× faster), quality filtering (30+ heuristics), semantic deduplication, PII redaction, NSFW detection. Scales across GPUs with RAPIDS. Use for preparing high-quality training datasets, cleaning web data, or deduplicating large corpora.

🇺🇸|EnglishTranslated

AI & Machine Learningdavila7/claude-code-templ...

transformers

This skill should be used when working with pre-trained transformer models for natural language processing, computer vision, audio, or multimodal tasks. Use for text generation, classification, question answering, translation, summarization, image classification, object detection, speech recognition, and fine-tuning models on custom datasets.

🇺🇸|EnglishTranslated

Data Processingdavila7/claude-code-templ...

geopandas

Python library for working with geospatial vector data including shapefiles, GeoJSON, and GeoPackage files. Use when working with geographic data for spatial analysis, geometric operations, coordinate transformations, spatial joins, overlay operations, choropleth mapping, or any task involving reading/writing/analyzing vector geographic data. Supports PostGIS databases, interactive maps, and integration with matplotlib/folium/cartopy. Use for tasks like buffer analysis, spatial joins between datasets, dissolving boundaries, clipping data, calculating areas/distances, reprojecting coordinate systems, creating maps, or converting between spatial file formats.

🇺🇸|EnglishTranslated