Search Results: agent-benchmarking

Found 3 Skills

eval-recipes-runner

Run Microsoft's eval-recipes benchmarks to validate amplihack improvements against baseline agents. Auto-activates when testing improvements, running evals, or benchmarking changes.

🇺🇸|EnglishTranslated

AI & Machine Learningruvnet/ruflo

agent-benchmark-suite

Agent skill for benchmark-suite - invoke with $agent-benchmark-suite

🇺🇸|EnglishTranslated

AI & Machine Learningaffaan-m/everything-claud...

agent-harness-construction

Design and optimize AI agent action spaces, tool definitions, and observation formatting for higher completion rates.

🇺🇸|EnglishTranslated