Search Results: vision-language

Found 8 Skills

AI & Machine Learningdavila7/claude-code-templ...

llava

Large Language and Vision Assistant. Enables visual instruction tuning and image-based conversations. Combines CLIP vision encoder with Vicuna/LLaMA language models. Supports multi-turn image chat, visual question answering, and instruction following. Use for vision-language chatbots or image understanding tasks. Best for conversational image analysis.

🇺🇸|EnglishTranslated

AI & Machine Learningdavila7/claude-code-templ...

clip

OpenAI's model connecting vision and language. Enables zero-shot image classification, image-text matching, and cross-modal retrieval. Trained on 400M image-text pairs. Use for image search, content moderation, or vision-language tasks without fine-tuning. Best for general-purpose image understanding.

🇺🇸|EnglishTranslated

AI & Machine Learningaradotso/trending-skills

open-autoglm-phone-agent

Expert skill for Open-AutoGLM, an AI phone agent framework that controls Android/HarmonyOS/iOS devices via natural language using the AutoGLM vision-language model

🇺🇸|EnglishTranslated

AI & Machine Learningsundial-org/skills

tinker

Fine-tune LLMs using the Tinker API. Covers supervised fine-tuning, reinforcement learning, LoRA training, vision-language models, and both high-level Cookbook patterns and low-level API usage.

🇺🇸|EnglishTranslated

AI & Machine Learningaradotso/trending-skills

deepseek-ocr

Expert skill for using DeepSeek-OCR, a vision-language model for optical character recognition with context optical compression supporting documents, PDFs, and images.

🇺🇸|EnglishTranslated

AI & Machine Learningtdimino/claude-code-minoa...

smolvlm

Local vision-language model for image analysis using SmolVLM-2B

🇺🇸|EnglishTranslated

1 scripts/Checked

AI & Machine Learningdavila7/claude-code-templ...

blip-2-vision-language

Vision-language pre-training framework bridging frozen image encoders and LLMs. Use when you need image captioning, visual question answering, image-text retrieval, or multimodal chat with state-of-the-art zero-shot performance.

🇺🇸|EnglishTranslated

AI & Machine Learningsickn33/antigravity-aweso...

computer-vision-expert

SOTA Computer Vision Expert (2026). Specialized in YOLO26, Segment Anything 3 (SAM 3), Vision Language Models, and real-time spatial analysis.

🇺🇸|EnglishTranslated