Search Results: multimodal-ai

Found 33 Skills

AI & Machine Learningmrgoonie/claudekit-skills

ai-multimodal

Process and generate multimedia content using Google Gemini API. Capabilities include analyze audio files (transcription with timestamps, summarization, speech understanding, music/sound analysis up to 9.5 hours), understand images (captioning, object detection, OCR, visual Q&A, segmentation), process videos (scene detection, Q&A, temporal analysis, YouTube URLs, up to 6 hours), extract from documents (PDF tables, forms, charts, diagrams, multi-page), generate images (text-to-image, editing, composition, refinement). Use when working with audio/video files, analyzing images or screenshots, processing PDF documents, extracting structured data from media, creating images from text prompts, or implementing multimodal AI features. Supports multiple models (Gemini 2.5/2.0) with context windows up to 2M tokens.

🇺🇸|EnglishTranslated

6 scripts/Attention

AI & Machine Learning2025emma/vibe-coding-cn

claude-cookbooks

Claude AI cookbooks - code examples, tutorials, and best practices for using Claude API. Use when learning Claude API integration, building Claude-powered applications, or exploring Claude capabilities.

🇺🇸|EnglishTranslated

1 scripts/Attention

AI & Machine Learningcinience/alicloud-skills

alicloud-ai-multimodal-qwen-vl

Understand images with Alibaba Cloud Model Studio Qwen VL models (qwen3-vl-plus/qwen3-vl-flash and latest aliases). Use when building image Q&A, visual analysis, OCR-like extraction, chart/table reading, or screenshot understanding workflows.

🇺🇸|EnglishTranslated

1 scripts/Checked

AI & Machine Learningkrishamaze/skills

gemini-api-2026

Complete Google Gemini API reference for 2026. Use whenever writing code that calls Gemini models. Covers the google-genai SDK, Gemini 3/3.1 models, thought signatures, thinking config, Interactions API, File Search (managed RAG), Computer Use, URL Context, Nano Banana image gen, Live API, ephemeral tokens, TTS, Veo video gen, Lyria music gen, and all tools. ALWAYS prefer `from google import genai` over any legacy import. Use this skill for ANY Gemini API question, even simple ones.

🇺🇸|EnglishTranslated

AI & Machine Learningtanstack-skills/tanstack-...

tanstack-ai

Provider-agnostic, type-safe AI SDK for streaming, tool calling, structured output, and multimodal content.

🇺🇸|EnglishTranslated

Testing & QAcinience/alicloud-skills

alicloud-ai-multimodal-qwen-omni-test

Minimal multimodal omni smoke test for Model Studio Qwen Omni.

🇺🇸|EnglishTranslated

AI & Machine Learningcinience/alicloud-skills

aliyun-qwen-ocr

Use when OCR-specialized extraction is needed with Alibaba Cloud Model Studio Qwen OCR models (`qwen-vl-ocr`, `qwen-vl-ocr-latest`, and snapshots), including document parsing, table parsing, multilingual OCR, formula recognition, and key information extraction.

🇺🇸|EnglishTranslated

1 scripts/Checked

AI & Machine Learningopenrouterteam/skills

openrouter-images

Generate images from text prompts and edit existing images using OpenRouter's image generation models. Use when the user asks to create, generate, or make an image, picture, or illustration from a description, or wants to edit, modify, transform, or alter an existing image with a text prompt.

🇺🇸|EnglishTranslated

3 scripts/Attention

AI & Machine Learninglinkfox-ai/linkfox-skills

linkfox-multimodal-extract-attributes

利用多模态AI分析商品主图，提取视觉特征和提示词。当用户提到分析产品图片、从商品图中提取视觉属性、识别产品Listing中的颜色/形状/材质/风格、反推图片提示词、批量视觉特征提取、将产品图信息转化为结构化数据、视觉属性统计、基于图片的商品分类、main image analysis, image feature extraction, visual attribute recognition, product image analysis, image classification, batch image analysis时触发此技能。即使用户未明确提及"图片分析"，只要其需求涉及从商品主图或附图中提取结构化信息，也应触发此技能。

🇺🇸|EnglishTranslated

1 scripts/Checked