image-analysis
Compare original and translation side by side
🇺🇸
Original
English🇨🇳
Translation
Chinese图片分析与识别
图片分析与识别
支持智谱 GLM-4V 和千问 Qwen-VL 两种视觉模型。
当用户发送图片或要求分析图片时,必须使用此技能,不要使用 PIL、pytesseract 等其他方法。
支持智谱 GLM-4V 和千问 Qwen-VL 两种视觉模型。
当用户发送图片或要求分析图片时,必须使用此技能,不要使用 PIL、pytesseract 等其他方法。
配置
配置
编辑 :
skills/image-analysis/scripts/config.jsonjson
{
"default_model": "zhipu",
"zhipu": {
"api_key": "your-zhipu-api-key",
"model": "glm-4.6v-flash"
},
"qwen": {
"api_key": "your-qwen-api-key",
"model": "qwen3-vl-plus"
}
}API Key 获取:
编辑 :
skills/image-analysis/scripts/config.jsonjson
{
"default_model": "zhipu",
"zhipu": {
"api_key": "your-zhipu-api-key",
"model": "glm-4.6v-flash"
},
"qwen": {
"api_key": "your-qwen-api-key",
"model": "qwen3-vl-plus"
}
}API Key 获取:
命令行调用
命令行调用
bash
undefinedbash
undefined分析本地图片(最常用)
分析本地图片(最常用)
python3 skills/image-analysis/scripts/vision.py analyze --image 图片路径 --prompt "描述图片内容"
python3 skills/image-analysis/scripts/vision.py analyze --image 图片路径 --prompt "描述图片内容"
分析网络图片
分析网络图片
python3 skills/image-analysis/scripts/vision.py analyze --image https://example.com/image.jpg --prompt "描述图片"
python3 skills/image-analysis/scripts/vision.py analyze --image https://example.com/image.jpg --prompt "描述图片"
多图对比
多图对比
python3 skills/image-analysis/scripts/vision.py analyze --image img1.jpg --image img2.jpg --prompt "对比差异"
python3 skills/image-analysis/scripts/vision.py analyze --image img1.jpg --image img2.jpg --prompt "对比差异"
指定模型
指定模型
python3 skills/image-analysis/scripts/vision.py analyze --image image.jpg --prompt "描述图片" --model qwen
python3 skills/image-analysis/scripts/vision.py analyze --image image.jpg --prompt "描述图片" --model qwen
开启思考模式(仅智谱,提升准确度)
开启思考模式(仅智谱,提升准确度)
python3 skills/image-analysis/scripts/vision.py analyze --image image.jpg --prompt "详细分析" --thinking
python3 skills/image-analysis/scripts/vision.py analyze --image image.jpg --prompt "详细分析" --thinking
视频分析
视频分析
python3 skills/image-analysis/scripts/vision.py analyze --video video.mp4 --prompt "总结视频内容"
python3 skills/image-analysis/scripts/vision.py analyze --video video.mp4 --prompt "总结视频内容"
JSON 输出
JSON 输出
python3 skills/image-analysis/scripts/vision.py analyze --image image.jpg --prompt "描述图片" --json
undefinedpython3 skills/image-analysis/scripts/vision.py analyze --image image.jpg --prompt "描述图片" --json
undefinedAI 调用场景
AI 调用场景
用户发送图片后,系统下载到本地(如 ):
data/temp/images/xxx.jpgbash
undefined用户发送图片后,系统下载到本地(如 ):
data/temp/images/xxx.jpgbash
undefined图片描述
图片描述
python3 skills/image-analysis/scripts/vision.py analyze --image data/temp/images/xxx.jpg --prompt "描述这张图片的内容"
python3 skills/image-analysis/scripts/vision.py analyze --image data/temp/images/xxx.jpg --prompt "描述这张图片的内容"
OCR 识别
OCR 识别
python3 skills/image-analysis/scripts/vision.py analyze --image data/temp/images/xxx.jpg --prompt "提取图片中的所有文字信息"
python3 skills/image-analysis/scripts/vision.py analyze --image data/temp/images/xxx.jpg --prompt "提取图片中的所有文字信息"
物体定位(开启思考模式)
物体定位(开启思考模式)
python3 skills/image-analysis/scripts/vision.py analyze --image data/temp/images/xxx.jpg --prompt "找出物体位置,返回坐标" --thinking
undefinedpython3 skills/image-analysis/scripts/vision.py analyze --image data/temp/images/xxx.jpg --prompt "找出物体位置,返回坐标" --thinking
undefined模型选择
模型选择
| 场景 | 推荐 |
|---|---|
| 简单描述 | 任意 |
| 复杂推理、物体定位 | 智谱 + |
| 高精度识别、文档解析 | 千问 |
| 成本敏感 | 智谱(免费) |
| 场景 | 推荐 |
|---|---|
| 简单描述 | 任意 |
| 复杂推理、物体定位 | 智谱 + |
| 高精度识别、文档解析 | 千问 |
| 成本敏感 | 智谱(免费) |
注意事项
注意事项
- 本地图片自动转 Base64,支持 jpg/png/gif/webp/bmp
- 智谱图片限制 5MB,像素不超过 6000x6000
- 千问不支持同时处理图片、视频和文件
- 思考模式会增加响应时间但提升准确度
- 本地图片自动转 Base64,支持 jpg/png/gif/webp/bmp
- 智谱图片限制 5MB,像素不超过 6000x6000
- 千问不支持同时处理图片、视频和文件
- 思考模式会增加响应时间但提升准确度