document-image-extractor
Compare original and translation side by side
🇺🇸
Original
English🇨🇳
Translation
ChineseDocument Image Extractor
文档图片提取工具
从 Word 和 PDF 文档中提取图片的 skill。
一款用于从Word和PDF文档中提取图片的Skill。
依赖安装
依赖安装
使用前需要安装依赖(默认用户已安装):
bash
conda run -n claude-code pip install python-docx pymupdf使用前需要安装依赖(默认用户已安装):
bash
conda run -n claude-code pip install python-docx pymupdf使用方法
使用方法
基本命令
基本命令
bash
conda run -n claude-code python scripts/extract_images.py <文档路径> [-o <输出目录>]bash
conda run -n claude-code python scripts/extract_images.py <文档路径> [-o <输出目录>]参数说明
参数说明
- :Word (.docx) 或 PDF (.pdf) 文件路径
文档路径 - :输出目录(可选,默认在文档同目录创建
-o, --output文件夹)<文件名>_images - :PNG 转换 DPI(可选,默认 150,越高越清晰)
--dpi - :保留原始 EMF/WMF 文件(Word 矢量图专用)
--keep-emf - :将 EMF/WMF 转换为 SVG(Word 矢量图专用)
--convert-svg
- :Word (.docx) 或 PDF (.pdf) 文件路径
文档路径 - :输出目录(可选,默认在文档同目录创建
-o, --output文件夹)<文件名>_images - :PNG转换DPI(可选,默认150,数值越高图片越清晰)
--dpi - :保留原始EMF/WMF文件(Word矢量图专用)
--keep-emf - :将EMF/WMF转换为SVG(Word矢量图专用)
--convert-svg
示例
示例
bash
undefinedbash
undefined从 Word 文档提取图片(默认只输出 PNG)
从Word文档提取图片(默认仅输出PNG格式)
conda run -n claude-code python scripts/extract_images.py document.docx
conda run -n claude-code python scripts/extract_images.py document.docx
提取图片并保留 EMF 源文件
提取图片并保留EMF源文件
conda run -n claude-code python scripts/extract_images.py document.docx --keep-emf
conda run -n claude-code python scripts/extract_images.py document.docx --keep-emf
提取图片并转换为 SVG 格式
提取图片并转换为SVG格式
conda run -n claude-code python scripts/extract_images.py document.docx --convert-svg
conda run -n claude-code python scripts/extract_images.py document.docx --convert-svg
提取图片并同时保留 EMF 和转换为 SVG
提取图片并同时保留EMF文件和转换为SVG格式
conda run -n claude-code python scripts/extract_images.py document.docx --keep-emf --convert-svg
conda run -n claude-code python scripts/extract_images.py document.docx --keep-emf --convert-svg
指定更高 DPI 以获得更清晰的 PNG
指定更高DPI以获得更清晰的PNG图片
conda run -n claude-code python scripts/extract_images.py document.docx --dpi 300
conda run -n claude-code python scripts/extract_images.py document.docx --dpi 300
从 PDF 提取图片
从PDF提取图片
conda run -n claude-code python scripts/extract_images.py document.pdf
conda run -n claude-code python scripts/extract_images.py document.pdf
指定输出目录
指定输出目录
conda run -n claude-code python scripts/extract_images.py document.docx -o ./my_images
undefinedconda run -n claude-code python scripts/extract_images.py document.docx -o ./my_images
undefined输出格式
输出格式
- 图片命名:,
image_001.png, ...image_002.jpg - PDF 图片会标注来源页面:
image_001.png (page 1)
- 图片命名:,
image_001.png, ...image_002.jpg - PDF图片会标注来源页面:
image_001.png (page 1)
支持的图片格式
支持的图片格式
Word 文档
Word文档
- PNG, JPEG, JPG, GIF, BMP, TIFF, WebP, SVG
- EMF/WMF 矢量图(可转换为 PNG/SVG)
- PNG, JPEG, JPG, GIF, BMP, TIFF, WebP, SVG
- EMF/WMF矢量图(可转换为PNG/SVG)
PDF 文档
PDF文档
- PNG, JPEG, JPG, GIF, BMP, TIFF
- 注:PDF 矢量图形无法单独提取(PDF 内置为绘制指令,非独立对象)
- PNG, JPEG, JPG, GIF, BMP, TIFF
- 注:PDF矢量图形无法单独提取(PDF内置为绘制指令,非独立对象)
注意事项
注意事项
- Word 文档:提取嵌入的图片、媒体文件和 SVG
- PDF 文档:仅提取嵌入的位图图像
- 如果文档中没有图片,将提示 "No images found"
- Word文档:提取嵌入的图片、媒体文件和SVG
- PDF文档:仅提取嵌入的位图图像
- 如果文档中没有图片,将提示 "No images found"