document-image-extractor

Compare original and translation side by side

🇺🇸

Original

English
🇨🇳

Translation

Chinese

Document Image Extractor

文档图片提取工具

从 Word 和 PDF 文档中提取图片的 skill。
一款用于从Word和PDF文档中提取图片的Skill。

依赖安装

依赖安装

使用前需要安装依赖(默认用户已安装):
bash
conda run -n claude-code pip install python-docx pymupdf
使用前需要安装依赖(默认用户已安装):
bash
conda run -n claude-code pip install python-docx pymupdf

使用方法

使用方法

基本命令

基本命令

bash
conda run -n claude-code python scripts/extract_images.py <文档路径> [-o <输出目录>]
bash
conda run -n claude-code python scripts/extract_images.py <文档路径> [-o <输出目录>]

参数说明

参数说明

  • 文档路径
    :Word (.docx) 或 PDF (.pdf) 文件路径
  • -o, --output
    :输出目录(可选,默认在文档同目录创建
    <文件名>_images
    文件夹)
  • --dpi
    :PNG 转换 DPI(可选,默认 150,越高越清晰)
  • --keep-emf
    :保留原始 EMF/WMF 文件(Word 矢量图专用)
  • --convert-svg
    :将 EMF/WMF 转换为 SVG(Word 矢量图专用)
  • 文档路径
    :Word (.docx) 或 PDF (.pdf) 文件路径
  • -o, --output
    :输出目录(可选,默认在文档同目录创建
    <文件名>_images
    文件夹)
  • --dpi
    :PNG转换DPI(可选,默认150,数值越高图片越清晰)
  • --keep-emf
    :保留原始EMF/WMF文件(Word矢量图专用)
  • --convert-svg
    :将EMF/WMF转换为SVG(Word矢量图专用)

示例

示例

bash
undefined
bash
undefined

从 Word 文档提取图片(默认只输出 PNG)

从Word文档提取图片(默认仅输出PNG格式)

conda run -n claude-code python scripts/extract_images.py document.docx
conda run -n claude-code python scripts/extract_images.py document.docx

提取图片并保留 EMF 源文件

提取图片并保留EMF源文件

conda run -n claude-code python scripts/extract_images.py document.docx --keep-emf
conda run -n claude-code python scripts/extract_images.py document.docx --keep-emf

提取图片并转换为 SVG 格式

提取图片并转换为SVG格式

conda run -n claude-code python scripts/extract_images.py document.docx --convert-svg
conda run -n claude-code python scripts/extract_images.py document.docx --convert-svg

提取图片并同时保留 EMF 和转换为 SVG

提取图片并同时保留EMF文件和转换为SVG格式

conda run -n claude-code python scripts/extract_images.py document.docx --keep-emf --convert-svg
conda run -n claude-code python scripts/extract_images.py document.docx --keep-emf --convert-svg

指定更高 DPI 以获得更清晰的 PNG

指定更高DPI以获得更清晰的PNG图片

conda run -n claude-code python scripts/extract_images.py document.docx --dpi 300
conda run -n claude-code python scripts/extract_images.py document.docx --dpi 300

从 PDF 提取图片

从PDF提取图片

conda run -n claude-code python scripts/extract_images.py document.pdf
conda run -n claude-code python scripts/extract_images.py document.pdf

指定输出目录

指定输出目录

conda run -n claude-code python scripts/extract_images.py document.docx -o ./my_images
undefined
conda run -n claude-code python scripts/extract_images.py document.docx -o ./my_images
undefined

输出格式

输出格式

  • 图片命名:
    image_001.png
    ,
    image_002.jpg
    , ...
  • PDF 图片会标注来源页面:
    image_001.png (page 1)
  • 图片命名:
    image_001.png
    ,
    image_002.jpg
    , ...
  • PDF图片会标注来源页面:
    image_001.png (page 1)

支持的图片格式

支持的图片格式

Word 文档

Word文档

  • PNG, JPEG, JPG, GIF, BMP, TIFF, WebP, SVG
  • EMF/WMF 矢量图(可转换为 PNG/SVG)
  • PNG, JPEG, JPG, GIF, BMP, TIFF, WebP, SVG
  • EMF/WMF矢量图(可转换为PNG/SVG)

PDF 文档

PDF文档

  • PNG, JPEG, JPG, GIF, BMP, TIFF
  • 注:PDF 矢量图形无法单独提取(PDF 内置为绘制指令,非独立对象)
  • PNG, JPEG, JPG, GIF, BMP, TIFF
  • 注:PDF矢量图形无法单独提取(PDF内置为绘制指令,非独立对象)

注意事项

注意事项

  • Word 文档:提取嵌入的图片、媒体文件和 SVG
  • PDF 文档:仅提取嵌入的位图图像
  • 如果文档中没有图片,将提示 "No images found"
  • Word文档:提取嵌入的图片、媒体文件和SVG
  • PDF文档:仅提取嵌入的位图图像
  • 如果文档中没有图片,将提示 "No images found"