document-image-extractor

Compare original and translation side by side

🇺🇸

Original

English

🇨🇳

Translation

Chinese

Document Image Extractor

文档图片提取工具

从 Word 和 PDF 文档中提取图片的 skill。

一款用于从Word和PDF文档中提取图片的Skill。

依赖安装

使用前需要安装依赖（默认用户已安装）：

bash

conda run -n claude-code pip install python-docx pymupdf

使用前需要安装依赖（默认用户已安装）：

bash

conda run -n claude-code pip install python-docx pymupdf

使用方法

基本命令

bash

conda run -n claude-code python scripts/extract_images.py <文档路径> [-o <输出目录>]

bash

conda run -n claude-code python scripts/extract_images.py <文档路径> [-o <输出目录>]

参数说明

```
文档路径
```
：Word (.docx) 或 PDF (.pdf) 文件路径
```
-o, --output
```
：输出目录（可选，默认在文档同目录创建
```
<文件名>_images
```
文件夹）
```
--dpi
```
：PNG 转换 DPI（可选，默认 150，越高越清晰）
```
--keep-emf
```
：保留原始 EMF/WMF 文件（Word 矢量图专用）
```
--convert-svg
```
：将 EMF/WMF 转换为 SVG（Word 矢量图专用）

```
文档路径
```
：Word (.docx) 或 PDF (.pdf) 文件路径
```
-o, --output
```
：输出目录（可选，默认在文档同目录创建
```
<文件名>_images
```
文件夹）
```
--dpi
```
：PNG转换DPI（可选，默认150，数值越高图片越清晰）
```
--keep-emf
```
：保留原始EMF/WMF文件（Word矢量图专用）
```
--convert-svg
```
：将EMF/WMF转换为SVG（Word矢量图专用）

示例

bash

undefined

bash

undefined

从 Word 文档提取图片（默认只输出 PNG）

从Word文档提取图片（默认仅输出PNG格式）

conda run -n claude-code python scripts/extract_images.py document.docx

提取图片并保留 EMF 源文件

提取图片并保留EMF源文件

conda run -n claude-code python scripts/extract_images.py document.docx --keep-emf

提取图片并转换为 SVG 格式

提取图片并转换为SVG格式

conda run -n claude-code python scripts/extract_images.py document.docx --convert-svg

提取图片并同时保留 EMF 和转换为 SVG

提取图片并同时保留EMF文件和转换为SVG格式

conda run -n claude-code python scripts/extract_images.py document.docx --keep-emf --convert-svg

指定更高 DPI 以获得更清晰的 PNG

指定更高DPI以获得更清晰的PNG图片

conda run -n claude-code python scripts/extract_images.py document.docx --dpi 300

从 PDF 提取图片

从PDF提取图片

conda run -n claude-code python scripts/extract_images.py document.pdf

指定输出目录

conda run -n claude-code python scripts/extract_images.py document.docx -o ./my_images

undefined

conda run -n claude-code python scripts/extract_images.py document.docx -o ./my_images

undefined

输出格式

图片命名：
```
image_001.png
```
,
```
image_002.jpg
```
, ...
PDF 图片会标注来源页面：
```
image_001.png (page 1)
```

图片命名：
```
image_001.png
```
,
```
image_002.jpg
```
, ...
PDF图片会标注来源页面：
```
image_001.png (page 1)
```

支持的图片格式

Word 文档

Word文档

PNG, JPEG, JPG, GIF, BMP, TIFF, WebP, SVG
EMF/WMF 矢量图（可转换为 PNG/SVG）

PNG, JPEG, JPG, GIF, BMP, TIFF, WebP, SVG
EMF/WMF矢量图（可转换为PNG/SVG）

PDF 文档

PDF文档

PNG, JPEG, JPG, GIF, BMP, TIFF
注：PDF 矢量图形无法单独提取（PDF 内置为绘制指令，非独立对象）

PNG, JPEG, JPG, GIF, BMP, TIFF
注：PDF矢量图形无法单独提取（PDF内置为绘制指令，非独立对象）

注意事项

Word 文档：提取嵌入的图片、媒体文件和 SVG
PDF 文档：仅提取嵌入的位图图像
如果文档中没有图片，将提示 "No images found"

Word文档：提取嵌入的图片、媒体文件和SVG
PDF文档：仅提取嵌入的位图图像
如果文档中没有图片，将提示 "No images found"