docx-reader

Compare original and translation side by side

🇺🇸

Original

English
🇨🇳

Translation

Chinese

DOCX Reader

DOCX 读取工具

Microsoft Word (.docx) ファイルをテキスト形式で読み込むスキルです。
这是一款读取Microsoft Word(.docx)文件并提取为文本格式的工具。

クイックスタート

快速入门

基本的な使い方

基本用法

bash
undefined
bash
undefined

WSL環境でPythonスクリプトを実行

在WSL环境中执行Python脚本

wsl python3 scripts/read_docx.py "/mnt/c/path/to/file.docx"
undefined
wsl python3 scripts/read_docx.py "/mnt/c/path/to/file.docx"
undefined

Markdown形式で保存

保存为Markdown格式

  1. スクリプトでテキスト抽出
  2. Write ツールで .md ファイルに保存
  1. 使用脚本提取文本
  2. 通过Write工具保存为.md文件

前提条件

前提条件

python-docx パッケージが必要です:
bash
wsl pip3 install python-docx
需要安装python-docx包:
bash
wsl pip3 install python-docx

使用例

使用示例

例1: .docx ファイルを読み込んで内容を表示

示例1:读取.docx文件并显示内容

User: "C:\Users\keita\repos\file.docx を読み込んで"
Assistant:
1. Windowsパスを WSL パスに変換: /mnt/c/Users/keita/repos/file.docx
2. wsl python3 scripts/read_docx.py を実行
3. 抽出されたテキストを表示
用户: "C:\Users\keita\repos\file.docx を読み込んで"
助手:
1. 将Windows路径转换为WSL路径: /mnt/c/Users/keita/repos/file.docx
2. 执行 wsl python3 scripts/read_docx.py
3. 显示提取的文本

例2: .docx を Markdown に変換して保存

示例2:将.docx转换为Markdown并保存

User: "申請書.docx を Markdown に変換して保存"
Assistant:
1. scripts/read_docx.py でテキスト抽出
2. Markdown形式で整形
3. Write ツールで 申請書.md に保存
4. 保存完了を報告
用户: "申請書.docx を Markdown に変換して保存"
助手:
1. 使用scripts/read_docx.py提取文本
2. 整理为Markdown格式
3. 通过Write工具保存为 申請書.md
4. 报告保存完成

ワークフロー

工作流程

単一ファイルの読み込み

单个文件读取

  1. ユーザーが .docx ファイルパスを指定
  2. Windows パスを WSL パス形式に変換 (
    C:\
    /mnt/c/
    )
  3. wsl python3 scripts/read_docx.py
    を実行
  4. 抽出されたテキストを表示または保存
  1. 用户指定.docx文件路径
  2. 将Windows路径转换为WSL路径格式(
    C:\
    /mnt/c/
  3. 执行
    wsl python3 scripts/read_docx.py
  4. 显示或保存提取的文本

複数ファイルの一括処理

多个文件批量处理

  1. Glob で .docx ファイルを検索
  2. 各ファイルに対してスクリプトを実行
  3. 結果をまとめて報告
  1. 使用Glob搜索.docx文件
  2. 对每个文件执行脚本
  3. 汇总结果并报告

スクリプト詳細

脚本详情

Python スクリプトは
scripts/read_docx.py
に配置されています。
主な機能:
  • 段落テキストの抽出
  • テーブルデータの抽出
  • エラーハンドリング
使い方:
bash
python scripts/read_docx.py <file_path>
Python脚本位于
scripts/read_docx.py
主要功能:
  • 提取段落文本
  • 提取表格数据
  • 错误处理
使用方法:
bash
python scripts/read_docx.py <file_path>

制限事項

限制事项

  • 画像は抽出されません
  • 複雑なレイアウトは簡略化されます
  • フォント情報、色などのスタイルは失われます
  • 埋め込みオブジェクトは抽出されません
  • 无法提取图片
  • 复杂布局会被简化
  • 字体信息、颜色等样式会丢失
  • 无法提取嵌入对象

トラブルシューティング

故障排除

python-docx がインストールされていない

未安装python-docx

bash
wsl pip3 install python-docx
bash
wsl pip3 install python-docx

"No module named 'docx'" エラー

出现 "No module named 'docx'" 错误

bash
wsl pip3 uninstall docx
wsl pip3 install python-docx
bash
wsl pip3 uninstall docx
wsl pip3 install python-docx

ファイルが開けない

无法打开文件

  • ファイルパスが正しいか確認(Windows → WSL パス変換)
  • ファイルが他のプログラムで開かれていないか確認
  • ファイルのアクセス権限を確認
  • 检查文件路径是否正确(注意Windows到WSL的路径转换)
  • 确认文件未被其他程序打开
  • 检查文件的访问权限

パス変換

路径转换

Windows パスから WSL パスへの変換:
  • C:\Users\...
    /mnt/c/Users/...
  • D:\Projects\...
    /mnt/d/Projects/...
  • バックスラッシュ
    \
    をスラッシュ
    /
    に変換
Windows路径转换为WSL路径:
  • C:\Users\...
    /mnt/c/Users/...
  • D:\Projects\...
    /mnt/d/Projects/...
  • 将反斜杠
    \
    转换为斜杠
    /

関連ツール

相关工具

  • pandoc: より高度な変換が必要な場合
  • python-docx2txt: 軽量な代替ライブラリ
  • mammoth: HTML形式での変換
  • pandoc: 需要更高级转换时使用
  • python-docx2txt: 轻量级替代库
  • mammoth: 转换为HTML格式

バージョン履歴

版本历史

  • v1.0.0 (2026-01-06): 初期リリース
    • 基本的なテキスト抽出機能
    • テーブル抽出対応
    • WSL環境での動作
  • v1.0.0 (2026-01-06): 初始版本
    • 基础文本提取功能
    • 支持表格提取
    • 适配WSL环境运行