docx-reader
Compare original and translation side by side
🇺🇸
Original
English🇨🇳
Translation
ChineseDOCX Reader
DOCX 读取工具
Microsoft Word (.docx) ファイルをテキスト形式で読み込むスキルです。
这是一款读取Microsoft Word(.docx)文件并提取为文本格式的工具。
クイックスタート
快速入门
基本的な使い方
基本用法
bash
undefinedbash
undefinedWSL環境でPythonスクリプトを実行
在WSL环境中执行Python脚本
wsl python3 scripts/read_docx.py "/mnt/c/path/to/file.docx"
undefinedwsl python3 scripts/read_docx.py "/mnt/c/path/to/file.docx"
undefinedMarkdown形式で保存
保存为Markdown格式
- スクリプトでテキスト抽出
- Write ツールで .md ファイルに保存
- 使用脚本提取文本
- 通过Write工具保存为.md文件
前提条件
前提条件
python-docx パッケージが必要です:
bash
wsl pip3 install python-docx需要安装python-docx包:
bash
wsl pip3 install python-docx使用例
使用示例
例1: .docx ファイルを読み込んで内容を表示
示例1:读取.docx文件并显示内容
User: "C:\Users\keita\repos\file.docx を読み込んで"
Assistant:
1. Windowsパスを WSL パスに変換: /mnt/c/Users/keita/repos/file.docx
2. wsl python3 scripts/read_docx.py を実行
3. 抽出されたテキストを表示用户: "C:\Users\keita\repos\file.docx を読み込んで"
助手:
1. 将Windows路径转换为WSL路径: /mnt/c/Users/keita/repos/file.docx
2. 执行 wsl python3 scripts/read_docx.py
3. 显示提取的文本例2: .docx を Markdown に変換して保存
示例2:将.docx转换为Markdown并保存
User: "申請書.docx を Markdown に変換して保存"
Assistant:
1. scripts/read_docx.py でテキスト抽出
2. Markdown形式で整形
3. Write ツールで 申請書.md に保存
4. 保存完了を報告用户: "申請書.docx を Markdown に変換して保存"
助手:
1. 使用scripts/read_docx.py提取文本
2. 整理为Markdown格式
3. 通过Write工具保存为 申請書.md
4. 报告保存完成ワークフロー
工作流程
単一ファイルの読み込み
单个文件读取
- ユーザーが .docx ファイルパスを指定
- Windows パスを WSL パス形式に変換 (→
C:\)/mnt/c/ - を実行
wsl python3 scripts/read_docx.py - 抽出されたテキストを表示または保存
- 用户指定.docx文件路径
- 将Windows路径转换为WSL路径格式(→
C:\)/mnt/c/ - 执行
wsl python3 scripts/read_docx.py - 显示或保存提取的文本
複数ファイルの一括処理
多个文件批量处理
- Glob で .docx ファイルを検索
- 各ファイルに対してスクリプトを実行
- 結果をまとめて報告
- 使用Glob搜索.docx文件
- 对每个文件执行脚本
- 汇总结果并报告
スクリプト詳細
脚本详情
Python スクリプトは に配置されています。
scripts/read_docx.py主な機能:
- 段落テキストの抽出
- テーブルデータの抽出
- エラーハンドリング
使い方:
bash
python scripts/read_docx.py <file_path>Python脚本位于 。
scripts/read_docx.py主要功能:
- 提取段落文本
- 提取表格数据
- 错误处理
使用方法:
bash
python scripts/read_docx.py <file_path>制限事項
限制事项
- 画像は抽出されません
- 複雑なレイアウトは簡略化されます
- フォント情報、色などのスタイルは失われます
- 埋め込みオブジェクトは抽出されません
- 无法提取图片
- 复杂布局会被简化
- 字体信息、颜色等样式会丢失
- 无法提取嵌入对象
トラブルシューティング
故障排除
python-docx がインストールされていない
未安装python-docx
bash
wsl pip3 install python-docxbash
wsl pip3 install python-docx"No module named 'docx'" エラー
出现 "No module named 'docx'" 错误
bash
wsl pip3 uninstall docx
wsl pip3 install python-docxbash
wsl pip3 uninstall docx
wsl pip3 install python-docxファイルが開けない
无法打开文件
- ファイルパスが正しいか確認(Windows → WSL パス変換)
- ファイルが他のプログラムで開かれていないか確認
- ファイルのアクセス権限を確認
- 检查文件路径是否正确(注意Windows到WSL的路径转换)
- 确认文件未被其他程序打开
- 检查文件的访问权限
パス変換
路径转换
Windows パスから WSL パスへの変換:
- →
C:\Users\.../mnt/c/Users/... - →
D:\Projects\.../mnt/d/Projects/... - バックスラッシュ をスラッシュ
\に変換/
Windows路径转换为WSL路径:
- →
C:\Users\.../mnt/c/Users/... - →
D:\Projects\.../mnt/d/Projects/... - 将反斜杠 转换为斜杠
\/
関連ツール
相关工具
- pandoc: より高度な変換が必要な場合
- python-docx2txt: 軽量な代替ライブラリ
- mammoth: HTML形式での変換
- pandoc: 需要更高级转换时使用
- python-docx2txt: 轻量级替代库
- mammoth: 转换为HTML格式
バージョン履歴
版本历史
- v1.0.0 (2026-01-06): 初期リリース
- 基本的なテキスト抽出機能
- テーブル抽出対応
- WSL環境での動作
- v1.0.0 (2026-01-06): 初始版本
- 基础文本提取功能
- 支持表格提取
- 适配WSL环境运行