Loading...
Loading...
Compare original and translation side by side
undefinedundefinedundefinedundefined| Mode | Speed | Quality | Use Case |
|---|---|---|---|
| Quick (default) | Fast | Good | Drafts, simple documents |
| Heavy | Slower | Best | Final documents, complex layouts |
| 模式 | 速度 | 质量 | 使用场景 |
|---|---|---|---|
| 快速模式(默认) | 快 | 良好 | 草稿、简单文档 |
| 深度模式 | 较慢 | 最佳 | 终稿、复杂布局文档 |
| Format | Quick Mode | Heavy Mode |
|---|---|---|
| pymupdf4llm | pymupdf4llm + markitdown | |
| DOCX | pandoc + post-processing | pandoc + markitdown |
| PPTX | markitdown | markitdown + pandoc |
| XLSX | markitdown | markitdown |
| 格式 | 快速模式 | 深度模式 |
|---|---|---|
| pymupdf4llm | pymupdf4llm + markitdown | |
| DOCX | pandoc + 后处理 | pandoc + markitdown |
| PPTX | markitdown | markitdown + pandoc |
| XLSX | markitdown | markitdown |
| Problem | Fix | Test coverage |
|---|---|---|
Grid tables ( | Single-column → blockquote, multi-column → pipe table | |
Simple tables ( | Multi-column images → pipe table with captions | |
Image path nesting ( | Flatten to | |
Pandoc attributes ( | Removed | |
CJK bold spacing ( | Add space around | |
| Indented dashed code blocks | → fenced ``` with language detection | |
Escaped brackets ( | → | |
Double-bracket links ( | → | |
| 问题 | 修复方案 | 测试覆盖率 |
|---|---|---|
网格表格( | 单列转块引用,多列转管道表格 | |
普通表格( | 多列图片转带标题的管道表格 | |
图片路径嵌套( | 扁平化至 | |
Pandoc属性( | 移除冗余属性 | |
CJK粗体间距( | 在CJK粗体段的 | |
| 缩进虚线代码块 | 转换为带语言检测的围栏式```代码块 | |
转义括号( | 转换为 | |
双括号链接( | 转换为 | |
****content**Before: 打开**飞书**,就可以 → some renderers fail to bold
After: 打开 **飞书** ,就可以 → universally renders correctly****内容****转换前: 打开**飞书**,就可以 → 部分渲染器无法正确识别粗体
转换后: 打开 **飞书** ,就可以 → 所有渲染器均可正确显示| Segment Type | Selection Criteria |
|---|---|
| Tables | More rows/columns, proper header separator |
| Images | Alt text present, local paths preferred |
| Headings | Proper hierarchy, appropriate length |
| Lists | More items, nested structure preserved |
| Paragraphs | Content completeness |
| 片段类型 | 选择标准 |
|---|---|
| 表格 | 行数/列数更多,表头分隔符规范 |
| 图片 | 包含替代文本,优先选择本地路径 |
| 标题 | 层级规范,长度合适 |
| 列表 | 条目更多,嵌套结构保留完整 |
| 段落 | 内容完整度高 |
undefinedundefined
Output:
- Images: `assets/img_page1_1.png`, `assets/img_page2_1.jpg`
- Metadata: `assets/images_metadata.json` (page, position, dimensions)
输出内容:
- 图片:`assets/img_page1_1.png`, `assets/img_page2_1.jpg`
- 元数据:`assets/images_metadata.json`(包含页码、位置、尺寸信息)undefinedundefinedundefinedundefined| Metric | Pass | Warn | Fail |
|---|---|---|---|
| Text Retention | >95% | 85-95% | <85% |
| Table Retention | 100% | 90-99% | <90% |
| Image Retention | 100% | 80-99% | <80% |
| 指标 | 通过 | 警告 | 失败 |
|---|---|---|---|
| 文本保留率 | >95% | 85-95% | <85% |
| 表格保留率 | 100% | 90-99% | <90% |
| 图片保留率 | 100% | 80-99% | <80% |
undefinedundefinedundefinedundefinedundefinedundefinedundefinedundefinedundefinedundefined
**FontBBox warnings during PDF conversion**
- Harmless font parsing warnings, output is still correct
**Images missing from output**
- Use Heavy Mode for better image preservation
- Or extract separately with `scripts/extract_pdf_images.py`
**Tables broken in output**
- Use Heavy Mode - it selects the most complete table version
- Or validate with `scripts/validate_output.py`
**PDF转换时出现FontBBox警告**
- 这是无害的字体解析警告,输出内容仍正确
**输出中缺少图片**
- 使用深度模式可提升图片保留效果
- 或通过`scripts/extract_pdf_images.py`单独提取图片
**输出中表格损坏**
- 使用深度模式——它会选择最完整的表格版本
- 或通过`scripts/validate_output.py`验证| Script | Purpose |
|---|---|
| Main orchestrator with Quick/Heavy mode + DOCX post-processing |
| 31 tests covering all post-processing functions |
| Merge multiple markdown outputs |
| Quality validation with HTML report |
| PDF image extraction with metadata |
| Windows to WSL path converter |
| 脚本 | 用途 |
|---|---|
| 主编排工具,支持快速/深度模式及DOCX后处理 |
| 包含31项测试,覆盖所有后处理功能 |
| 合并多个Markdown输出文件 |
| 质量验证并生成HTML报告 |
| 提取PDF图片及元数据 |
| Windows转WSL路径转换器 |
references/benchmark-2026-03-22.mdreferences/heavy-mode-guide.mdreferences/tool-comparison.mdreferences/conversion-examples.mdreferences/benchmark-2026-03-22.mdreferences/heavy-mode-guide.mdreferences/tool-comparison.mdreferences/conversion-examples.md