pdf

Compare original and translation side by side

🇺🇸

Original

English
🇨🇳

Translation

Chinese

PDF文档处理专家 Real Skill

PDF文档处理专家 Real Skill

一句话说明

一句话说明

全面的 PDF 文档处理工具,支持文本表格提取、PDF 创建、文档操作和表单填写。
PDF Processing Guide - Comprehensive PDF manipulation toolkit for extracting text and tables, creating new PDFs, merging/splitting documents, and handling forms.

全面的 PDF 文档处理工具,支持文本表格提取、PDF 创建、文档操作和表单填写。
PDF处理指南 - 一款全面的PDF处理工具包,支持提取文本和表格、创建新PDF、合并/拆分文档以及处理表单。

使用场景

使用场景

适用
  • 从 PDF 提取文本、表格数据并导出 Excel
  • 创建新的 PDF 文档(报告、证书、发票)
  • 合并、拆分、旋转 PDF 文档
  • 填写 PDF 表单(政府表单、申请表)
  • 批量处理多个 PDF 文件
不适用
  • 扫描版 PDF(需先 OCR 处理 / requires OCR first)
  • 复杂的 PDF 编辑(用专业软件 / use professional software)

适用
  • 从 PDF 提取文本、表格数据并导出 Excel
  • 创建新的 PDF 文档(报告、证书、发票)
  • 合并、拆分、旋转 PDF 文档
  • 填写 PDF 表单(政府表单、申请表)
  • 批量处理多个 PDF 文件
不适用
  • 扫描版 PDF(需先进行OCR处理)
  • 复杂的 PDF 编辑(请使用专业软件)

核心流程

核心流程

用户需求 → 判断任务类型 → 选择工具 → 执行操作 → 验证输出
User request → Task type classification → Tool selection → Execute → Validate
任务类型判断 (Task Classification)
用户需求 → 判断任务类型 → 选择工具 → 执行操作 → 验证输出
用户需求 → 任务类型分类 → 工具选择 → 执行操作 → 验证输出
任务类型判断

Extracting Data (提取数据)

数据提取

  • 文本提取 (Text extraction) → pdfplumber.extract_text()
    • Better accuracy than pypdf for text extraction
  • 表格提取 (Table extraction) → pdfplumber.extract_tables() + pandas
    • Intelligent table structure recognition
    • Export to Excel, CSV, JSON
  • 文本提取 → pdfplumber.extract_text()
    • 文本提取精度优于pypdf
  • 表格提取 → pdfplumber.extract_tables() + pandas
    • 智能识别表格结构
    • 可导出为Excel、CSV、JSON格式

Creating PDFs (创建 PDF)

创建PDF文档

  • 简单文档 (Simple documents) → reportlab.pdfgen.canvas
    • Quick document creation with text and graphics
  • 复杂布局 (Complex layouts) → reportlab.platypus
    • Paragraphs, Tables, Images with advanced styling
  • 简单文档 → reportlab.pdfgen.canvas
    • 快速创建包含文本和图形的文档
  • 复杂布局 → reportlab.platypus
    • 支持段落、表格、图片及高级样式设置

PDF Operations (PDF 操作)

PDF文档操作

  • 合并 (Merge) → pypdf.PdfWriter
    • Combine multiple PDFs into one
  • 拆分 (Split) → pypdf.PdfWriter (save each page separately)
  • 旋转 (Rotate) → page.rotate()
  • 元信息 (Metadata) → pypdf.PdfReader.metadata / PdfWriter.add_metadata()
  • 合并 → pypdf.PdfWriter
    • 将多个PDF合并为一个文件
  • 拆分 → pypdf.PdfWriter(单独保存每一页)
  • 旋转 → page.rotate()
  • 元信息 → pypdf.PdfReader.metadata / PdfWriter.add_metadata()

Form Processing (表单处理)

表单处理

  • 查看字段 (View fields) → See forms.md
  • 填写表单 (Fill forms) → See forms.md
  • 批量处理 (Batch processing) → Loop + form filling API

  • 查看字段 → 参考forms.md
  • 填写表单 → 参考forms.md
  • 批量处理 → 循环 + 表单填写API

任务完成标准

任务完成标准

必须满足(缺一不可):
  • PDF 文件可正常打开
  • 提取的数据完整准确
  • 表格结构保留正确(行列对应)
  • 创建的 PDF 内容清晰可读
质量评级
  • ⭐⭐⭐⭐⭐ 优秀 - 数据完整 + 格式规范 + 自动化批处理
  • ⭐⭐⭐ 及格 - 数据正确 + PDF 可用
  • ⭐ 失败 - 数据缺失或 PDF 损坏

必须满足(缺一不可):
  • PDF 文件可正常打开
  • 提取的数据完整准确
  • 表格结构保留正确(行列对应)
  • 创建的 PDF 内容清晰可读
质量评级
  • ⭐⭐⭐⭐⭐ 优秀 - 数据完整 + 格式规范 + 自动化批处理
  • ⭐⭐⭐ 及格 - 数据正确 + PDF 可用
  • ⭐ 失败 - 数据缺失或 PDF 损坏

参考资料(供 AI 使用)

参考资料(供 AI 使用)

类型路径说明
核心文档
docs/00-SKILL-完整处理指南.md
Complete PDF processing guide (~300 lines)
表单处理
docs/forms.md
PDF form filling detailed tutorial
高级参考
docs/reference.md
JavaScript libraries and advanced features

类型路径说明
核心文档
docs/00-SKILL-完整处理指南.md
完整PDF处理指南(约300行)
表单处理
docs/forms.md
PDF表单填写详细教程
高级参考
docs/reference.md
JavaScript库及高级功能说明

关键原则(AI 必读 / Critical Principles)

关键原则(AI 必读)

1. Prefer pdfplumber for Extraction (优先使用 pdfplumber)

1. 优先使用pdfplumber进行提取

  • 文本提取: More accurate than pypdf
  • 表格识别: Strong table recognition capability
  • 布局保留: Preserves layout information
  • 复杂 PDF: Better for complex PDF processing
  • 文本提取: 精度优于pypdf
  • 表格识别: 具备强大的表格识别能力
  • 布局保留: 保留文档布局信息
  • 复杂PDF: 更适合处理复杂PDF文档

2. Table Data Normalization (表格数据规范化)

2. 表格数据规范化

python
undefined
python
undefined

Best practice for table extraction

表格提取最佳实践

import pdfplumber import pandas as pd
all_tables = [] with pdfplumber.open("document.pdf") as pdf: for page in pdf.pages: tables = page.extract_tables() for table in tables: if table: # Check not empty df = pd.DataFrame(table[1:], columns=table[0]) # First row as header all_tables.append(df)
import pdfplumber import pandas as pd
all_tables = [] with pdfplumber.open("document.pdf") as pdf: for page in pdf.pages: tables = page.extract_tables() for table in tables: if table: # 检查表格是否非空 df = pd.DataFrame(table[1:], columns=table[0]) # 第一行作为表头 all_tables.append(df)

Combine and clean

合并并清理数据

combined = pd.concat(all_tables, ignore_index=True) combined.to_excel("output.xlsx", index=False)
undefined
combined = pd.concat(all_tables, ignore_index=True) combined.to_excel("output.xlsx", index=False)
undefined

3. Scanned PDFs Require OCR (扫描版需要 OCR)

3. 扫描版PDF需先进行OCR处理

  • 识别: If text extraction returns empty or garbled text
  • 处理: Must use OCR tools first (Tesseract, Adobe Acrobat, etc.)
  • 告知用户: Clearly inform user that OCR pre-processing is needed
  • 识别判断: 若文本提取结果为空或出现乱码
  • 处理方式: 必须先使用OCR工具(如Tesseract、Adobe Acrobat等)
  • 告知用户: 明确告知用户需要先进行OCR预处理

4. Memory Management for Large Files (大文件内存管理)

4. 大文件内存管理

  • Batch processing for multiple PDFs
  • Process pages sequentially rather than loading entire document
  • Use generators when possible

  • 对多个PDF进行批量处理
  • 逐页处理而非加载整个文档
  • 尽可能使用生成器

快速命令参考 (Quick Commands)

快速命令参考

Text Extraction (文本提取)

文本提取

python
import pdfplumber

with pdfplumber.open("document.pdf") as pdf:
    for page in pdf.pages:
        text = page.extract_text()
        print(text)
python
import pdfplumber

with pdfplumber.open("document.pdf") as pdf:
    for page in pdf.pages:
        text = page.extract_text()
        print(text)

Table to Excel (表格转 Excel)

表格转Excel

python
import pdfplumber
import pandas as pd

all_tables = []
with pdfplumber.open("document.pdf") as pdf:
    for page in pdf.pages:
        tables = page.extract_tables()
        for table in tables:
            if table:
                df = pd.DataFrame(table[1:], columns=table[0])
                all_tables.append(df)

combined = pd.concat(all_tables, ignore_index=True)
combined.to_excel("extracted_tables.xlsx", index=False)
python
import pdfplumber
import pandas as pd

all_tables = []
with pdfplumber.open("document.pdf") as pdf:
    for page in pdf.pages:
        tables = page.extract_tables()
        for table in tables:
            if table:
                df = pd.DataFrame(table[1:], columns=table[0])
                all_tables.append(df)

combined = pd.concat(all_tables, ignore_index=True)
combined.to_excel("extracted_tables.xlsx", index=False)

Merge PDFs (合并 PDF)

合并PDF

python
from pypdf import PdfWriter, PdfReader

writer = PdfWriter()
for pdf_file in ["doc1.pdf", "doc2.pdf", "doc3.pdf"]:
    reader = PdfReader(pdf_file)
    for page in reader.pages:
        writer.add_page(page)

with open("merged.pdf", "wb") as output:
    writer.write(output)
python
from pypdf import PdfWriter, PdfReader

writer = PdfWriter()
for pdf_file in ["doc1.pdf", "doc2.pdf", "doc3.pdf"]:
    reader = PdfReader(pdf_file)
    for page in reader.pages:
        writer.add_page(page)

with open("merged.pdf", "wb") as output:
    writer.write(output)

Split PDF (拆分 PDF)

拆分PDF

python
from pypdf import PdfReader, PdfWriter

reader = PdfReader("large_document.pdf")
for i, page in enumerate(reader.pages):
    writer = PdfWriter()
    writer.add_page(page)
    with open(f"page_{i+1}.pdf", "wb") as output:
        writer.write(output)
python
from pypdf import PdfReader, PdfWriter

reader = PdfReader("large_document.pdf")
for i, page in enumerate(reader.pages):
    writer = PdfWriter()
    writer.add_page(page)
    with open(f"page_{i+1}.pdf", "wb") as output:
        writer.write(output)

Create PDF (创建 PDF)

创建PDF

python
from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas

c = canvas.Canvas("hello.pdf", pagesize=letter)
width, height = letter
c.drawString(100, height - 100, "Hello World!")
c.save()
python
from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas

c = canvas.Canvas("hello.pdf", pagesize=letter)
width, height = letter
c.drawString(100, height - 100, "Hello World!")
c.save()

Extract Metadata (提取元信息)

提取元信息

python
from pypdf import PdfReader

reader = PdfReader("document.pdf")
meta = reader.metadata
print(f"Title: {meta.title}")
print(f"Author: {meta.author}")
print(f"Pages: {len(reader.pages)}")

python
from pypdf import PdfReader

reader = PdfReader("document.pdf")
meta = reader.metadata
print(f"Title: {meta.title}")
print(f"Author: {meta.author}")
print(f"Pages: {len(reader.pages)}")

依赖安装 (Dependencies Installation)

依赖安装

Python Dependencies

Python依赖

bash
pip install -r requirements.txt
bash
pip install -r requirements.txt

Includes: pypdf, pdfplumber, reportlab, pandas, openpyxl

包含:pypdf, pdfplumber, reportlab, pandas, openpyxl


---

---

常见场景示例 (Common Scenarios)

常见场景示例

Scenario 1: Batch Extract Invoice Tables (批量提取发票表格)

场景1:批量提取发票表格

python
import pdfplumber
import pandas as pd
import glob

all_data = []
for pdf_file in glob.glob("invoices/*.pdf"):
    with pdfplumber.open(pdf_file) as pdf:
        for page in pdf.pages:
            tables = page.extract_tables()
            for table in tables:
                if table:
                    df = pd.DataFrame(table[1:], columns=table[0])
                    df['source_file'] = pdf_file
                    all_data.append(df)

combined = pd.concat(all_data, ignore_index=True)
combined.to_excel("all_invoices.xlsx", index=False)
python
import pdfplumber
import pandas as pd
import glob

all_data = []
for pdf_file in glob.glob("invoices/*.pdf"):
    with pdfplumber.open(pdf_file) as pdf:
        for page in pdf.pages:
            tables = page.extract_tables()
            for table in tables:
                if table:
                    df = pd.DataFrame(table[1:], columns=table[0])
                    df['source_file'] = pdf_file
                    all_data.append(df)

combined = pd.concat(all_data, ignore_index=True)
combined.to_excel("all_invoices.xlsx", index=False)

Scenario 2: Create Report with Table (生成带表格的报告)

场景2:生成带表格的报告

python
from reportlab.lib.pagesizes import letter
from reportlab.platypus import SimpleDocTemplate, Table, TableStyle, Paragraph
from reportlab.lib.styles import getSampleStyleSheet

doc = SimpleDocTemplate("report.pdf", pagesize=letter)
styles = getSampleStyleSheet()
story = []
python
from reportlab.lib.pagesizes import letter
from reportlab.platypus import SimpleDocTemplate, Table, TableStyle, Paragraph
from reportlab.lib.styles import getSampleStyleSheet

doc = SimpleDocTemplate("report.pdf", pagesize=letter)
styles = getSampleStyleSheet()
story = []

Title

标题

story.append(Paragraph("Sales Report", styles['Title']))
story.append(Paragraph("Sales Report", styles['Title']))

Table

表格

data = [ ['Product', 'Q1', 'Q2', 'Q3', 'Q4'], ['Product A', '1000', '1200', '1100', '1300'], ['Product B', '800', '900', '950', '1000'] ] t = Table(data) t.setStyle(TableStyle([ ('BACKGROUND', (0, 0), (-1, 0), 'grey'), ('TEXTCOLOR', (0, 0), (-1, 0), 'white'), ('ALIGN', (0, 0), (-1, -1), 'CENTER'), ('GRID', (0, 0), (-1, -1), 1, 'black') ])) story.append(t)
doc.build(story)
undefined
data = [ ['Product', 'Q1', 'Q2', 'Q3', 'Q4'], ['Product A', '1000', '1200', '1100', '1300'], ['Product B', '800', '900', '950', '1000'] ] t = Table(data) t.setStyle(TableStyle([ ('BACKGROUND', (0, 0), (-1, 0), 'grey'), ('TEXTCOLOR', (0, 0), (-1, 0), 'white'), ('ALIGN', (0, 0), (-1, -1), 'CENTER'), ('GRID', (0, 0), (-1, -1), 1, 'black') ])) story.append(t)
doc.build(story)
undefined