pdf

Compare original and translation side by side

🇺🇸

Original

English

🇨🇳

Translation

Chinese

PDF文档处理专家 Real Skill

一句话说明

全面的 PDF 文档处理工具，支持文本表格提取、PDF 创建、文档操作和表单填写。

PDF Processing Guide - Comprehensive PDF manipulation toolkit for extracting text and tables, creating new PDFs, merging/splitting documents, and handling forms.

全面的 PDF 文档处理工具，支持文本表格提取、PDF 创建、文档操作和表单填写。

PDF处理指南 - 一款全面的PDF处理工具包，支持提取文本和表格、创建新PDF、合并/拆分文档以及处理表单。

使用场景

适用：

从 PDF 提取文本、表格数据并导出 Excel
创建新的 PDF 文档（报告、证书、发票）
合并、拆分、旋转 PDF 文档
填写 PDF 表单（政府表单、申请表）
批量处理多个 PDF 文件

不适用：

扫描版 PDF（需先 OCR 处理 / requires OCR first）
复杂的 PDF 编辑（用专业软件 / use professional software）

适用：

从 PDF 提取文本、表格数据并导出 Excel
创建新的 PDF 文档（报告、证书、发票）
合并、拆分、旋转 PDF 文档
填写 PDF 表单（政府表单、申请表）
批量处理多个 PDF 文件

不适用：

扫描版 PDF（需先进行OCR处理）
复杂的 PDF 编辑（请使用专业软件）

核心流程

用户需求 → 判断任务类型 → 选择工具 → 执行操作 → 验证输出
User request → Task type classification → Tool selection → Execute → Validate

任务类型判断 (Task Classification)：

用户需求 → 判断任务类型 → 选择工具 → 执行操作 → 验证输出
用户需求 → 任务类型分类 → 工具选择 → 执行操作 → 验证输出

任务类型判断：

Extracting Data (提取数据)

数据提取

文本提取 (Text extraction) → pdfplumber.extract_text()
- Better accuracy than pypdf for text extraction
表格提取 (Table extraction) → pdfplumber.extract_tables() + pandas
- Intelligent table structure recognition
- Export to Excel, CSV, JSON

文本提取 → pdfplumber.extract_text()
- 文本提取精度优于pypdf
表格提取 → pdfplumber.extract_tables() + pandas
- 智能识别表格结构
- 可导出为Excel、CSV、JSON格式

Creating PDFs (创建 PDF)

创建PDF文档

简单文档 (Simple documents) → reportlab.pdfgen.canvas
- Quick document creation with text and graphics
复杂布局 (Complex layouts) → reportlab.platypus
- Paragraphs, Tables, Images with advanced styling

简单文档 → reportlab.pdfgen.canvas
- 快速创建包含文本和图形的文档
复杂布局 → reportlab.platypus
- 支持段落、表格、图片及高级样式设置

PDF Operations (PDF 操作)

PDF文档操作

合并 (Merge) → pypdf.PdfWriter
- Combine multiple PDFs into one
拆分 (Split) → pypdf.PdfWriter (save each page separately)
旋转 (Rotate) → page.rotate()
元信息 (Metadata) → pypdf.PdfReader.metadata / PdfWriter.add_metadata()

合并 → pypdf.PdfWriter
- 将多个PDF合并为一个文件
拆分 → pypdf.PdfWriter（单独保存每一页）
旋转 → page.rotate()
元信息 → pypdf.PdfReader.metadata / PdfWriter.add_metadata()

Form Processing (表单处理)

表单处理

查看字段 (View fields) → See forms.md
填写表单 (Fill forms) → See forms.md
批量处理 (Batch processing) → Loop + form filling API

查看字段 → 参考forms.md
填写表单 → 参考forms.md
批量处理 → 循环 + 表单填写API

任务完成标准

必须满足（缺一不可）：

PDF 文件可正常打开
提取的数据完整准确
表格结构保留正确（行列对应）
创建的 PDF 内容清晰可读

质量评级：

⭐⭐⭐⭐⭐ 优秀 - 数据完整 + 格式规范 + 自动化批处理
⭐⭐⭐ 及格 - 数据正确 + PDF 可用
⭐ 失败 - 数据缺失或 PDF 损坏

必须满足（缺一不可）：

PDF 文件可正常打开
提取的数据完整准确
表格结构保留正确（行列对应）
创建的 PDF 内容清晰可读

质量评级：

⭐⭐⭐⭐⭐ 优秀 - 数据完整 + 格式规范 + 自动化批处理
⭐⭐⭐ 及格 - 数据正确 + PDF 可用
⭐ 失败 - 数据缺失或 PDF 损坏

参考资料（供 AI 使用）

类型	路径	说明
核心文档	`docs/00-SKILL-完整处理指南.md`	Complete PDF processing guide (~300 lines)
表单处理	`docs/forms.md`	PDF form filling detailed tutorial
高级参考	`docs/reference.md`	JavaScript libraries and advanced features

类型	路径	说明
核心文档	`docs/00-SKILL-完整处理指南.md`	完整PDF处理指南（约300行）
表单处理	`docs/forms.md`	PDF表单填写详细教程
高级参考	`docs/reference.md`	JavaScript库及高级功能说明

关键原则（AI 必读 / Critical Principles）

关键原则（AI 必读）

1. Prefer pdfplumber for Extraction (优先使用 pdfplumber)

1. 优先使用pdfplumber进行提取

文本提取: More accurate than pypdf
表格识别: Strong table recognition capability
布局保留: Preserves layout information
复杂 PDF: Better for complex PDF processing

文本提取: 精度优于pypdf
表格识别: 具备强大的表格识别能力
布局保留: 保留文档布局信息
复杂PDF: 更适合处理复杂PDF文档

2. Table Data Normalization (表格数据规范化)

2. 表格数据规范化

python

undefined

python

undefined

Best practice for table extraction

表格提取最佳实践

import pdfplumber import pandas as pd

all_tables = [] with pdfplumber.open("document.pdf") as pdf: for page in pdf.pages: tables = page.extract_tables() for table in tables: if table: # Check not empty df = pd.DataFrame(table[1:], columns=table[0]) # First row as header all_tables.append(df)

import pdfplumber import pandas as pd

all_tables = [] with pdfplumber.open("document.pdf") as pdf: for page in pdf.pages: tables = page.extract_tables() for table in tables: if table: # 检查表格是否非空 df = pd.DataFrame(table[1:], columns=table[0]) # 第一行作为表头 all_tables.append(df)

Combine and clean

合并并清理数据

combined = pd.concat(all_tables, ignore_index=True) combined.to_excel("output.xlsx", index=False)

undefined

combined = pd.concat(all_tables, ignore_index=True) combined.to_excel("output.xlsx", index=False)

undefined

3. Scanned PDFs Require OCR (扫描版需要 OCR)

3. 扫描版PDF需先进行OCR处理

识别: If text extraction returns empty or garbled text
处理: Must use OCR tools first (Tesseract, Adobe Acrobat, etc.)
告知用户: Clearly inform user that OCR pre-processing is needed

识别判断: 若文本提取结果为空或出现乱码
处理方式: 必须先使用OCR工具（如Tesseract、Adobe Acrobat等）
告知用户: 明确告知用户需要先进行OCR预处理

4. Memory Management for Large Files (大文件内存管理)

4. 大文件内存管理

Batch processing for multiple PDFs
Process pages sequentially rather than loading entire document
Use generators when possible

对多个PDF进行批量处理
逐页处理而非加载整个文档
尽可能使用生成器

快速命令参考 (Quick Commands)

快速命令参考

Text Extraction (文本提取)

文本提取

python

import pdfplumber

with pdfplumber.open("document.pdf") as pdf:
    for page in pdf.pages:
        text = page.extract_text()
        print(text)

python

import pdfplumber

with pdfplumber.open("document.pdf") as pdf:
    for page in pdf.pages:
        text = page.extract_text()
        print(text)

Table to Excel (表格转 Excel)

表格转Excel

python

import pdfplumber
import pandas as pd

all_tables = []
with pdfplumber.open("document.pdf") as pdf:
    for page in pdf.pages:
        tables = page.extract_tables()
        for table in tables:
            if table:
                df = pd.DataFrame(table[1:], columns=table[0])
                all_tables.append(df)

combined = pd.concat(all_tables, ignore_index=True)
combined.to_excel("extracted_tables.xlsx", index=False)

python

import pdfplumber
import pandas as pd

all_tables = []
with pdfplumber.open("document.pdf") as pdf:
    for page in pdf.pages:
        tables = page.extract_tables()
        for table in tables:
            if table:
                df = pd.DataFrame(table[1:], columns=table[0])
                all_tables.append(df)

combined = pd.concat(all_tables, ignore_index=True)
combined.to_excel("extracted_tables.xlsx", index=False)

Merge PDFs (合并 PDF)

合并PDF

python

from pypdf import PdfWriter, PdfReader

writer = PdfWriter()
for pdf_file in ["doc1.pdf", "doc2.pdf", "doc3.pdf"]:
    reader = PdfReader(pdf_file)
    for page in reader.pages:
        writer.add_page(page)

with open("merged.pdf", "wb") as output:
    writer.write(output)

python

from pypdf import PdfWriter, PdfReader

writer = PdfWriter()
for pdf_file in ["doc1.pdf", "doc2.pdf", "doc3.pdf"]:
    reader = PdfReader(pdf_file)
    for page in reader.pages:
        writer.add_page(page)

with open("merged.pdf", "wb") as output:
    writer.write(output)

Split PDF (拆分 PDF)

拆分PDF

python

from pypdf import PdfReader, PdfWriter

reader = PdfReader("large_document.pdf")
for i, page in enumerate(reader.pages):
    writer = PdfWriter()
    writer.add_page(page)
    with open(f"page_{i+1}.pdf", "wb") as output:
        writer.write(output)

python

from pypdf import PdfReader, PdfWriter

reader = PdfReader("large_document.pdf")
for i, page in enumerate(reader.pages):
    writer = PdfWriter()
    writer.add_page(page)
    with open(f"page_{i+1}.pdf", "wb") as output:
        writer.write(output)

Create PDF (创建 PDF)

创建PDF

python

from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas

c = canvas.Canvas("hello.pdf", pagesize=letter)
width, height = letter
c.drawString(100, height - 100, "Hello World!")
c.save()

python

from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas

c = canvas.Canvas("hello.pdf", pagesize=letter)
width, height = letter
c.drawString(100, height - 100, "Hello World!")
c.save()

Extract Metadata (提取元信息)

提取元信息

python

from pypdf import PdfReader

reader = PdfReader("document.pdf")
meta = reader.metadata
print(f"Title: {meta.title}")
print(f"Author: {meta.author}")
print(f"Pages: {len(reader.pages)}")

python

from pypdf import PdfReader

reader = PdfReader("document.pdf")
meta = reader.metadata
print(f"Title: {meta.title}")
print(f"Author: {meta.author}")
print(f"Pages: {len(reader.pages)}")

依赖安装 (Dependencies Installation)

依赖安装

Python Dependencies

Python依赖

bash

pip install -r requirements.txt

bash

pip install -r requirements.txt

Includes: pypdf, pdfplumber, reportlab, pandas, openpyxl

包含：pypdf, pdfplumber, reportlab, pandas, openpyxl

---

---

常见场景示例 (Common Scenarios)

常见场景示例

Scenario 1: Batch Extract Invoice Tables (批量提取发票表格)

场景1：批量提取发票表格

python

import pdfplumber
import pandas as pd
import glob

all_data = []
for pdf_file in glob.glob("invoices/*.pdf"):
    with pdfplumber.open(pdf_file) as pdf:
        for page in pdf.pages:
            tables = page.extract_tables()
            for table in tables:
                if table:
                    df = pd.DataFrame(table[1:], columns=table[0])
                    df['source_file'] = pdf_file
                    all_data.append(df)

combined = pd.concat(all_data, ignore_index=True)
combined.to_excel("all_invoices.xlsx", index=False)

python

import pdfplumber
import pandas as pd
import glob

all_data = []
for pdf_file in glob.glob("invoices/*.pdf"):
    with pdfplumber.open(pdf_file) as pdf:
        for page in pdf.pages:
            tables = page.extract_tables()
            for table in tables:
                if table:
                    df = pd.DataFrame(table[1:], columns=table[0])
                    df['source_file'] = pdf_file
                    all_data.append(df)

combined = pd.concat(all_data, ignore_index=True)
combined.to_excel("all_invoices.xlsx", index=False)

Scenario 2: Create Report with Table (生成带表格的报告)

场景2：生成带表格的报告

python

from reportlab.lib.pagesizes import letter
from reportlab.platypus import SimpleDocTemplate, Table, TableStyle, Paragraph
from reportlab.lib.styles import getSampleStyleSheet

doc = SimpleDocTemplate("report.pdf", pagesize=letter)
styles = getSampleStyleSheet()
story = []

python

from reportlab.lib.pagesizes import letter
from reportlab.platypus import SimpleDocTemplate, Table, TableStyle, Paragraph
from reportlab.lib.styles import getSampleStyleSheet

doc = SimpleDocTemplate("report.pdf", pagesize=letter)
styles = getSampleStyleSheet()
story = []

Title

标题

story.append(Paragraph("Sales Report", styles['Title']))

Table

表格

data = [ ['Product', 'Q1', 'Q2', 'Q3', 'Q4'], ['Product A', '1000', '1200', '1100', '1300'], ['Product B', '800', '900', '950', '1000'] ] t = Table(data) t.setStyle(TableStyle([ ('BACKGROUND', (0, 0), (-1, 0), 'grey'), ('TEXTCOLOR', (0, 0), (-1, 0), 'white'), ('ALIGN', (0, 0), (-1, -1), 'CENTER'), ('GRID', (0, 0), (-1, -1), 1, 'black') ])) story.append(t)

doc.build(story)

undefined

doc.build(story)

undefined