data-engineering

Compare original and translation side by side

🇺🇸

Original

English

🇨🇳

Translation

Chinese

Data Engineering Skill

数据工程技能

Quick Reference

快速参考

Role	Focus	Timeline	Entry From
Data Engineer	Pipelines, Infra	12-24 mo	Backend Dev
ML Engineer	Models, Features	12-24 mo	Data Scientist
AI Engineer	LLMs, Agents	6-12 mo	Any Developer

角色	核心方向	学习周期	入行起点
数据工程师	数据管道、基础设施	12-24个月	后端开发
机器学习工程师	模型、特征工程	12-24个月	数据科学家
人工智能工程师	大语言模型（LLM）、Agent	6-12个月	任意开发背景

Learning Paths

学习路径

Data Engineer

数据工程师

[1] SQL Mastery (4-6 wk)
 │  └─ Window functions, CTEs, optimization
 │
 ▼
[2] Python for Data (4-6 wk)
 │  └─ Pandas, file formats, scripting
 │
 ▼
[3] ETL/ELT Pipelines (6-8 wk)
 │  └─ Extract, transform, load patterns
 │
 ▼
[4] Big Data: Spark (8-12 wk)
 │  └─ PySpark, DataFrames, partitioning
 │
 ▼
[5] Data Warehouse (4-6 wk)
 │  └─ Star schema, dbt, Snowflake/BQ
 │
 ▼
[6] Orchestration (4-6 wk)
    └─ Airflow/Prefect, scheduling, monitoring

2025 Stack: Python + Spark + Airflow + dbt + Snowflake/BigQuery

[1] SQL精通 (4-6周)
 │  └─ 窗口函数、公共表表达式（CTEs）、性能优化
 │
 ▼
[2] 数据处理Python (4-6周)
 │  └─ Pandas、文件格式、脚本编写
 │
 ▼
[3] ETL/ELT管道 (6-8周)
 │  └─ 抽取、转换、加载模式
 │
 ▼
[4] 大数据：Spark (8-12周)
 │  └─ PySpark、DataFrames、分区策略
 │
 ▼
[5] 数据仓库 (4-6周)
 │  └─ 星型模型、dbt、Snowflake/BigQuery
 │
 ▼
[6] 任务编排 (4-6周)
    └─ Airflow/Prefect、调度、监控

2025技术栈： Python + Spark + Airflow + dbt + Snowflake/BigQuery

ML Engineer

机器学习工程师

[1] Python + NumPy (4-6 wk)
 │
 ▼
[2] Math Foundations (6-8 wk)
 │  └─ Linear algebra, calculus, statistics
 │
 ▼
[3] Classical ML (8-12 wk)
 │  └─ scikit-learn, XGBoost, evaluation
 │
 ▼
[4] Deep Learning (8-12 wk)
 │  └─ PyTorch, CNNs, Transformers
 │
 ▼
[5] MLOps (6-8 wk)
    └─ MLflow, model serving, monitoring

2025 Stack: Python + PyTorch + scikit-learn + MLflow + W&B

[1] Python + NumPy (4-6周)
 │
 ▼
[2] 数学基础 (6-8周)
 │  └─ 线性代数、微积分、统计学
 │
 ▼
[3] 经典机器学习 (8-12周)
 │  └─ scikit-learn、XGBoost、模型评估
 │
 ▼
[4] 深度学习 (8-12周)
 │  └─ PyTorch、CNN、Transformer
 │
 ▼
[5] MLOps (6-8周)
    └─ MLflow、模型部署、监控

2025技术栈： Python + PyTorch + scikit-learn + MLflow + W&B

AI Engineer (2025 Hot Path)

人工智能工程师（2025热门路径）

[1] LLM Fundamentals (2-3 wk)
 │  └─ Tokens, embeddings, context windows
 │
 ▼
[2] Prompt Engineering (2-3 wk)
 │  └─ Few-shot, CoT, structured output
 │
 ▼
[3] RAG Systems (3-4 wk)
 │  └─ Embeddings, vector DBs, retrieval
 │
 ▼
[4] AI Agents (4-6 wk)
 │  └─ Tool calling, agent loops, memory
 │
 ▼
[5] Production Deploy (ongoing)
    └─ Evaluation, guardrails, monitoring

2025 Stack: Python + LangChain/LlamaIndex + OpenAI/Anthropic + ChromaDB

[1] LLM基础 (2-3周)
 │  └─ 令牌（Tokens）、嵌入（Embeddings）、上下文窗口
 │
 ▼
[2] 提示工程 (2-3周)
 │  └─ 少样本学习、思维链（CoT）、结构化输出
 │
 ▼
[3] RAG系统 (3-4周)
 │  └─ 嵌入、向量数据库、检索逻辑
 │
 ▼
[4] AI Agent (4-6周)
 │  └─ 工具调用、Agent循环、记忆机制
 │
 ▼
[5] 生产部署（持续学习）
    └─ 模型评估、安全护栏、监控

2025技术栈： Python + LangChain/LlamaIndex + OpenAI/Anthropic + ChromaDB

2025 Tool Matrix

2025工具矩阵

Data Processing

数据处理

Tool	Scale	Use Case
Pandas	<10GB	Prototyping, small data
Polars	<100GB	Fast local processing
Spark	>100GB	Distributed processing
dbt	Any	Transformations, testing

工具	适用规模	使用场景
Pandas	<10GB	原型开发、小数据处理
Polars	<100GB	本地快速处理
Spark	>100GB	分布式处理
dbt	任意规模	数据转换、测试

ML Frameworks

机器学习框架

Framework	Best For	Complexity
scikit-learn	Classical ML	Low
XGBoost	Tabular data	Low
PyTorch	Research, flexibility	Medium
TensorFlow	Production, mobile	Medium

框架	最佳适用场景	复杂度
scikit-learn	经典机器学习	低
XGBoost	表格数据	低
PyTorch	研究、灵活性需求	中
TensorFlow	生产环境、移动应用	中

LLM/AI Tools

LLM/AI工具

Tool	Use Case
LangChain	LLM orchestration
LlamaIndex	RAG systems
Claude/OpenAI	LLM APIs
ChromaDB	Vector storage

工具	使用场景
LangChain	LLM编排
LlamaIndex	RAG系统构建
Claude/OpenAI	LLM API调用
ChromaDB	向量存储

Algorithm Reference

算法参考

Classical ML

经典机器学习

Type	Algorithms
Regression	Linear, Ridge, Lasso, ElasticNet
Classification	Logistic, SVM, Decision Tree
Ensemble	Random Forest, XGBoost, LightGBM
Clustering	K-Means, DBSCAN, Hierarchical

类型	算法
回归	线性回归、岭回归、Lasso回归、弹性网络
分类	逻辑回归、支持向量机（SVM）、决策树
集成学习	随机森林、XGBoost、LightGBM
聚类	K-Means、DBSCAN、层次聚类

Deep Learning

深度学习

Architecture	Use Case
CNN	Images, vision
RNN/LSTM	Sequences
Transformer	NLP, LLMs
Diffusion	Image generation

架构	适用场景
CNN	图像、计算机视觉
RNN/LSTM	序列数据
Transformer	自然语言处理、大语言模型
Diffusion	图像生成

AI Agent Architecture (2025)

AI Agent架构（2025）

┌─────────────────────────────────────────┐
│            AGENTIC LOOP                  │
├─────────────────────────────────────────┤
│  PERCEIVE → REASON → ACT → REFLECT      │
│      │         │       │       │        │
│      │         │       │       └─► Loop │
│      │         │       └─► Execute tools│
│      │         └─► LLM decides action   │
│      └─► Gather context, observations   │
└─────────────────────────────────────────┘

Design Patterns (Anthropic 2025):
• Prompt Chaining - Sequential fixed steps
• Routing - Classify and dispatch
• Parallelization - Concurrent subtasks
• Orchestrator-Workers - Central delegation
• Evaluator-Optimizer - Generate + critique

┌─────────────────────────────────────────┐
│            AGENTIC LOOP                  │
├─────────────────────────────────────────┤
│  PERCEIVE → REASON → ACT → REFLECT      │
│      │         │       │       │        │
│      │         │       │       └─► Loop │
│      │         │       └─► Execute tools│
│      │         └─► LLM decides action   │
│      └─► Gather context, observations   │
└─────────────────────────────────────────┘

Design Patterns (Anthropic 2025):
• Prompt Chaining - Sequential fixed steps
• Routing - Classify and dispatch
• Parallelization - Concurrent subtasks
• Orchestrator-Workers - Central delegation
• Evaluator-Optimizer - Generate + critique

设计模式（Anthropic 2025）： • 提示链 - 固定顺序步骤 • 路由 - 分类与分发 • 并行化 - 并发子任务 • 编排者-工作者 - 集中式委托 • 评估者-优化者 - 生成+评审

Troubleshooting

故障排除

Which path to choose?
├─► Love building infrastructure? → Data Engineer
├─► Love algorithms/math? → ML Engineer
├─► Want fastest AI entry? → AI Engineer
└─► Uncertain? → Start with Python + SQL

Model not performing well?
├─► Data quality issues? → Clean data first
├─► Feature engineering? → Create better features
├─► Wrong algorithm? → Try different models
├─► Overfitting? → More data, regularization
└─► Hyperparameters? → Grid/random search

LLM giving bad answers?
├─► Prompt too vague? → Be more specific
├─► Missing context? → Add relevant info
├─► Hallucinating? → Use RAG, verify facts
└─► Wrong tool? → Improve tool descriptions

该选择哪条路径？ ├─► 喜欢构建基础设施？→ 数据工程师 ├─► 热爱算法/数学？→ 机器学习工程师 ├─► 想最快进入AI领域？→ 人工智能工程师 └─► 不确定？→ 从Python + SQL开始

模型表现不佳？ ├─► 数据质量问题？→ 先清洗数据 ├─► 特征工程不足？→ 构建更优特征 ├─► 算法选择错误？→ 尝试不同模型 ├─► 过拟合？→ 增加数据、正则化 └─► 超参数问题？→ 网格/随机搜索

LLM输出结果不理想？ ├─► 提示过于模糊？→ 描述更具体 ├─► 缺少上下文？→ 添加相关信息 ├─► 产生幻觉？→ 使用RAG、验证事实 └─► 工具选择错误？→ 优化工具描述

Common Failure Modes

常见失败模式

Symptom	Root Cause	Recovery
Model fails in prod	Data drift	Monitor distributions
Pipeline always late	Unoptimized queries	Profile, partition
RAG finds wrong docs	Bad chunking	Tune chunk size, overlap
Agent loops forever	No exit condition	Add max iterations

症状	根本原因	解决方法
模型在生产环境失效	数据漂移	监控数据分布
数据管道总是延迟	查询未优化	性能分析、分区优化
RAG检索到错误文档	切分策略不佳	调整切分大小、重叠度
Agent无限循环	无退出条件	添加最大迭代次数

Portfolio Projects

作品集项目

Data Engineering

数据工程

ETL Pipeline (Airflow + dbt)
Real-time Streaming (Kafka + Spark)
Data Warehouse Design

ETL管道（Airflow + dbt）
实时流处理（Kafka + Spark）
数据仓库设计

ML Engineering

机器学习工程

Classification Model (scikit-learn)
Deep Learning Model (PyTorch)
ML Pipeline (MLflow)

分类模型（scikit-learn）
深度学习模型（PyTorch）
ML管道（MLflow）

AI Engineering

人工智能工程

RAG Chatbot (LangChain + ChromaDB)
AI Agent with Tools
Multi-Agent System

RAG聊天机器人（LangChain + ChromaDB）
带工具调用的AI Agent
多Agent系统

Next Actions

下一步行动

Specify your target role for a detailed learning plan.

指定你的目标角色，获取详细学习计划。