data-engineering
Compare original and translation side by side
🇺🇸
Original
English🇨🇳
Translation
ChineseData Engineering Skill
数据工程技能
Quick Reference
快速参考
| Role | Focus | Timeline | Entry From |
|---|---|---|---|
| Data Engineer | Pipelines, Infra | 12-24 mo | Backend Dev |
| ML Engineer | Models, Features | 12-24 mo | Data Scientist |
| AI Engineer | LLMs, Agents | 6-12 mo | Any Developer |
| 角色 | 核心方向 | 学习周期 | 入行起点 |
|---|---|---|---|
| 数据工程师 | 数据管道、基础设施 | 12-24个月 | 后端开发 |
| 机器学习工程师 | 模型、特征工程 | 12-24个月 | 数据科学家 |
| 人工智能工程师 | 大语言模型(LLM)、Agent | 6-12个月 | 任意开发背景 |
Learning Paths
学习路径
Data Engineer
数据工程师
[1] SQL Mastery (4-6 wk)
│ └─ Window functions, CTEs, optimization
│
▼
[2] Python for Data (4-6 wk)
│ └─ Pandas, file formats, scripting
│
▼
[3] ETL/ELT Pipelines (6-8 wk)
│ └─ Extract, transform, load patterns
│
▼
[4] Big Data: Spark (8-12 wk)
│ └─ PySpark, DataFrames, partitioning
│
▼
[5] Data Warehouse (4-6 wk)
│ └─ Star schema, dbt, Snowflake/BQ
│
▼
[6] Orchestration (4-6 wk)
└─ Airflow/Prefect, scheduling, monitoring2025 Stack: Python + Spark + Airflow + dbt + Snowflake/BigQuery
[1] SQL精通 (4-6周)
│ └─ 窗口函数、公共表表达式(CTEs)、性能优化
│
▼
[2] 数据处理Python (4-6周)
│ └─ Pandas、文件格式、脚本编写
│
▼
[3] ETL/ELT管道 (6-8周)
│ └─ 抽取、转换、加载模式
│
▼
[4] 大数据:Spark (8-12周)
│ └─ PySpark、DataFrames、分区策略
│
▼
[5] 数据仓库 (4-6周)
│ └─ 星型模型、dbt、Snowflake/BigQuery
│
▼
[6] 任务编排 (4-6周)
└─ Airflow/Prefect、调度、监控2025技术栈: Python + Spark + Airflow + dbt + Snowflake/BigQuery
ML Engineer
机器学习工程师
[1] Python + NumPy (4-6 wk)
│
▼
[2] Math Foundations (6-8 wk)
│ └─ Linear algebra, calculus, statistics
│
▼
[3] Classical ML (8-12 wk)
│ └─ scikit-learn, XGBoost, evaluation
│
▼
[4] Deep Learning (8-12 wk)
│ └─ PyTorch, CNNs, Transformers
│
▼
[5] MLOps (6-8 wk)
└─ MLflow, model serving, monitoring2025 Stack: Python + PyTorch + scikit-learn + MLflow + W&B
[1] Python + NumPy (4-6周)
│
▼
[2] 数学基础 (6-8周)
│ └─ 线性代数、微积分、统计学
│
▼
[3] 经典机器学习 (8-12周)
│ └─ scikit-learn、XGBoost、模型评估
│
▼
[4] 深度学习 (8-12周)
│ └─ PyTorch、CNN、Transformer
│
▼
[5] MLOps (6-8周)
└─ MLflow、模型部署、监控2025技术栈: Python + PyTorch + scikit-learn + MLflow + W&B
AI Engineer (2025 Hot Path)
人工智能工程师(2025热门路径)
[1] LLM Fundamentals (2-3 wk)
│ └─ Tokens, embeddings, context windows
│
▼
[2] Prompt Engineering (2-3 wk)
│ └─ Few-shot, CoT, structured output
│
▼
[3] RAG Systems (3-4 wk)
│ └─ Embeddings, vector DBs, retrieval
│
▼
[4] AI Agents (4-6 wk)
│ └─ Tool calling, agent loops, memory
│
▼
[5] Production Deploy (ongoing)
└─ Evaluation, guardrails, monitoring2025 Stack: Python + LangChain/LlamaIndex + OpenAI/Anthropic + ChromaDB
[1] LLM基础 (2-3周)
│ └─ 令牌(Tokens)、嵌入(Embeddings)、上下文窗口
│
▼
[2] 提示工程 (2-3周)
│ └─ 少样本学习、思维链(CoT)、结构化输出
│
▼
[3] RAG系统 (3-4周)
│ └─ 嵌入、向量数据库、检索逻辑
│
▼
[4] AI Agent (4-6周)
│ └─ 工具调用、Agent循环、记忆机制
│
▼
[5] 生产部署(持续学习)
└─ 模型评估、安全护栏、监控2025技术栈: Python + LangChain/LlamaIndex + OpenAI/Anthropic + ChromaDB
2025 Tool Matrix
2025工具矩阵
Data Processing
数据处理
| Tool | Scale | Use Case |
|---|---|---|
| Pandas | <10GB | Prototyping, small data |
| Polars | <100GB | Fast local processing |
| Spark | >100GB | Distributed processing |
| dbt | Any | Transformations, testing |
| 工具 | 适用规模 | 使用场景 |
|---|---|---|
| Pandas | <10GB | 原型开发、小数据处理 |
| Polars | <100GB | 本地快速处理 |
| Spark | >100GB | 分布式处理 |
| dbt | 任意规模 | 数据转换、测试 |
ML Frameworks
机器学习框架
| Framework | Best For | Complexity |
|---|---|---|
| scikit-learn | Classical ML | Low |
| XGBoost | Tabular data | Low |
| PyTorch | Research, flexibility | Medium |
| TensorFlow | Production, mobile | Medium |
| 框架 | 最佳适用场景 | 复杂度 |
|---|---|---|
| scikit-learn | 经典机器学习 | 低 |
| XGBoost | 表格数据 | 低 |
| PyTorch | 研究、灵活性需求 | 中 |
| TensorFlow | 生产环境、移动应用 | 中 |
LLM/AI Tools
LLM/AI工具
| Tool | Use Case |
|---|---|
| LangChain | LLM orchestration |
| LlamaIndex | RAG systems |
| Claude/OpenAI | LLM APIs |
| ChromaDB | Vector storage |
| 工具 | 使用场景 |
|---|---|
| LangChain | LLM编排 |
| LlamaIndex | RAG系统构建 |
| Claude/OpenAI | LLM API调用 |
| ChromaDB | 向量存储 |
Algorithm Reference
算法参考
Classical ML
经典机器学习
| Type | Algorithms |
|---|---|
| Regression | Linear, Ridge, Lasso, ElasticNet |
| Classification | Logistic, SVM, Decision Tree |
| Ensemble | Random Forest, XGBoost, LightGBM |
| Clustering | K-Means, DBSCAN, Hierarchical |
| 类型 | 算法 |
|---|---|
| 回归 | 线性回归、岭回归、Lasso回归、弹性网络 |
| 分类 | 逻辑回归、支持向量机(SVM)、决策树 |
| 集成学习 | 随机森林、XGBoost、LightGBM |
| 聚类 | K-Means、DBSCAN、层次聚类 |
Deep Learning
深度学习
| Architecture | Use Case |
|---|---|
| CNN | Images, vision |
| RNN/LSTM | Sequences |
| Transformer | NLP, LLMs |
| Diffusion | Image generation |
| 架构 | 适用场景 |
|---|---|
| CNN | 图像、计算机视觉 |
| RNN/LSTM | 序列数据 |
| Transformer | 自然语言处理、大语言模型 |
| Diffusion | 图像生成 |
AI Agent Architecture (2025)
AI Agent架构(2025)
┌─────────────────────────────────────────┐
│ AGENTIC LOOP │
├─────────────────────────────────────────┤
│ PERCEIVE → REASON → ACT → REFLECT │
│ │ │ │ │ │
│ │ │ │ └─► Loop │
│ │ │ └─► Execute tools│
│ │ └─► LLM decides action │
│ └─► Gather context, observations │
└─────────────────────────────────────────┘
Design Patterns (Anthropic 2025):
• Prompt Chaining - Sequential fixed steps
• Routing - Classify and dispatch
• Parallelization - Concurrent subtasks
• Orchestrator-Workers - Central delegation
• Evaluator-Optimizer - Generate + critique┌─────────────────────────────────────────┐
│ AGENTIC LOOP │
├─────────────────────────────────────────┤
│ PERCEIVE → REASON → ACT → REFLECT │
│ │ │ │ │ │
│ │ │ │ └─► Loop │
│ │ │ └─► Execute tools│
│ │ └─► LLM decides action │
│ └─► Gather context, observations │
└─────────────────────────────────────────┘
Design Patterns (Anthropic 2025):
• Prompt Chaining - Sequential fixed steps
• Routing - Classify and dispatch
• Parallelization - Concurrent subtasks
• Orchestrator-Workers - Central delegation
• Evaluator-Optimizer - Generate + critique设计模式(Anthropic 2025):
• 提示链 - 固定顺序步骤
• 路由 - 分类与分发
• 并行化 - 并发子任务
• 编排者-工作者 - 集中式委托
• 评估者-优化者 - 生成+评审
Troubleshooting
故障排除
Which path to choose?
├─► Love building infrastructure? → Data Engineer
├─► Love algorithms/math? → ML Engineer
├─► Want fastest AI entry? → AI Engineer
└─► Uncertain? → Start with Python + SQL
Model not performing well?
├─► Data quality issues? → Clean data first
├─► Feature engineering? → Create better features
├─► Wrong algorithm? → Try different models
├─► Overfitting? → More data, regularization
└─► Hyperparameters? → Grid/random search
LLM giving bad answers?
├─► Prompt too vague? → Be more specific
├─► Missing context? → Add relevant info
├─► Hallucinating? → Use RAG, verify facts
└─► Wrong tool? → Improve tool descriptions该选择哪条路径?
├─► 喜欢构建基础设施?→ 数据工程师
├─► 热爱算法/数学?→ 机器学习工程师
├─► 想最快进入AI领域?→ 人工智能工程师
└─► 不确定?→ 从Python + SQL开始
模型表现不佳?
├─► 数据质量问题?→ 先清洗数据
├─► 特征工程不足?→ 构建更优特征
├─► 算法选择错误?→ 尝试不同模型
├─► 过拟合?→ 增加数据、正则化
└─► 超参数问题?→ 网格/随机搜索
LLM输出结果不理想?
├─► 提示过于模糊?→ 描述更具体
├─► 缺少上下文?→ 添加相关信息
├─► 产生幻觉?→ 使用RAG、验证事实
└─► 工具选择错误?→ 优化工具描述
Common Failure Modes
常见失败模式
| Symptom | Root Cause | Recovery |
|---|---|---|
| Model fails in prod | Data drift | Monitor distributions |
| Pipeline always late | Unoptimized queries | Profile, partition |
| RAG finds wrong docs | Bad chunking | Tune chunk size, overlap |
| Agent loops forever | No exit condition | Add max iterations |
| 症状 | 根本原因 | 解决方法 |
|---|---|---|
| 模型在生产环境失效 | 数据漂移 | 监控数据分布 |
| 数据管道总是延迟 | 查询未优化 | 性能分析、分区优化 |
| RAG检索到错误文档 | 切分策略不佳 | 调整切分大小、重叠度 |
| Agent无限循环 | 无退出条件 | 添加最大迭代次数 |
Portfolio Projects
作品集项目
Data Engineering
数据工程
- ETL Pipeline (Airflow + dbt)
- Real-time Streaming (Kafka + Spark)
- Data Warehouse Design
- ETL管道(Airflow + dbt)
- 实时流处理(Kafka + Spark)
- 数据仓库设计
ML Engineering
机器学习工程
- Classification Model (scikit-learn)
- Deep Learning Model (PyTorch)
- ML Pipeline (MLflow)
- 分类模型(scikit-learn)
- 深度学习模型(PyTorch)
- ML管道(MLflow)
AI Engineering
人工智能工程
- RAG Chatbot (LangChain + ChromaDB)
- AI Agent with Tools
- Multi-Agent System
- RAG聊天机器人(LangChain + ChromaDB)
- 带工具调用的AI Agent
- 多Agent系统
Next Actions
下一步行动
Specify your target role for a detailed learning plan.
指定你的目标角色,获取详细学习计划。