xgboost
Compare original and translation side by side
🇺🇸
Original
English🇨🇳
Translation
ChineseXGBoost
XGBoost
XGBoost is the winningest algorithm in Kaggle history for tabular data. v2.1 (2025) brings native Blackwell GPU support and Polars integration.
XGBoost是Kaggle历史上处理表格型数据时最常获胜的算法。2025年发布的v2.1版本带来了原生Blackwell GPU支持和Polars集成。
When to Use
适用场景
- Tabular Data: It usually beats Deep Learning on structured tables.
- Speed: Extremely optimized C++ backend.
- 表格型数据:在结构化表格数据任务中,它的表现通常优于深度学习。
- 速度优势:拥有经过极致优化的C++后端。
Core Concepts
核心概念
Gradient Boosting
Gradient Boosting(梯度提升)
Building extensive decision trees sequentially, each correcting the previous one's errors.
依次构建大量决策树,每一棵决策树都会修正前一棵的错误。
DMatrix
DMatrix
Internal optimized data structure.
内部优化的数据结构。
Device Parameter
Device参数
device="cuda"设置可启用GPU加速。
device="cuda"Best Practices (2025)
2025年最佳实践
Do:
- Use : GPU training is 10x faster.
device="cuda" - Use Early Stopping: Stop training when validation error rises.
- Pass Polars Dataframes: No need to convert to Pandas/NumPy first.
Don't:
- Don't use one-hot encoding: Use native categorical support ().
enable_categorical=True
建议做法:
- 使用:GPU训练速度比CPU快10倍。
device="cuda" - 使用早停机制:当验证集误差上升时停止训练。
- 传入Polars数据框:无需先转换为Pandas/NumPy格式。
不建议做法:
- 不要使用独热编码:使用原生类别特征支持(设置)。
enable_categorical=True