xgboost

Compare original and translation side by side

🇺🇸

Original

English
🇨🇳

Translation

Chinese

XGBoost

XGBoost

XGBoost is the winningest algorithm in Kaggle history for tabular data. v2.1 (2025) brings native Blackwell GPU support and Polars integration.
XGBoost是Kaggle历史上处理表格型数据时最常获胜的算法。2025年发布的v2.1版本带来了原生Blackwell GPU支持和Polars集成。

When to Use

适用场景

  • Tabular Data: It usually beats Deep Learning on structured tables.
  • Speed: Extremely optimized C++ backend.
  • 表格型数据:在结构化表格数据任务中,它的表现通常优于深度学习。
  • 速度优势:拥有经过极致优化的C++后端。

Core Concepts

核心概念

Gradient Boosting

Gradient Boosting(梯度提升)

Building extensive decision trees sequentially, each correcting the previous one's errors.
依次构建大量决策树,每一棵决策树都会修正前一棵的错误。

DMatrix

DMatrix

Internal optimized data structure.
内部优化的数据结构。

Device Parameter

Device参数

device="cuda"
enables GPU acceleration.
设置
device="cuda"
可启用GPU加速。

Best Practices (2025)

2025年最佳实践

Do:
  • Use
    device="cuda"
    : GPU training is 10x faster.
  • Use Early Stopping: Stop training when validation error rises.
  • Pass Polars Dataframes: No need to convert to Pandas/NumPy first.
Don't:
  • Don't use one-hot encoding: Use native categorical support (
    enable_categorical=True
    ).
建议做法
  • 使用
    device="cuda"
    :GPU训练速度比CPU快10倍。
  • 使用早停机制:当验证集误差上升时停止训练。
  • 传入Polars数据框:无需先转换为Pandas/NumPy格式。
不建议做法
  • 不要使用独热编码:使用原生类别特征支持(设置
    enable_categorical=True
    )。

References

参考资料