scikit-learn
Compare original and translation side by side
🇺🇸
Original
English🇨🇳
Translation
ChineseScikit-learn
Scikit-learn
Scikit-learn is the gold standard for "Classical ML" (Regression, SVM, Random Forest). v1.6 (2025) adds Array API support (running on GPUs via PyTorch/CuPy).
Scikit-learn是“经典机器学习(Classical ML)”(回归、SVM、随机森林)领域的标杆。2025年发布的v1.6版本新增了Array API支持,可通过PyTorch/CuPy在GPU上运行。
When to Use
适用场景
- Tabular Data: Random Forests / Gradient Boosting.
- Preprocessing: ,
StandardScaler.LabelEncoder - Small Data: When Deep Learning is overkill.
- 表格数据:随机森林 / 梯度提升。
- 数据预处理:、
StandardScaler。LabelEncoder - 小数据集:当深度学习大材小用时。
Core Concepts
核心概念
Estimators
估计器
Everything implements and .
.fit(X, y).predict(X)所有组件都实现了和方法。
.fit(X, y).predict(X)Pipelines
流水线
Chaining preprocessing and modeling: .
Pipeline([('scaler', StandardScaler()), ('svc', SVC())])将预处理和建模环节串联起来:。
Pipeline([('scaler', StandardScaler()), ('svc', SVC())])Array API
Array API
Passing PyTorch tensors directly to Scikit-learn without converting to NumPy (keeping data on GPU).
可直接将PyTorch张量传入Scikit-learn,无需转换为NumPy数组,从而让数据保留在GPU上。
Best Practices (2025)
2025年最佳实践
Do:
- Use Pipelines: Prevent data leakage during cross-validation.
- Use : It is much faster than standard extraction implementation (inspired by LightGBM).
HistGradientBoostingClassifier
Don't:
- Don't use for Images/Audio: Use PyTorch/DL for unstructured data.
建议:
- 使用流水线:防止交叉验证过程中的数据泄露。
- 使用:它比标准实现快得多(灵感源自LightGBM)。
HistGradientBoostingClassifier
禁忌:
- 勿用于图像/音频数据:针对非结构化数据,请使用PyTorch或其他深度学习框架。