随机森林（RF）模型_分类模型_浙江以象科技有限公司

数据验证

首页数据验证分类模型

随机森林（RF）模型

随机森林（RF）模型是一种基于 “集成学习” 思想的监督学习模型，通过组合多个决策树的预测结果来提升模型性能，可同时用于分类和回归任务，且具备较强的抗过拟合能力。

13867128415

项目内容

随机森林的本质是决策树的集成，核心逻辑可概括为 “三个随机” 和 “一个投票”：

随机样本选择：从原始数据集中通过 “有放回抽样”（Bootstrap）生成多个子数据集，每个子数据集对应一棵决策树的训练数据。
随机特征选择：每棵决策树在分裂节点时，不使用全部特征，而是随机选择部分特征（通常为总特征数的平方根），从中筛选最优分裂特征。
单树随机生长：每棵决策树基于子数据集和随机特征独立生长，不进行剪枝（通过多树集成抵消单树过拟合）。
结果集成投票：
- 分类任务：多棵树输出类别，取 “投票数最多” 的类别作为最终结果。
- 回归任务：多棵树输出数值，取 “所有结果的平均值” 作为最终预测值。

随机森林的单棵树为CART 树（分类与回归树），是一种二叉树结构，每个节点通过 “特征阈值分裂” 将数据划分为两类（分类）或两类区间（回归），分裂准则如下：

超参数直接影响随机森林的性能，核心超参数及调优方向如下：

超参数	作用与调优逻辑
`n_estimators`	决策树数量。数量过少易欠拟合，数量过多会增加计算成本，通常取 100-1000（需结合数据规模调整）。
`max_features`	每棵树分裂时的最大特征数。分类任务默认`sqrt(总特征数)`，回归任务默认`log2(总特征数)`；特征多可减小，特征少可增大。
`max_depth`	单棵树的最大深度。深度过大会导致单树过拟合，可通过交叉验证确定最优值（如 5-30），默认不限制（树生长至节点纯度最优）。
`min_samples_split`	节点分裂的最小样本数。值越小树越复杂（易过拟合），通常取 2-10（值越大树越简单）。
`min_samples_leaf`	叶子节点的最小样本数。值越小叶子越细（易过拟合），通常取 1-5（值越大叶子越粗，模型越稳健）。
`bootstrap`	是否使用 Bootstrap 抽样。默认`True`（推荐，保证单树独立性），`False`则每棵树用全部数据训练。

调优方法：常用网格搜索（Grid Search）或随机搜索（Random Search），结合5 折 / 10 折交叉验证，筛选验证集得分最高的超参数组合。微信截图_20251017142917.png

Python：scikit-learn（sklearn.ensemble.RandomForestClassifier用于分类，RandomForestRegressor用于回归）、XGBoost/LightGBM（基于随机森林改进的梯度提升树，效率更高）。
R：randomForest包（经典实现，支持分类、回归及特征重要性可视化）。
Spark：ml.ensemble.RandomForestClassifier（适用于大规模分布式数据训练）。

为更清晰理解随机森林的定位，以下对比其与决策树、支持向量机（SVM）的核心差异：

模型	核心优势	核心劣势	适用数据规模
决策树	训练快、可解释性极强	易过拟合、鲁棒性差	小规模数据
随机森林	抗过拟合、鲁棒性高、适用范围广	计算成本高、对极端不平衡数据敏感	中小至中大规模数据
SVM	高维数据表现好、泛化能力强	大规模数据效率低、参数调优复杂	中小规模、高维数据