针对每个决策树构建不同的样本空间

1.2.2 随机森林法

本文中用以表征各运行参数对煤耗的影响程度。单棵树模型从根节点开始，在每个节点处选择样本属性（此处即计算煤耗所用的各运行参数）将样本集合分为两个子集合（子节点）：每次划分所用的样本属性应使划分后的子集合具有最小的基尼指数（或信息熵）。不断地基于属性划分子节点，直至达到设定的划分次数或当前样本已属同一类别^[10]。

树模型易于解释，但通常精度较低。随机森林是一种常用的改进树模型方法，可提高整体模型输出的准确性，并提升模型的泛化性能^[11]。其构建多棵较简单的决策树，利用Bagging方法有放回地选取样本数据，针对每个决策树构建不同的样本空间；并在单棵树生长的每个节点处随机选择部分属性进行样本划分（即从部分属性中选择一个最优属性进行样本划分）。将多个简单树模型的结果进行投票（或取均值）获得整体模型输出。随机森林对异常值和噪声有较高的容忍度，能够有效的分析兼具共线性、非线性关系的复杂数据，并可根据各属性在所有决策树中用到的次数及次序，定量求取各属性的重要性^[12]。