针对每个决策树构建不同的样本空间
更新日期:2021-04-28     浏览次数:127
核心提示:1.2.2 随机森林法本文中用以表征各运行参数对煤耗的影响程度。单棵树模型从根节点开始,在每个节点处选择样本属性(此处即计算煤耗所用的各运行参数)

1.2.2 随机森林法

本文中用以表征各运行参数对煤耗的影响程度。单棵树模型从根节点开始,在每个节点处选择样本属性(此处即计算煤耗所用的各运行参数)将样本集合分为两个子集合(子节点):每次划分所用的样本属性应使划分后的子集合具有最小的基尼指数(或信息熵)。不断地基于属性划分子节点,直至达到设定的划分次数或当前样本已属同一类别[10]

树模型易于解释,但通常精度较低。随机森林是一种常用的改进树模型方法,可提高整体模型输出的准确性,并提升模型的泛化性能[11]。其构建多棵较简单的决策树,利用Bagging方法有放回地选取样本数据,针对每个决策树构建不同的样本空间;并在单棵树生长的每个节点处随机选择部分属性进行样本划分(即从部分属性中选择一个最优属性进行样本划分)。将多个简单树模型的结果进行投票(或取均值)获得整体模型输出。随机森林对异常值和噪声有较高的容忍度,能够有效的分析兼具共线性、非线性关系的复杂数据,并可根据各属性在所有决策树中用到的次数及次序,定量求取各属性的重要性[12]