随机森林-随机预测模块
2016-09-22 10:59:59 0 举报
随机森林是一种集成学习方法,它通过构建多个决策树并取其平均结果以提高预测性能。随机森林中的“随机”主要体现在两个方面:首先,从原始训练数据中有放回地随机抽取样本形成子集;其次,从所有特征中随机选择一部分特征用于每棵决策树的构建。这种随机性使得每棵决策树都有所不同,从而提高了模型的泛化能力。此外,随机森林还具有很好的解释性,因为每棵树的分类依据都可以清晰地展示出来。总之,随机森林是一种强大且灵活的机器学习算法,适用于各种类型的数据集和问题。
作者其他创作
大纲/内容
若该数据的该属性值大于预定分裂值
是
否
输入训练集/交叉验证集
划分到左子树
若叶子节点已经不能进行分裂或者分裂后的数据都属于同一类别
停止随机森林的构建,保存已有的模型
遍历每个集合,对每个集合的属性进行随机抽取,假设一共M个属性,则从中挑选m个(mM),遍历m个属性
按照该属性遍历子集合中的每个数据
划分到右子树
子集合里的数据遍历结束
用bootstrap抽样对有效数据进行随机抽样,若原始训练数据有N个,则抽取K个集合,并使得K个集合共含N个数据
属性对应的分裂值
属性遍历结束
计算按照每个属性进行分裂的基尼系数,取最大基尼系数情况下的属性值为最优特征属性,并将原子树按照该属性值进行划分
0 条评论
下一页