分类算法之决策树(Decision tree)
充,试图克服这个偏倚。
C4.5算法首先定义了“分裂信息”,其定义可以表示成: 其中各符号意义与ID3算法相同,然后,增益率被定义为: C4.5选择具有最大增益率的属性作为分裂属性,其具体应用与ID3类似,不再赘述。 3.4、关于决策树的几点补充说明 3.4.1、如果属性用完了怎么办 在决策树构造过程中可能会出现这种情况:所有属性都作为分裂属性用光了,但有的子集还不是纯净集,即集合内的元素不属于同一类别。在这种情况下,由于没有更多信息可以使用了,一般对这些子集进行“多数表决”,即使用此子集中出现次数最多的类别作为此节点类别,然后将此节点作为叶子节点。 3.4.2、关于剪枝 在实际构造决策树时,通常要进行剪枝,这时为了处理由于数据中的噪声和离群点导致的过分拟合问题。剪枝有两种: 先剪枝——在构造过程中,当某个节点满足剪枝条件,则直接停止此分支的构造。 后剪枝——先构造完成完整的决策树,再通过某些条件遍历树进行剪枝。 关于剪枝的具体算法这里不再详述,有兴趣的可以参考相关文献。 |
凌众科技专业提供服务器租用、服务器托管、企业邮局、虚拟主机等服务,公司网站:http://www.lingzhong.cn 为了给广大客户了解更多的技术信息,本技术文章收集来源于网络,凌众科技尊重文章作者的版权,如果有涉及你的版权有必要删除你的文章,请和我们联系。以上信息与文章正文是不可分割的一部分,如果您要转载本文章,请保留以上信息,谢谢! |