打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
三种常见的决策树:CART,C5,CHAID

 决策树需要计算结点的纯度来选择最具显著性的切分(split)。通常,CART以Gini,C5以信息增益(熵),CHAID以卡方。虽然存在这样的差别,但他们树形状的不同更为重要一些。

C5起源于计算科学领域,讲究小样本上的重复测试比较(cross validation),进一步地,C5会进行规则(RuleSet)的概化以自动产生更为简洁的规则表达形式。牺牲一些精度来换取更好记的规则,对于业务人员来说无疑是值得的。

CART与CHAID,一个是二叉树,一个是多叉树;CART在每一个分支都选择最好的二元切分,因此一个变量(field)很可能在不同的树深处被多次使用;CHAID则一次对一个变量切分出多个统计显著的分支,会更快的生长出高预测能力的树枝,但同时在深度子结点的支持度相比CART迅速降低,更快地逼近一棵臃肿而不稳定的树。 

为了避免过度拟合(overfit)而成为不稳定的树,叶结点需要裁剪(prune)。尽管CART提供了自动搜索潜在可能的树分支并根据测试集裁剪回来的策略,但事实上并不足以依赖;统计意义不是决策规则的决定因素,商业理解结合手工裁剪(customsplit)可能是更好的选择。另外,少于100条数据的叶结点很可能是不稳定的,你将从测试集中发现这一点。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
数据挖掘一些相关术语(Glossary)
机器学习基础:可视化方式理解决策树剪枝
SPSS Modeler用K-means(K-均值)聚类、CHAID、CART决策树分析31省市土地利用情况和GDP数据
决策树方法小结
CART(决策分类树)原理和实现
经典机器学习算法-第五章决策树
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服