打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
R语言随机森林模型中具有相关特征的变量重要性

原文链接:http://tecdat.cn/?p=13546


变量重要性图是查看模型中哪些变量有趣的好工具。由于我们通常在随机森林中使用它,因此它看起来非常适合非常大的数据集。大型数据集的问题在于许多特征是“相关的”,在这种情况下,很难比较可变重要性图的值的解释。

为了获得更可靠的结果,我生成了100个大小为1,000的数据集。


library(mnormt)



RF=randomForest(Y~.,data=db)

plot(C,VI[1,],type="l",col="red")lines(C,VI[2,],col="blue")lines(C,VI[3,],col="purple")


顶部的紫色线是的可变重要性值  ,该值相当稳定(作为一阶近似值,几乎恒定)。红线是的变量重要性函数,   蓝线是的变量重要性函数  。例如,具有两个高度相关变量的重要性函数为

实际上,我想到的是当我们考虑逐步过程时以及从集合中删除每个变量时得到的结果,

apply(IMP,1,mean)}
在这里,如果我们使用与以前相同的代码,

我们得到以下图


plot(C,VI[2,],type="l",col="red")lines(C,VI2[3,],col="blue")lines(C,VI2[4,],col="purple")


然而,当我们拥有很多相关特征时,讨论特征的重要性并不是那么直观。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
随机森林之特征选择
随机森林概述
关于两种统计模型文化的思考
可解释性和随机森林那些事儿
什么?人家就一个预测模型也发表6分多SCI论文!(脑卒中预后预测)
卡方检验和卡方分布
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服