打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
数据重分割

研究背景

在经典的低维设置中,基于

值的错误选择控制被广泛的应用。在高维设置中,获得各个变量的显著性却是困难的,很多算法在高维设置中会将噪声变量纳入模型中。多样本分割简单易行。有理论证明,针对高维线性模型和广义线性模型,使用该方法得到的
值具有渐进有效性质,因此,可以使用该方法在高维设置中进行错误控制。

假设有

样本,每个样本包含1个因变量和
个自变量,考虑如下高维线性模型:

式中

为一个
维因变量;
为一个
维自变量;
为一个
维回归系数;
为一个
维向量,代表误差,且
。对于此模型,基于
值解决如下的假设检验问题:

美国科学院院士L.瓦瑟曼和K.罗德针对该问题提出了单样本分割(single data splitting)方法:将所有数据分成两部分,使用第一部分数据降维至可处理的维度,尽可能保留重要变量;使用第二部分数据得到

值,进而进行变量选择。该方法比较容易实施,但比较依赖于样本的分割方式。如果样本分割方式不同,可能会得到不同的结果。为了解决这一问题,M.尼科莱、L.迈耶和P.比尔曼提出了多样本分割的方法。

基本内容

在介绍多样本分割方法之前,需首先介绍单样本分割的主要内容。针对假设

,单样本分割的算法为:

①将样本进行分割成互不相交的两部分,

,且两部分的样本数量相同。②利用
选择显著变量集
③基于
得到
。对于
,基于
的数据
,利用经典最小二乘估计计算
。对于
,令
④对于
,计算调整的
值:

数据重分割算法:①重复以上单样本分割算法

次,得到
。可选
②对于
,计算调整的
值:


式中

为经验分位函数;
为选择参数。

多样本分割方法得到的

值具有渐进有效性质,不再受到样本随机性的影响。有理论证明,在满足一定的条件下,使用该方法可以达到错误控制的效果。该方法的使用十分广泛,只要满足一定的条件,就可应用于多种模型。通过该方法得到的
值,可以构建置信区间。多样本分割通过多次将样本分割的方式处理高维数据,解决了高维情况下
值计算和错误控制的问题。该方法的思想可以拓展到更多模型和高维算法中。

扩展阅读

  • ROMANO J P, DICICCIO C.Multiple Data Splitting for Testing.Stanford:Department of Statistics, Stanford University,2019.
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
数据挖掘中的数据清洗方法大全
用户特征工程详细解读
机器学习开放课程(三):分类、决策树和K近邻
手把手教你用TensorFlow玩转Flappy Bird!
缺失值的处理方法
语义分割入门的总结
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服