在经典的低维设置中,基于
值的错误选择控制被广泛的应用。在高维设置中,获得各个变量的显著性却是困难的,很多算法在高维设置中会将噪声变量纳入模型中。多样本分割简单易行。有理论证明,针对高维线性模型和广义线性模型,使用该方法得到的
值具有渐进有效性质,因此,可以使用该方法在高维设置中进行错误控制。
假设有
样本,每个样本包含1个因变量和
个自变量,考虑如下高维线性模型:
式中
为一个
维因变量;
为一个
维自变量;
为一个
维回归系数;
为一个
维向量,代表误差,且
。对于此模型,基于
值解决如下的假设检验问题:
美国科学院院士L.瓦瑟曼和K.罗德针对该问题提出了单样本分割(single data splitting)方法:将所有数据分成两部分,使用第一部分数据降维至可处理的维度,尽可能保留重要变量;使用第二部分数据得到
值,进而进行变量选择。该方法比较容易实施,但比较依赖于样本的分割方式。如果样本分割方式不同,可能会得到不同的结果。为了解决这一问题,M.尼科莱、L.迈耶和P.比尔曼提出了多样本分割的方法。
在介绍多样本分割方法之前,需首先介绍单样本分割的主要内容。针对假设
,单样本分割的算法为:
①将样本进行分割成互不相交的两部分,
,且两部分的样本数量相同。
②利用选择显著变量集。③基于得到。对于,基于的数据,利用经典最小二乘估计计算的值。对于,令。④对于,计算调整的值:数据重分割算法:①重复以上单样本分割算法
次,得到。可选或。②对于,计算调整的值:式中
;为经验分位函数;为选择参数。多样本分割方法得到的
值具有渐进有效性质,不再受到样本随机性的影响。有理论证明,在满足一定的条件下,使用该方法可以达到错误控制的效果。该方法的使用十分广泛,只要满足一定的条件,就可应用于多种模型。通过该方法得到的
值,可以构建置信区间。
多样本分割通过多次将样本分割的方式处理高维数据,解决了高维情况下值计算和错误控制的问题。该方法的思想可以拓展到更多模型和高维算法中。