数据重分割

研究背景

在经典的低维设置中，基于

值的错误选择控制被广泛的应用。在高维设置中，获得各个变量的显著性却是困难的，很多算法在高维设置中会将噪声变量纳入模型中。多样本分割简单易行。有理论证明，针对高维线性模型和广义线性模型，使用该方法得到的

值具有渐进有效性质，因此，可以使用该方法在高维设置中进行错误控制。

假设有

样本，每个样本包含1个因变量和

个自变量，考虑如下高维线性模型：

式中

为一个

维因变量；

为一个

维自变量；

为一个

维回归系数；

为一个

维向量，代表误差，且

。对于此模型，基于

值解决如下的假设检验问题：

美国科学院院士L.瓦瑟曼和K.罗德针对该问题提出了单样本分割（single data splitting）方法：将所有数据分成两部分，使用第一部分数据降维至可处理的维度，尽可能保留重要变量；使用第二部分数据得到

值，进而进行变量选择。该方法比较容易实施，但比较依赖于样本的分割方式。如果样本分割方式不同，可能会得到不同的结果。为了解决这一问题，M.尼科莱、L.迈耶和P.比尔曼提出了多样本分割的方法。

基本内容

在介绍多样本分割方法之前，需首先介绍单样本分割的主要内容。针对假设

，单样本分割的算法为：

①将样本进行分割成互不相交的两部分，

，且两部分的样本数量相同。②利用

选择显著变量集

。③基于

得到

。对于

，基于

的数据

，利用经典最小二乘估计计算

的

值

。对于

，令

。④对于

，计算调整的

值：

数据重分割算法：①重复以上单样本分割算法

次，得到

。可选

或

。②对于

，计算调整的

值：

式中

；

为经验分位函数；

为选择参数。

多样本分割方法得到的

值具有渐进有效性质，不再受到样本随机性的影响。有理论证明，在满足一定的条件下，使用该方法可以达到错误控制的效果。该方法的使用十分广泛，只要满足一定的条件，就可应用于多种模型。通过该方法得到的

值，可以构建置信区间。多样本分割通过多次将样本分割的方式处理高维数据，解决了高维情况下

值计算和错误控制的问题。该方法的思想可以拓展到更多模型和高维算法中。

扩展阅读

ROMANO J P, DICICCIO C．Multiple Data Splitting for Testing．Stanford：Department of Statistics, Stanford University，2019．

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。