Least Angle Regression

主要内容
最小二乘回归
子集选择法（subset selection）
收缩方法（shrinkage）
LARS
LARS 与 Lasso、前向逐阶段回归
LARS 与 Boosting

高斯-马尔可夫定理
最小二乘解在线性模型的所有无偏估计量中方差最小
然而，𝑏 ?这一估计量虽然无偏，方差却未必小
例：如果从某分布中独立抽取3个样本，该分布的期望和方差未知，只知道期望不大于1、方差不大于4，那么如何估计其期望？
比如这个问题，设估计量为a(x1+x2+x3)/3，那么可以转化为a^2/9+(a-1)^2的极值问题，对a求导，可知a=0.9时是最好的。
同时，如果我们只知道期望的值，那么我们可以知道在某个有偏估计量下，在方差大于多少时比无偏估计量要好。只知道方差不知道期望亦同。这个问题可以想出很多变体，我想。
另外，值得注意的是，方差的分母是n的平方，那么n很大的时候，方差自然就趋近于0了，所以很多情况下，这个平衡只在小样本下成立。当然，对于线性模型来说，其中必定存在很多方差较大的变量，这时小样本是相对于变量的个数也就是维度而言的。我们就可以考虑舍弃那些大方差的变量。这就衍生出两种方法：子集选择和收缩。

子集选择法
什么是子集选择？
－从所有变量组成的集合中，选出一个子集，仅用该子集中的变量而不是所有变量来建立线性模型
为什么采用子集选择法？
－泛化性更好
－解释性更强
如何选择？
－投影后残差最小
－相关度最大
－夹角最小

主要的子集选择方法
最佳子集选择法（Best-Subset Selection）
前向逐步选择法（Forward-Stepwise Selection）
前向逐阶段回归（Forward-Stagewise Regression）

最佳子集选择法
即遍历元素个数为k的所有子集，选择其中残差最小的子集
若变量集合为{1, 2,…, p}，则对于k个元素的子集，需要计算 C(p, k) 次最小二乘，总共需计算2^𝑘次
显然，这种选择策略的计算代价极为昂贵
而且在实践中，这种方法似乎也不够出色（泛化性能不佳？）

前向逐步选择法
贪心（greedy）选择策略
若变量集合为A={1, 2,…, p}，已选子集K包含k个元素，y在K上残差为r，则若想选k+1个元素的子集，仅需在K的基础上，从A/K中选一个元素x，使得x与r相关度最大
因此这些子集具有嵌套结构：较小子集包含在较大子集中
为什么说这种方法比最佳子集选择的方差会更低？为什么限制选择的自由度会减小方差？
计算代价大大降低：选择k-子集仅需在(k-1)-子集基础上，计算p-k+1次相关
因为限制了变量的选择范围，所以方差有所减少，但偏差可能增加（forward stepwise is a more constrained search, and will have lower variance, but perhaps more bias）（why?）
可能在某些变量上系数很大，而在其他变量上系数很小
假如有一个三维空间，有三个基向量，但其中两个分得很开，比如(1,0,0)和(0,1,0)，而另一个在该平面上抬起来一点，比如(2/3,2/3,1/3)，现在有一个向量(2/3,2/3,1/4)，那么只选一个向量的话，显然抬起来那个更近，但如果选两个，则会是两个坐标轴更近（是否因为抬起来那个和坐标轴都很相关，重复了？而且如果头两个基向量负相关，是不是更容易出现此现象？）。
后向逐步选择是类似的思想，只不是逐步删去最差的变量（也是贪心）。
这种现象因为贪心策略导致的——只注重眼前。不过如果基向量正交，那么贪心策略是最优的？这类似于特征选择（也有这样的算法）、mp和omp（omp最优？其后的改进是什么？）、甚至波段选择等组合优化问题。可以看出算法背后其实是有思想的，比如贪心，其实是一种元算法。
另外拟阵和次模是和贪心以及组合优化紧密相关的。

前向逐阶段回归
前向逐步选择法的保守版本
同样是在A/K中，选一个元素x，使得x与当前残差具有最大相关度
但并非直接计算投影后的系数，而是将投影乘一个小于1的常数a（比如0.1），使其以较小的步长前进

子集选择法比较
为什么说这种方法比最佳子集选择的方差会更低？为什么限制选择的自由度会减小方差？

收缩方法
岭回归（ridge regression）
Lasso
和子集选择相比，收缩方法相当于对变量系数进行连续处理，而不是离散处理（非0即1）。所以子集选择本质上是组合优化问题，一般需要近似求解，而收缩方法是连续优化问题，一般可采用凸优化方法求解。

岭回归
相关度可从系数(1,0)和(0.5,0.5)的2范看出，前者2范为1，后者2范为0.7071，显然后者的范数约束更小，所以随着lambda增大，有相关变量的变量缩减更大。
另外就是可以看出哪些变量相关：同时增减且幅度差不多的，则为相关。二者都为正则为负相关，二者一正一负则为正相关。

Lasso
首先lasso和岭回归对比，右边的岭回归是一下全都不为0了，而左边是一个一个地不为0。这样就有一个先后顺序：对重要性进行排序。比如BMI、S5较重要，S4、S2较不重要等等。（重要性是否也可以从岭回归的图中，根据某一阶段比如0刚开始时的斜率也就是导数或者变化率来看？变化率越大越重要？这和gradient boosting有关系吗？）
另外可以看出变量之间的关系。比如到后面的阶段，其他变量的变化都比较平缓了，但S1和S2却变化仍然很大，而且变化的方向相反，这说明它们之间有较强的相关性，而且是正相关。另外请看S3，一开始它的发展趋势是往下的，但S4出现后，S3方向马上改变向上，而且之后它们的方向是相同的，说明它们之间也有较强的相关性，而且是负相关。
这种相关性较强的变量对解的稳定性是有较大影响的，样本在这些变量上的较小变化，可能产生较大的预测误差。

LARS
前向逐步选择法过于贪心
前向逐阶段回归又过于谨慎
需要一种折中的方法
注意到前向逐阶段回归时，会出现多个变量之间相关度几乎相同的情况，那么，我们为什么要小步前进，而不是算出相关度相同的坐标，然后直接移到该处？
Least Angle 指的就是变量与y之间的夹角

LARS 与前向逐阶段回归、Lasso的关系
Lasso 和前向逐阶段回归，都可看作LARS的变形，或者说移动受限版本
LARS、前向逐阶段回归和 Lasso 的 KKT 条件，决定了它们解的性质以及几何性质
Lasso 要求变量一旦到达0点，则删掉该变量
前向逐阶段回归要求正相关（所以移动路径在一个凸锥之内）
前向逐阶段回归也称作最小二乘 boosting（least squares boosting）
实际上，boosting 的思想是把很多较弱的线性可加分类函数或回归函数组合在一起，而变量选择的逐步添加变量就是这样的思想
boosting 会不断改变样本的权重和分类函数或回归函数的权重，这相当于计算与残差r的相关度
boosting 也容易变为非线性版本，比如结合CART

（不错的slides）lars_Lasso_boost.pdf

999.41 KB, 下载次数: 139

Least angle and 1 penalized regression - A review 0802.0964.pdf

451.79 KB, 下载次数: 95

presentation for reading group - LARS (final).pptx

1.3 MB, 下载次数: 138

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。