打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Least Angle Regression
主要内容
最小二乘回归
子集选择法(subset selection)
收缩方法(shrinkage)
LARS
LARS 与 Lasso、前向逐阶段回归
LARS 与 Boosting

高斯-马尔可夫定理
最小二乘解在线性模型的所有无偏估计量中方差最小
然而,𝑏 ?这一估计量虽然无偏,方差却未必小
例:如果从某分布中独立抽取3个样本,该分布的期望和方差未知,只知道期望不大于1、方差不大于4,那么如何估计其期望?
比如这个问题,设估计量为a(x1+x2+x3)/3,那么可以转化为a^2/9+(a-1)^2的极值问题,对a求导,可知a=0.9时是最好的。
同时,如果我们只知道期望的值,那么我们可以知道在某个有偏估计量下,在方差大于多少时比无偏估计量要好。只知道方差不知道期望亦同。这个问题可以想出很多变体,我想。
另外,值得注意的是,方差的分母是n的平方,那么n很大的时候,方差自然就趋近于0了,所以很多情况下,这个平衡只在小样本下成立。当然,对于线性模型来说,其中必定存在很多方差较大的变量,这时小样本是相对于变量的个数也就是维度而言的。我们就可以考虑舍弃那些大方差的变量。这就衍生出两种方法:子集选择和收缩。

子集选择法
什么是子集选择?
-从所有变量组成的集合中,选出一个子集,仅用该子集中的变量而不是所有变量来建立线性模型
为什么采用子集选择法?
-泛化性更好
-解释性更强
如何选择?
-投影后残差最小
-相关度最大
-夹角最小

主要的子集选择方法
最佳子集选择法(Best-Subset Selection)
前向逐步选择法(Forward-Stepwise Selection)
前向逐阶段回归(Forward-Stagewise Regression)

最佳子集选择法
即遍历元素个数为k的所有子集,选择其中残差最小的子集
若变量集合为{1, 2,…, p},则对于k个元素的子集,需要计算 C(p, k) 次最小二乘,总共需计算2^𝑘次
显然,这种选择策略的计算代价极为昂贵
而且在实践中,这种方法似乎也不够出色(泛化性能不佳?)

前向逐步选择法
贪心(greedy)选择策略
若变量集合为A={1, 2,…, p},已选子集K包含k个元素,y在K上残差为r,则若想选k+1个元素的子集,仅需在K的基础上,从A/K中选一个元素x,使得x与r相关度最大
因此这些子集具有嵌套结构:较小子集包含在较大子集中
为什么说这种方法比最佳子集选择的方差会更低?为什么限制选择的自由度会减小方差?
计算代价大大降低:选择k-子集仅需在(k-1)-子集基础上,计算p-k+1次相关
因为限制了变量的选择范围,所以方差有所减少,但偏差可能增加(forward stepwise is a more constrained search, and will have lower variance, but perhaps more bias)(why?)
可能在某些变量上系数很大,而在其他变量上系数很小
假如有一个三维空间,有三个基向量,但其中两个分得很开,比如(1,0,0)和(0,1,0),而另一个在该平面上抬起来一点,比如(2/3,2/3,1/3),现在有一个向量(2/3,2/3,1/4),那么只选一个向量的话,显然抬起来那个更近,但如果选两个,则会是两个坐标轴更近(是否因为抬起来那个和坐标轴都很相关,重复了?而且如果头两个基向量负相关,是不是更容易出现此现象?)。
后向逐步选择是类似的思想,只不是逐步删去最差的变量(也是贪心)。
这种现象因为贪心策略导致的——只注重眼前。不过如果基向量正交,那么贪心策略是最优的?这类似于特征选择(也有这样的算法)、mp和omp(omp最优?其后的改进是什么?)、甚至波段选择等组合优化问题。可以看出算法背后其实是有思想的,比如贪心,其实是一种元算法。
另外拟阵和次模是和贪心以及组合优化紧密相关的。

前向逐阶段回归
前向逐步选择法的保守版本
同样是在A/K中,选一个元素x,使得x与当前残差具有最大相关度
但并非直接计算投影后的系数,而是将投影乘一个小于1的常数a(比如0.1),使其以较小的步长前进

子集选择法比较
为什么说这种方法比最佳子集选择的方差会更低?为什么限制选择的自由度会减小方差?

收缩方法
岭回归(ridge regression)
Lasso
和子集选择相比,收缩方法相当于对变量系数进行连续处理,而不是离散处理(非0即1)。所以子集选择本质上是组合优化问题,一般需要近似求解,而收缩方法是连续优化问题,一般可采用凸优化方法求解。

岭回归
相关度可从系数(1,0)和(0.5,0.5)的2范看出,前者2范为1,后者2范为0.7071,显然后者的范数约束更小,所以随着lambda增大,有相关变量的变量缩减更大。
另外就是可以看出哪些变量相关:同时增减且幅度差不多的,则为相关。二者都为正则为负相关,二者一正一负则为正相关。

Lasso
首先lasso和岭回归对比,右边的岭回归是一下全都不为0了,而左边是一个一个地不为0。这样就有一个先后顺序:对重要性进行排序。比如BMI、S5较重要,S4、S2较不重要等等。(重要性是否也可以从岭回归的图中,根据某一阶段比如0刚开始时的斜率也就是导数或者变化率来看?变化率越大越重要?这和gradient boosting有关系吗?)
另外可以看出变量之间的关系。比如到后面的阶段,其他变量的变化都比较平缓了,但S1和S2却变化仍然很大,而且变化的方向相反,这说明它们之间有较强的相关性,而且是正相关。另外请看S3,一开始它的发展趋势是往下的,但S4出现后,S3方向马上改变向上,而且之后它们的方向是相同的,说明它们之间也有较强的相关性,而且是负相关。
这种相关性较强的变量对解的稳定性是有较大影响的,样本在这些变量上的较小变化,可能产生较大的预测误差。

LARS
前向逐步选择法过于贪心
前向逐阶段回归又过于谨慎
需要一种折中的方法
注意到前向逐阶段回归时,会出现多个变量之间相关度几乎相同的情况,那么,我们为什么要小步前进,而不是算出相关度相同的坐标,然后直接移到该处?
Least Angle 指的就是变量与y之间的夹角

LARS 与前向逐阶段回归、 Lasso的关系
Lasso 和前向逐阶段回归,都可看作LARS的变形,或者说移动受限版本
LARS、前向逐阶段回归和 Lasso 的 KKT 条件,决定了它们解的性质以及几何性质
Lasso 要求变量一旦到达0点,则删掉该变量
前向逐阶段回归要求正相关(所以移动路径在一个凸锥之内)
前向逐阶段回归也称作最小二乘 boosting(least squares boosting)
实际上,boosting 的思想是把很多较弱的线性可加分类函数或回归函数组合在一起,而变量选择的逐步添加变量就是这样的思想
boosting 会不断改变样本的权重和分类函数或回归函数的权重,这相当于计算与残差r的相关度
boosting 也容易变为非线性版本,比如结合CART

(不错的slides)lars_Lasso_boost.pdf

999.41 KB, 下载次数: 139

Least angle and 1 penalized regression - A review 0802.0964.pdf

451.79 KB, 下载次数: 95

presentation for reading group - LARS (final).pptx

1.3 MB, 下载次数: 138

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
Lasso回归算法:坐标轴下降法与最小角回归法小结
转载:统计学习那些事
机器学习
回归分析 | 统计之都 (中国统计学门户网站,免费统计学服务平台)
Sparsity and Some Basics of L1 Regularization
Python中的Lasso回归之最小角算法LARS
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服