支持向量机( Support Vector Machine ,SVM)是效果最好的分类算法之一。
一、线性分类器:
一个线性分类器就是要在n维的数据空间中找到一个超平面
首先给出一个非常非常简单的分类问题(线性可分) ,我们要用一条直线,将下图中黑色的点和白色的点分开,很显然,图上的这条直线就是我们要求的直线之一(可以有无数条这样的直线)
刚刚说了,我们令黑色白色两类的点分别为+1, -1,所以当有一个新的点x需要预测属于哪个分类的时候,我们用
但是,我们怎样才能取得一个最优的划分直线f(x)呢?下图的直线表示几条可能的f(x)
一个很直观的感受是,让这条直线到给定样本中最近的点最远,这句话读起来比较拗口,下面给出几个图,来说明一下:
第一种分法:
第二种分法:
这两种分法哪种更好呢?从直观上来说,就是分割的间隙越大越好, 在SVM中,称为Maximum Marginal,是SVM的一个理论基础之一。
上图被红色和蓝色的线圈出来的点就是所谓的 支持向量 (support vector) 。
这里直接给出M的式子:
另外支持向量位于wx + b = 1与wx + b = -1的直线上,我们在前面乘上一个该点所属的类别y(还记得吗?y不是+1就是-1),就可以得到支持向量的表达式为:y(wx + b) = 1,这样就可以更简单的将支持向量表示出来了。
当支持向量确定下来的时候,分割函数就确定下来了,两个问题是等价的。得到支持向量,还有一个作用是,让支持向量后方那些点就不用参与计算了。这点在后面将会更详细的讲讲。
在这个小节的最后,给出我们要优化求解的表达式:
||w||的意思是w的二范数,跟上面的M表达式的分母是一个意思,之前得到,M = 2 / ||w||,最大化这个式子等价于最小化||w||, 另外由于||w||是一个单调函数,我们可以对其加入平方,和前面的系数,熟悉的同学应该很容易就看出来了,这个式子是为了方便求导。
这个式子有还有一些限制条件,完整的写下来,应该是这样的:( 原问题 )
s.t的意思是subject to,也就是在后面这个限制条件下的意思,这个词在svm的论文里面非常容易见到。这个其实是一个带约束的二次规划(quadratic programming, QP)问题,是一个凸问题,凸问题就是指的不会有局部最优解,可以想象一个漏斗,不管我们开始的时候将一个小球放在漏斗的什么位置,这个小球最终一定可以掉出漏斗,也就是得到全局最优解。s.t.后面的限制条件可以看做是一个凸多面体,我们要做的就是在这个凸多面体中找到最优解。
二、转化为对偶问题,并优化求解:
这个优化问题可以用 拉格朗日乘子法 去解,使用了 KKT条件 的理论,这里直接作出这个式子的拉格朗日目标函数:
求解这个式子的过程需要 拉格朗日对偶性 的相关知识。
首先让L关于w,b最小化,分别令L关于w,b的偏导数为0,得到关于 原问题 的一个表达式
将两式带回L(w,b,a)得到对偶问题的表达式
新问题加上其限制条件是( 对偶问题 ):
这个就是我们需要最终优化的式子。至此, 得到了线性可分问题的优化式子 。
求解这个式子,有很多的方法 ,比如 SMO 等等。
三、线性不可分的情况:
接下来谈谈线性不可分的情况,因为 线性可分这种假设实在是太有局限性 了:
下图就是一个典型的线性不可分的分类图,我们没有办法用一条直线去将其分成两个区域,每个区域只包含一种颜色的点。
我们可以为分错的点加上一点惩罚,对一个分错的点的 惩罚函数 就是 这个点到其正确位置的距离:
在上图中, 蓝色 、 红色 的直线分别为支持向量所在的边界, 绿色 的线为决策函数,那些 紫色 的线 表示分错的点到其相应的决策面的距离 ,这样我们可以在原函数上面加上一个惩罚函数,并且带上其限制条件为:
公式中蓝色的部分为在线性可分问题的基础上加上的惩罚函数部分,当
接下来就是同样的,求解一个拉格朗日对偶问题,得到一个原问题的对偶问题的表达式:
红色 的部分是与线性可分的对偶问题表达式的不同之处:
四、核函数:
刚刚在谈不可分的情况下,提了一句,如果使用某些非线性的方法,可以得到将两个分类完美划分的曲线,比如接下来将要说的核函数。
我们可以 让空间从原本的线性空间变成一个更高维的空间 , 在这个高维的线性空间下,再用一个超平面进行划分 。这儿举个例子,来理解一下如何利用空间的维度变得更高来帮助我们分类的:
下图是一个典型的线性不可分的情况
但是当我们把这两个类似于椭圆形的点映射到一个高维空间后,映射函数为:
用另外一个哲学例子来说:世界上本来没有两个完全一样的物体,对于所有的两个物体,我们可以通过增加维度来让他们最终有所区别,比如说两本书,从(颜色,内容)两个维度来说,可能是一样的,我们可以加上 作者 这个维度,是在不行我们还可以加入 页码 ,可以加入 拥有者 ,可以加入 购买地点 ,可以加入 笔记内容 等等。 当维度增加到无限维的时候,一定可以让任意的两个物体可分了 。
回忆刚刚得到的对偶问题表达式:
我们可以将红色这个部分进行改造,令:
SVM经典文章:http://blog.pluskid.org/?page_id=683
联系客服