SVM入门（八）松弛变量

现在我们已经把一个本来线性不可分的文本分类问题，通过映射到高维空间而变成了线性可分的。就像下图这样：

圆形和方形的点各有成千上万个（毕竟，这就是我们训练集中文档的数量嘛，当然很大了）。现在想象我们有另一个训练集，只比原先这个训练集多了一篇文章，映射到高维空间以后（当然，也使用了相同的核函数），也就多了一个样本点，但是这个样本的位置是这样的：

就是图中黄色那个点，它是方形的，因而它是负类的一个样本，这单独的一个样本，使得原本线性可分的问题变成了线性不可分的。这样类似的问题（仅有少数点线性不可分）叫做“近似线性可分”的问题。

以我们人类的常识来判断，说有一万个点都符合某种规律（因而线性可分），有一个点不符合，那这一个点是否就代表了分类规则中我们没有考虑到的方面呢（因而规则应该为它而做出修改）？

其实我们会觉得，更有可能的是，这个样本点压根就是错误，是噪声，是提供训练集的同学人工分类时一打瞌睡错放进去的。所以我们会简单的忽略这个样本点，仍然使用原来的分类器，其效果丝毫不受影响。

但这种对噪声的容错性是人的思维带来的，我们的程序可没有。由于我们原本的优化问题的表达式中，确实要考虑所有的样本点（不能忽略某一个，因为程序它怎么知道该忽略哪一个呢？），在此基础上寻找正负类之间的最大几何间隔，而几何间隔本身代表的是距离，是非负的，像上面这种有噪声的情况会使得整个问题无解。这种解法其实也叫做“硬间隔”分类法，因为他硬性的要求所有样本点都满足和分类平面间的距离必须大于某个值。

因此由上面的例子中也可以看出，硬间隔的分类法其结果容易受少数点的控制，这是很危险的（尽管有句话说真理总是掌握在少数人手中，但那不过是那一小撮人聊以自慰的词句罢了，咱还是得民主）。

但解决方法也很明显，就是仿照人的思路，允许一些点到分类平面的距离不满足原先的要求。由于不同的训练集各点的间距尺度不太一样，因此用间隔（而不是几何间隔）来衡量有利于我们表达形式的简洁。我们原先对样本点的要求是：

意思是说离分类面最近的样本点函数间隔也要比1大。如果要引入容错性，就给1这个硬性的阈值加一个松弛变量，即允许

因为松弛变量是非负的，因此最终的结果是要求间隔可以比1小。但是当某些点出现这种间隔比1小的情况时（这些点也叫离群点），意味着我们放弃了对这些点的精确分类，而这对我们的分类器来说是种损失。但是放弃这些点也带来了好处，那就是使分类面不必向这些点的方向移动，因而可以得到更大的几何间隔（在低维空间看来，分类边界也更平滑）。显然我们必须权衡这种损失和好处。好处很明显，我们得到的分类间隔越大，好处就越多。回顾我们原始的硬间隔分类对应的优化问题：

||w||²就是我们的目标函数（当然系数可有可无），希望它越小越好，因而损失就必然是一个能使之变大的量（能使它变小就不叫损失了，我们本来就希望目标函数值越小越好）。那如何来衡量损失，有两种常用的方式，有人喜欢用

而有人喜欢用

其中l都是样本的数目。两种方法没有大的区别。如果选择了第一种，得到的方法的就叫做二阶软间隔分类器，第二种就叫做一阶软间隔分类器。把损失加入到目标函数里的时候，就需要一个惩罚因子（cost，也就是libSVM的诸多参数中的C），原来的优化问题就变成了下面这样：

这个式子有这么几点要注意：

一是并非所有的样本点都有一个松弛变量与其对应。实际上只有“离群点”才有，或者也可以这么看，所有没离群的点松弛变量都等于0（对负类来说，离群点就是在前面图中，跑到H2右侧的那些负样本点，对正类来说，就是跑到H1左侧的那些正样本点）。

二是松弛变量的值实际上标示出了对应的点到底离群有多远，值越大，点就越远。

三是惩罚因子C决定了你有多重视离群点带来的损失，显然当所有离群点的松弛变量的和一定时，你定的C越大，对目标函数的损失也越大，此时就暗示着你非常不愿意放弃这些离群点，最极端的情况是你把C定为无限大，这样只要稍有一个点离群，目标函数的值马上变成无限大，马上让问题变成无解，这就退化成了硬间隔问题。

四是惩罚因子C不是一个变量，整个优化问题在解的时候，C是一个你必须事先指定的值，指定这个值以后，解一下，得到一个分类器，然后用测试数据看看结果怎么样，如果不够好，换一个C的值，再解一次优化问题，得到另一个分类器，再看看效果，如此就是一个参数寻优的过程，但这和优化问题本身决不是一回事，优化问题在解的过程中，C一直是定值，要记住。

五是尽管加了松弛变量这么一说，但这个优化问题仍然是一个优化问题（汗，这不废话么），解它的过程比起原始的硬间隔问题来说，没有任何更加特殊的地方。

从大的方面说优化问题解的过程，就是先试着确定一下w，也就是确定了前面图中的三条直线，这时看看间隔有多大，又有多少点离群，把目标函数的值算一算，再换一组三条直线（你可以看到，分类的直线位置如果移动了，有些原来离群的点会变得不再离群，而有的本来不离群的点会变成离群点），再把目标函数的值算一算，如此往复（迭代），直到最终找到目标函数最小时的w。

啰嗦了这么多，读者一定可以马上自己总结出来，松弛变量也就是个解决线性不可分问题的方法罢了，但是回想一下，核函数的引入不也是为了解决线性不可分的问题么？为什么要为了一个问题使用两种方法呢？

其实两者还有微妙的不同。一般的过程应该是这样，还以文本分类为例。在原始的低维空间中，样本相当的不可分，无论你怎么找分类平面，总会有大量的离群点，此时用核函数向高维空间映射一下，虽然结果仍然是不可分的，但比原始空间里的要更加接近线性可分的状态（就是达到了近似线性可分的状态），此时再用松弛变量处理那些少数“冥顽不化”的离群点，就简单有效得多啦。

本节中的（式1）也确实是支持向量机最最常用的形式。至此一个比较完整的支持向量机框架就有了，简单说来，支持向量机就是使用了核函数的软间隔线性分类法。

下一节会说说松弛变量剩下的一点点东西，顺便搞个读者调查，看看大家还想侃侃SVM的哪些方面。

发表于 2009-03-15 00:57 Jasper 阅读(45466) 评论(52) 编辑收藏所属分类: 文本分类技术

# re: SVM入门（八）松弛变量

不错！顶顶！想看模糊支持向量机~

jingqizu 评论于 2009-03-16 10:01 回复更多评论

# re: SVM入门（八）松弛变量

能不能说说KKT、SMO以及你前面提到的参数调优？谢谢！！你的这一系列文章实在是写的太好了，通俗易懂、深入浅出，让我们这些刚开始学习SVM的人能马上入门，了解SVM的概貌。-----世界总是好人多^_^

sxxw 评论于 2009-03-17 09:17 回复更多评论

# re: SVM入门（八）松弛变量

你好，这系列的文章写的很好，我现在也在做文本分类的研究工作，也许我们可以交流一下~ 我的msn: schuyler@live.com

Schuyler 评论于 2009-03-17 14:01 回复更多评论

# re: SVM入门（八）松弛变量

我是忠实的读者，我对SVM感兴趣，但能力却很弱。博文我都看了，挺有感觉的，比看那本很有名的《支持向量机》有用多了，相信我现在再去看《支持向量机》就会明白一些了。可不可以再写写关于libSVM的文章啊，如何下载，如何操作等等。
多谢你的分享，受益非浅。

我的自省09年评论于 2009-03-17 15:31 回复更多评论

# re: SVM入门（八）松弛变量

支持说说libsvm，这几篇文章可以跟libsvm的方法相对应了。最好说说可以怎样根据接口调用功能，那就变成有史以来最详尽的libsvm教学了。

Lebee_leon 评论于 2009-03-24 17:18 回复更多评论

# re: SVM入门（八）松弛变量

顶博主！你怎么这么犀利呢？
另外有个问题：如何确定哪些松弛变量为零呢？
“从大的方面说优化问题解的过程，就是先试着确定一下w，也就是确定了前面图中的三条直线，这时看看间隔有多大，又有多少点离群”
这里是硬分隔吗？如果不是又怎么先确定离群点与松弛变量的值?

tsky 评论于 2009-04-07 17:58 回复更多评论

# re: SVM入门（八）松弛变量

按你的思路继续，
这比看天书教材好多了，通俗易懂，深入浅出

lixincome 评论于 2009-05-05 17:42 回复更多评论

# re: SVM入门（八）松弛变量

赞，写的不错

windwalker 评论于 2009-05-10 21:50 回复更多评论

# re: SVM入门（八）松弛变量

高境界，上档次，真正理解了，谢谢。

jf 评论于 2009-06-30 22:39 回复更多评论

# re: SVM入门（八）松弛变量

前来膜拜楼主了

xiaoxin4 评论于 2009-08-03 14:36 回复更多评论

# re: SVM入门（八）松弛变量[未登录]

哎！俺......自惭形秽......！写得贼好！

lk 评论于 2009-08-16 17:35 回复更多评论

# re: SVM入门（八）松弛变量

真的很不错，看似很难的东西，楼主一番解释清晰多了。很感谢，期待楼主再多写些类似的文章。。我会成为你的忠实读者

刘国胜评论于 2009-09-09 10:57 回复更多评论

# re: SVM入门（八）松弛变量

要是所有教材都这样写就好了,楼主太牛了.使我这中悟性不高的人都能看懂.楼主出本专著也没问题了,我就是的看着这些入门的.不然刚看教材快要自杀了.

lanlan 评论于 2009-09-10 20:36 回复更多评论

# re: SVM入门（八）松弛变量

顶啊～～

RomiO 评论于 2009-10-16 19:57 回复更多评论

# re: SVM入门（八）松弛变量

能有个具体的例子就最好了

iarch 评论于 2009-11-06 11:31 回复更多评论

# re: SVM入门（八）松弛变量

写得太好了。
我很快学会了。太感谢你喇！

dannyboy 评论于 2009-11-10 11:36 回复更多评论

# re: SVM入门（八）松弛变量

对博主简直是膜拜了，恕本人冒昧，已经在没经得您的同意下，将博文推荐给其他同学了。
通俗易懂，胜读n本教科书。

shuangyy 评论于 2010-03-23 20:37 回复更多评论

# re: SVM入门（八）松弛变量[未登录]

@tsky
在迭代求w的时候如何样本点非离群点，即分类正确，那么就设它的松弛变量为0了。。。

蜗牛评论于 2010-05-06 16:55 回复更多评论

# re: SVM入门（八）松弛变量

继续顶！

SVM的经典教材呀！

tq 评论于 2010-08-15 21:00 回复更多评论

# re: SVM入门（八）松弛变量

博主厉害，确实看完就一下子感觉通透了

copytang 评论于 2010-09-16 15:35 回复更多评论

# re: SVM入门（八）松弛变量

顶礼膜拜

julius0808 评论于 2010-10-25 15:17 回复更多评论

# re: SVM入门（八）松弛变量

楼主你好我还想了解二次规划解SVM的α参数的问题。

Andyseren 评论于 2010-12-27 13:43 回复更多评论

# re: SVM入门（八）松弛变量

比某些Tutorial写的明白多了！
赞楼主

Vector Jerry 评论于 2011-07-30 21:35 回复更多评论

# re: SVM入门（八）松弛变量

听君一席话，胜读十年书啊，你比论文上讲的通透多了，犹如醍醐灌顶~十分感谢楼主~

Zerfew 评论于 2012-04-09 17:54 回复更多评论

# re: SVM入门（八）松弛变量

我想说的是

ff 评论于 2012-05-11 15:26 回复更多评论

# re: SVM入门（八）松弛变量

我想说的是，真正的高手从来不会去写这些东西。楼上的各位与其在这里膜拜，不如好好补补你们的数学知识。这么基本的东西都能引来膜拜，中国学术界真是悲哀。

ff 评论于 2012-05-11 15:28 回复更多评论

# re: SVM入门（八）松弛变量[未登录]

不错，理解的真好！赞！

HEAVEN 评论于 2012-05-11 15:41 回复更多评论

# re: SVM入门（八）松弛变量[未登录]

赞一个，写的真是不错。原先理解一些，经你这么一讲更明白了，深入浅出啊

hh 评论于 2012-05-15 16:31 回复更多评论

# re: SVM入门（八）松弛变量

@ff其实我觉得吧，你这个人，有点险恶。博主的文章内容自然不是什么深道理，但是基本上把SVM的架构都讲清楚了，如果楼上楼下的由此对SVM产生了兴趣，进一步对机器学习产生了兴趣，所谓师道，不就是这样吗？而你呢？对整个社会有什么贡献？共享了一张犯贱的嘴唇？

HU 评论于 2012-05-27 14:37 回复更多评论

# re: SVM入门（八）松弛变量

@ff, 我不同意你的观点。真正的高手才能讲的深入浅出，真的理解了才能这么自如。像你这样的sb，自诩为高手的，一知半解，才会写成那么多坑爹的烂书出来。
看看那些最牛逼的科普教材，越是牛逼的教授写的越好...
懒得骂你了

Faen 评论于 2012-07-07 15:49 回复更多评论

# re: SVM入门（八）松弛变量

真心不错，浅显易懂，赞博主！

HEVC 评论于 2012-10-21 19:52 回复更多评论

# re: SVM入门（八）松弛变量[未登录]

lz强大，真心感谢

red 评论于 2013-03-25 22:14 回复更多评论

# re: SVM入门（八）松弛变量

太棒了，接着看

风雨无阻评论于 2013-04-04 20:23 回复更多评论

# re: SVM入门（八）松弛变量

写的真是通俗易懂！！

zhaozhi 评论于 2013-04-09 23:49 回复更多评论

# re: SVM入门（八）松弛变量[未登录]

写得真好，由衷赞叹！

chaos 评论于 2013-07-25 08:38 回复更多评论

# re: SVM入门（八）松弛变量

真心不错，讲解的非常通俗易懂，让人对SVM整体更容易建立起清晰的理解。

kingang 评论于 2013-09-08 19:57 回复更多评论

# re: SVM入门（八）松弛变量[未登录]

真心非常好请楼主继续发表机器学习的相关内容

Anderson 评论于 2013-10-14 13:03 回复更多评论

# re: SVM入门（八）松弛变量

讲的太好了，什么叫豁然开朗~！

豆腐评论于 2014-04-03 20:13 回复更多评论

# re: SVM入门（八）松弛变量

真不错

tbd 评论于 2014-06-05 14:08 回复更多评论

# re: SVM入门（八）松弛变量[未登录]

写的真的太精彩了！！ “在低维空间看来，分类边界也更平滑” 作者是否写错了，好像应该是高纬度，低纬度，例如二维，没有平滑一说。

Leo 评论于 2014-09-09 15:12 回复更多评论

# re: SVM入门（八）松弛变量

写得通俗易懂，赞。

企鹅焖雨评论于 2014-10-12 20:28 回复更多评论

# re: SVM入门（八）松弛变量

写的真心好，赞博主，顶你！

在凌晨醒来评论于 2014-12-13 11:17 回复更多评论

# re: SVM入门（八）松弛变量[未登录]

我想问下博主，在应对非平衡数据集的问题中，如何在libsvm或libnear中设置C+和C-的值？貌似我用的都是一个值

lee 评论于 2015-03-16 20:14 回复更多评论

# re: SVM入门（八）松弛变量

感谢分享，牛人

别开枪评论于 2015-03-25 12:11 回复更多评论

# re: SVM入门（八）松弛变量[未登录]

膜拜楼主！！！

joker 评论于 2015-04-21 16:48 回复更多评论

# re: SVM入门（八）松弛变量[未登录]

爱因斯坦的狭义相对论的初稿也只是用很少大篇幅就阐述了的，这才是大师。感觉楼主可以在科学的道路上走很远啊。

Michael 评论于 2015-06-18 11:37 回复更多评论

# re: SVM入门（八）松弛变量[未登录]

jadsghianbrew

gg 评论于 2015-08-07 15:03 回复更多评论

# re: SVM入门（八）松弛变量[未登录]

太棒了啊

gg 评论于 2015-08-07 15:04 回复更多评论

# re: SVM入门（八）松弛变量

夜月序曲评论于 2015-10-20 12:59 回复更多评论

# re: SVM入门（八）松弛变量

这真的是我入门以来看到过讲述SVM最通俗易懂的，没有之一，向你学习！

三娘jie 评论于 2016-03-22 22:23 回复更多评论

# re: SVM入门（八）松弛变量

我还想看SMO算法

三娘jie 评论于 2016-03-23 15:23 回复更多评论

# re: SVM入门（八）松弛变量

太牛了！

STUDYHARD 评论于 2016-05-05 11:23 回复更多评论

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理
相关文章: 文本分类入门（番外篇）特征选择与特征权重计算的区别 SVM入门（十）将SVM用于多类分类文本分类入门（十一）特征选择方法之信息增益 SVM入门（九）松弛变量（续） SVM入门（八）松弛变量 SVM入门（七）为何需要核函数 SVM入门（六）线性分类器的求解——问题的转化，直观角度 SVM入门（五）线性分类器的求解——问题的描述Part2 SVM入门（四）线性分类器的求解——问题的描述Part1 SVM入门（一）至（三）Refresh

文章分类

搜索

公告

常用链接

留言簿(64)

随笔分类

随笔档案

文章分类

搜索

最新评论

阅读排行榜

评论排行榜

Jasper's Java Jacal 嘉士伯的Java小屋
语源科技BlogJava \| 首页 \| 发新随笔 \| 发新文章 \| 联系 \| 聚合 \| 管理	随笔：51 文章：2 评论：717 引用：0