SVM入门（七）为何需要核函数

生存？还是毁灭？——哈姆雷特

可分？还是不可分？——支持向量机

之前一直在讨论的线性分类器,器如其名（汗，这是什么说法啊），只能对线性可分的样本做处理。如果提供的样本线性不可分，结果很简单，线性分类器的求解程序会无限循环，永远也解不出来。这必然使得它的适用范围大大缩小，而它的很多优点我们实在不原意放弃，怎么办呢？是否有某种方法，让线性不可分的数据变得线性可分呢？

有！其思想说来也简单，来用一个二维平面中的分类问题作例子，你一看就会明白。事先声明，下面这个例子是网络早就有的，我一时找不到原作者的正确信息，在此借用，并加进了我自己的解说而已。

例子是下面这张图：

我们把横轴上端点a和b之间红色部分里的所有点定为正类，两边的黑色部分里的点定为负类。试问能找到一个线性函数把两类正确分开么？不能，因为二维空间里的线性函数就是指直线，显然找不到符合条件的直线。

但我们可以找到一条曲线，例如下面这一条：

显然通过点在这条曲线的上方还是下方就可以判断点所属的类别（你在横轴上随便找一点，算算这一点的函数值，会发现负类的点函数值一定比0大，而正类的一定比0小）。这条曲线就是我们熟知的二次曲线，它的函数表达式可以写为：

问题只是它不是一个线性函数，但是，下面要注意看了，新建一个向量y和a：

这样g(x)就可以转化为f(y)=<a,y>，你可以把y和a分别回带一下，看看等不等于原来的g(x)。用内积的形式写你可能看不太清楚，实际上f(y)的形式就是：

g(x)=f(y)=ay

在任意维度的空间中，这种形式的函数都是一个线性函数（只不过其中的a和y都是多维向量罢了），因为自变量y的次数不大于1。

看出妙在哪了么？原来在二维空间中一个线性不可分的问题，映射到四维空间后，变成了线性可分的！因此这也形成了我们最初想解决线性不可分问题的基本思路——向高维空间转化，使其变得线性可分。

而转化最关键的部分就在于找到x到y的映射方法。遗憾的是，如何找到这个映射，没有系统性的方法（也就是说，纯靠猜和凑）。具体到我们的文本分类问题，文本被表示为上千维的向量，即使维数已经如此之高，也常常是线性不可分的，还要向更高的空间转化。其中的难度可想而知。

小Tips:为什么说f(y)=ay是四维空间里的函数?

大家可能一时没看明白。回想一下我们二维空间里的函数定义
g(x)=ax+b
变量x是一维的，为什么说它是二维空间里的函数呢？因为还有一个变量我们没写出来，它的完整形式其实是
y=g(x)=ax+b
即
y=ax+b
看看，有几个变量？两个。那是几维空间的函数？（作者五岁的弟弟答：五维的。作者：……）
再看看
f(y)=ay
里面的y是三维的变量，那f(y)是几维空间里的函数？（作者五岁的弟弟答：还是五维的。作者：……）

用一个具体文本分类的例子来看看这种向高维空间映射从而分类的方法如何运作，想象一下，我们文本分类问题的原始空间是1000维的（即每个要被分类的文档被表示为一个1000维的向量），在这个维度上问题是线性不可分的。现在我们有一个2000维空间里的线性函数

f(x^’)=<w^’,x^’>+b

注意向量的右上角有个 ’哦。它能够将原问题变得可分。式中的 w^’和x^’都是2000维的向量，只不过w^’是定值，而x^’是变量（好吧,严格说来这个函数是2001维的,哈哈），现在我们的输入呢，是一个1000维的向量x，分类的过程是先把x变换为2000维的向量x^’，然后求这个变换后的向量x^’与向量w^’的内积，再把这个内积的值和b相加，就得到了结果，看结果大于阈值还是小于阈值就得到了分类结果。

你发现了什么？我们其实只关心那个高维空间里内积的值，那个值算出来了，分类结果就算出来了。而从理论上说， x^’是经由x变换来的，因此广义上可以把它叫做x的函数（有一个x，就确定了一个x^’，对吧，确定不出第二个），而w^’是常量，它是一个低维空间里的常量w经过变换得到的，所以给了一个w 和x的值，就有一个确定的f(x^’)值与其对应。这让我们幻想，是否能有这样一种函数K(w,x),他接受低维空间的输入值，却能算出高维空间的内积值<w^’,x^’>？

如果有这样的函数，那么当给了一个低维空间的输入x以后，

g(x)=K(w,x)+b

f(x^’)=<w^’,x^’>+b

这两个函数的计算结果就完全一样，我们也就用不着费力找那个映射关系，直接拿低维的输入往g(x)里面代就可以了（再次提醒，这回的g(x)就不是线性函数啦，因为你不能保证K(w,x)这个表达式里的x次数不高于1哦）。

万幸的是，这样的K(w,x)确实存在（发现凡是我们人类能解决的问题，大都是巧得不能再巧，特殊得不能再特殊的问题，总是恰好有些能投机取巧的地方才能解决，由此感到人类的渺小），它被称作核函数（核，kernel），而且还不止一个，事实上，只要是满足了Mercer条件的函数，都可以作为核函数。核函数的基本作用就是接受两个低维空间里的向量，能够计算出经过某个变换后在高维空间里的向量内积值。几个比较常用的核函数，俄，教课书里都列过，我就不敲了（懒！）。

回想我们上节说的求一个线性分类器，它的形式应该是：

现在这个就是高维空间里的线性函数（为了区别低维和高维空间里的函数和向量，我改了函数的名字，并且给w和x都加上了 ’），我们就可以用一个低维空间里的函数（再一次的，这个低维空间里的函数就不再是线性的啦）来代替，

又发现什么了？f(x’) 和g(x)里的α，y，b全都是一样一样的！这就是说，尽管给的问题是线性不可分的，但是我们就硬当它是线性问题来求解，只不过求解过程中，凡是要求内积的时候就用你选定的核函数来算。这样求出来的α再和你选定的核函数一组合，就得到分类器啦！

明白了以上这些，会自然的问接下来两个问题：

1．既然有很多的核函数，针对具体问题该怎么选择？

2．如果使用核函数向高维空间映射后，问题仍然是线性不可分的，那怎么办？

第一个问题现在就可以回答你：对核函数的选择，现在还缺乏指导原则！各种实验的观察结果（不光是文本分类）的确表明，某些问题用某些核函数效果很好，用另一些就很差，但是一般来讲，径向基核函数是不会出太大偏差的一种，首选。（我做文本分类系统的时候，使用径向基核函数，没有参数调优的情况下，绝大部分类别的准确和召回都在85%以上，可见。虽然libSVM的作者林智仁认为文本分类用线性核函数效果更佳，待考证）

对第二个问题的解决则引出了我们下一节的主题：松弛变量。

发表于 2009-03-06 18:36 Jasper 阅读(88297) 评论(54) 编辑收藏所属分类: 文本分类技术

# re: SVM入门（七）为何需要核函数

恩，好高兴，谢谢分享

我的自省09年评论于 2009-03-09 08:54 回复更多评论

# re: SVM入门（七）为何需要核函数

深入浅出的好文，连我这种数学小白都看明白了，最近正在学用核函数，非常感谢！

于霄评论于 2009-03-09 17:22 回复更多评论

# re: SVM入门（七）为何需要核函数

请继续讲解.谢!

lygjjm 评论于 2009-03-09 17:30 回复更多评论

# re: SVM入门（七）为何需要核函数

能否告诉我在SVR回归中阈值b的具体求法.
谢谢!

lygjjm 评论于 2009-03-10 14:14 回复更多评论

# re: SVM入门（七）为何需要核函数

希望尽快看到后面的东东。

双冠王评论于 2009-03-11 17:26 回复更多评论

# re: SVM入门（七）为何需要核函数

咋还没出八呢？等不急了！

sxxw 评论于 2009-03-12 19:49 回复更多评论

# re: SVM入门（七）为何需要核函数

楼主写的挺好的，由深入浅，让人豁然开朗。就是节奏慢点，急死我了，快点出下一节锕

aSam 评论于 2009-03-12 23:39 回复更多评论

# re: SVM入门（七）为何需要核函数

坐等八，快快出吧

tim.wu 评论于 2009-03-13 14:34 回复更多评论

# re: SVM入门（七）为何需要核函数[未登录]

我没看懂这句：

g(x)=f(y)=ay，在任意维度的空间中，这种形式的函数都是一个线性函数（只不过其中的a和y都是多维向量罢了），因为自变量y的次数不大于1。

这儿为什么说是个线性函数，有怎么理解这是个四维的空间呢？

按给出的y向量的定义，不是应该是一个3维的空间吗？

tim 评论于 2009-03-13 15:42 回复更多评论

# re: SVM入门（七）为何需要核函数[未登录]

哦，大概明白了，是说映射到4维一定有对应线性函数是吧，只是这个例子刚好是3维的？

另，你说的教科书是指啥书啊，推荐一下教科书好么？着急

tim 评论于 2009-03-13 15:48 回复更多评论

# re: SVM入门（七）为何需要核函数

不是您那么理解的啦，我在原文中增加了说明，可以参考一下。

Jasper 评论于 2009-03-13 19:51 回复更多评论

# re: SVM入门（七）为何需要核函数

楼主能不能介绍一下关于支持向量机如何避免维数灾难的问题

zb 评论于 2009-03-29 15:40 回复更多评论

# re: SVM入门（七）为何需要核函数

很好

swift7593 评论于 2009-04-01 09:33 回复更多评论

# re: SVM入门（七）为何需要核函数

跨越度也太大了，一下就从

如何从线性可分问题中，找出最优化的w，跳到了线性不可分和核函数了。

倒~

O__O"… 评论于 2009-04-07 19:21 回复更多评论

# re: SVM入门（七）为何需要核函数

唯一不解的地方是 a 怎么求出来？不是说先跳过求解来说核函数吗。那么应该还要说求解吧

Lebee_leon 评论于 2009-04-19 01:29 回复更多评论

# re: SVM入门（七）为何需要核函数

@Lebee_leon
是，还要再回过头来说的。

Jasper 评论于 2009-04-19 10:08 回复更多评论

# re: SVM入门（七）为何需要核函数

好

咕噜评论于 2009-07-28 17:21 回复更多评论

# re: SVM入门（七）为何需要核函数

很好的文章，再次留言~

Mg 评论于 2009-08-18 21:43 回复更多评论

# re: SVM入门（七）为何需要核函数

太精彩了，通俗易懂，继续关注！

clare 评论于 2009-10-24 12:01 回复更多评论

# re: SVM入门（七）为何需要核函数

终于看到这了，其实本来只想看看核函数的，结果看了个SVM

iarch 评论于 2009-11-06 11:03 回复更多评论

# re: SVM入门（七）为何需要核函数

牛x人，佩服+感谢。

ocean 评论于 2009-12-12 10:21 回复更多评论

# re: SVM入门（七）为何需要核函数

由浅入深，将核函数讲得非常浅显易懂，非常感谢提供这么好的文章，让小白我对核函数终于有所理解了。

ubunoon 评论于 2010-04-28 09:43 回复更多评论

# re: SVM入门（七）为何需要核函数

很有帮助，非常感谢！

wuyunpeng 评论于 2010-05-04 12:48 回复更多评论

# re: SVM入门（七）为何需要核函数[未登录]

@tim
y是3维空间的变量，但是f(y)是思维空间的函数

蜗牛评论于 2010-05-06 16:22 回复更多评论

# re: SVM入门（七）为何需要核函数

Tips不对，二维的时候，a和x都是二维的，根本没有所谓的没有写出来的变量y，作者所谓的y其实已经隐含在x中了。

shenyan 评论于 2010-06-29 01:46 回复更多评论

# re: SVM入门（七）为何需要核函数

核函数如何仅凭一个数学表达式就能隐式的变换到高纬空间，具体怎么实现的呢？除了核函数是否还有别的进行高纬变换的方法？

believe 评论于 2010-08-07 11:13 回复更多评论

# re: SVM入门（七）为何需要核函数

看楼主的文章一路学习过来，豁然开朗！
太感谢楼主了！谢谢！！！！

tq 评论于 2010-08-15 20:10 回复更多评论

# re: SVM入门（七）为何需要核函数

能给人一种清新的感觉，但是不得不说，也同样误导了一大批人。

“这让我们幻想，是否能有这样一种函数K(w,x),他接受低维空间的输入值，却能算出高维空间的内积值<w’,x’>”，这句话不严谨。

KERNEL本质是计算低维空间两个点在特征空间的相似度（内积），即
而不是直接用来构成分类超平面的，g(x)=K(w,x)+b。

JACKIE 评论于 2010-09-23 08:36 回复更多评论

# re: SVM入门（七）为何需要核函数

非常感谢作者付出的辛苦劳动，受益匪浅。

读者评论于 2011-04-09 11:21 回复更多评论

# re: SVM入门（七）为何需要核函数

感谢作者，的确是一篇易懂，但不失深度的好文。

不过看过后有一个问题不明。假设有个分类问题，在原始（低维）空间线型不可分，需要影射到高维空间，那么为了最大化间距，应该最小化高维空间的w, 但文章中用的是原始低维空间的w。是不是有什么进一步的解释作者这里没有谈到？

读者评论于 2011-04-15 16:11 回复更多评论

# re: SVM入门（七）为何需要核函数

我是对这个东西零基础，看了本国外教材，全是些专业术语，难受，这么一解释清晰多了呢，原来模式识别是个分类问题！！！啧啧啧。。。。。

友朋小坑评论于 2011-04-16 20:32 回复更多评论

# re: SVM入门（七）为何需要核函数

讲的太好了，太激动了，我几天没看懂的，看到您的文章一下子清楚多了，希望再能看到新作！！！！！巨感谢

一叶知秋评论于 2011-05-15 18:29 回复更多评论

# re: SVM入门（七）为何需要核函数

纠正一点，并不是选定一个特性映射、然后碰巧发现核函数可准确计算特性空间的内积，而是反过来，尝试选取核函数，发现有线性可分的性质，然后就用它，并说这个核函数隐式决定了一个特性变换。我怀疑高斯RBF对应的显式特性变换到现在也没找到解析形式，也没有必要。

瑞霓山主评论于 2011-07-10 01:03 回复更多评论

# re: SVM入门（七）为何需要核函数

tips不对，如果y向量算三维，即x的0次方也算一维的话，那y= ax + b就是三维的了

tips不对评论于 2011-11-13 14:45 回复更多评论

# re: SVM入门（七）为何需要核函数

可以解释一下，怎么解决维数升高而带来的运算量增大问题吗？谢谢

银色溪流评论于 2011-12-09 20:48 回复更多评论

# re: SVM入门（七）为何需要核函数

通俗易懂！

help 评论于 2012-03-09 14:18 回复更多评论

# re: SVM入门（七）为何需要核函数

写的太好了，很适合我这种悟性不高的人看（看别人论文里那一大堆公式怎么也看不懂）

cmhf 评论于 2012-03-18 22:10 回复更多评论

# re: SVM入门（七）为何需要核函数

谢谢分享

fmlsmile 评论于 2012-09-23 10:17 回复更多评论

# re: SVM入门（七）为何需要核函数

讲得非常好，浅显易懂，可是我觉得上面引入的向量 a,y 应该有一个是转置的，才能相乘得到 g(x)，对吗

任刚评论于 2013-01-16 15:23 回复更多评论

# re: SVM入门（七）为何需要核函数[未登录]

写的通俗易懂不错

rocky 评论于 2013-03-04 10:02 回复更多评论

# re: SVM入门（七）为何需要核函数

讲的挺好，可是我有一点不明白。输入底维空间的输入向量或数据分别是什么含义呢。也就是K(x,xi)中，x和xi分别是什么含义

海燕评论于 2013-04-07 14:17 回复更多评论

# re: SVM入门（七）为何需要核函数[未登录]

讲解非常清楚生动，谢谢！
有一点不清楚g(x)=wx+b是一个一维超平面就是一条线分割二维空间
那如果g(x)=ax^2+bx+c 应该可以看成y=(x^2,x), w=(a,b)
那g(x)=y%*%t(w)+b 应该是二维超平面分割的是三维空间
所以假设原先的空间维度为d, 核函数最高次是e，那核函数对应空间的维度应该是(a-1)*e+1
不知道我有没有理解错

alex 评论于 2013-05-10 14:14 回复更多评论

# re: SVM入门（七）为何需要核函数

@lygjjm
http://cs229.stanford.edu/notes/cs229-notes3.pdf

badbye 评论于 2013-05-12 16:45 回复更多评论

# re: SVM入门（七）为何需要核函数

@海燕
xi是样本中的向量，x是要识别的向量吧。

hui 评论于 2013-05-12 19:12 回复更多评论

# re: SVM入门（七）为何需要核函数[未登录]

博主能提供一些关于核函数的数学理论的教科书的名字吗？我特别想看看，具体的证明推导。谢谢~

Key 评论于 2013-08-09 21:55 回复更多评论

# re: SVM入门（七）为何需要核函数

楼主，拜读了你的大作，算是对SVM入门了,后面继续学习SVM有什么推荐的书籍么？

- 评论于 2013-09-11 15:52 回复更多评论

# re: SVM入门（七）为何需要核函数

顶

读书评论于 2014-01-17 18:06 回复更多评论

# re: SVM入门（七）为何需要核函数

一个字。赞啊啊赞

sillman 评论于 2014-02-27 16:21 回复更多评论

# re: SVM入门（七）为何需要核函数

“又发现什么了？f(x’) 和g(x)里的α，y，b全都是一样一样的！”

对于使用核函数和线性方法训练的svm ，支持向量应该是不一样的。

SYSU 评论于 2014-03-05 11:53 回复更多评论

# re: SVM入门（七）为何需要核函数

最后两个公式写反了吧

ML learner 评论于 2014-04-11 11:02 回复更多评论

# re: SVM入门（七）为何需要核函数

楼主万岁，解决了疑惑了好久的问题，讲的通俗易懂，又不乏深度

wdmyong 评论于 2014-04-12 10:54 回复更多评论

# re: SVM入门（七）为何需要核函数

也得好！

STUPID Learner 评论于 2015-02-26 10:47 回复更多评论

# re: SVM入门（七）为何需要核函数

您好，以你的意思是有几个变量就是极为空间的函数，那么y=ax^2+bx+c 这就是3维空间的了？不对吧。
而且，我们都知道变量是x和y ，也就是说你这里的 a b c 都是参数，叫参数应该更严谨

gexw 评论于 2015-05-05 11:00 回复更多评论

# re: SVM入门（七）为何需要核函数

nice.

蒋明昊评论于 2016-04-23 17:49 回复更多评论

公告

常用链接

留言簿(64)

随笔分类

随笔档案

文章分类

搜索

最新评论

阅读排行榜

评论排行榜

Jasper's Java Jacal 嘉士伯的Java小屋
语源科技BlogJava \| 首页 \| 发新随笔 \| 发新文章 \| 联系 \| 聚合 \| 管理	随笔：51 文章：2 评论：717 引用：0