SVM入门（三）线性分类器Part 2

上回说到对于文本分类这样的不适定问题（有一个以上解的问题称为不适定问题），需要有一个指标来衡量解决方案（即我们通过训练建立的分类模型）的好坏，而分类间隔是一个比较好的指标。

在进行文本分类的时候，我们可以让计算机这样来看待我们提供给它的训练样本，每一个样本由一个向量（就是那些文本特征所组成的向量）和一个标记（标示出这个样本属于哪个类别）组成。如下：

D_i=(x_i,y_i)

x_i就是文本向量（维数很高），y_i就是分类标记。

在二元的线性分类中，这个表示分类的标记只有两个值，1和-1（用来表示属于还是不属于这个类）。有了这种表示法，我们就可以定义一个样本点到某个超平面的间隔：

δ_i=y_i(wx_i+b)

这个公式乍一看没什么神秘的，也说不出什么道理，只是个定义而已，但我们做做变换，就能看出一些有意思的东西。

首先注意到如果某个样本属于该类别的话，那么wx_i+b>0（记得么？这是因为我们所选的g(x)=wx+b就通过大于0还是小于0来判断分类），而y_i也大于0；若不属于该类别的话，那么wx_i+b<0，而y_i也小于0，这意味着y_i(wx_i+b)总是大于0的，而且它的值就等于|wx_i+b|！（也就是|g(x_i)|）

现在把w和b进行一下归一化，即用w/||w||和b/||w||分别代替原来的w和b，那么间隔就可以写成

这个公式是不是看上去有点眼熟？没错，这不就是解析几何中点x_i到直线g(x)=0的距离公式嘛！（推广一下，是到超平面g(x)=0的距离， g(x)=0就是上节中提到的分类超平面）

小Tips：||w||是什么符号？||w||叫做向量w的范数，范数是对向量长度的一种度量。我们常说的向量长度其实指的是它的2-范数，范数最一般的表示形式为p-范数，可以写成如下表达式

向量w=(w₁, w₂, w₃,…… w_n)

它的p-范数为

看看把p换成2的时候，不就是传统的向量长度么？当我们不指明p的时候，就像||w||这样使用时，就意味着我们不关心p的值，用几范数都可以；或者上文已经提到了p的值，为了叙述方便不再重复指明。

当用归一化的w和b代替原值之后的间隔有一个专门的名称，叫做几何间隔，几何间隔所表示的正是点到超平面的欧氏距离，我们下面就简称几何间隔为“距离”。以上是单个点到某个超平面的距离（就是间隔，后面不再区别这两个词）定义，同样可以定义一个点的集合（就是一组样本）到某个超平面的距离为此集合中离超平面最近的点的距离。下面这张图更加直观的展示出了几何间隔的现实含义：

H是分类面，而H₁和H₂是平行于H，且过离H最近的两类样本的直线，H₁与H，H₂与H之间的距离就是几何间隔。

之所以如此关心间隔这个东西，是因为间隔与样本的误分次数间存在关系：

其中的δ是样本集合到分类面的间隔，R是空间中一个能完全包含样本数据的球的半径（也就是说代表样本的分布有多么广）。先不必追究误分次数的具体定义和推导过程，只要记得这个误分次数一定程度上代表分类器的误差。而从上式可以看出，误分次数的上界由间隔决定！（当然，是样本已知的时候）

至此我们就明白为何要选择间隔来作为评价一个解优劣的指标了，原来间隔越大的解，它的误差上界越小。因此最大化间隔成了我们训练阶段的目标，而且，与二把刀作者所写的不同，最大化分类间隔并不是SVM的专利，而是早在线性分类时期就已有的思想。

但是看过一些关于SVM的论文的人一定记得什么优化的目标是要最小化||w||这样的说法，这是怎么回事呢？回头再看看

这个公式，这里的|g(x)|代表样本集到超平面g(x)=0距离最近的点的值，因此是一个定值，注意到间隔与||w||是成反比的，因此最大化间隔与最小化||w||完全是一回事。而我们常用的方法并不是固定||w||的大小而寻求最大间隔，而是固定间隔（例如固定为1），寻找最小的||w||。

现在有了一个线性分类函数，也有了判断解优劣的标准（有了优化的目标），接下来自然关心如何求解，且听下回分解。

发表于 2008-07-07 13:40 Jasper 阅读(4792) 评论(18) 编辑收藏所属分类: 文本分类技术

# re: SVM入门（三）线性分类器Part 2

写的很容易懂，我一直在关注。

lyh 评论于 2008-07-07 21:37 回复更多评论

# re: SVM入门（三）线性分类器Part 2

写的很好，楼主加油。

chenchen 评论于 2008-07-07 22:02 回复更多评论

# re: SVM入门（三）线性分类器Part 2

期待搂住继续,最近正在关心SVM

yulin 评论于 2008-07-08 10:33 回复更多评论

# 深圳朋悦速8酒店梅林店

深圳朋悦速8酒店梅林店

深圳朋悦速8酒店梅林店评论于 2008-07-09 17:29 回复更多评论

# 深圳朋悦速8酒店梅林店

http://www.sz6605.cn/hotel.asp?id=175

深圳朋悦速8酒店梅林店评论于 2008-07-09 17:30 回复更多评论

# re: SVM入门（三）线性分类器Part 2

才发现后面这么多篇章讲SVM，写得很不错，我会继续关注的，期待你新的佳作！

波斯猫评论于 2008-07-09 21:15 回复更多评论

# re: SVM入门（三）线性分类器Part 2

关注了SVM一段时间，好像总是不太明白，谢谢楼主和大家分享，我会继续关注~~~~~~~~

五更评论于 2008-07-10 00:41 回复更多评论

# re: SVM入门（三）线性分类器Part 2

继续关注中,学习~

flyingsnow 评论于 2008-07-15 21:30 回复更多评论

# re: SVM入门（三）线性分类器Part 2[未登录]

很好，很强大

呵呵评论于 2008-07-17 14:49 回复更多评论

# re: SVM入门（三）线性分类器Part 2

请问楼主几何间隔和误分次数之间的不等式关系在哪里可以查到呀。谢谢

wcjyhy 评论于 2008-08-03 09:21 回复更多评论

# re: SVM入门（三）线性分类器Part 2

楼主写的真好，把svm讲得非常清晰，有一点小疑问，就是倒数第二段的最后一句话，“不是固定||w||的大小，而是固定间隔（例如固定为1），寻求最小||w||”，这里好像有点混淆了，分类间隔（几何）是不能固定的，固定的应该是g（x），g（x）是支持向量对于超平面方程（函数）的取值，是某个固定的取值，为了计算的方便，取定为1，如果实际不为1，比如为k，也可将这个k值提到前面的系数里面去。

wcjyhy 评论于 2008-08-03 09:42 回复更多评论

# re: SVM入门（三）线性分类器Part 2

请问楼主那里有svdd（支持向量域描述）方面的东西吗？程序之类的，谢谢。
wcjyhy@163.com

wcjyhy 评论于 2008-08-03 09:52 回复更多评论

# re: SVM入门（三）线性分类器Part 2

@wcjyhy
http://www-ict.ewi.tudelft.nl/~davidt/
这里很多

ss 评论于 2008-08-05 17:01 回复更多评论

# re: SVM入门（三）线性分类器Part 2

写的不错
我对SVM的定义：核特征空间中的最大间隔法。
最大间隔法在线性分类器中早就有了。
间隔越大，越不容易受噪声的干扰，所以泛化能力就强。

ss 评论于 2008-08-05 17:04 回复更多评论

# re: SVM入门（三）线性分类器Part 2

请问楼主，“间隔与样本的误分次数间存在关系”可以在哪里查到呢？谢谢

wcjyhy 评论于 2008-09-14 09:59 回复更多评论

# re: SVM入门（三）线性分类器Part 2

楼主写的太好了，以前看svm的资料和论文看的糊里糊涂，看你的就清楚了。太感谢了，关注关注！！！！！！！！

屠龙评论于 2008-11-01 14:52 回复更多评论

# re: SVM入门（三）线性分类器Part 2

谢谢楼主的分享，真的好好。关注ING。。。。

MyBarbara 评论于 2008-11-25 10:03 回复更多评论

# re: SVM入门（三）线性分类器Part 2

写的很浅显易懂，是初学者的福音呀，lz加油呀，偶支持你，尊敬你，爱戴你

yfq5844371 评论于 2008-12-01 09:37 回复更多评论

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理
相关文章: 文本分类入门（番外篇）特征选择与特征权重计算的区别 SVM入门（十）将SVM用于多类分类文本分类入门（十一）特征选择方法之信息增益 SVM入门（九）松弛变量（续） SVM入门（八）松弛变量 SVM入门（七）为何需要核函数 SVM入门（六）线性分类器的求解——问题的转化，直观角度 SVM入门（五）线性分类器的求解——问题的描述Part2 SVM入门（四）线性分类器的求解——问题的描述Part1 SVM入门（一）至（三）Refresh

文章分类

搜索

SVM入门（三）线性分类器Part 2

公告

常用链接

留言簿(64)

随笔分类

随笔档案

文章分类

搜索

最新评论

阅读排行榜

评论排行榜

Jasper's Java Jacal 嘉士伯的Java小屋
语源科技BlogJava \| 首页 \| 发新随笔 \| 发新文章 \| 联系 \| 聚合 \| 管理	随笔：51 文章：2 评论：717 引用：0