文本分类入门（十一）特征选择方法之信息增益

前文提到过，除了开方检验（CHI）以外，信息增益（IG，Information Gain）也是很有效的特征选择方法。但凡是特征选择，总是在将特征的重要程度量化之后再进行选择，而如何量化特征的重要性，就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化，关联性越强，特征得分越高，该特征越应该被保留。

在信息增益中，重要性的衡量标准就是看特征能够为分类系统带来多少信息，带来的信息越多，该特征越重要。

因此先回忆一下信息论中有关信息量（就是“熵”）的定义。说有这么一个变量X，它可能的取值有n多种，分别是x₁，x₂，……，x_n，每一种取到的概率分别是P₁，P₂，……，P_n，那么X的熵就定义为：

意思就是一个变量可能的变化越多（反而跟变量具体的取值没有任何关系，只和值的种类多少以及发生概率有关），它携带的信息量就越大（因此我一直觉得我们的政策法规信息量非常大，因为它变化很多，基本朝令夕改，笑）。

对分类系统来说，类别C是变量，它可能的取值是C₁，C₂，……，C_n，而每一个类别出现的概率是P(C₁)，P(C₂)，……，P(C_n)，因此n就是类别的总数。此时分类系统的熵就可以表示为：

有同学说不好理解呀，这样想就好了，文本分类系统的作用就是输出一个表示文本属于哪个类别的值，而这个值可能是C₁，C₂，……，C_n，因此这个值所携带的信息量就是上式中的这么多。

信息增益是针对一个一个的特征而言的，就是看一个特征t，系统有它和没它的时候信息量各是多少，两者的差值就是这个特征给系统带来的信息量，即增益。系统含有特征t的时候信息量很好计算，就是刚才的式子，它表示的是包含所有特征时系统的信息量。

问题是当系统不包含t时，信息量如何计算？我们换个角度想问题，把系统要做的事情想象成这样：说教室里有很多座位，学生们每次上课进来的时候可以随便坐，因而变化是很大的（无数种可能的座次情况）；但是现在有一个座位，看黑板很清楚，听老师讲也很清楚，于是校长的小舅子的姐姐的女儿托关系（真辗转啊），把这个座位定下来了，每次只能给她坐，别人不行，此时情况怎样？对于座次的可能情况来说，我们很容易看出以下两种情况是等价的：（1）教室里没有这个座位；（2）教室里虽然有这个座位，但其他人不能坐（因为反正它也不能参与到变化中来，它是不变的）。

对应到我们的系统中，就是下面的等价：（1）系统不包含特征t；（2）系统虽然包含特征t，但是t已经固定了，不能变化。

我们计算分类系统不包含特征t的时候，就使用情况（2）来代替，就是计算当一个特征t不能变化时，系统的信息量是多少。这个信息量其实也有专门的名称，就叫做“条件熵”，条件嘛，自然就是指“t已经固定“这个条件。

但是问题接踵而至，例如一个特征X，它可能的取值有n多种（x₁，x₂，……，x_n），当计算条件熵而需要把它固定的时候，要把它固定在哪一个值上呢？答案是每一种可能都要固定一下，计算n个值，然后取均值才是条件熵。而取均值也不是简单的加一加然后除以n，而是要用每个值出现的概率来算平均（简单理解，就是一个值出现的可能性比较大，固定在它上面时算出来的信息量占的比重就要多一些）。

因此有这样两个条件熵的表达式：

这是指特征X被固定为值x_i时的条件熵，

这是指特征X被固定时的条件熵，注意与上式在意义上的区别。从刚才计算均值的讨论可以看出来，第二个式子与第一个式子的关系就是：

具体到我们文本分类系统中的特征t，t有几个可能的值呢？注意t是指一个固定的特征，比如他就是指关键词“经济”或者“体育”，当我们说特征“经济”可能的取值时，实际上只有两个，“经济”要么出现，要么不出现。一般的，t的取值只有t（代表t出现）和（代表t不出现），注意系统包含t但t 不出现与系统根本不包含t可是两回事。

因此固定t时系统的条件熵就有了，为了区别t出现时的符号与特征t本身的符号，我们用T代表特征，而用t代表T出现，那么：

与刚才的式子对照一下，含义很清楚对吧，P(t)就是T出现的概率，就是T不出现的概率。这个式子可以进一步展开，其中的

另一半就可以展开为：

因此特征T给系统带来的信息增益就可以写成系统原本的熵与固定特征T后的条件熵之差：

公式中的东西看上去很多，其实也都很好计算。比如P(C_i)，表示类别C_i出现的概率，其实只要用1除以类别总数就得到了（这是说你平等的看待每个类别而忽略它们的大小时这样算，如果考虑了大小就要把大小的影响加进去）。再比如P(t)，就是特征T出现的概率，只要用出现过T的文档数除以总文档数就可以了，再比如P(C_i|t)表示出现T的时候，类别C_i出现的概率，只要用出现了T并且属于类别C_i的文档数除以出现了T的文档数就可以了。

从以上讨论中可以看出，信息增益也是考虑了特征出现和不出现两种情况，与开方检验一样，是比较全面的，因而效果不错。但信息增益最大的问题还在于它只能考察特征对整个系统的贡献，而不能具体到某个类别上，这就使得它只适合用来做所谓“全局”的特征选择（指所有的类都使用相同的特征集合），而无法做“本地”的特征选择（每个类别有自己的特征集合，因为有的词，对这个类别很有区分度，对另一个类别则无足轻重）。

看看，导出的过程其实很简单，没有什么神秘的对不对。可有的学术论文里就喜欢把这种本来很直白的东西写得很晦涩，仿佛只有读者看不懂才是作者的真正成功。

咱们是新一代的学者，咱们没有知识不怕被别人看出来，咱们有知识也不怕教给别人。所以咱都把事情说简单点，说明白点，大家好，才是真的好。

发表于 2009-03-24 14:54 Jasper 阅读(56117) 评论(65) 编辑收藏所属分类: 文本分类技术

# re: 文本分类入门（十一）特征选择方法之信息增益

看了博主文本分类技术系列的文章，获益良多，对博主能够如次深入浅出的讲解很是佩服。

游客评论于 2009-03-25 10:16 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

简单易懂啊。太感谢了。

我的自省09年评论于 2009-03-25 13:07 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

把教室位置想成文本，把词想成学生，出现与不出现、不存在等这些意义，一下子就很清晰了呢。。。嘻嘻，好高兴。

我的自省09年评论于 2009-03-25 13:28 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

博主，关注者留名个，呵呵

kidreamer 评论于 2009-03-26 10:38 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

强烈感谢中！！！！

tonyfox 评论于 2009-04-10 09:27 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

楼主，文中说P(Ci)只要用1除以类别总数就得到了，对此有点疑义，我认为是类别Ci出现的文档数除以文档总数。

志大才疏评论于 2009-04-11 10:05 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

@志大才疏
注意我说过，当你忽略类别的大小时用1除以类别总数。您的做法是考虑了类别大小的方法。

Jasper 评论于 2009-04-11 10:37 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

@Jasper
明白了。还有一个问题麻烦您帮忙，您列出了不少关于文本分类的参考文献，其中哪几篇文献，特征选择讲的比较详细？

志大才疏评论于 2009-04-13 16:25 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

@志大才疏
遗憾的是基本没有什么文献会仔细的说，这可能是学术论文的通病吧，总希望读者看不懂才好。

Jasper 评论于 2009-04-13 16:27 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

@Jasper
同感。看了不少学术论文，没一个讲明白的。弄的我在写程序的时候犯了不少错误，例如计算信息增益的P(Ci|t)时，用出现了T并且属于类别Ci的“词条数”除以出现了T的“词条数”，其实应该是“文档数”，要不是看楼主的文章，现在还是这么想的，在这里，谢谢楼主了。

志大才疏评论于 2009-04-14 09:53 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

@志大才疏
我也在研究特征选择，中文学术论文对这方面写得感觉不大好，英文学术论文就很多比较详细的，比如：
Y.Yang and J.Pedersen. A comparative study on feature selection in text categorization
Feature Selection for Text Categorization on Imbalanced Data

还有很多新的feature selection，我看到头都晕了......有兴趣可以发E-MAIL给我一起研究 lebee_leon@163.com

Lebee_leon 评论于 2009-04-18 23:46 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

，类别C是变量，它可能的取值是C1，C2，……，Cn

11 评论于 2009-04-24 21:58 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

真的，看那些晦涩的论文，我也没怎么产生过佩服的心情，但是，博主真是太强了，这才是真正的学者呢。

妞妞评论于 2009-05-09 11:54 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益[未登录]

博主你好，看了你的文本特征选择的文章，学到很多东西。我尝试做了一些实验。
在用开方检验的方法进行特征选择，用LIBSVM进行分类，训练数据和测试数据的accuracy是达到90%以上。但用信息增益的方法，得到模型时，训练数据最好的结果都是90%上，但测试数据的结果却是60%左右。我所用的数据是北大分类语料和SOGOU的语料。

博主，我想问问，会有这么大差距，还是我的IG算错了？

BEE 评论于 2009-06-02 18:28 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益[未登录]

恩，是我程序有问题。抱歉。

BEE 评论于 2009-06-02 18:43 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

想问一下博主，H(C)才应该是不考虑特征t时候的系统的熵吧？

zhiyuan 评论于 2009-07-20 11:50 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益[未登录]

呵呵,您再好好想想.@zhiyuan

Jasper 评论于 2009-07-20 22:03 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

再一次膜拜~~svm入门系列的最后一章吗？期待您对核函数更深入的讲解

xiaoxin4 评论于 2009-08-03 16:20 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

博主在文中提到信息增益无法做本地的特征选择，那么请教如果要做本地特征选择（即针对每个类别挑选出最适合这个类别的特征）有什么好点的方法呢。

非常期待您的回复。谢谢！

妞妞评论于 2009-08-08 15:39 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

@妞妞
可以试试卡方检验（CHI Test）。

Jasper 评论于 2009-08-08 15:47 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

楼主真的是真知灼见令人佩服

知青评论于 2009-11-25 20:35 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

非常感谢博主这样深入浅出的讲解SVM，让我真正了解了SVM，真的感谢博主这样的热心人。

Jackiee 评论于 2009-11-29 22:38 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

特征t如何体现在分类系统的熵中的？分类系统的熵不是由类别数和对应的概率决定么？和用什么特征表示有什么关系？有点没想明白

Jackiee 评论于 2009-12-03 15:17 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

我想明白了，是不是说分类系统的信息熵是包括所有特征在内的，那么固定其中一个特征就成了条件熵了？貌似这样的理解可以讲得通。

Jackiee 评论于 2009-12-03 15:28 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

博主对于连续变量的选择有啥好的建议呢？

Jackiee 评论于 2009-12-03 16:07 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

博主，会不会有可能IG<0的？

Jackiee 评论于 2009-12-16 15:43 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益[未登录]

作者的讲解很容易理解，谢谢了

rain 评论于 2010-02-24 15:32 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益[未登录]

可有的学术论文里就喜欢把这种本来很直白的东西写得很晦涩，仿佛只有读者看不懂才是作者的真正成功。
对啊！！！
一气看了博主的文本分类的文章，写的好呀

jane 评论于 2010-04-09 16:11 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

看完之后，只有佩服和感谢！！

FZGY 评论于 2010-05-14 03:08 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

讲得棒极了，谢谢博主，最后一句话受益匪浅！

李德胜评论于 2010-05-16 21:14 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

楼主太有才了，强烈支持！！

清风徐来评论于 2010-06-28 11:19 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益[未登录]

精彩的文章.....................

多类划分方法的最后方案类似决策树啊。

alex 评论于 2010-07-21 07:00 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

楼主写的真好
膜拜

夏冬评论于 2010-09-02 23:42 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

博主说的简直是太太太合我意了。最讨厌明明很简单的道理硬是讲得又难又无聊。写太好啦，收藏之~

IrisRR 评论于 2010-11-02 15:53 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

“咱们是新一代的学者，咱们没有知识不怕被别人看出来，咱们有知识也不怕教给别人。所以咱都把事情说简单点，说明白点，大家好，才是真的好。”

看到楼主的最后一句，感觉仿佛说出了自己的心声。说的好！

Andyseren 评论于 2010-12-27 14:51 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

谢谢博主，讲的简单易懂谢谢

小桂子评论于 2011-05-11 11:04 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益[未登录]

在计算IG之前，是不是要对特征进行处理？
我算出IG较大的词都是在文本集合中仅出现过一次的词（即出现该特征的文档数为1）

jsj 评论于 2011-05-11 16:32 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

太感谢了
赞！！

zj 评论于 2011-08-01 19:37 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

受益匪浅，感谢中。。。

张同学评论于 2011-11-10 10:56 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益[未登录]

谢谢博主，我闻香而来

Kevin 评论于 2012-04-08 21:58 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

言简意赅，受教了！

研究人员评论于 2012-04-10 10:54 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

每个人对于知识都有输入和输出的技能，前者是理解知识，后者是表达知识。
有的学术论文作者可能是1号技能强2号技能弱，从而导致别人看不懂自己的文章，但并不一定是故意让别人看不懂。。。
而博主就是两个技能都很强，不仅理解深刻，而且表述得通俗易懂平易近人~充满了逆袭的潜质^_^

nisemono 评论于 2012-05-22 12:26 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益[未登录]

博主太牛叉了

xiaoqiang 评论于 2012-06-13 20:45 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

简单而清晰，博主厉害！

oceans 评论于 2012-07-27 17:41 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

@Jasper
“@妞妞
可以试试卡方检验（CHI Test）。”就是上一篇的“开方检验”么？

G 评论于 2013-03-27 22:12 回复更多评论

# 感谢！

为了感谢博主，特意注册。所有的留言都看了，里面的话也正是自己想说的。接受感激也许没有那么快乐，心存感激的人才是最开心的，因为博主，我心存感激！

马尔科夫评论于 2013-05-07 17:30 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

真的很好啊。

hui 评论于 2013-05-10 15:17 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益[未登录]

真的讲得很好，受益匪浅啊

cc 评论于 2013-07-17 22:21 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

说的太好了！希望博主多多更博啊！支持支持！

实习医生杨评论于 2013-11-14 10:09 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

我们用T代表特征，而用t代表T出现，那么：
这句下面的那个公式发觉特别难理解

kevinew 评论于 2014-01-13 15:07 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

之前看这个公式，一下之就吓住了，是直接不敢看啊，作者类似庖丁解牛方式，看的很透彻。

ches_liu 评论于 2014-04-18 19:59 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

"它只适合用来做所谓“全局”的特征选择（指所有的类都使用相同的特征集合），而无法做“本地”的特征选择（每个类别有自己的特征集合，因为有的词，对这个类别很有区分度，对另一个类别则无足轻重）。"

怎么还有本地特征选择？每个类都有自己的特征集合，还怎么classification？

karl 评论于 2014-06-04 14:10 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

xiexielouzhu

youke 评论于 2014-07-02 20:33 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

咱们是新一代的学者，咱们没有知识不怕被别人看出来，咱们有知识也不怕教给别人。所以咱都把事情说简单点，说明白点，大家好，才是真的好。
这句话说得太棒了！

and1 评论于 2014-07-07 19:58 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

你好厉害~

kate宝呗评论于 2014-08-11 18:04 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

实在是太棒了！感谢博主

calmnea 评论于 2014-11-25 11:25 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

从熵、条件熵和互信息的角度理解信息增益会更容易明白，信息增益就是互信息

金良山庄评论于 2014-12-05 17:06 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

大神，请教一个问题。
P(t)是指用用出现过T的是训练集文档除以训练集的总文档数目，还是用出现过T的测试集文档除以测试集的总文档数目？
同理，P(Ci|t)表示的是指用什么文档除数目以什么文档数目？
困惑了好久，忘耐心解答。谢谢~

软件的学生评论于 2014-12-11 22:06 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

给楼主赞一个，楼主学术好，人也好，讲解的也够清楚，最后一句话说的更好

暖暖评论于 2015-03-20 22:13 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

真心佩服博主，讲的好通俗，可见博主理解的深入~

scutych 评论于 2015-03-21 16:08 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

感觉利用信息增益选择特征其实就是决策树的第一步

karry 评论于 2015-05-24 09:34 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

感谢~

呵呵哒评论于 2015-10-21 10:14 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益

佩服的五体投地啊世界上总有那么些人，无私，乐于分享。而且重要的是技术理论很牛，能把那些刻板的教科书中的乏味东西讲得通俗易懂又生动有趣，跪求楼主多发一些关于这样普及科学的文章，让我这模式识别小白多学一些！！！！100000000个赞！！！！O(∩_∩)O。但是楼主，加了你的qq，但是一直没反应。

somnus 评论于 2015-11-11 17:03 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益[未登录]

说的太好了您理解的太透彻了之前做化学现在用到这方面的知识让我想起了嘿被闹了费曼先生

可可评论于 2016-06-19 20:52 回复更多评论

# re: 文本分类入门（十一）特征选择方法之信息增益[未登录]

只适用于二元特征属性的情况，也就说特征只能取值0或者1

wonderful 评论于 2016-08-11 20:54 回复更多评论

公告

常用链接

留言簿(64)

随笔分类

随笔档案

文章分类

搜索

最新评论

阅读排行榜

评论排行榜

Jasper's Java Jacal 嘉士伯的Java小屋
语源科技BlogJava \| 首页 \| 发新随笔 \| 发新文章 \| 联系 \| 聚合 \| 管理	随笔：51 文章：2 评论：717 引用：0