文本分类入门（十）特征选择算法之开方检验

前文提到过，除了分类算法以外，为分类文本作处理的特征提取算法也对最终效果有巨大影响，而特征提取算法又分为特征选择和特征抽取两大类，其中特征选择算法有互信息，文档频率，信息增益，开方检验等等十数种，这次先介绍特征选择算法中效果比较好的开方检验方法。

大家应该还记得，开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。（什么？你是文史类专业的学生，没有学过数理统计？那你做什么文本分类？在这捣什么乱？）

开方检验最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否。具体做的时候常常先假设两个变量确实是独立的（行话就叫做“原假设”），然后观察实际值（也可以叫做观察值）与理论值（这个理论值是指“如果两者确实独立”的情况下应该有的值）的偏差程度，如果偏差足够小，我们就认为误差是很自然的样本误差，是测量手段不够精确导致或者偶然发生的，两者确确实实是独立的，此时就接受原假设；如果偏差大到一定程度，使得这样的误差不太可能是偶然产生或者测量不精确所致，我们就认为两者实际上是相关的，即否定原假设，而接受备择假设。

那么用什么来衡量偏差程度呢？假设理论值为E（这也是数学期望的符号哦），实际值为x，如果仅仅使用所有样本的观察值与理论值的差值x-E之和

来衡量，单个的观察值还好说，当有多个观察值x₁，x₂，x₃的时候，很可能x₁-E，x₂-E，x₃-E的值有正有负，因而互相抵消，使得最终的结果看上好像偏差为0，但实际上每个都有偏差，而且都还不小！此时很直接的想法便是使用方差代替均值，这样就解决了正负抵消的问题，即使用

这时又引来了新的问题，对于500的均值来说，相差5其实是很小的（相差1%），而对20的均值来说，5相当于25%的差异，这是使用方差也无法体现的。因此应该考虑改进上面的式子，让均值的大小不影响我们对差异程度的判断

式（1）

上面这个式子已经相当好了。实际上这个式子就是开方检验使用的差值衡量公式。当提供了数个样本的观察值x₁，x₂，……x_i ，……x_n之后，代入到式（1）中就可以求得开方值，用这个值与事先设定的阈值比较，如果大于阈值（即偏差很大），就认为原假设不成立，反之则认为原假设成立。

在文本分类问题的特征选择阶段，我们主要关心一个词t（一个随机变量）与一个类别c（另一个随机变量）之间是否相互独立？如果独立，就可以说词t对类别c完全没有表征作用，即我们根本无法根据t出现与否来判断一篇文档是否属于c这个分类。但与最普通的开方检验不同，我们不需要设定阈值，因为很难说词t和类别c关联到什么程度才算是有表征作用，我们只想借用这个方法来选出一些最最相关的即可。

此时我们仍然需要明白对特征选择来说原假设是什么，因为计算出的开方值越大，说明对原假设的偏离越大，我们越倾向于认为原假设的反面情况是正确的。我们能不能把原假设定为“词t与类别c相关“？原则上说当然可以，这也是一个健全的民主主义社会赋予每个公民的权利（笑），但此时你会发现根本不知道此时的理论值该是多少！你会把自己绕进死胡同。所以我们一般都使用”词t与类别c不相关“来做原假设。选择的过程也变成了为每个词计算它与类别c的开方值，从大到小排个序（此时开方值越大越相关），取前k个就可以（k值可以根据自己的需要选，这也是一个健全的民主主义社会赋予每个公民的权利）。

好，原理有了，该来个例子说说到底怎么算了。

比如说现在有N篇文档，其中有M篇是关于体育的，我们想考察一个词“篮球”与类别“体育”之间的相关性（任谁都看得出来两者很相关，但很遗憾，我们是智慧生物，计算机不是，它一点也看不出来，想让它认识到这一点，只能让它算算看）。我们有四个观察值可以使用：

1. 包含“篮球”且属于“体育”类别的文档数，命名为A

2. 包含“篮球”但不属于“体育”类别的文档数，命名为B

3. 不包含“篮球”但却属于“体育”类别的文档数，命名为C

4. 既不包含“篮球”也不属于“体育”类别的文档数，命名为D

用下面的表格更清晰：

特征选择	1．属于“体育”	2．不属于“体育”	总计
1．包含“篮球”	A	B	A+B
2．不包含“篮球”	C	D	C+D
总数	A+C	B+D	N

如果有些特点你没看出来，那我说一说，首先，A+B+C+D=N（这，这不废话嘛）。其次，A+C的意思其实就是说“属于体育类的文章数量”，因此，它就等于M，同时，B+D就等于N-M。

好，那么理论值是什么呢？以包含“篮球”且属于“体育”类别的文档数为例。如果原假设是成立的，即“篮球”和体育类文章没什么关联性，那么在所有的文章中，“篮球”这个词都应该是等概率出现，而不管文章是不是体育类的。这个概率具体是多少，我们并不知道，但他应该体现在观察结果中（就好比抛硬币的概率是二分之一，可以通过观察多次抛的结果来大致确定），因此我们可以说这个概率接近

（因为A+B是包含“篮球”的文章数，除以总文档数就是“篮球”出现的概率，当然，这里认为在一篇文章中出现即可，而不管出现了几次）而属于体育类的文章数为A+C，在这些个文档中，应该有

篇包含“篮球”这个词（数量乘以概率嘛）。

但实际有多少呢？考考你（读者：切，当然是A啦，表格里写着嘛……）。

此时对这种情况的差值就得出了（套用式（1）的公式），应该是

同样，我们还可以计算剩下三种情况的差值D₁₂，D₂₁，D₂₂，聪明的读者一定能自己算出来（读者：切，明明是自己懒得写了……）。有了所有观察值的差值，就可以计算“篮球”与“体育”类文章的开方值

把D₁₁，D₁₂，D₂₁，D₂₂的值分别代入并化简，可以得到

词t与类别c的开方值更一般的形式可以写成

式（2）

接下来我们就可以计算其他词如“排球”，“产品”，“银行”等等与体育类别的开方值，然后根据大小来排序，选择我们需要的最大的数个词汇作为特征项就可以了。

实际上式（2）还可以进一步化简，注意如果给定了一个文档集合（例如我们的训练集）和一个类别，则N，M，N-M（即A+C和B+D）对同一类别文档中的所有词来说都是一样的，而我们只关心一堆词对某个类别的开方值的大小顺序，而并不关心具体的值，因此把它们从式（2）中去掉是完全可以的，故实际计算的时候我们都使用

式（3）

好啦，并不高深对不对？

针对英文纯文本的实验结果表明：作为特征选择方法时，开方检验和信息增益的效果最佳（相同的分类算法，使用不同的特征选择算法来得到比较结果）；文档频率方法的性能同前两者大体相当，术语强度方法性能一般；互信息方法的性能最差（文献[17]）。

但开方检验也并非就十全十美了。回头想想A和B的值是怎么得出来的，它统计文档中是否出现词t，却不管t在该文档中出现了几次，这会使得他对低频词有所偏袒（因为它夸大了低频词的作用）。甚至会出现有些情况，一个词在一类文章的每篇文档中都只出现了一次，其开方值却大过了在该类文章99%的文档中出现了10次的词，其实后面的词才是更具代表性的，但只因为它出现的文档数比前面的词少了“1”，特征选择的时候就可能筛掉后面的词而保留了前者。这就是开方检验著名的“低频词缺陷“。因此开方检验也经常同其他因素如词频综合考虑来扬长避短。

好啦，关于开方检验先说这么多，有机会还将介绍其他的特征选择算法。

附：给精通统计学的同学多说几句，式（1）实际上是对连续型的随机变量的差值计算公式，而我们这里统计的“文档数量“显然是离散的数值（全是整数），因此真正在统计学中计算的时候，是有修正过程的，但这种修正仍然是只影响具体的开方值，而不影响大小的顺序，故文本分类中不做这种修正。

发表于 2008-08-31 22:43 Jasper 阅读(30120) 评论(39) 编辑收藏所属分类: 文本分类技术

# re: 文本分类入门（十）特征选择算法之开方检验

太精彩了，期待着您接下来的内容！

康桥阳光评论于 2008-11-24 16:30 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验

楼主，文本分类入门（九）怎么找不到？是不是第九章指的就是SVM系列？根据您的上下文意思，好象又不对！请明示一下！

康桥阳光评论于 2008-11-26 10:37 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验

哎呀呀,多亏了您这么一说,我才发现原来写好的第九节没有贴上去,呵呵……@康桥阳光

Jasper 评论于 2008-11-26 23:49 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验

好文,好人.

我的自省09年评论于 2009-02-03 14:43 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验

想请问一下，你文中写道：
“针对英文纯文本的实验结果表明：作为特征选择方法时，开方检验和信息增益的效果最佳（相同的分类算法，使用不同的特征选择算法来得到比较结果）；文档频率方法的性能同前两者大体相当，术语强度方法性能一般；互信息方法的性能最差（文献[17]）。”
这里的文献[17]指的是哪篇文献啊？能否透露呢？
谢谢。

GD Chen 评论于 2009-03-17 17:04 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验

@GD Chen
我其实有一节专门列出了文本分类系列文章的参考文献，地址是
http://www.blogjava.net/zhenandaci/archive/2008/05/31/204927.html

Jasper 评论于 2009-03-17 19:55 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验

@Jasper
哦哦谢谢啦

GD Chen 评论于 2009-03-19 14:04 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验

文本类别比较少的时侯开方检验不就可能会出现奇怪的现象？最极端只有两个类别时，也许会出现两个类别检验值最高的是相同的词——在X类出现了很多次，而在Y类出现了1次而已。

Lebee_leon 评论于 2009-03-21 01:59 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验

@Lebee_leon
是这样的，您稍微想一想就可以明白这代表什么样的意义。

Jasper 评论于 2009-03-21 13:12 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验

@Jasper
CHI-square 只是告诉这个特征在本类和其它类出现的差异大，但是没考虑positive feature 和 negative feature 的区别。那么实际使用，应该会用开方考虑正负那种吗？就是CC。
不知道你是怎样处理的？

Lebee_leon 评论于 2009-03-21 16:23 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验

@Lebee_leon
我想说三点:
一是负特征对某些问题的分类是有帮助的,例如女性的第二性征对男性来说是负特征,但对判断一个人是否为男性是很有帮助的,针对文本分类来说,负特征是否表征作用比正特征弱,尚没有定论,因此不必急着剔除掉负特征.
二是负特征实际上也很容易被看出来,负特征一般特征值很大,但文档频率很小(因为它代表的是基本不会在某个类别出现的词),我们特征选择的时候,对每个类别也一般会先滤掉低频词(比如文档频率小于3的词),这就剔除了很多的负特征.
三是从实验数据的观察来看,特征值很大的那些特征,极少有负特征,这个理论上没有依据,纯粹是观察的结果.
综合以上三点,我个人觉得负特征不是一个很大的问题,当然如果你的系统追求理论上的完备性,你也可以对此做些处理.

Jasper 评论于 2009-03-23 15:35 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验

@Jasper
谢谢～我按词频去掉词，然后再用CHI。现在只用其中两类做试验。估计类别越多，负特征值会越小。

Lebee_leon 评论于 2009-03-23 23:43 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验

博主您好，今天我实验了一下CHI和IG这两个算法。但是在实验中，我发现这两个算法抽取出来的特征一模一样，连顺序都一样。后来我也调试过，发现虽然每个抽取出来的特征值的权重分别是不一样的，但是分别的总体顺序却是一样的。虽然引文［17］中说这两个方法的效果是最好的，但是我不敢相信为什么抽取的特征一模一样。请问这样正常吗？

tayoto 评论于 2010-01-18 19:39 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验

对了，CHI中，每个词的差方值我是将各个类别的差方加起来的。

tayoto 评论于 2010-01-18 19:40 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验

@tayoto
请问用CHI方法选择特征时，是为每个类别分别选择n个特征词，再将这些特征词的并集作为特征集好呢?
还是使用特征在各类的chi平均值或者在各类的chi中的最大值作为特征的chi值，然后为所有类别选择一个特征集好呢？
因为我后面分类想采用余弦夹角计算相似性，所有希望特征集在各类分布平衡。

heli 评论于 2011-07-02 17:13 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验

不好意思，刚看到您上边的那条回复“CHI中，每个词的差方值我是将各个类别的差方加起来的。”，你好像是根据CHI值大小为整个集合选了特征集，这样会不会出现特征词分布不平衡呢？就是有的类别在特征集中的特征词很多，而有的类别又很少呢？

heli 评论于 2011-07-02 17:24 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验[未登录]

@heli
和朋友讨论后觉得全部类别要有共同的特征空间才行，不然算出来的分类分值不可比

Phil 评论于 2011-07-06 15:42 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验

我从上小学数学就 40分的货，看了您的文章我看懂了，，，感谢感谢！！！亲亲亲亲！！！
非常诚挚的感谢楼主的博客！！！
the bset wishes to u！！！

以后还要请教楼主
wuxinglec@gmail.com

刘法丞评论于 2011-12-20 17:50 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验

如果把篮球属于体育这项改成篮球属于娱乐，且我们的文本库中只有两大类：体育和娱乐。此时相当于第一列与第二列互换位置。
属于娱乐(不属于体育) 不属于娱乐（即属于体育）
包含篮球 B A
不包含篮球 D C
此时计算篮球属于娱乐的偏差：
(B*C-A*D)平方/(B+A)*(D+C)
计算出来的结果与体育的一样，难道认为是篮球在娱乐的开方差和体育的一样？
这个明显不合理吧。

learning_machine 评论于 2013-08-22 00:30 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验

@learning_machine
如果把篮球属于体育这项改成篮球属于娱乐，且我们的文本库中只有两大类：体育和娱乐。此时相当于第一列与第二列互换位置。
属于娱乐(不属于体育) 不属于娱乐（即属于体育）
包含篮球 B A
不包含篮球 D C
此时计算篮球属于娱乐的偏差：
(B*C-A*D)平方/(B+A)*(D+C)
计算出来的结果与体育的一样，难道认为是篮球在娱乐的开方差和体育的一样？
这个明显不合理吧。
你这种调换方法，把A、B、C、D当成了具体而固定的数值了啊，如果按照你的这种调换方法，那么具体数值就应该变成了E、F、G、H了！没有问题的！

wenxinlong 评论于 2013-08-26 16:51 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验

@learning_machine 你好请问有没有CHI降维的代码？谢谢！

清常评论于 2013-10-25 21:51 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验

@wenxinlong 你好，请问有没有CHI降维的代码啊？谢谢！！！

清常评论于 2013-10-25 21:52 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验

@heli
@tayoto 你好，请问有没有CHI降维的代码呢？急求！！！

清常评论于 2013-10-25 21:54 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验

@Jasper你好，请问有没有CHI降维的代码呢？急求！！！

清常评论于 2013-10-25 21:55 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验

@Jasper
是这样我现在手头有7200个英文训练实例，已经表示成SVM处理结果格式的稀疏向量，我想把它降维，听说CHI很好但一直没有找到代码，求大神帮忙，谢谢！！！

清常评论于 2013-10-25 22:01 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验

讲得很好，太棒了

zmnecj 评论于 2014-03-28 14:57 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验[未登录]

very good！

天马行空评论于 2014-04-06 20:05 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验[未登录]

首先非常感谢博主的文章
然后对理论进行测试，选择了体育和财经类文本各2000个，计算每个词的开方值，并进行排序，排名前100的关键词都是可以比较明显的区分出来体育和财经，如
比赛 : 1925336.1463778939
公司 : 1792009.8901098901
市场 : 1409668.361302083
投资 : 1401629.0638730482
机构 : 1203529.0682012895
内容 : 1074252.9817527514
证券 : 1054598.6955138403
元 : 1040272.8905646354
股 : 1035498.2547543725
风险 : 996436.4432277336
球队 : 924064.2392314844
.
.
.
那么是否可以理解这100个特征词只是能够更容易的区分出文档是否属于某个类别？而并不能证明该文档一定属于该类别？如果想要得到最能证明文档的所属类别的关键词应该如何去做呢？

silence 评论于 2014-11-01 17:36 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验

"套用式（1）"似乎应该除以E的平方，如果只除以E的话，考察两种情况：
1，E=10，A=15
2，E=100，A=120
两种情况下，其实情况2的相关性不高，但计算出来的结果为：
1，2.5
2，4
第二种情况的相关性反而比第一种高。

gensoft 评论于 2014-11-05 12:24 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验[未登录]

您有没有文本分类的程序，从分词到特征提取到分类，能不能来个全过程的博客呢？？

sunshine 评论于 2014-12-22 14:27 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验

不是应该叫卡方检验 chi-square test 么

yichu 评论于 2015-03-03 16:28 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验

D12，D21，D22 它们分别是什么呢？

yichu 评论于 2015-03-03 16:57 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验

@yichu
D11为篮球&体育的相关性；D12为篮球&非体育的相关性；...;以此类推。

yichu 评论于 2015-03-03 18:17 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验

@yichu
你说得对

yichu 评论于 2015-03-03 18:18 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验[未登录]

博主
我想问下，关于特征数目的选择如何确定啊？如何评价特征选择的好坏？

lee 评论于 2015-03-16 19:26 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验

如果A=0，就是在体育类中没有篮球的存在，但是开方值也不为零？这种情况怎么办？

yeenlai 评论于 2015-03-19 09:45 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验

@wenxinlong
如果只有体育和娱乐两种，那么二者就是完全依赖关系（单标签情况下）属于体育 ->不属于娱乐，属于娱乐->不属于体育，那么篮球和体育的关联度自然与篮球和娱乐的关联度是一样的。

sdc 评论于 2015-06-02 01:13 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验

总结的非常好！假设检验方法除了在文本分类中用到外，在别的数据分类处理中，该如何用呢？比如说一个5*1000的数据，有5个特征，1000个样本，该如何运用假设检验呢？谢谢！

李炯评论于 2015-10-13 16:30 回复更多评论

# re: 文本分类入门（十）特征选择算法之开方检验

好赞！瞬间懂了

Lingzi_Zhou 评论于 2015-10-19 21:33 回复更多评论

公告

常用链接

留言簿(64)

随笔分类

随笔档案

文章分类

搜索

最新评论

阅读排行榜

评论排行榜

Jasper's Java Jacal 嘉士伯的Java小屋
语源科技BlogJava \| 首页 \| 发新随笔 \| 发新文章 \| 联系 \| 聚合 \| 管理	随笔：51 文章：2 评论：717 引用：0