词的文档频率(DF,即一个词在多少篇文档中出现)虽然并不用于真正的特征选择,但是作为特征选择前的预处理手段还是经常被使用,因为出现次数太少的词(低频词,或者叫生僻词)往往是表意能力很差的词,更极端的情况下,那种在几万篇文档中却只出现几次的词更有可能是作者的笔误(即创造了一个不存在的词),使用它的更大好处还在于可以大大消减文档集中需要处理的词汇数量.请看以下的数据,在上一篇文章中对复旦语料库进行分词,去停止词,去无用词性的词的基础上,再进行一次根据DF的处理,去除所有文档频率小于等于3的词,得到的对比结果如下.

文档频率筛选前

文档频率筛选后

总词数116558


类别名称:Agriculture

总词数:29163


类别名称:Art

总词数:40816


类别名称:Communication

总词数:2283


类别名称:Computer

总词数:19340


类别名称:Economy

总词数:37021


类别名称:Education

总词数:5719


类别名称:Electronics

总词数:2693


类别名称:Energy

总词数:2848


类别名称:Environment

总词数:25155


类别名称:History

总词数:47205


类别名称:Law

总词数:3834


类别名称:Literature

总词数:5844


类别名称:Medical

总词数:3877


类别名称:Military

总词数:4615


类别名称:Mine

总词数:3708


类别名称:Philosophy

总词数:5190


类别名称:Politics

总词数:35292


类别名称:Space

总词数:14557


类别名称:Sports

总词数:42665


类别名称:Transport

总词数:4644

总词数50283


类别名称:Agriculture

总词数:23258


类别名称:Art

总词数:30899


类别名称:Communication

总词数:2207


类别名称:Computer

总词数:15545


类别名称:Economy

总词数:28363


类别名称:Education

总词数:5437


类别名称:Electronics

总词数:2604


类别名称:Energy

总词数:2702


类别名称:Environment

总词数:19781


类别名称:History

总词数:31436


类别名称:Law

总词数:3656


类别名称:Literature

总词数:5500


类别名称:Medical

总词数:3566


类别名称:Military

总词数:4256


类别名称:Mine

总词数:3507


类别名称:Philosophy

总词数:4968


类别名称:Politics

总词数:26046


类别名称:Space

总词数:12136


类别名称:Sports

总词数:30803


类别名称:Transport

总词数:4276

怎么样?总词数从116558下降到50283,减少了一多半.可见生僻词还是广泛存在的.而具体到各个类别上也各不相同.减少的比较少的典型类别例如法律类,仅仅消减掉了4.6%的词汇,而历史类整整去除了33.4%!这倒也不难想象,因为法律概念一般有标准的名称和说法,文章也都有通用的格式或成文的套路遵循,作者本身发挥的余地不大.而历史类文章包含大量的人名地名和事件名称,这些名称出现数量多但每一个出现的次数相对较少,而同时人名地名也很难作为区分文章主题的依据(出现诸葛就一定是说三国时期的事情么?我们计算所有位老师就姓诸葛,还恰好是搞自然语言处理方面的,呵呵),筛掉它们我们也不心疼.

有了这一步处理,又可以为开方检验的计算增添不少方便.

(音乐再次响起,幕布再次缓慢拉上,灯光渐暗)