经过词频统计,看到复旦大学中文语料库的总词数为116558个(而且还是去掉了停止词及代词,介词,数词和时间短语等无关内容之后的结果),数量十分巨大.
而各个类别的词汇数量分别为:
    类别名称:Agriculture 总文档数:1949 总词数:29163
    类别名称:Art 总文档数:1237 总词数:40816
    类别名称:Communication 总文档数:52 总词数:2283
    类别名称:Computer 总文档数:2591 总词数:19340
    类别名称:Economy 总文档数:2912 总词数:37021
    类别名称:Education 总文档数:111 总词数:5719
    类别名称:Electronics 总文档数:51 总词数:2693
    类别名称:Energy 总文档数:63 总词数:2848
    类别名称:Environment 总文档数:2347 总词数:25155
    类别名称:History 总文档数:708 总词数:47205
    类别名称:Law 总文档数:103 总词数:3834
    类别名称:Literature 总文档数:65 总词数:5844
    类别名称:Medical 总文档数:98 总词数:3877
    类别名称:Military 总文档数:147 总词数:4615
    类别名称:Mine 总文档数:63 总词数:3708
    类别名称:Philosophy 总文档数:86 总词数:5190
    类别名称:Politics 总文档数:1920 总词数:35292
    类别名称:Space 总文档数:1226 总词数:14557
    类别名称:Sports 总文档数:2344 总词数:42665
    类别名称:Transport 总文档数:112 总词数:4644

很容易看出词汇的数量基本与类别包含的文档数成正比,但也有一些极其特殊的类别,比如艺术(Art)和历史(History),其文档数量仅有计算机文章数量的一半,但包含的词汇量却是计算机类别的两倍以上(分别是40816:19340和47205:19340,尤以历史类文章为甚,其文档数量仅有计算机类的三分之一还不到)。直观上的想法是,历史和艺术类文章包含了大量的人名,地名或者事件名等专有名词,因而词汇数量上表现得很巨大。计算机类文章包含词汇较少,一是因为其为新兴学科,包含的内容本就较少,另一个更重要的原因则在于前期对文章的处理忽略了所有的英文单词及缩写,而这些内容在计算机相关的文章中所占比重很大。
如果我们看整个语料库出现次数最多的十个词,会发现他们大致也是我们的国计民生所关注的几个方面(巧合?未必!)它们是:

    词内容:经济 词性:名词 词频:233906 文档频率:8975
    词内容:发展 词性:动词 词频:189181 文档频率:11847
    词内容:农业 词性:名词 词频:126603 文档频率:4105
    词内容:社会 词性:名词 词频:108988 文档频率:8686
    词内容:政治 词性:名词 词频:106847 文档频率:4971
    词内容:大 词性:形容词 词频:106111 文档频率:14729
    词内容:中国 词性:名词 词频:105269 文档频率:10885
    词内容:人   词性:名词 词频:98034 文档频率:11037
    词内容:问题 词性:名词 词频:94458 文档频率:12538
    词内容:个   词性:量词 词频:91717 文档频率:14428

通过与某些类别中排名前十位的词对比,我们可以看出很多问题,例如计算机类别:
        词内容:系统 词性:形容词 词频:45496 文档频率:2244
        词内容:控制 词性:动词 词频:21937 文档频率:1734
        词内容:图 词性:名词 词频:20396 文档频率:1914
        词内容:方法 词性:名词 词频:20073 文档频率:2141
        词内容:个 词性:量词 词频:19661 文档频率:2207
        词内容:算法 词性:名词 词频:18879 文档频率:1336
        词内容:数据 词性:名词 词频:17691 文档频率:1357
        词内容:模型 词性:名词 词频:17182 文档频率:1423
        词内容:网络 词性:名词 词频:16980 文档频率:1159
        词内容:进行 词性:动词 词频:16406 文档频率:2094
        词内容:问题 词性:名词 词频:14617 文档频率:1965

再比如交通类别:
        词内容:铁路 词性:名词 词频:280 文档频率:51
        词内容:运输 词性:动词 词频:205 文档频率:74
        词内容:交通 词性:名词 词频:158 文档频率:54
        词内容:大 词性:形容词 词频:147 文档频率:59
        词内容:工程 词性:名词 词频:136 文档频率:31
        词内容:个 词性:量词 词频:117 文档频率:51
        词内容:年 词性:量词 词频:114 文档频率:52
        词内容:建设 词性:动词 词频:108 文档频率:40
        词内容:公路 词性:名词 词频:106 文档频率:34
        词内容:条 词性:量词 词频:105 文档频率:38

我们会发现,
第一:整个语料库出现最多的词未必在各个类别中也最多,实际上通过计算机和交通类别可以看出,几乎完全不同!这意味着在进行文本分类的训练阶段,针对各个类取不同的特征集合(即所谓local的特征选择)很有必要,如果所有的类别都使用相同的特征集合(而且毫无悬念的,这个特征集合就是语料库的特征集合),那么分类效果会因为没有为各个类找到最佳的特征而大打折扣;
第二,注意到“个”这个词出现在所有类别排名靠前的词汇中间,但直觉告诉我们,这个词很难对分类产生什么贡献(行话叫区分度很差)。此结论与信息论中所说的“一个词分布越广越均匀,则区分度越差”是一个意思。当然,在这里“个”会如明星般的出现在所有类别靠前的位置上,完全是因为我们的排名是根据词频来统计的(根据文档频率排序也会产生相似的结果),而使用像开方检验,信息增益这样的特征选择算法,就是为了避免这种区分度差的词出现在最终的特征集合中,从而影响分类效果。
在后续的文章里,我还会给出使用了开方检验计算特征得分以后的排名情况,“个”这个词会不会从前十名中消失呢?又有哪些词会冲上头排呢?我们拭目以待。(音乐响,幕布缓慢拉上,灯光渐暗)