复旦大学语料库的一些统计信息Part 2词频

经过词频统计,看到复旦大学中文语料库的总词数为116558个(而且还是去掉了停止词及代词,介词,数词和时间短语等无关内容之后的结果),数量十分巨大.
而各个类别的词汇数量分别为：
   类别名称：Agriculture 总文档数：1949 总词数：29163
   类别名称：Art 总文档数：1237 总词数：40816
   类别名称：Communication 总文档数：52 总词数：2283
   类别名称：Computer 总文档数：2591 总词数：19340
   类别名称：Economy 总文档数：2912 总词数：37021
   类别名称：Education 总文档数：111 总词数：5719
   类别名称：Electronics 总文档数：51 总词数：2693
   类别名称：Energy 总文档数：63 总词数：2848
   类别名称：Environment 总文档数：2347 总词数：25155
   类别名称：History 总文档数：708 总词数：47205
   类别名称：Law 总文档数：103 总词数：3834
   类别名称：Literature 总文档数：65 总词数：5844
   类别名称：Medical 总文档数：98 总词数：3877
   类别名称：Military 总文档数：147 总词数：4615
   类别名称：Mine 总文档数：63 总词数：3708
   类别名称：Philosophy 总文档数：86 总词数：5190
   类别名称：Politics 总文档数：1920 总词数：35292
   类别名称：Space 总文档数：1226 总词数：14557
   类别名称：Sports 总文档数：2344 总词数：42665
   类别名称：Transport 总文档数：112 总词数：4644

很容易看出词汇的数量基本与类别包含的文档数成正比，但也有一些极其特殊的类别，比如艺术（Art）和历史（History），其文档数量仅有计算机文章数量的一半，但包含的词汇量却是计算机类别的两倍以上（分别是40816：19340和47205：19340，尤以历史类文章为甚，其文档数量仅有计算机类的三分之一还不到）。直观上的想法是，历史和艺术类文章包含了大量的人名，地名或者事件名等专有名词，因而词汇数量上表现得很巨大。计算机类文章包含词汇较少，一是因为其为新兴学科，包含的内容本就较少，另一个更重要的原因则在于前期对文章的处理忽略了所有的英文单词及缩写，而这些内容在计算机相关的文章中所占比重很大。
如果我们看整个语料库出现次数最多的十个词，会发现他们大致也是我们的国计民生所关注的几个方面（巧合？未必！）它们是：

   词内容：经济词性：名词词频：233906 文档频率：8975
   词内容：发展词性：动词词频：189181 文档频率：11847
   词内容：农业词性：名词词频：126603 文档频率：4105
   词内容：社会词性：名词词频：108988 文档频率：8686
   词内容：政治词性：名词词频：106847 文档频率：4971
   词内容：大词性：形容词词频：106111 文档频率：14729
   词内容：中国词性：名词词频：105269 文档频率：10885
   词内容：人   词性：名词词频：98034 文档频率：11037
   词内容：问题词性：名词词频：94458 文档频率：12538
   词内容：个   词性：量词词频：91717 文档频率：14428

通过与某些类别中排名前十位的词对比，我们可以看出很多问题，例如计算机类别：
        词内容：系统词性：形容词词频：45496 文档频率：2244
        词内容：控制词性：动词词频：21937 文档频率：1734
        词内容：图词性：名词词频：20396 文档频率：1914
        词内容：方法词性：名词词频：20073 文档频率：2141
        词内容：个词性：量词词频：19661 文档频率：2207
        词内容：算法词性：名词词频：18879 文档频率：1336
        词内容：数据词性：名词词频：17691 文档频率：1357
        词内容：模型词性：名词词频：17182 文档频率：1423
        词内容：网络词性：名词词频：16980 文档频率：1159
        词内容：进行词性：动词词频：16406 文档频率：2094
        词内容：问题词性：名词词频：14617 文档频率：1965

再比如交通类别：
        词内容：铁路词性：名词词频：280 文档频率：51
        词内容：运输词性：动词词频：205 文档频率：74
        词内容：交通词性：名词词频：158 文档频率：54
        词内容：大词性：形容词词频：147 文档频率：59
        词内容：工程词性：名词词频：136 文档频率：31
        词内容：个词性：量词词频：117 文档频率：51
        词内容：年词性：量词词频：114 文档频率：52
        词内容：建设词性：动词词频：108 文档频率：40
        词内容：公路词性：名词词频：106 文档频率：34
        词内容：条词性：量词词频：105 文档频率：38

我们会发现，
第一：整个语料库出现最多的词未必在各个类别中也最多，实际上通过计算机和交通类别可以看出，几乎完全不同！这意味着在进行文本分类的训练阶段，针对各个类取不同的特征集合（即所谓local的特征选择）很有必要，如果所有的类别都使用相同的特征集合（而且毫无悬念的，这个特征集合就是语料库的特征集合），那么分类效果会因为没有为各个类找到最佳的特征而大打折扣；
第二，注意到“个”这个词出现在所有类别排名靠前的词汇中间，但直觉告诉我们，这个词很难对分类产生什么贡献（行话叫区分度很差）。此结论与信息论中所说的“一个词分布越广越均匀，则区分度越差”是一个意思。当然，在这里“个”会如明星般的出现在所有类别靠前的位置上，完全是因为我们的排名是根据词频来统计的（根据文档频率排序也会产生相似的结果），而使用像开方检验，信息增益这样的特征选择算法，就是为了避免这种区分度差的词出现在最终的特征集合中，从而影响分类效果。
在后续的文章里，我还会给出使用了开方检验计算特征得分以后的排名情况，“个”这个词会不会从前十名中消失呢？又有哪些词会冲上头排呢？我们拭目以待。（音乐响，幕布缓慢拉上，灯光渐暗）

发表于 2008-11-13 14:33 Jasper 阅读(3324) 评论(2) 编辑收藏所属分类: 文本分类技术

公告

常用链接

留言簿(64)

随笔分类

随笔档案

文章分类

搜索

最新评论

阅读排行榜

评论排行榜

Jasper's Java Jacal 嘉士伯的Java小屋
语源科技BlogJava \| 首页 \| 发新随笔 \| 发新文章 \| 联系 \| 聚合 \| 管理	随笔：51 文章：2 评论：717 引用：0