文本分类入门(九)文本分类问题的分类

开始之前首先说说分类体系。回忆一下，分类体系是指事先确定的类别的层次结构以及文档与这些类别间的关系。
其中包含着两方面的内容：
一，类别之间的关系。一般来说类别之间的关系都是可以表示成树形结构，这意味着一个类有多个子类，而一个子类唯一的属于一个父类。这种类别体系很常用，却并不代表它在现实世界中也是符合常识的，举个例子，“临床心理学”这个类别应该即属于“临床医学”的范畴，同时也属于“心理学”，但在分类系统中却不便于使用这样的结构。想象一下，这相当于类别的层次结构是一个有环图，无论遍历还是今后类别的合并，比较，都会带来无数的麻烦。
二，文档与类别间的关系。一般来说，在分类系统中，我们倾向于让一篇文档唯一的属于一个类别（更严格的说，是在同一层次中仅属于一个类别，因为属于一个类别的时候，显然也属于这个类别的父类别），这使得我们只适用一个标签就可以标记这个文档的类别，而一旦允许文档属于多个类别，标签的数目便成为大小不定的变量，难于设计成高效的数据结构。这种“属于多个”类的想法更糟的地方在于文档类别表示的语义方面，试想，如果姚明给灾区捐款的新闻即属于灾区新闻，也属于体育新闻的话（这在现实中倒确实是合情合理的），当用户使用这个系统来查找文档，指定的条件是要所有“属于灾区新闻但不属于体育新闻的新闻”（有点拗口，不过正好练嘴皮子啦，笑）的时候，这篇姚明的报道是否应该包含在查询结果中呢？这是一个矛盾的问题。

文本分类问题牵涉到如此多的主题，本身又含有如此多的属性，因此可以从多个角度对文本分类问题本身进行一下分类。

分类系统使用何种分类算法是分类系统的核心属性。如果一个分类算法在一次分类判断时，仅仅输出一个真假值用来表示待分类的文档是否属于当前类别的话，这样的系统就可以叫做基于二元分类器的分类系统。有些分类算法天然就是独立二元的，例如支持向量机，它只能回答这个文档是或不是这个类别的。这种分类算法也常常被称为“硬分类”的算法（Hard Categorization）。而有的算法在一次判断后就可以输出文档属于多个类别的得分（假设说，得分越大，则说明越有可能属于这个类别），这类算法称为“排序分类”的算法（Ranking Categorization），也叫做m元分类算法。kNN就是典型的m元分类算法（因为kNN会找出与待分类文档最相近的训练样本，并记录下这些样本所属的分类）。

发表于 2008-11-26 23:55 Jasper 阅读(5939) 评论(4) 编辑收藏所属分类: 文本分类技术

# re: 文本分类入门(九)文本分类问题的分类

好，值得关注，标记一下。

heyang 评论于 2008-11-27 10:24 回复更多评论

# re: 文本分类入门(九)文本分类问题的分类

有知就让人尊敬了,能够把所知与人共享,则更让人敬佩!
谢谢了,收藏!
希望能够有更多的精彩文章出现!

康桥阳光评论于 2008-11-30 15:30 回复更多评论

# re: 文本分类入门(九)文本分类问题的分类

很好的文章啊，博主对自然语言处理这方面很厉害啊，有机会向你请教！有时间加我msn吧：gcgmh@hotmail.com,不知博主的msn多少？能告诉我一下吗？

gcg 评论于 2008-12-03 18:13 回复更多评论

# re: 文本分类入门(九)文本分类问题的分类[未登录]

谢谢分享，期待更新。

lyh 评论于 2008-12-19 11:04 回复更多评论

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理
相关文章: 文本分类入门（番外篇）特征选择与特征权重计算的区别 SVM入门（十）将SVM用于多类分类文本分类入门（十一）特征选择方法之信息增益 SVM入门（九）松弛变量（续） SVM入门（八）松弛变量 SVM入门（七）为何需要核函数 SVM入门（六）线性分类器的求解——问题的转化，直观角度 SVM入门（五）线性分类器的求解——问题的描述Part2 SVM入门（四）线性分类器的求解——问题的描述Part1 SVM入门（一）至（三）Refresh

文章分类

搜索

文本分类入门(九)文本分类问题的分类

公告

常用链接

留言簿(64)

随笔分类

随笔档案

文章分类

搜索

最新评论

阅读排行榜

评论排行榜

Jasper's Java Jacal 嘉士伯的Java小屋
语源科技BlogJava \| 首页 \| 发新随笔 \| 发新文章 \| 联系 \| 聚合 \| 管理	随笔：51 文章：2 评论：717 引用：0