TextMining04-分类.pdf
    
        
            | 自动分类的概念 |   | 
        
            | 分类效果的评价   | P,R,F, 每个类的评价指标,总体类评价(宏观、微观) | 
        
            |   特征抽取(feature
            extraction) | 预处理 | 
        
            | 文本表示(vsm) | 
        
            | 特征选择(Feature
            Selection) 特征重构(Re-parameterisation,如LSI) | 文档频率法(DF,
            document frequency)   | *TFIDF型权重 TF,TF*IDF:
            ,TFC: 对上面进行归一化,LTC: 降低TF的作用 *Robertson & SparckJones(idf) 公式,相关表,熵等,互信息不佳   | 
        
            | 信息增益法information gain   | 
        
            | 互信息法mutual
            information   | 
        
            | The X2 test(chi-square)   | 
        
            | 分类算法   | KNN   |   | * Rocchio方法 | 
        
            | SVM | 
    
 
注意: 特征重构(LSI),互信息表现不佳,TF*IDF的变形公式,SVM
http://www.blogjava.net/Files/fullfocus/04.pdf
	posted on 2008-06-18 10:47 
fullfocus 阅读(1738) 
评论(0)  编辑  收藏  所属分类: 
聚类算法研究