| TextMining02-特征提取.pdf | 
        
            | 分词 | 最大匹配法.. | 分词歧义和各种数字,日期,姓名识别 | 
        
            | 最大概率法 | 
        
            | 最短路径法 | 
        
            | 词性标注 | 基于规则的词性标注 |   | 
        
            | 基于统计的词性标注(及缺陷) |   | 
        
            | 文档模型 | 布尔模型 |   | 
        
            | 向量空间模型(tf-idf) |   | 
        
            | 文档概率模型 |   | 
        
            | 文本相似性计算 | 基于概率模型的相似度(Okapi收费) |   | 
        
            | 基于vsm的相似度计算 (基于内积,和集合相似度计算的比较) | 欧氏距离 | 
        
            | 向量内积相似度 | 
        
            | 余弦相似度 | 
        
            | Jaccard相似度 | 
        
            | 文本序列 | 海明距离 |   | 
        
            | 编辑距离 |   | 
        
            | 编辑操作的代价(算法) |   | 
        
            | 特征空间的变化 | LSA隐形语义分析 |   | 
        
            | SVD思想、步骤。(truncated) |   | 
        
            | SVD实例和工具 |   | 
    
 
 
PS:
海明距离在文本序列的相似度比较上会比较有用。
海明距离。通常一
帧包括m个数据(报文)位和r个冗余位或者校验位。设整个长度为n(即n=m+r),则此长度为n的单元通常被称作n位码字(codeword)。
给出任意两个码字,如10001001和10110001,可以确定它们有多少个对应位不同。在此例中有3位不同。为了确定有多少位不同,只须对两个码字
做异或运算,然后计算结果中1的个数。两个码字中不同位的个数,称为海明距离(Hamming
Distance)。其重要性在于,假如两个码字具有海明距离d,则需要d个位差错才能将其中一个码字转换成另一个。
     一种编码的校验和纠错能力取决于它的海明距离。为检测出d比特错,需要使用d+1的编码;因为d个单比特错决不可能将一个有效的码
字转变成另一个有效的码字。当接收方看到无效的码字,它纠能明白发生传输错误。同样,为了纠正d比特错,必须使用距离为2d+1的编码,这是因为有效码字
的距离远到即使发生d个变化,这个发生了变化的码字仍然比其它码字都接近原始码字。作为纠错码的一个简单例子,考虑如下只有4个有效码字的代码:
0000000000、0000011111、1111100000和1111111111这种代码的距离为5,也就是说,它能纠正双比特错。假如码字
0000000111到达后,接收方知道原始码字应该为0000011111。但是,如果出现了三位错,而将0000000000变成了
0000000111,则差错将不能正确地纠正。
http://www.blogjava.net/Files/fullfocus/featureselect.pdf
	posted on 2008-06-09 20:38 
fullfocus 阅读(1663) 
评论(0)  编辑  收藏  所属分类: 
聚类算法研究