Lucene 2.1研究：倒排序基本常识

倒排文件（Inverted file）描述了一个词项集合（TERMS）元素和一个文档集合（DOCS）元素对应关系的数据结构。在倒排文件中，可以直接给出一个Term出现在哪些Document中，和在某个Document中出现的位置和频率。在Lucene 2.1中InvertDoucment会对文档进行倒排处理。
下面是信息检索研究中常用的几个相关量：

N：文档集合的大小

M：词项集合的大小

S_j=|PL（t_j）|：词项t_j所涉及文档的个数

DF（t_j）=s_j/N：词项t_j的文档频率

IDF（t_j）=-logDF（t_j）：倒置文档频率；其值越小表示出现的频率越高

f_i,j：第j个词项t_j在第i个文档d_i中出现的次数

T_N= f_i,j：系统所有文档分解后包含词项的总量（包括重复，即一个多重集（multi-set））

TF（t_j）=（ f_i_，j）/T_N：词项t_j在文档中出现的频度（词频）

ITF（t_j）=logTF（t_j）：倒置词频；越小表示出现的频率越高

倒排文件分为两部分：第一部分是由不同词项组成的索引，称为词表（Vocabulary），第二部分由每个词项出现过的文档集合构成，称为记录文件（Posting File），每个词项的对应部分称为倒排表（Posting Lists），可以通过词表访问。

posted on 2007-06-11 08:14 Terry Liang 阅读(2758) 评论(0) 编辑收藏所属分类: Lucene 2.1研究

常用链接

留言簿(4)

随笔分类(12)

随笔档案(17)

最新随笔

搜索

积分与排名

最新评论

阅读排行榜

评论排行榜


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理
相关文章: 正在修改基于Java Lucene 2.3.2的.Net Framework 3.5版本 Lucene 2.1研究：发布NLucene-2.1 Lucene 2.1研究：对字符的判断 Lucene 2.1研究：检索 Lucene 2.1研究：文件存储 Lucene 2.1研究：倒排序基本常识 Lucene 2.1研究：索引文件格式说明基于Lucene 2.1研究：时间的处理基于Lucene 2.1的研究：Lucene.Net版本Bug修改 Lucene数据索引搜索示例