随笔 - 17  文章 - 84  trackbacks - 0
<2007年6月>
272829303112
3456789
10111213141516
17181920212223
24252627282930
1234567

如非特别说明,所有文章均为原创。如需引用,请注明出处
Email:liangtianyu@gmail.com
MSN:terry.liangtianyu@hotmail.com

常用链接

留言簿(4)

随笔分类(12)

随笔档案(17)

最新随笔

搜索

  •  

积分与排名

  • 积分 - 51237
  • 排名 - 961

最新评论

阅读排行榜

评论排行榜

倒排文件(Inverted file)描述了一个词项集合(TERMS)元素和一个文档集合(DOCS)元素对应关系的数据结构。在倒排文件中,可以直接给出一个Term出现在哪些Document中,和在某个Document中出现的位置和频率。在Lucene 2.1中InvertDoucment会对文档进行倒排处理。
下面是信息检索研究中常用的几个相关量:
 

N:文档集合的大小

M:词项集合的大小

Sj=|PLtj|:词项tj所涉及文档的个数

DFtj=sj/N:词项tj的文档频率

IDFtj=-logDFtj):倒置文档频率;其值越小表示出现的频率越高

fi,j:第j个词项tj在第i个文档di中出现的次数

TN= fi,j:系统所有文档分解后包含词项的总量(包括重复,即一个多重集(multi-set))

TFtj= fij/TN:词项tj在文档中出现的频度(词频)

ITFtj=logTFtj):倒置词频;越小表示出现的频率越高

倒排文件分为两部分:第一部分是由不同词项组成的索引,称为词表(Vocabulary),第二部分由每个词项出现过的文档集合构成,称为记录文件(Posting File),每个词项的对应部分称为倒排表(Posting Lists),可以通过词表访问。
posted on 2007-06-11 08:14 Terry Liang 阅读(2682) 评论(0)  编辑  收藏 所属分类: Lucene 2.1研究

只有注册用户登录后才能发表评论。


网站导航: