BlogJava-西瓜地儿-随笔分类-Lucene

lucene评分分析

西瓜 — Fri, 15 Apr 2011 03:02:00 GMT

在IndexSearcher类中有一个管理Lucene得分情况的方法，如下所示：

public Explanation explain(Weight weight, int doc) throws IOException {
return weight.explain(reader, doc);
}

返回的这个Explanation的实例解释了Lucene中Document的得分情况。我们可以测试一下，直观地感觉一下到底这个Explanation的实例都记录了一个Document的哪些信息。

写一个测试类，如下所示：

package org.shirdrn.lucene.learn;

import java.io.IOException;
import java.util.Date;

import net.teamhot.lucene.ThesaurusAnalyzer;

import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.Term;
import org.apache.lucene.index.TermDocs;
import org.apache.lucene.search.Explanation;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.store.LockObtainFailedException;

public class AboutLuceneScore {

private String path = "E:\\Lucene\\index";

public void createIndex(){
   IndexWriter writer;
   try {
    writer = new IndexWriter(path,new ThesaurusAnalyzer(),true);

    Field fieldA = new Field("contents","一人",Field.Store.YES,Field.Index.TOKENIZED);
    Document docA = new Document();
    docA.add(fieldA);

    Field fieldB = new Field("contents","一人之交一人之交",Field.Store.YES,Field.Index.TOKENIZED);
    Document docB = new Document();
    docB.add(fieldB);

    Field fieldC = new Field("contents","一人之下一人之下",Field.Store.YES,Field.Index.TOKENIZED);
    Document docC = new Document();
    docC.add(fieldC);

    Field fieldD = new Field("contents","一人做事一人当一人做事一人当",Field.Store.YES,Field.Index.TOKENIZED);
    Document docD = new Document();
    docD.add(fieldD);

    Field fieldE = new Field("contents","一人做事一人當一人做事一人當",Field.Store.YES,Field.Index.TOKENIZED);
    Document docE = new Document();
    docE.add(fieldE);

    writer.addDocument(docA);
    writer.addDocument(docB);
    writer.addDocument(docC);
    writer.addDocument(docD);
    writer.addDocument(docE);

    writer.close();
   } catch (CorruptIndexException e) {
    e.printStackTrace();
   } catch (LockObtainFailedException e) {
    e.printStackTrace();
   } catch (IOException e) {
    e.printStackTrace();
   }
}

public static void main(String[] args) {
   AboutLuceneScore aus = new AboutLuceneScore();
   aus.createIndex();    // 建立索引
   try {
    String keyword = "一人";
    Term term = new Term("contents",keyword);
    Query query = new TermQuery(term);
    IndexSearcher searcher = new IndexSearcher(aus.path);
    Date startTime = new Date();
    Hits hits = searcher.search(query);
    TermDocs termDocs = searcher.getIndexReader().termDocs(term);
    while(termDocs.next()){
     System.out.print("搜索关键字<"+keyword+">在编号为 "+termDocs.doc());
     System.out.println(" 的Document中出现过 "+termDocs.freq()+" 次");
    }
    System.out.println("********************************************************************");
    for(int i=0;i      System.out.println("Document的内部编号为： "+hits.id(i));
     System.out.println("Document内容为： "+hits.doc(i));
     System.out.println("Document得分为： "+hits.score(i));
     Explanation e = searcher.explain(query, hits.id(i));
     System.out.println("Explanation为： \n"+e);
     System.out.println("Document对应的Explanation的一些参数值如下： ");
     System.out.println("Explanation的getValue()为： "+e.getValue());
     System.out.println("Explanation的getDescription()为： "+e.getDescription());
     System.out.println("********************************************************************");
    }
    System.out.println("共检索出符合条件的Document "+hits.length()+" 个。");
    Date finishTime = new Date();
    long timeOfSearch = finishTime.getTime() - startTime.getTime();
    System.out.println("本次搜索所用的时间为 "+timeOfSearch+" ms");
   } catch (CorruptIndexException e) {
    e.printStackTrace();
   } catch (IOException e) {
    e.printStackTrace();
   }

}
}

该测试类中实现了一个建立索引的方法createIndex()方法；然后通过检索一个关键字“一人”，获取到与它相关的Document的信息。

打印出结果的第一部分为：这个检索关键字“一人”在每个Document中出现的次数。

打印出结果的第二部分为：相关的Explanation及其得分情况的信息。

测试结果输出如下所示：

搜索关键字<一人>在编号为 0 的Document中出现过 1 次
搜索关键字<一人>在编号为 1 的Document中出现过 1 次
搜索关键字<一人>在编号为 2 的Document中出现过 1 次
搜索关键字<一人>在编号为 3 的Document中出现过 2 次
搜索关键字<一人>在编号为 4 的Document中出现过 2 次
********************************************************************
Document的内部编号为： 0
Document内容为： Document>
Document得分为： 0.81767845
Explanation为：
0.81767845 = (MATCH) fieldWeight(contents:一人 in 0), product of:
1.0 = tf(termFreq(contents:一人)=1)
0.81767845 = idf(docFreq=5)
1.0 = fieldNorm(field=contents, doc=0)

Document对应的Explanation的一些参数值如下：
Explanation的getValue()为： 0.81767845
Explanation的getDescription()为： fieldWeight(contents:一人 in 0), product of:
********************************************************************
Document的内部编号为： 3
Document内容为： Document>
Document得分为： 0.5059127
Explanation为：
0.5059127 = (MATCH) fieldWeight(contents:一人 in 3), product of:
1.4142135 = tf(termFreq(contents:一人)=2)
0.81767845 = idf(docFreq=5)
0.4375 = fieldNorm(field=contents, doc=3)

Document对应的Explanation的一些参数值如下：
Explanation的getValue()为： 0.5059127
Explanation的getDescription()为： fieldWeight(contents:一人 in 3), product of:
********************************************************************
Document的内部编号为： 4
Document内容为： Document>
Document得分为： 0.5059127
Explanation为：
0.5059127 = (MATCH) fieldWeight(contents:一人 in 4), product of:
1.4142135 = tf(termFreq(contents:一人)=2)
0.81767845 = idf(docFreq=5)
0.4375 = fieldNorm(field=contents, doc=4)

Document对应的Explanation的一些参数值如下：
Explanation的getValue()为： 0.5059127
Explanation的getDescription()为： fieldWeight(contents:一人 in 4), product of:
********************************************************************
Document的内部编号为： 1
Document内容为： Document>
Document得分为： 0.40883923
Explanation为：
0.40883923 = (MATCH) fieldWeight(contents:一人 in 1), product of:
1.0 = tf(termFreq(contents:一人)=1)
0.81767845 = idf(docFreq=5)
0.5 = fieldNorm(field=contents, doc=1)

Document对应的Explanation的一些参数值如下：
Explanation的getValue()为： 0.40883923
Explanation的getDescription()为： fieldWeight(contents:一人 in 1), product of:
********************************************************************
Document的内部编号为： 2
Document内容为： Document>
Document得分为： 0.40883923
Explanation为：
0.40883923 = (MATCH) fieldWeight(contents:一人 in 2), product of:
1.0 = tf(termFreq(contents:一人)=1)
0.81767845 = idf(docFreq=5)
0.5 = fieldNorm(field=contents, doc=2)

Document对应的Explanation的一些参数值如下：
Explanation的getValue()为： 0.40883923
Explanation的getDescription()为： fieldWeight(contents:一人 in 2), product of:
********************************************************************
共检索出符合条件的Document 5 个。
本次搜索所用的时间为 79 ms

先从测试的输出结果进行分析，可以获得到如下信息：

■ 测试类中hits.score(i)的值与Explanation的getValue()的值是一样的，即Lucene默认使用的得分；

■ 默认情况下，Lucene按照Document的得分进行排序检索结果；

■ 默认情况下，如果两个Document的得分相同，按照Document的内部编号进行排序，比如上面编号为(3和4)、(1和2)是两组得分相同的Document，结果排序时按照Document的编号进行了排序；

通过从IndexSearcher类中的explain方法：

public Explanation explain(Weight weight, int doc) throws IOException {
return weight.explain(reader, doc);
}

可以看出，实际上是调用了Weight接口类中的explain()方法，而Weight是与一个Query相关的，它记录了一次查询构造的Query的情况，从而保证一个Query实例可以重用。

具体地，可以在实现Weight接口的具体类TermWeight中追溯到explain()方法，而TermWeight类是一个内部类，定义在TermQuery类内部。TermWeight类的explain()方法如下所示：

public Explanation explain(IndexReader reader, int doc)
throws IOException {

ComplexExplanation result = new ComplexExplanation();
result.setDescription("weight("+getQuery()+" in "+doc+"), product of:");

Explanation idfExpl = new Explanation(idf, "idf(docFreq=" + reader.docFreq(term) + ")");

      // explain query weight
      Explanation queryExpl = new Explanation();
      queryExpl.setDescription("queryWeight(" + getQuery() + "), product of:");

      Explanation boostExpl = new Explanation(getBoost(), "boost");
      if (getBoost() != 1.0f)
        queryExpl.addDetail(boostExpl);
      queryExpl.addDetail(idfExpl);

Explanation queryNormExpl = new Explanation(queryNorm,"queryNorm");
queryExpl.addDetail(queryNormExpl);

queryExpl.setValue(boostExpl.getValue() *idfExpl.getValue() *queryNormExpl.getValue());

result.addDetail(queryExpl);

      // 说明Field的权重
      String field = term.field();
      ComplexExplanation fieldExpl = new ComplexExplanation();
      fieldExpl.setDescription("fieldWeight("+term+" in "+doc+"), product of:");

      Explanation tfExpl = scorer(reader).explain(doc);
      fieldExpl.addDetail(tfExpl);
      fieldExpl.addDetail(idfExpl);

      Explanation fieldNormExpl = new Explanation();
      byte[] fieldNorms = reader.norms(field);
      float fieldNorm =
        fieldNorms!=null ? Similarity.decodeNorm(fieldNorms[doc]) : 0.0f;
      fieldNormExpl.setValue(fieldNorm);
      fieldNormExpl.setDescription("fieldNorm(field="+field+", doc="+doc+")");
      fieldExpl.addDetail(fieldNormExpl);

      fieldExpl.setMatch(Boolean.valueOf(tfExpl.isMatch()));
      fieldExpl.setValue(tfExpl.getValue() *idfExpl.getValue() *fieldNormExpl.getValue());

      result.addDetail(fieldExpl);
      result.setMatch(fieldExpl.getMatch());

      // combine them
      result.setValue(queryExpl.getValue() * fieldExpl.getValue());

if (queryExpl.getValue() == 1.0f)
return fieldExpl;

return result;
}

根据检索结果，以及上面的TermWeight类的explain()方法，可以看出输出的字符串部分正好一一对应，比如：idf(Inverse Document Frequency，即反转文档频率)、fieldNorm、fieldWeight。

检索结果的第一个Document的信息：

Document的内部编号为： 0
Document内容为： Document>
Document得分为： 0.81767845
Explanation为：
0.81767845 = (MATCH) fieldWeight(contents:一人 in 0), product of:
1.0 = tf(termFreq(contents:一人)=1)
0.81767845 = idf(docFreq=5)
1.0 = fieldNorm(field=contents, doc=0)

Document对应的Explanation的一些参数值如下：
Explanation的getValue()为： 0.81767845
Explanation的getDescription()为： fieldWeight(contents:一人 in 0), product of:

tf的计算

上面的tf值Term Frequency，即词条频率，可以在org.apache.lucene.search.Similarity类中看到具体地说明。在Lucene中，并不是直接使用的词条的频率，而实际使用的词条频率的平方根，即：

tf(t in d) = frequency^½

这是使用org.apache.lucene.search.Similarity类的子类DefaultSimilarity中的方法计算的，如下：

/** Implemented as sqrt(freq). */
public float tf(float freq) {
return (float)Math.sqrt(freq);
}

即：某个Document的tf = 检索的词条在该Document中出现次数freq取平方根值

也就是freq的平方根。

例如，从我们的检索结果来看：

搜索关键字<一人>在编号为 0 的Document中出现过 1 次
搜索关键字<一人>在编号为 1 的Document中出现过 1 次
搜索关键字<一人>在编号为 2 的Document中出现过 1 次
搜索关键字<一人>在编号为 3 的Document中出现过 2 次
搜索关键字<一人>在编号为 4 的Document中出现过 2 次

各个Document的tf计算如下所示：

编号为0的Document的 tf 为： (float)Math.sqrt(1) = 1.0；
编号为1的Document的 tf 为： (float)Math.sqrt(1) = 1.0；
编号为2的Document的 tf 为： (float)Math.sqrt(1) = 1.0；
编号为3的Document的 tf 为： (float)Math.sqrt(2) = 1.4142135；
编号为4的Document的 tf 为： (float)Math.sqrt(2) = 1.4142135；

idf的计算

检索结果中，每个检索出来的Document的都对应一个idf，在DefaultSimilarity类中可以看到idf计算的实现方法，如下：

/** Implemented as log(numDocs/(docFreq+1)) + 1. */
public float idf(int docFreq, int numDocs) {
return (float)(Math.log(numDocs/(double)(docFreq+1)) + 1.0);
}

其中，docFreq是根据指定关键字进行检索，检索到的Document的数量，我们测试的docFreq=5；numDocs是指索引文件中总共的Document的数量，我们的测试比较特殊，将全部的Document都检索出来了，我们测试的numDocs=5。

各个Document的idf的计算如下所示：

编号为0的Document的 idf 为：(float)(Math.log(5/(double)(5+1)) + 1.0) = 0.81767845；
编号为1的Document的 idf 为：(float)(Math.log(5/(double)(5+1)) + 1.0) = 0.81767845；
编号为2的Document的 idf 为：(float)(Math.log(5/(double)(5+1)) + 1.0) = 0.81767845；
编号为3的Document的 idf 为：(float)(Math.log(5/(double)(5+1)) + 1.0) = 0.81767845；
编号为4的Document的 idf 为：(float)(Math.log(5/(double)(5+1)) + 1.0) = 0.81767845；

lengthNorm的计算

在DefaultSimilarity类中可以看到lengthNorm计算的实现方法，如下：

public float lengthNorm(String fieldName, int numTerms) {
return (float)(1.0 / Math.sqrt(numTerms));
}

各个Document的lengthNorm的计算如下所示：

编号为0的Document的 lengthNorm 为：(float)(1.0 / Math.sqrt(1)) = 1.0/1.0 = 1.0；
编号为1的Document的 lengthNorm 为：(float)(1.0 / Math.sqrt(1)) = 1.0/1.0 = 1.0；
编号为2的Document的 lengthNorm 为：(float)(1.0 / Math.sqrt(1)) = 1.0/1.0 = 1.0；
编号为3的Document的 lengthNorm 为：(float)(1.0 / Math.sqrt(2)) = 1.0/1.4142135 = 0.7071068；
编号为4的Document的 lengthNorm 为：(float)(1.0 / Math.sqrt(2)) = 1.0/1.4142135 = 0.7071068；

关于fieldNorm

fieldNorm是在建立索引的时候写入的，而检索的时候需要从索引文件中读取，然后通过解码，得到fieldNorm的float型值，用于计算Document的得分。

在org.apache.lucene.search.TermQuery.TermWeight类中，explain方法通过打开的IndexReader流读取fieldNorm，写入索引文件的是byte[]类型，需要解码，如下所示：

byte[] fieldNorms = reader.norms(field);
float fieldNorm = fieldNorms!=null ? Similarity.decodeNorm(fieldNorms[doc]) : 0.0f;

调用Similarity类的decodeNorm方法，将byte[]类型值转化为float浮点值：

public static float decodeNorm(byte b) {
return NORM_TABLE[b & 0xFF]; // & 0xFF maps negative bytes to positive above 127
}

这样，一个浮点型的fieldNorm的值就被读取出来了，可以参加一些运算，最终实现Lucene的Document的得分的计算。

queryWeight的计算

queryWeight的计算可以在org.apache.lucene.search.TermQuery.TermWeight类中的sumOfSquaredWeights方法中看到计算的实现：

    public float sumOfSquaredWeights() {
      queryWeight = idf * getBoost();             // compute query weight
      return queryWeight * queryWeight;          // square it
    }

其实默认情况下，queryWeight = idf，因为Lucune中默认的激励因子boost = 1.0。

各个Document的queryWeight的计算如下所示：

queryWeight = 0.81767845 * 0.81767845 = 0.6685980475944025；

queryNorm的计算

queryNorm的计算在DefaultSimilarity类中实现，如下所示：

/** Implemented as 1/sqrt(sumOfSquaredWeights). */
public float queryNorm(float sumOfSquaredWeights) {
return (float)(1.0 / Math.sqrt(sumOfSquaredWeights));
}

这里，sumOfSquaredWeights的计算是在org.apache.lucene.search.TermQuery.TermWeight类中的sumOfSquaredWeights方法实现：

    public float sumOfSquaredWeights() {
      queryWeight = idf * getBoost();             // compute query weight
      return queryWeight * queryWeight;          // square it
    }

其实默认情况下，sumOfSquaredWeights = idf * idf，因为Lucune中默认的激励因子boost = 1.0。

上面测试例子中sumOfSquaredWeights的计算如下所示：

sumOfSquaredWeights = 0.81767845*0.81767845 = 0.6685980475944025；

然后，就可以计算queryNorm的值了，计算如下所示：

queryNorm = (float)(1.0 / Math.sqrt(0.6685980475944025) = 1.2229746301862302962735534977105；

value的计算

org.apache.lucene.search.TermQuery.TermWeight类类中还定义了一个value成员：

private float value;

关于value的计算，可以在它的子类org.apache.lucene.search.TermQuery.TermWeight类中看到计算的实现：

    public void normalize(float queryNorm) {
      this.queryNorm = queryNorm;
      queryWeight *= queryNorm;                   // normalize query weight
      value = queryWeight * idf;                  // idf for document
    }

这里，使用normalize方法计算value的值，即：

value = queryNorm * queryWeight * idf;

上面测试例子中value的值计算如下：

value = 1.2229746301862302962735534977105 * 0.6685980475944025 * 0.81767845 = 0.66859804759440249999999999999973；

关于fieldWeight

从检索结果中，可以看到：

0.81767845 = (MATCH) fieldWeight(contents:一人 in 0), product of:

字符串"(MATCH) "的输在ComplexExplanation类中的getSummary方法中可以看到：

protected String getSummary() {
    if (null == getMatch())
      return super.getSummary();

    return getValue() + " = "
      + (isMatch() ? "(MATCH) " : "(NON-MATCH) ")
      + getDescription();
}

这个fieldWeight的值其实和Document的得分是相等的，先看这个fieldWeight是如何计算出来的，在org.apache.lucene.search.TermQuery.TermWeight类中的explain方法中可以看到：

      ComplexExplanation fieldExpl = new ComplexExplanation();
      fieldExpl.setDescription("fieldWeight("+term+" in "+doc+
                               "), product of:");

      Explanation tfExpl = scorer(reader).explain(doc);
      fieldExpl.addDetail(tfExpl);
      fieldExpl.addDetail(idfExpl);

      result.addDetail(fieldExpl);
      result.setMatch(fieldExpl.getMatch());

      // combine them
      result.setValue(queryExpl.getValue() * fieldExpl.getValue());

if (queryExpl.getValue() == 1.0f)
return fieldExpl;

上面，ComplexExplanation fieldExpl被设置了很多项内容，我们就从这里来获取fieldWeight的计算的实现。

关键是在下面进行了计算：

fieldExpl.setValue(tfExpl.getValue() *
idfExpl.getValue() *
fieldNormExpl.getValue());

使用计算式表示就是

fieldWeight = tf * idf * fieldNorm

fieldNorm的值因为是在建立索引的时候写入到索引文件中的，索引只需要从上面的测试结果中取来，进行如下关于Document的分数的计算的验证。

使用我们这个例子来计算检索出来的Docuyment的fieldWeight，需要用到前面计算出来的结果，如下所示：

编号为0的Document的 fieldWeight 为：1.0 * 0.81767845 * 1.0 = 0.81767845；
编号为1的Document的 fieldWeight 为：1.0 * 0.81767845 * 0.5 = 0.408839225；
编号为2的Document的 fieldWeight 为：1.0 * 0.81767845 * 0.5 = 0.408839225；
编号为3的Document的 fieldWeight 为：1.4142135 * 0.81767845 * 0.4375 = 0.5059127074089703125；
编号为4的Document的 fieldWeight 为：1.4142135 * 0.81767845 * 0.4375 = 0.5059127074089703125；

对比一下，其实检索结果中Document的得分就是这个fieldWeight的值，验证后，正好相符(注意：我这里没有进行舍入运算)。

总结说明

上面的计算得分是按照Lucene默认设置的情况下进行的，比如激励因子的默认值为1.0，它体现的是一个Document的重要性，即所谓的fieldWeight。

不仅可以通过为一个Document设置激励因子boost，而且可以通过为一个Document中的Field设置boost，因为一个Document的权重体现在它当中的Field上，即上面计算出来的fieldWeight与Document的得分是相等的。

提高一个Document的激励因子boost，可以使该Document被检索出来的默认排序靠前，即说明比较重要。也就是说，修改激励因子boost能够改变检索结果的排序。

西瓜 2011-04-15 11:02 发表评论

Sphinx

西瓜 — Fri, 01 Apr 2011 06:13:00 GMT

首先我们要从 Sphinx 官网上 http://www.sphinxsearch.com/downloads.html 下载 mysql-5.0.45-sphinxse-0.9.8-win32.zip 和 sphinx-0.9.8.1-win32.zip，假设你已经安装好了 MySQL

先将 mysql 服务停掉解压 mysql-5.0.45-sphinxse-0.9.8-win32.zip 将 bin 和 share 覆盖掉 mysql 目录中的 bin 和 share 解压 sphinx-0.9.8.1-win32.zip 到独立的目录，如:d:/www/sphinx/中

接着开启 mysql 服务，建立 "test" 数据库，并导入 sql 语句,如下：

-----------------------------------------------------------

CREATE TABLE `documents` (
`id` int(11) NOT NULL auto_increment,
`group_id` int(11) NOT NULL,
`group_id2` int(11) NOT NULL,
`date_added` datetime NOT NULL,
`title` varchar(255) NOT NULL,
`content` text NOT NULL,
PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=5;

INSERT INTO `documents` VALUES ('1', '1', '5', '2008-09-13 21:37:47', 'test one', 'this is my test document number one. also checking search within phrases.');
INSERT INTO `documents` VALUES ('2', '1', '6', '2008-09-13 21:37:47', 'test two', 'this is my test document number two');
INSERT INTO `documents` VALUES ('3', '2', '7', '2008-09-13 21:37:47', 'another doc', 'this is another group');
INSERT INTO `documents` VALUES ('4', '2', '8', '2008-09-13 21:37:47', 'doc number four', 'this is to test groups');

-------------------------------------------实际上，这个新建立的表就是 Sphinx 中的 example.sql

我们的测试表已经建立完成，接下来我们要配置 sphinx-doc.conf 文件（重要）

先将 sphinx 下的 sphinx-min.conf 复制一份改名为 sphinx-doc.conf，接着修改它:

----------------------------------------------------------------------

#
# Minimal Sphinx configuration sample (clean, simple, functional)
#
# type----------------------------------------数据库类型，目前支持 mysql 与 pgsql
# strip_html--------------------------------是否去掉html 标签
# sql_host----------------------------------数据库主机地址
# sql_user----------------------------------数据库用户名
# sql_pass----------------------------------数据库密码
# sql_db-------------------------------------数据库名称
# sql_port-----------------------------------数据库采用的端口
# sql_query_pre--------------------------执行sql前要设置的字符集，用utf8必须SET NAMES utf8
# sql_query---------------------------------全文检索要显示的内容，在这里尽可能不使用where或 group by，将 where 与 groupby 的内容交给 sphinx，由 sphinx 进行条件过滤与 groupby 效率会更高
# 注意: select 出来的字段必须至少包括一个唯一主键 (ARTICLESID) 以及要全文检索的字段，你计划原本在 where 中要用到的字段也要 select 出来
# 这里不用使用orderby
# sql_attr_ 开头的表示一些属性字段，你原计划要用在 where, orderby, groupby 中的字段要在这里定义(# 为自己添加的注释内容)

#source 数据源名:

source documents
{
type             = mysql
sql_host     = localhost
sql_user      = root
sql_pass     = yourpassword
sql_db         = test
sql_port       = 3306 # optional, default is 3306

sql_query_pre     = SET NAMES utf8
sql_query     = \
   SELECT id, group_id, UNIX_TIMESTAMP(date_added) AS date_added, title, content \
   FROM documents

sql_attr_uint    = group_id
sql_attr_timestamp   = date_added

sql_query_info    = SELECT * FROM documents WHERE id=$id
}

index documents
{
source      = documents

#path   索引记录存放目录，如 d:/sphinx/data/cgfinal ,实际存放时会存放在 d:/sphinx/data 目录，然后创建多个 cgfinal 名称，不同扩展名的索引文件。
path          = d:/www/sphinx/data/doc
docinfo      = extern
enable_star     = 1

min_word_len     = 3
min_prefix_len     = 0
min_infix_len     = 3
charset_type    = sbcs

# 其他的配置如 min_word_len, charset_type, charset_table, ngrams_chars, ngram_len 这些则是支持中文检索需要设置的内容。
# 如果检索的不是中文，则 charset_table, ngrams_chars, min_word_len 就要设置不同的内容，具体官方网站的论坛中有很多，大家可以去搜索看看。
}

# mem_limit 索引使用内存最大限制，根据机器情况而定，默认是32M，太小的会影响索引的性能。
indexer
{
mem_limit     = 32M
}

# 搜索的守护进程配置
# 在进行全文检索过程中，searchd要先开启，mysql在全文检索时才能连接到sphinx，由sphinx进行全文检索，再将结果返回给mysql
# address 侦听请求的地址，不设置则侦听所有地址
# port 侦听端口
searchd
{
port     = 3312
log       =d:/www/sphinx/logs/searched_doc.log
query_log     = d:/www/sphinx/logs/query_doc.log
read_timeout    = 5
max_children    = 30
pid_file     = d:/www/sphinx/logs/searched-doc.pid
max_matches     = 1000
seamless_rotate    = 0
preopen_indexes    = 0
unlink_old     = 1
}

----------------------------------------------------------------------

为了测试，我们的 Sphinx 配置文件已经写好，确保我们的 Mysql 数据库已经启动，如果没有启动则在 cmd 中键入" net start mysql "

接下来，我们的测试正式开始：

1，生成数据索引或重建索引：

（最好再复制一个 sphinx-doc.conf 配置文件，并把它放入 bin 文件夹中，下面的举例假设我们已经这样做）：

在 cmd 模式下：输入：

d:/www/sphinx/bin/indexer.exe --config d:/www/sphinx/bin/sphinx-doc.conf documents

2，运行检索守护进程 searchd.exe：

d:/www/sphinx/bin/searchd.exe --config d:/www/sphinx/bin/sphinx-doc.conf

如过这两步没有报错的话，说明我们的 Sphinx 已经正常运行了！可以通过 netstat -an 查看是否 3312 端口是否处如监听状态。

3，现在来用 sphinx 自带的工具 search.exe 来测试一下：

测试：

索引关键字： this is m

D:\www\sphinx\bin>search.exe -c d:/www/sphinx/bin/sphinx-doc.conf this is m

结果：

Sphinx 0.9.8-release (r1371)
Copyright (c) 2001-2008, Andrew Aksyonoff

using config file 'd:/www/sphinx/bin/sphinx-doc.conf'...
WARNING: index 'documents': invalid morphology option 'extern' - IGNORED
index 'documents': query 'this is m ': returned 4 matches of 4 total in 0.000 s
c

displaying matches:
1. document=1, weight=1, group_id=1, date_added=Sat Sep 13 21:37:47 2008
        id=1
        group_id=1
        group_id2=5
        date_added=2008-09-13 21:37:47
        title=test one
        content=this is my test document number one. also checking search withi
phrases.
2. document=2, weight=1, group_id=1, date_added=Sat Sep 13 21:37:47 2008
        id=2
        group_id=1
        group_id2=6
        date_added=2008-09-13 21:37:47
        title=test two
        content=this is my test document number two
3. document=3, weight=1, group_id=2, date_added=Sat Sep 13 21:37:47 2008
        id=3
        group_id=2
        group_id2=7
        date_added=2008-09-13 21:37:47
        title=another doc
        content=this is another group
4. document=4, weight=1, group_id=2, date_added=Sat Sep 13 21:37:47 2008
        id=4
        group_id=2
        group_id2=8
        date_added=2008-09-13 21:37:47
        title=doc number four
        content=this is to test groups

words:
1. 'this': 4 documents, 4 hits

-------------------

索引关键字： this is another group

D:\www\sphinx\bin>search.exe -c d:/www/sphinx/bin/sphinx-doc.conf this is another group

结果：

Sphinx 0.9.8-release (r1371)
Copyright (c) 2001-2008, Andrew Aksyonoff

-------------------

到此sphinx在win上算正常运行了，sphinx-doc.conf文件配置比较灵活，根据你需要索引的数据库进行灵活配置来达到你需要的效果

如果配置过程中出现运行参数配置问题可以查看 doc/sphinx.html文件，里面对各种参数都要详细的说明

using config file 'd:/www/sphinx/bin/sphinx-doc.conf'...
WARNING: index 'documents': invalid morphology option 'extern' - IGNORED
index 'documents': query 'this is another group ': returned 1 matches of 1 total
in 0.000 sec

displaying matches:
1. document=3, weight=4, group_id=2, date_added=Sat Sep 13 21:37:47 2008
        id=3
        group_id=2
        group_id2=7
        date_added=2008-09-13 21:37:47
        title=another doc
        content=this is another group

words:
1. 'this': 4 documents, 4 hits
2. 'another': 1 documents, 2 hits
3. 'group': 1 documents, 1 hits

西瓜 2011-04-01 14:13 发表评论

lucene优化

西瓜 — Thu, 02 Sep 2010 01:56:00 GMT

Boosting Documents and Fields
setBoost(float) 设置Documents和Fields在index中的重要性

可以给document设置boost，也可以给field设置boost
设置boost会删除原来的document然后重新建立索引

doc.setBoost();
field.setBoost();

boost是怎样存储到index中的，利用norms
在建立索引过程中生成的boosts会被结合在一起变成一个浮点数，然后每个文档每个字段
都会存为一个byte。在查询过程中，每个field的norms会被装入内存，重新解码为一个浮点数

即使norms在建立索引的过程中得到，我们也可以用IndexReader的setNorm方法来改变

norms会在搜索过程中消耗过多的内存
我们可以将norms关闭，Field.setOmitNorms(true)，这样有可能影响评分，但是影响效果
可以忽略

indexing dates×
DataTools.dateToString(new Date(),DateTools.Resolution.DAY);

Indexing numbers
lucene利用词典编排来给field排序，也就是说如果有3个数：7，71，20，正常的排序是：7，20，71。但是词典排序是：20，7，71。一个简单和通用的方法是给数字加前缀0：007，020，071

indexing fields for sorting
field建立索引但是不分词Field.Index.NOT_ANALYZED，字段必须存储Integers,Floats,Strings

Field truncation
比如说你只想给一个文档前200个字建立索引
在indexWriter的构造方法中传递MaxFieldLength参数
系统设定的值MaxFieldLength.UNLIMITED和MaxFieldLength.LIMITED

可以调用setMaxFieldLength()方法来修改

IndexWriter.setInfoStream(System.out) 关于合并，删除的信息以及当maxFieldLength到达会显示信息

Optimizing an index
索引优化只能提高搜索的速度，不会加快建立索引的速度,不进行优化也有可能获得很好的搜索吞吐量

IndexWriter提供4个优化方法

optimize()：将index减少到一个segment，只到操作完成才返回

optimize(int maxNumSeqments)：部分优化，一般来说，index合并到最后一个segment最消耗时间，所以优化到5个segment会比优化到1个segment快

optimize(boolean doWait)：同optimize()一样，只是当doWait为false的时候，该方法会立刻返回，合并索引操作在后台进行

optimize(int maxNumSegments,boolean doWait)

西瓜 2010-09-02 09:56 发表评论

Lucene打分公式

西瓜 — Thu, 29 Jul 2010 07:15:00 GMT

在进行Lucene的搜索过程解析之前，有必要单独的一张把Lucene score公式的推导，各部分的意义阐述一下。因为Lucene的搜索过程，很重要的一个步骤就是逐步的计算各部分的分数。

Lucene的打分公式非常复杂，如下：

在推导之前，先逐个介绍每部分的意义：

t：Term，这里的Term是指包含域信息的Term，也即title:hello和content:hello是不同的Term
coord(q,d)：一次搜索可能包含多个搜索词，而一篇文档中也可能包含多个搜索词，此项表示，当一篇文档中包含的搜索词越多，则此文档则打分越高。
queryNorm(q)：计算每个查询条目的方差和，此值并不影响排序，而仅仅使得不同的query之间的分数可以比较。其公式如下：

tf(t in d)：Term t在文档d中出现的词频
idf(t)：Term t在几篇文档中出现过
norm(t, d)：标准化因子，它包括三个参数：
- Document boost：此值越大，说明此文档越重要。
- Field boost：此域越大，说明此域越重要。
- lengthNorm(field) = (1.0 / Math.sqrt(numTerms))：一个域中包含的Term总数越多，也即文档越长，此值越小，文档越短，此值越大。

各类Boost值
- t.getBoost()：查询语句中每个词的权重，可以在查询中设定某个词更加重要，common^4 hello
- d.getBoost()：文档权重，在索引阶段写入nrm文件，表明某些文档比其他文档更重要。
- f.getBoost()：域的权重，在索引阶段写入nrm文件，表明某些域比其他的域更重要。

以上在Lucene的文档中已经详细提到，并在很多文章中也被阐述过，如何调整上面的各部分，以影响文档的打分，请参考有关Lucene的问题(4):影响Lucene对文档打分的四种方式一文。

然而上面各部分为什么要这样计算在一起呢？这么复杂的公式是怎么得出来的呢？下面我们来推导。

首先，将以上各部分代入score(q, d)公式，将得到一个非常复杂的公式，让我们忽略所有的boost，因为这些属于人为的调整，也省略coord，这和公式所要表达的原理无关。得到下面的公式：

然后，有Lucene学习总结之一：全文检索的基本原理中的描述我们知道，Lucene的打分机制是采用向量空间模型的：

我们把文档看作一系列词(Term)，每一个词(Term)都有一个权重(Term weight)，不同的词(Term)根据自己在文档中的权重来影响文档相关性的打分计算。

于是我们把所有此文档中词(term)的权重(term weight) 看作一个向量。

Document = {term1, term2, …… ,term N}

Document Vector = {weight1, weight2, …… ,weight N}

同样我们把查询语句看作一个简单的文档，也用向量来表示。

Query = {term1, term 2, …… , term N}

Query Vector = {weight1, weight2, …… , weight N}

我们把所有搜索出的文档向量及查询向量放到一个N维空间中，每个词(term)是一维。

我们认为两个向量之间的夹角越小，相关性越大。

所以我们计算夹角的余弦值作为相关性的打分，夹角越小，余弦值越大，打分越高，相关性越大。

余弦公式如下：

下面我们假设：

查询向量为Vq =

文档向量为Vd =

向量空间维数为n，是查询语句和文档的并集的长度，当某个Term不在查询语句中出现的时候，w(t, q)为零，当某个Term不在文档中出现的时候，w(t, d)为零。

w代表weight，计算公式一般为tf*idf。

我们首先计算余弦公式的分子部分，也即两个向量的点积：

Vq*Vd = w(t1, q)*w(t1, d) + w(t2, q)*w(t2, d) + …… + w(tn ,q)*w(tn, d)

把w的公式代入，则为

Vq*Vd = tf(t1, q)*idf(t1, q)*tf(t1, d)*idf(t1, d) + tf(t2, q)*idf(t2, q)*tf(t2, d)*idf(t2, d) + …… + tf(tn ,q)*idf(tn, q)*tf(tn, d)*idf(tn, d)

在这里有三点需要指出：

由于是点积，则此处的t1, t2, ……, tn只有查询语句和文档的并集有非零值，只在查询语句出现的或只在文档中出现的Term的项的值为零。
在查询的时候，很少有人会在查询语句中输入同样的词，因而可以假设tf(t, q)都为1
idf是指Term在多少篇文档中出现过，其中也包括查询语句这篇小文档，因而idf(t, q)和idf(t, d)其实是一样的，是索引中的文档总数加一，当索引中的文档总数足够大的时候，查询语句这篇小文档可以忽略，因而可以假设idf(t, q) = idf(t, d) = idf(t)

基于上述三点，点积公式为：

Vq*Vd = tf(t1, d) * idf(t1) * idf(t1) + tf(t2, d) * idf(t2) * idf(t2) + …… + tf(tn, d) * idf(tn) * idf(tn)

所以余弦公式变为：

下面要推导的就是查询语句的长度了。

由上面的讨论，查询语句中tf都为1，idf都忽略查询语句这篇小文档，得到如下公式

所以余弦公式变为：

下面推导的就是文档的长度了，本来文档长度的公式应该如下：

这里需要讨论的是，为什么在打分过程中，需要除以文档的长度呢？

因为在索引中，不同的文档长度不一样，很显然，对于任意一个term，在长的文档中的tf要大的多，因而分数也越高，这样对小的文档不公平，举一个极端的例子，在一篇1000万个词的鸿篇巨著中，"lucene"这个词出现了11次，而在一篇12个词的短小文档中，"lucene"这个词出现了10 次，如果不考虑长度在内，当然鸿篇巨著应该分数更高，然而显然这篇小文档才是真正关注"lucene"的。

然而如果按照标准的余弦计算公式，完全消除文档长度的影响，则又对长文档不公平(毕竟它是包含了更多的信息)，偏向于首先返回短小的文档的，这样在实际应用中使得搜索结果很难看。

所以在Lucene中，Similarity的lengthNorm接口是开放出来，用户可以根据自己应用的需要，改写lengthNorm的计算公式。比如我想做一个经济学论文的搜索系统，经过一定时间的调研，发现大多数的经济学论文的长度在8000到10000词，因而lengthNorm的公式应该是一个倒抛物线型的，8000到 10000词的论文分数最高，更短或更长的分数都应该偏低，方能够返回给用户最好的数据。

在默认状况下，Lucene采用DefaultSimilarity，认为在计算文档的向量长度的时候，每个Term的权重就不再考虑在内了，而是全部为一。

而从Term的定义我们可以知道，Term是包含域信息的，也即title:hello和content:hello是不同的Term，也即一个Term只可能在文档中的一个域中出现。

所以文档长度的公式为：

代入余弦公式：

再加上各种boost和coord，则可得出Lucene的打分计算公式。

西瓜 2010-07-29 15:15 发表评论

Lucene的检索优化（转）

西瓜 — Mon, 19 Jul 2010 03:46:00 GMT

而尽可能减少IndexSearcher的创建和对搜索结果的前台的缓存也是必要的。

Lucene面向全文检索的优化在于首次索引检索后，并不把所有的记录（Document）具体内容读取出来，而是只将所有结果中匹配度最高的头
100条结果（TopDocs）的ID放到结果集缓存中并返回，这里可以比较一下数据库检索：如果是一个10,000条的数据库检索结果集，数据库是一定
要把所有记录内容都取得以后再开始返回给应用结果集的。所以即使检索匹配总数很多，Lucene的结果集占用的内存空间也不会很多。对于一般的模糊检索应
用是用不到这么多的结果的，头100条已经可以满足90%以上的检索需求。

如果首批缓存结果数用完后还要读取更后面的结果时Searcher会再次检索并生成一个上次的搜索缓存数大1倍的缓存，并再重新向后抓取。所以如果
构造一个Searcher去查1－120条结果，Searcher其实是进行了2次搜索过程：头100条取完后，缓存结果用完，Searcher重新检索
再构造一个200条的结果缓存，依此类推，400条缓存，800条缓存。由于每次Searcher对象消失后，这些缓存也访问那不到了，你有可能想将结果
记录缓存下来，缓存数尽量保证在100以下以充分利用首次的结果缓存，不让Lucene浪费多次检索，而且可以分级进行结果缓存。

Lucene的另外一个特点是在收集结果的过程中将匹配度低的结果自动过滤掉了。这也是和数据库应用需要将搜索的结果全部返回不同之处。

刚刚开始学Lucene，看的是Lucene in
Action。顺着看下去，很自然的就是使用Hits来访问Search的结果。但是使用起来，发现Search的速度是很快，不过如果结果很多的话（比如1W个），通过Hits访问所有的结果速度非常慢，就是简单地从每个结果中读一个Field，在我的机器上用了接近2分钟。因为我的应用索引的只是我的数据的两个域包含文本信息的域，我本希望通过Lucene查找出符合需求的数据ID，再通过ID去判断数据库中的其他域来决定最终的结果。这样连取ID就需要2分钟，我的应用可受不了。

第一个想到的方法是把我的全部数据域都做成Lucene的索引，然后全部通过Lucene去搜索。但是由于我的很多域是数字，全部转换成 Lucene能接受的字符串，感觉性能不会好。另外如果我想针对搜索的结果做统计，也没法避免需要遍历全部的搜索结果，如果1W个结果就需要2分钟的话，就算不用处理其他的域，也是不能忍受的。

开源软件的好处就是可以读代码。通过阅读Hits的代码，终于找到了解决问题的办法。

Lucene
的代码看起来并不是特别Professional。比如下面这两个Hits的初始化函数。首先里面的q,s,f什么的让人看起来就不是太舒服（其他的代码里还用i,j做循环变量）。其次这两个函数只有o那一个赋值不一样，明显应该只写一个，让另一个来调用。最后程序里面直接用了50这个常数，编程的大忌。（50在其他函数里面也有）

Hits(Searcher s, Query q, Filter f) throws IOException {
    weight =
q.weight(s);
    searcher =
s;
    filter =
f;
    nDeletions =
countDeletions(s);

getMoreDocs(50); // retrieve 100 initially

lengthAtStart = length;
}

Hits(Searcher s, Query q, Filter f, Sort o)
throws IOException {
    weight =
q.weight(s);
    searcher =
s;
    filter =
f;
    sort =
o;
    nDeletions =
countDeletions(s);

getMoreDocs(50); // retrieve 100 initially

lengthAtStart = length;
}
通过这两个函数，应该看出Hits初始化的时候只调入了前100个文档。

一般我们是通过Document doc(int
n)函数来访问的。这个函数里面先判断了有多少数据已经被调入了，如果要访问的数据不在，就去调用getMoreDocs函数，getMoreDocs会取得需要的2倍文档进来。

但是getMoreDocs的代码比较让人疑惑，里面一段代码是这样的：
    int n = min
* 2;    //
double # retrieved
    TopDocs
topDocs = (sort == null) ? searcher.search(weight, filter, n) :
searcher.search(weight, filter, n, sort);
这不成了每次翻倍的时候都要去调search重新查找吗？除非search里面有缓存，否则性能一定指数下降啊！
实际上Hits最终使用的也是TopDocs，Searcher组合来实现输出结果，那不如我们来直接使用下层一点的对象了。我原来的代码是：

Hits hits = searcher.search(query);
for( int i=0;i Document doc
= hits .doc(i );

szTest.add(doc);
}
现在改为：
TopDocs topDoc = searcher.search(query.weight(searcher), null,
100000);//注意最后一个参数，是search返回的结果数量，应该比你最大可能返回的数量大，否则ScoreDoc里面就是你设置的数量。

ScoreDoc[] scoreDocs = topDoc.scoreDocs;
for( int i=0;i Document doc
= searcher.doc(scoreDocs[i].doc );

szTest.add(doc);
}
结果把12000个ID加入ArrayList用时0.4秒，快了几百倍。

等等，还没完。
我只需要ID字段，但是返回整个Doc，其他两个文本Field也返回了。因为Lucene是倒索引保存信息的，每一个文本Field需要重新组合成原始的字符串，这也是要耗时间的。searcher的doc函数有一个可以限定只取部分域的：

Document doc(int n, FieldSelector fieldSelector)

我下面定义一个FieldSelector，只取某一个给定名字的Field
class SpecialFieldSelector implements FieldSelector {
    protected
String m_szFieldName;
    public
SpecialFieldSelector( String szFieldName ) {

m_szFieldName = szFieldName;
    }

    public
FieldSelectorResult accept(String fieldName) {

if( fieldName.equalsIgnoreCase(m_szFieldName)) {

return FieldSelectorResult.LOAD;

}

else {

return FieldSelectorResult.NO_LOAD;

}

}
}
再修改我的代码：
ScoreDoc[] scoreDocs = topDoc.scoreDocs;
ArrayList szTest = new
ArrayList();
FieldSelector fieldSelector = new
SpecialFieldSelector(FIELD_ID);
for( int i=0;i
Document doc = searcher.doc(scoreDocs[i].doc, fieldSelector);

szTest.add(doc);
}
现在返回1.2W个ID耗时0.25秒。虽然比前面只少了大约150毫秒，但是是接近40%的提高了，在负载比较大的应用中还是很重要的。

注：
有些可以借鉴的

西瓜 2010-07-19 11:46 发表评论

Lucene笔记

西瓜 — Fri, 16 Jul 2010 03:04:00 GMT

建议先将关键词进行分词

    // tokenStream分词
    public static String analyze(Analyzer analyzer, String keyword) throws IOException {
        StringBuffer sb = new StringBuffer();
        TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(keyword));
        for (Token token = new Token(); (token = tokenStream.next(token)) != null;) {

            sb.append(token.term() + " ");
        }
        return sb.toString();

    }

设置关键词之间空格的与或关系

queryParser_and.setDefaultOperator(QueryParser.AND_OPERATOR);
queryParser_or.setDefaultOperator(QueryParser.OR_OPERATOR);

过滤特殊字符

Query query_and = queryParser_and.parse(QueryParser.escape(keyword));

遇到多余一个空格后的处理

    /**
     *
     * 把超过一个空格后面的转化为 OR 号表达式
     *
     * @param wd
     * @return eg: ibm t60 mp3 液晶 ibm t60 OR mp3 OR 液晶
     */
    public static String nvl(String value) {
        return value == null ? "" : value;
    }

    public static String parseWd(String wd) {
        String retwd = nvl(wd).replaceAll("　", " ").replaceAll("  ", " ");
        String[] arr = nvl(retwd).split(" ");
        if (arr != null && arr.length > 2) {
            retwd = (arr[0].trim().equals("OR") ? "" : arr[0] + " ") + (arr[1].trim().equals("OR") ? "" : arr[1]);
            for (int i = 2; i < arr.length; i++) {
                if (!arr[i].trim().equals("OR")) {
                    retwd += " OR " + arr[i];
                }
            }
        }
        return retwd;
    }

西瓜 2010-07-16 11:04 发表评论

Lucene 2.9.0 使用

西瓜 — Mon, 12 Jul 2010 03:49:00 GMT

最新2.9的IndexWriter 建立方式：

Directory directory = new SimpleFSDirectory(new File(path),new SimpleFSLockFactory()); // 先要建立directory
IndexWriter writer = new IndexWriter(directory,new WhitespaceAnalyzer(), cover,IndexWriter.MaxFieldLength.UNLIMITED); // 这里最大字段长度无限（大字段是content），cover为true表示覆盖写用于初始化，false用于更新，这里就用 WhitespaceAnalyzer()分词器
Directory directory = new SimpleFSDirectory(new File(path),new SimpleFSLockFactory()); // 先要建立directory
IndexWriter writer = new IndexWriter(directory,new WhitespaceAnalyzer(), cover,IndexWriter.MaxFieldLength.UNLIMITED); // 这里最大字段长度无限（大字段是content），cover为true表示覆盖写用于初始化，false用于更新，这里就用 WhitespaceAnalyzer()分词器

IndexWriter 参数调整

writer.setMergeFactor(50); // 多少个合并一次
writer.setMaxMergeDocs(5000); // 一个segment最多有多少个document．nbsp;
writer.setMergeFactor(50); // 多少个合并一次
writer.setMaxMergeDocs(5000); // 一个segment最多有多少个document．/font>

把其他格式转化为lucene需要的document．式

document．doc = new document．); //每一个doc相当于数据库的一条记录
doc.add(new Field("uid", line.getUid().toString(), Store.YES,Index.NO)); //每一个field，相当于数据库的字段

doc.add(new Field("title", line.getTitle(), Store.NO,Index.ANALYZED));
doc.add(new Field("content", line.getContent(),Store.NO, Index.ANALYZED));
document．doc = new document．); //每一个doc相当于数据库的一条记录
doc.add(new Field("uid", line.getUid().toString(), Store.YES,Index.NO)); //每一个field，相当于数据库的字段

doc.add(new Field("title", line.getTitle(), Store.NO,Index.ANALYZED));
doc.add(new Field("content", line.getContent(),Store.NO, Index.ANALYZED));

向IndexWriter添加doc，可以插入多条doc

writer.adddocument．doc);
writer.adddocument．doc2);
writer.adddocument．doc3);
writer.adddocument．doc);
writer.adddocument．doc2);
writer.adddocument．doc3);

开始写入（close的时候为实际写入过程）

writer.close();
writer = null;
writer.close();
writer = null;

读取写入的索引数

writer.numDocs()
writer.maxDoc()
writer.numDocs()
writer.maxDoc()

在close之前可以进行优化（不建议在建立索引时候使用）

writer.optimize()

2、清空索引
Directory directory = new SimpleFSDirectory(new File(path),new SimpleFSLockFactory());
IndexWriter.unlock(directory); //关键是这一步要进行目录解锁，这里解的是write.lock锁
IndexWriter writer = new IndexWriter(directory,new WhitespaceAnalyzer(), false,IndexWriter.MaxFieldLength.LIMITED);
writer.deleteAll(); //标识删除全部
writer.optimize(); //这个步骤才是实际删除的过程
writer.close();
Directory directory = new SimpleFSDirectory(new File(path),new SimpleFSLockFactory());
IndexWriter.unlock(directory); //关键是这一步要进行目录解锁，这里解的是write.lock锁
IndexWriter writer = new IndexWriter(directory,new WhitespaceAnalyzer(), false,IndexWriter.MaxFieldLength.LIMITED);
writer.deleteAll(); //标识删除全部
writer.optimize(); //这个步骤才是实际删除的过程
writer.close();

3、删除指定索引（和清空差不多）
writer.deletedocument．(new Term("uri", uri)); //这里是删除term满足条件的一条或多条
writer.deletedocument．(query); //这里是删除一个查询出来的内容
writer.deletedocument．(new Term("uri", uri)); //这里是删除term满足条件的一条或多条
writer.deletedocument．(query); //这里是删除一个查询出来的内容

4、更新索引
就是先删除再添加的过程，没有直接update的办法

5、读取建立的索引分词
TermEnum terms = indexReader.terms(new Term(index, ""));
Term term = terms.term(); //获取一条索引
term().field(); //获取索引的field（字段名）
term().text(); //获取索引的值
TermEnum terms = indexReader.terms(new Term(index, ""));
Term term = terms.term(); //获取一条索引
term().field(); //获取索引的field（字段名）
term().text(); //获取索引的值

6、搜索
最新2.9的IndexSearcher 建立方式：

Directory directory = new SimpleFSDirectory(new File(path),new SimpleFSLockFactory());
IndexSearcher indexSearcher = new IndexSearcher(directory, true);
Directory directory = new SimpleFSDirectory(new File(path),new SimpleFSLockFactory());
IndexSearcher indexSearcher = new IndexSearcher(directory, true);

创建查询条件（这里建一个最复杂的，根据多个限定条件查找，并且有的限定条件放在多个field中查找，有精确限定和范围限定）

BooleanQuery bQuery = new BooleanQuery();
Query query1 = null, query2 = null, query3 = null;
BooleanClause.Occur[] flags = new BooleanClause.Occur[] {BooleanClause.Occur.SHOULD, BooleanClause.Occur.SHOULD };
query1 = MultiFieldQueryParser.parse(params.get("keywords"),new String[] { "title", "content" }, flags, new WhitespaceAnalyzer());
bQuery.add(query1, Occur.MUST); //query1是把关键字分别在title和content中匹配！
query2 = new TermQuery(new Term("startgui", params.get("startgui")));
bQuery.add(query2, Occur.MUST); //query2是精确匹配
Long minPriceLong = Long.parseLong(params.get("minPrice"));
Long maxPriceLong = Long.parseLong(params.get("maxPrice"));
query5 = NumericRangeQuery.newLongRange("price", minPriceLong,
maxPriceLong, true, true);
bQuery.add(query5, Occur.MUST); //query3是按范围匹配
BooleanQuery bQuery = new BooleanQuery();
Query query1 = null, query2 = null, query3 = null;
BooleanClause.Occur[] flags = new BooleanClause.Occur[] {BooleanClause.Occur.SHOULD, BooleanClause.Occur.SHOULD };
query1 = MultiFieldQueryParser.parse(params.get("keywords"),new String[] { "title", "content" }, flags, new WhitespaceAnalyzer());
bQuery.add(query1, Occur.MUST); //query1是把关键字分别在title和content中匹配！
query2 = new TermQuery(new Term("startgui", params.get("startgui")));
bQuery.add(query2, Occur.MUST); //query2是精确匹配
Long minPriceLong = Long.parseLong(params.get("minPrice"));
Long maxPriceLong = Long.parseLong(params.get("maxPrice"));
query5 = NumericRangeQuery.newLongRange("price", minPriceLong,
maxPriceLong, true, true);
bQuery.add(query5, Occur.MUST); //query3是按范围匹配

排序情况

SortField[] sortField = new SortField[] { SortField.FIELD_SCORE,new SortField(null, SortField.DOC, true) }; // 默认排序
SortField sortPriceField = new SortField("sortPrice",SortField.LONG, sortPrice);
sortField = new SortField[] { sortPriceField,SortField.FIELD_SCORE,new SortField(null, SortField.DOC, true) }; //按自定义价格排序
SortField[] sortField = new SortField[] { SortField.FIELD_SCORE,new SortField(null, SortField.DOC, true) }; // 默认排序
SortField sortPriceField = new SortField("sortPrice",SortField.LONG, sortPrice);
sortField = new SortField[] { sortPriceField,SortField.FIELD_SCORE,new SortField(null, SortField.DOC, true) }; //按自定义价格排序

2.9最新查询方式，只是获取id

TopFieldDocs docs = indexSearcher.search(query, null, indexSearcher.maxDoc(), new Sort(sortField));
ScoreDoc[] scoreDocs = docs.scoreDocs;
docCount = scoreDocs.length;
TopFieldDocs docs = indexSearcher.search(query, null, indexSearcher.maxDoc(), new Sort(sortField));
ScoreDoc[] scoreDocs = docs.scoreDocs;
docCount = scoreDocs.length;

加入分页

List int max = ((startIndex + pageSize) >= docCount) ? docCount : (startIndex + pageSize); // max防止arrayindexoutofbounds
for (int i = startIndex; i < max; i++) {
    ScoreDoc scoredoc = scoreDocs[i];
    document．doc = indexSearcher.doc(scoredoc.doc); // 新的使用方法
    docList.add(doc);
}
List int max = ((startIndex + pageSize) >= docCount) ? docCount : (startIndex + pageSize); // max防止arrayindexoutofbounds
for (int i = startIndex; i < max; i++) {
ScoreDoc scoredoc = scoreDocs[i];
document．doc = indexSearcher.doc(scoredoc.doc); // 新的使用方法
docList.add(doc);
}

循环解析docList中的document．取所需要的值

doc.get("title");

...

7、关于分词
注意建立索引和搜索时候的analyzer必须一致，而且建立索引和搜索时候目录也要保持一致

lucene自带的一些分词器

StandardAnalyzer() 会按空格和标点符号划分

WhitespaceAnalyzer() 会按空格划分

中文分词这里使用的是paoding的中文分词

是先按词库划分，当词库中不存在时按二分法进行划分

西瓜 2010-07-12 11:49 发表评论