BlogJava-CONAN ZONE-文章分类-Solr

Solr 获取searcher实例分析(转)

CONAN — Wed, 13 Jun 2012 06:17:00 GMT

每一个搜索请求都会持有一个searcher的引用，而不是创建一个新的searcher，处理完后会释放掉这个引用。

Solr在初始化化时，通过SolrCore核心类要做很多的初始化工作，包过读取solrconfig.xml配置文件里的内容，代码如下：

booleanQueryMaxClauseCount(); //设置布尔查询最多个数。
initListeners(); //读取配置文件的search实例的监听器。
    initDeletionPolicy();
    initIndex();
    initWriters();
    initQParsers();
    initValueSourceParsers();
    this.searchComponents = loadSearchComponents();
    // Processors initialized before the handlers
    updateProcessorChains = loadUpdateProcessorChains();
    reqHandlers = new RequestHandlers(this);
    reqHandlers.initHandlersFromConfig( solrConfig );
    highlighter = initHighLighter();
    // Handle things that should eventually go away
    initDeprecatedSupport();

loadSearchComponents方法就是初始化indexSearch实例。详细说明如下：
getSearcher – (forceNew, returnSearcher, waitSearcher-Futures)
关注solr全局三个点调用getSearcher函数 : solrCore初始化时(false, false, null)，QueryComponent处理查询
请求时(false, true, null)，UpdateHandler在处理commit请求时(true, false, new Future[1])
---------
1.solrCore初始化时
根据solrconfig配置的IndexReaderFactory&DirectoryFactory获取索引的IndexReader，再使用这个reader
封装一个SolrIndexReader，再使用这个SolrIndexReader封装一个RefCounted(searcher的引用计数器，当搜索
组件获取一个组件后引用++，用完后调用close引用--，当引用数为0时将这个引用从core管理的一个当前被使用的
searcher的链表移除，同时调用searcher.close回收资源)，将这个引用添加到core管理的一个当前被使用的searcher
的链表里如果firstSearcherListeners不为空则回调这些监听器，这个回调是交给core的一个newSingleThreadExecutor去
做的，再往这个线程池里添加一个任务:将这个RefCounted设置为core当前最新的searcher的引用计数器
最后返回null，因为returnSearcher=false
在solrCore初始化时这样做的主要目的是在初始化时就加载好IndexSearcher，搜索请求来了之后能立即返回，
而不必等待加载IndexSearcher
---------
2.QueryComponent处理查询请求时
由于core当前最新的searcher的引用计数器不为null且这个获取IndexSearcher的请求不是强制要求获取最新的，且
returnSearcher=true故直接返回core当前最新的searcher的引用计数器，且这个引用计数器做++
这里面还有段当前searcher的引用计数器为null的逻辑，但是没有发现有什么情况会导致这种情况发生故不累述了
---------
3.UpdateHandler在处理commit请求时
首先到core管理的一个当前被使用的searcher的链表里获取目前最新的searcher；同时会加载索引目录下的
index.properties文件(如果存在的话)，拿到KEY=’index’的值，其指明目前索引的存放地方；如果获取的目录和当前
最新的searcher使用的目录一致且solrConfig.reopenReaders为true则获取通过searher.reader.reopen获取
最新的reader -> 封装成searcher，否则直接IndexReader.open获取reader。
获取到searcher后的一段逻辑[RefCount封装，添加到searchers链表]和core初始化时是一样的，接下来的逻辑是
如果solrConfig.useColdSearcher为TRUE其当前searcher的引用为null-导致来自QueryComponent的请求阻塞
[现在还没发现什么情况会导致searcher的引用为null]
立即将这个新的searcher的引用设置为core当前最新的searcher的引用计数器，这样来自QueryComponent的请求
拿到这个引用后返回，当时这时这个新建的searcher是没有经过其前一个searcher的cache热身的，同时这样会导致这个
新建的searcher不会进行热身活动
如果solrConfig.useColdSearcher为FALSE则会往线程池里添加一个热身的任务
如果newSearcherListeners不为空则回调这些监听器，也是给线程池的任务
最后如果先前没有做将新的searcher的引用设置为core当前最新的searcher的引用计数器的行为的话，则往线程池添加
一个任务 – 将新的searcher的引用设置为core当前最新的searcher的引用计数器
最后返回null，因为returnSearcher=false

from:http://blog.sina.com.cn/s/blog_56fd58ab0100v3tp.html

CONAN 2012-06-13 14:17 发表评论

olr 性能调优 NO_NORMS(转)

CONAN — Wed, 13 Jun 2012 06:16:00 GMT

indexed fields

indexed fields 的数量将会影响以下的一些性能：

索引时的时候的内存使用量
索引段的合并时间
优化时间
索引的大小

我们可以通过将 omitNorms=“true” 来减少indexed fields数量增加所带来的影响。

stored fields

Retrieving the stored fields 确实是一种开销。这个开销，受每个文档所存储的字节影响很大。每个文档的所占用的空间越大，文档就显的更稀疏，这样从硬盘中读取数据，就需要更多的i/o操作（通常，我们在存储比较大的域的时候，就会考虑这样的事情，比如存储一篇文章的文档。）

可以考虑将比较大的域放到solr外面来存储。如果你觉得这样做会有些别扭的话，可以考虑使用压缩的域，但是这样会加重cpu在存储和读取域的时候的负担。不过这样却是可以较少i/0的负担。

如果，你并不是总是使用 stored fields 的话，可以使用stored field的延迟加载，这样可以节省很多的性能，尤其是使用compressed field 的时候。

Configuration Considerations

mergeFactor

这个是合并因子，这个参数大概决定了segment(索引段)的数量。

合并因子这个值告诉lucene，在什么时候，要将几个segment合并成为一个segment, 合并因子就像是一个数字系统的基数一样。

比如说，如果你将合并因子设成10，那么每往索引中添加1000个文档的时候，就会创建一个新的索引段。当第10个大小为1000的索引段添加进来的时候，这十个索引段就会被合并成一个大小为10，000的索引段。当十个大小为10，000的索引段生成的时候，它们就会被合并成一个大小为100，000 的索引段。如此类推下去。

这个值可以在 solrconfig.xml 中的 *mainIndex*中设置。（不用管indexDefaults中设置）

mergeFactor Tradeoffs

较高的合并因子

会提高索引速度
较低频率的合并，会导致更多的索引文件，这会降低索引的搜索效率

较低的合并因子

较少数量的索引文件，能加快索引的搜索速度。
较高频率的合并，会降低索引的速度。

Cache autoWarm Count Considerations

当一个新的 searcher 打开的时候，它缓存可以被预热，或者说使用从旧的searcher的缓存的数据来“自动加热”。autowarmCount是这样的一个参数，它表示从旧缓存中拷贝到新缓存中的对象数量。autowarmCount这个参数将会影响“自动预热”的时间。有些时候，我们需要一些折中的考虑，seacher启动的时间和缓存加热的程度。当然啦，缓存加热的程度越好，使用的时间就会越长，但往往，我们并不希望过长的seacher启动时间。这个autowarm 参数可以在solrconfig.xml文件中被设置。

详细的配置可以参考solr的wiki。

Cache hit rate（缓存命中率）

我们可以通过solr的admin界面来查看缓存的状态信息。提高solr缓存的大小往往是提高性能的捷径。当你使用面搜索的时候，你或许可以注意一下filterCache,这个是由solr实现的缓存。

Explicit Warming of Sort Fields

如果你有许多域是基于排序的，那么你可以在"newSearcher"和"firstSearcher"event listeners中添加一些明显需要预热的查询，这样FieldCache 就会缓存这部分内容。

Optimization Considerations

优化索引，是我们经常会做的事情，比如，当我们建立好索引，然后这个索引不会再变更的情况，我们就会做一次优化了。

但，如果你的索引经常会改变，那么你就需要好好的考虑下面的因素的。

当越来越多的索引段被加进索引，查询的性能就会降低， lucene对索引段的数量有一个上限的限制，当超过这个限制的时候，索引段可以自动合并成为一个。
在同样没有缓存的情况下，一个没有经过优化的索引的性能会比经过优化的索引的性能少10%……
自动加热的时间将会变长，因为它依赖于搜索。
优化将会对索引的分发产生影响。
在优化期间，文件的大小将会是索引的两倍，不过最终将会回到它原来的大小，或者会更小一点。

优化，会将所有的索引段合并成为一个索引段，所以，优化这个操作其实可以帮助避免“too many files”这个问题，这个错误是由文件系统抛出的。

Updates and Commit Frequency Tradeoffs

如果从机太经常从主机更新的话，从机的性能是会受到影响的。为了避免，由于这个问题而引起的性能下降，我们还必须了解从机是怎样执行更新的，这样我们才能更准确去调节一些相关的参数（commit的频率，spappullers,autowarming/autocount）,这样，从机的更新才不会太频繁。

执行commit操作会让solr新生成一个snapshot。如果将postCommit参数设成true的话，optimization也会执行snapShot.
slave上的Snappuller程序一般是在crontab上面执行的，它会去master询问，有没有新版的snapshot。一旦发现新的版本，slave就会把它下载下来，然后snapinstall.
每次当一个新的searcher被open的时候，会有一个缓存预热的过程，预热之后，新的索引才会交付使用。

这里讨论三个有关的参数：

number/frequency of snapshots ----snapshot的频率。
snappullers 是 在crontab中的，它当然可以每秒一次、每天一次、或者其他的时间间隔一次运行。它运行的时候，只会下载slave上没有的，并且最新的版本。
Cache autowarming 可以在solrconfig.xml文件中配置。

如果，你想要的效果是频繁的更新slave上的索引，以便这样看起来比较像“实时索引”。那么，你就需要让snapshot尽可能频繁的运行，然后也让 snappuller频繁的运行。这样，我们或许可以每5分钟更新一次，并且还能取得不错的性能，当然啦，cach的命中率是很重要的，恩，缓存的加热时间也将会影响到更新的频繁度。

cache对性能是很重要的。一方面，新的缓存必须拥有足够的缓存量，这样接下来的的查询才能够从缓存中受益。另一方面，缓存的预热将可能占用很长一段时间，尤其是，它其实是只使用一个线程，和一个cpu在工作。snapinstaller太频繁的话，solr slave将会处于一个不太理想的状态，可能它还在预热一个新的缓存，然而一个更新的searcher被opern了。

怎么解决这样的一个问题呢，我们可能会取消第一个seacher，然后去处理一个更新seacher，也即是第二个。然而有可能第二个seacher 还没有被使用上的时候，第三个又过来了。看吧，一个恶性的循环，不是。当然也有可能，我们刚刚预热好的时候就开始新一轮的缓存预热，其实，这样缓存的作用压根就没有能体现出来。出现这种情况的时候，降低snapshot的频率才是硬道理。

Query Response Compression

在有些情况下，我们可以考虑将solr xml response 压缩后才输出。如果response非常大，就会触及NIc i/o限制。

当然压缩这个操作将会增加cpu的负担，其实，solr一个典型的依赖于cpu处理速度的服务，增加这个压缩的操作，将无疑会降低查询性能。但是，压缩后的数据将会是压缩前的数据的6分之一的大小。然而solr的查询性能也会有15%左右的消耗。

至于怎样配置这个功能，要看你使用的什么服务器而定，可以查阅相关的文档。

Embedded vs HTTP Post

使用embeded 来建立索引，将会比使用xml格式来建立索引快50%。

RAM Usage Considerations（内存方面的考虑）

OutOfMemoryErrors

如果你的solr实例没有被指定足够多的内存的话，java virtual machine也许会抛outof memoryError，这个并不对索引数据产生影响。但是这个时候，任何的 adds/deletes/commits操作都是不能够成功的。

Memory allocated to the Java VM

最简单的解决这个方法就是，当然前提是java virtual machine 还没有使用掉你全部的内存，增加运行solr的java虚拟机的内存。

Factors affecting memory usage（影响内存使用量的因素）

我想，你或许也会考虑怎样去减少solr的内存使用量。

其中的一个因素就是input document的大小。

当我们使用xml执行add操作的时候，就会有两个限制。

document中的field都是会被存进内存的，field有个属性叫maxFieldLength，它或许能帮上忙。
每增加一个域，也是会增加内存的使用的。

CONAN 2012-06-13 14:16 发表评论

Solr Cache使用介绍及分析(转)

CONAN — Wed, 13 Jun 2012 06:12:00 GMT

本文将介绍Solr查询中涉及到的Cache使用及相关的实现。Solr查询的核心类就是SolrIndexSearcher，

每个core通常在同一时刻只由当前的SolrIndexSearcher供上层的handler使用

（当切换SolrIndexSearcher时可能会有两个同时提供服务），而Solr的各种Cache是依附于SolrIndexSearcher的，SolrIndexSearcher在则Cache 生，SolrIndexSearcher亡则Cache被清空close掉。

Solr中的应用Cache有filterCache、 queryResultCache、documentCache等，这些Cache都是SolrCache的实现类，

并且是 SolrIndexSearcher的成员变量，各自有着不同的逻辑和使命，下面分别予以介绍和分析。

1、SolrCache接口实现类

Solr提供了两种SolrCache接口实现类：solr.search.LRUCache和solr.search.FastLRUCache。

FastLRUCache是1.4版本中引入的，其速度在普遍意义上要比LRUCache更fast些。
下面是对SolrCache接口主要方法的注释：

public interface SolrCache{publicObjectinit(Mapargs,Objectpersistence, CacheRegenerator regenerator);
publicintsize();
publicObjectput(Objectkey,Objectvalue);
publicObjectget(Objectkey);publicvoidclear();voidwarm(SolrIndexSearcher searcher, SolrCache old)throwsIOException;
publicvoidclose();}

1.1、solr.search.LRUCache

LRUCache可配置参数如下：

1）size：cache中可保存的最大的项数，默认是1024
2）initialSize：cache初始化时的大小，默认是1024。
3）autowarmCount：
当切换SolrIndexSearcher时，可以对新生成的SolrIndexSearcher做autowarm（预热）处理。
autowarmCount表示从旧的SolrIndexSearcher中取多少项来在新的SolrIndexSearcher中被重新生成，

如何重新生成由CacheRegenerator实现。在当前的1.4版本的Solr中，这个autowarmCount只能取预热的项数，

将来的4.0版本可以指定为已有cache项数的百分比，以便能更好的平衡autowarm的开销及效果。

如果不指定该参数，则表示不做autowarm处理。实现上，LRUCache直接使用LinkedHashMap来缓存数据，

由initialSize来限定cache的大小，淘汰策略也是使用LinkedHashMap的内置的LRU方式，

读写操作都是对map的全局锁，所以并发性效果方面稍差。

1.2、solr.search.FastLRUCache

在配置方面，FastLRUCache除了需要LRUCache的参数，还可有选择性的指定下面的参数：

1）minSize：当cache达到它的最大数，淘汰策略使其降到minSize大小，默认是0.9*size。
2）acceptableSize：当淘汰数据时，期望能降到minSize，但可能会做不到，则可勉为其难的降到acceptableSize，

默认是0.95*size。

3）cleanupThread：相比LRUCache是在put操作中同步进行淘汰工作，FastLRUCache可选择由独立的线程来做，

也就是配置cleanupThread的时候。当cache大小很大时，每一次的淘汰数据就可能会花费较长时间，

这对于提供查询请求的线程来说就不太合适，由独立的后台线程来做就很有必要。实现上，

FastLRUCache内部使用了ConcurrentLRUCache来缓存数据，它是个加了LRU淘汰策略的ConcurrentHashMap，

所以其并发性要好很多，这也是多数Java版Cache的极典型实现。

2、filterCache

filterCache存储了无序的lucene document id集合，该cache有3种用途：

1）filterCache
存储了filter queries(“fq”参数)得到的document id集合结果。Solr中的query参数有两种，即q和fq。如果fq存在，

Solr是先查询fq（因为fq可以多个，所以多个fq查询是个取结果交集的过程），之后将fq结果和q结果取并。

在这一过程中，filterCache就是key为单个fq（类型为Query），value为documentid集合（类型为DocSet）的cache。

对于fq为range query来说，filterCache表现出其有价值的一面。
2）filterCache
还可用于facet查询（http://wiki.apache.org/solr/SolrFacetingOverview），facet查询中各
facet的计数是通过对满足query条件的document
id集合（可涉及到filterCache）的处理得到的。因为统计各facet计数可能会涉及到所有的doc
id，所以filterCache的大小需要能容下索引的文档数。
3）如果solfconfig.xml中配置了，

那么如果查询有filter（此filter是一需要过滤的DocSet，而不是fq，我未见得它有什么用），

则使用filterCache。

下面是filterCache的配置示例：

对于是否使用filterCache及如何配置filterCache大小，需要根据应用特点、统计、效果、经验等各方面来评估。

对于使用fq、facet的应用，对filterCache的调优是很有必要的。

3、queryResultCache

顾名思义，queryResultCache是对查询结果的缓存（SolrIndexSearcher中的cache缓存的都是document id set），
这个结果就是针对查询条件的完全有序的结果。下面是它的配置示例：

缓存的key是个什么结构呢？就是下面的类（key的hashcode就是QueryResultKey的成员变量hc）：

publicQueryResultKey(Query query, Listfilters, Sort sort,intnc_flags)

 {

     this.query=query;

     this.sort=sort;

     this.filters=filters;

     this.nc_flags=nc_flags;

     inth=query.hashCode();

     if(filters!=null)h^=filters.hashCode();

     sfields=(this.sort!=null)?this.sort.getSort():defaultSort;

    for(SortField sf:sfields)

    { // mix the bits so that sortFields are position dependent

 // so that a,b won't hash to the same value as b,ah^=(h<<8)|(h>>>25);

 // reversible hashif(sf.getField()!=null)h+=sf.getField().hashCode();h+=sf.getType();

 if(sf.getReverse())h=~h;if(sf.getLocale()!=null)h+=sf.getLocale().hashCode();

 if(sf.getFactory()!=null)h+=sf.getFactory().hashCode();}hc=h;

 }

因为查询参数是有start和rows的，所以某个QueryResultKey可能命中了cache，但start和rows却不在cache的
document id set范围内。当然，document id
set是越大命中的概率越大，但这也会很浪费内存，这就需要个参数：queryResultWindowSize来指定document id
set的大小。Solr中默认取值为50,可配置，WIKI上的解释很深简单明了：

50
相比filterCache来说，queryResultCache内存使用上要更少一些，但它的效果如何就很难说。
就索引数据来说，通常我们只是在索引上存储应用主键id，再从数据库等数据源获取其他需要的字段。
这使得查询过程变成，首先通过solr得到document id set，再由Solr得到应用id集合，
最后从外部数据源得到完成的查询结果。如果对查询结果正确性没有苛刻的要求，可以在Solr之外独立的缓存完整的

查询结果（定时作废），这时queryResultCache就不是很有必要，否则可以考虑使用queryResultCache。当然，如果发现在
queryResultCache生命周期内，query重合度很低，也不是很有必要开着它。

4、documentCache

又顾名思义，documentCache用来保存对的。如果使用documentCache，就尽可能开大



些，至少要大过 *，否则因为cache的淘汰，

一次请求期间还需要重新获取document一次。也要注意document中存储的字段的多少，避免大量的内存消耗。

下面是documentCache的配置示例：

5、User/Generic Caches 

Solr支持自定义Cache，只需要实现自定义的regenerator即可，下面是配置示例：

6、The Lucene FieldCache 

lucene中有相对低级别的FieldCache，Solr并不对它做管理，所以，lucene的FieldCache还是由lucene的IndexSearcher来搞。

7、autowarm

上面有提到autowarm，autowarm触发的时机有两个，一个是创建第一个Searcher时（firstSearcher），一个是创建个新



Searcher（newSearcher）来代替当前的Searcher。在Searcher提供请求服务前，Searcher中的各个Cache可以

做warm处理，处理的地方通常是SolrCache的init方法，而不同cache的warm策略也不一样。

1）filterCache：filterCache注册了下面的CacheRegenerator，就是由旧的key查询索引得到新值put到新cache中。solrConfig.filterCacheConfig.setRegenerator(newCacheRegenerator(){publicbooleanregenerateItem

(SolrIndexSearcher newSearcher, SolrCache newCache, SolrCache oldCache,ObjectoldKey,ObjectoldVal)

throwsIOException{newSearcher.cacheDocSet((Query)oldKey,null,false);returntrue;}});

 2）queryResultCache：queryResultCache的autowarm不在SolrCache的init（也就是说，不是去遍历已

 有的queryResultCache中的query key执行查询），而是通过SolrEventListener接口的void

newSearcher(SolrIndexSearcher newSearcher, SolrIndexSearcher

currentSearcher)方法，来执行配置中特定的query查询，达到显示的预热lucene FieldCache的效果。

queryResultCache的配置示例如下：

anythingname desc price desc populartiy desc



anything

name desc, price desc, populartiy desc

anythingcategory

inStock:trueprice:[0 TO 100]

3）documentCache：因为新索引的document id和索引文档的对应关系发生变化，所以documentCache没有warm的过程，

落得白茫茫一片真干净。尽管autowarm很好，也要注意autowarm带来的开销，这需要在实际中检验其warm的开销，

也要注意Searcher的切换频率，避免因为warm和切换影响Searcher提供正常的查询服务。



8、参考文章 

http://wiki.apache.org/solr/SolrCaching

CONAN 2012-06-13 14:12 发表评论

solr 的客户端调用solrj 建索引+分页查询

CONAN — Wed, 30 May 2012 07:05:00 GMT

摘要: 在 solr 3.5 配置及应用(一) 讲过一了 solr 3.5的详细配置，本节我们讲利用solr 的客户端调用solr的应用了！一、利用SolrJ操作solr API 使用SolrJ操作Solr会比利用httpClient来操作Solr要简单。SolrJ是封装了httpClient方法，来操作solr的API的。SolrJ底层还... 阅读全文

CONAN 2012-05-30 15:05 发表评论

solr的facet查询

CONAN — Wed, 30 May 2012 06:52:00 GMT

solr将以导航为目的的查询结果称为facet. 它并不会修改查询结果信息, 只是在查询结果上根据分类添加了count信息, 然后用户根据count信息做进一步的查询, 比如淘宝的查询列表中, 上面会表示不同的类目相关查询结果的数量.

比如搜索数码相机, 在搜索结果栏会根据厂商, 分辨率等维度列出, 这里厂商, 分辨率就是一个个facet.

然后在厂商下面会有nikon, canon, sony等品牌, 这个叫约束(constraints)

接下来是根据选择, 列出当前的导航路径, 这个叫面包屑(breadcrumb).

solr有几种facet:
普通facet, 比如从厂商品牌的维度建立fact
查询facet, 比如根据价格查询时, 将根据价格, 设置多个区间, 比如0-10, 10-20, 20-30等
日期facet, 也是一种特殊的范围查询, 比如按照月份进行facet.

facet的主要好处就是可以任意对搜索条件进行组合, 避免无效搜索, 改善搜索体验.

facet都是在查询时通过参数指定. 比如
在http api中这样写:

"&facet=true&facet.field=manu"

java代码这样写：

new SolrQuery("*:*").setFacet(true).addFacetField("manu");

而xml返回的结果为这样：

通过java代码可以这样获取facet结果：

List<FacetField> facetFields = queryResponse.getFacetFields();

在已有的查询基础上增加facet query,可以这样写：

solrQuery.addFacetQuery("quality:[* TO 10]")

比如对价格按照指定的区间进行facet, 可以这样加上facet后缀:

&facet=true&facet.query=price:[* TO 100]
&facet.query=price:[100 TO 200];&facet.query=[price:200 TO 300]
&facet.query=price:[300 TO 400];&facet.query=[price:400 TO 500]
&facet.query=price:[500 TO *]

如果要对价格在400到500期间的产品做进一步的搜索, 那么可以这样写(使用了solr的过滤查询):

引用

http://localhost:8983/solr/select?q=camera &facet=on&facet.field=manu&facet.field=camera_type &fq=price:[400 to 500]

注意这里的facet field不再包含price了

如果这里对类型做进一步的查询, 那么query语句可以这样写:

引用

http://localhost:8983/solr/select?q=camera &facet=on&facet.field=manu &fq=price:[400 to 500] &fq=camera_type:SLR

facet的使用场景:
1.类目导航
2.自动提示, 需要借助一个支持多值的tag field.
3.热门关键词排行, 也需要借助一个tag field

CONAN 2012-05-30 14:52 发表评论

新版SolrCloud概述

CONAN — Wed, 30 May 2012 06:47:00 GMT

在Lucene/Solr的SVN trunk中的SolrCloud已经可用, 在即将发布的4.0版本中将正式包含.

目前SolrCloud已经成熟, 可以支持分布式索引和分布式搜索. 下面是我们一个项目采用新的SolrCloud的部署结构图:

看起来是否非常简单? 下面我们看看内部的一些实现细节.

SolrCloud功能和架构
下面是SolrCloud一些不错的功能:

中心化集群配置
自动容灾
近实时搜索
领导选举
索引持久化

另外SolrCloud也能被配置成:
分片(shard)索引
每个shard可以有一个或多个副本(replica)

多个shard和replica可以组成一个Collection(从图中可以看出就是一个SolrCloud), 多个Collection可以部署到一个SolrCloud集群. 而一个搜索请求可以同时搜索多个Collection. 其工作流程就像下图中那样.

SolrCloud Shard, Replica, Replication
就像上图那样, 一个新的doc将发送到一个SolrCloud集群中任何一个节点. doc能自动选择发送到哪一个Shard, 如果Shard有多个副本, doc会自动进行同步, 与原来的master/slave结构有所不同, 数据同步是实时的(原来则是定期批量同步).

集群配置
SolrCloud集群的所有的配置存储在ZooKeeper. 一旦一个SolrCloud节点启动, 该节点的配置信息将发送到ZooKeeper上存储.

Shard Replica除了作为容灾备份存在, 另外一个作用就是分散查询请求, 提高整个集群的查询能力.

索引处理
索引文档的更新在Shard和Replica之间是自动和实时的. 因为不存在master server, doc可以发送到任何一个SolrCloud(也就是一个Collection), 然后由SolrCloud完成剩下的事情. 这样就不再存在以前master/slave的单点问题.

搜索方式
有三种不同的搜索方式:
在单个Solr实例上搜索
在单个Collection上搜索(即在一个Collection的多个Shard上搜索)
在指定的Shard上搜索
在多个Collection上搜索, 并将最后merge的结果返回.

运维管理
除了原来的标准core admin, 还增加了其他方式:
在一个Collection上创建一个Shard
新建一个Collection
增加节点.

下一步计划
http://wiki.apache.org/solr/NewSolrCloudDesign
有新的SolrCloud设计方案.

CONAN 2012-05-30 14:47 发表评论

[译]lucene&solr 2011年盘点

CONAN — Wed, 30 May 2012 06:44:00 GMT

原文:http://java.dzone.com/articles/lucene-solr-year-2011-review

2011年已经过去, 在这里针对本年lucene和solr领域发生的点点滴滴进行一下回顾, 也算是对lucene和solr的一个盘点.

lucene成为apache基金会项目已逾十年(实际上lucene存在的历史已超过10年), solr 作为apache基金项目也差不多度过了六个春秋. 而这两个项目的发展离不开Otis(http://twitter.com/otisg )的长期努力.

在这一年里, solr和lucene发生了非常显著的变化, 增加了大量新的功能, 而这个变化可以说超过以往任何一年.

其中最激动人心的功能莫过于近实时搜索功能(Near Real-Time search http://search-lucene.com/?q=NRT )的实现, 即对文档的修改会立马出现在搜索结果中. 虽然NRT依然还在继续改进中, 但是很多用户已经开始使用该功能.

字段折叠(Field Collapsing http://wiki.apache.org/solr/FieldCollapsing ) 也是solr社区中长期以来期待的一个功能. 这个功能已在今年实现. 现在solr和lucene用户可以基于字段和查询条件对结果集进行进行分组. 并实现了对分组进行控制. 此外还可以基于分组进行facet运算(而以前只能基于文档).

在这一年, lucene也引入了faceting module(https://issues.apache.org/jira/browse/LUCENE-3079 ), 从此以后, facet将不再是solr的专利. lucene用户可以进行facet运算了.

从今年开始, 你可以通过使用Join module(http://wiki.apache.org/solr/Join ) 对父子关联的文档建索引, 这样我们可以在查询的过程中根据文档索引将父子文档进行连接.

2011年, 在多语言支持方面(http://wiki.apache.org/solr/LanguageAnalysis#Stemming ) ,solr和lucene也取得了重大突破: 加入了KStemFilter English stemmer(http://wiki.apache.org/solr/LanguageAnalysis#Notes_about_solr.KStemFilterFactory ) , 提供了对Unicode 4完整的支持, 增加了对中文和日文的支持, 增加了一个新的stemmer保护机制. 降低了synonym filter对内存的消耗. 其中最大的一个增强是集成了Hunspell(http://wiki.apache.org/solr/LanguageAnalysis#Notes_about_solr.HunspellStemFilterFactory ), 这样可以使用OpenOffice所支持的语言进行stemming处理.

lucene 3.5.0的发布, 大幅度的降低了term词典的内存消耗(在对term词典处理时, 比以前减少了3~5倍).

以前在使用lucene的时候, 如果对大数据量的搜索结果进行分页处理, 从头翻到尾会出现问题. 而在lucene 3.5.0这个版本, 通过引入searchAfter方法进行了彻底的解决.

在这一年, lucene和solr提供了一个新的, 更高效, 更可靠的基于Term Vector的高亮功能.

在这一年, solr集成了扩展的Dismax查询解析器(http://search-lucene.com/?q=Extended+Dismax ), 进一步提高了搜索结果的质量.

这一年, 你可以使用函数(http://wiki.apache.org/solr/FunctionQuery#Sort_By_Function )对搜索结果进行排序(比如根据某个值到指定点的距离进行排序), 并且提供了一个新的根据空间搜索过滤器.

solr也提供了一个新的, 基于FST机器人(可以显著的降低内存消耗)的suggest (http://wiki.apache.org/solr/Suggester )/自动完成搜索功能, 如果你对这个功能感兴趣, 可以关注一下Sematext (http://sematext.com/products/autocomplete/index.html )提供的自动完成搜索功能.

这里还需要提到的就是solr即将提供的新的事务日志(transaction log https://issues.apache.org/jira/browse/SOLR-2700 )支持, 该支持将实现实时返回(real-time get https://issues.apache.org/jira/browse/SOLR-2656 )的功能, 即在添加一个文档之后你能立即根据id返回该文档. 事务日志也将用于SolrCloud分布式节点的恢复.

说到SolrCloud(http://wiki.apache.org/solr/SolrCloud ) 这里(http://blog.sematext.com/2011/09/14/solr-digest-spring-summer-2011-part-2-solr-cloud-and-near-real-time-search/ )还有一篇介绍. 对于SolrCloud, 用一句话来概括, 就是运用最新的设计原则并借助其他软件模块(比如zookeeper)更快速的搭建一套更强大solr分布式集群. 其核心思想就是拒绝单点故障, 采用中心化的集群和配置管理, 打破原有的master-slave架构, 做到容灾自动切换和动态调整.

2010年将两个项目的开发进行整合之后, 这两个项目的发展非常迅猛. 在2011年, lucene和solr在众多committer们的大力支持下发布了5个版本. 三月, lucene和solr 3.1版本发布, 3个月后的6月4日, 3.2版本发布. 一个月之后, 7月1日, lucene和solr 3.3版本发布. 9月14日, 3.4版本发布, 11月, 3.5.0版本顺利发布.

在2011年, lucene和solr相关的会议也不少, 首先登场是是5月份在旧金山举行的Lucene Revolution, otis在大会上做了题为"Search Analytics: What? Why? How?"(http://java.dzone.com/articles/lucene-solr-year-2011-review )的演讲, 其他干货猛击这里 (http://lucenerevolution.com/2011/agenda ) . 在六月份的Buzzwords大会上, otis在大会上做了"Search Analytics: What? Why? How?"的升级版演讲. 相关资料可参考官方网站: http://berlinbuzzwords.de . 10月份, 在巴塞罗那举行了专门针对lucene和solr的 Lucene Eurocon 2011 大会. Otis 在大会上做了主题为"Search Analytics: Business Value & BigData NoSQL Backend"(http://www.lucidimagination.com/sites/default/files/file/Eurocon2011/otis_gospodnetic_search_analytics_lucene_eurocon_2011.ppt )的主题演讲, 而Rafał(http://twitter.com//kucrafal )在大会上做了"Explaining & Visualizing Solr 'explain' information"(http://www.lucidimagination.com/sites/default/files/file/Eurocon2011/Understanding%20and%20Visualizing%20Solr%20Explain%20information%20-%20Solr.pl%20-%20version%202.pdf )的演讲.

在2011年, lucene和solr又迎来了一批新的志同道合者:
•Andi Vajda
•Chris Male
•Dawid Weiss
•Erick Erickson
•Jan Høydahl
•Martin van Groningen
•Stanisław Osiński

对于一个成功的开源项目, 相关的图书对使用者也是必不可少. 虽然今年Lucene in Action没有推出新的版本, 但是Rafał Kuć在今年7月给我们带来了它的新作"Solr 3.1 Cookbook". 在该书中, 为解决solr的一些常见问题, Rafał给出了他的答案. 而David Smiley 和 Eric Pugh在今年十一月推出了"Apache Solr 3 Enterprise Search Server"的新版本.

至于2012年, lucene和solr会带来什么新的惊喜, 让我们拭目以待.

CONAN 2012-05-30 14:44 发表评论

使用SolrJ生成索引

CONAN — Wed, 30 May 2012 06:43:00 GMT

代码很简单, 直接看就明白了, 可以在实际工作中借鉴, 原文在这里. 这个例子使用两种方式来演示如何生成全量索引:
一个是从db中通过sql生成全量索引
一个是通过tika解析文件生成全量索引

package SolrJExample;

import org.apache.solr.client.solrj.SolrServerException;
import org.apache.solr.client.solrj.impl.StreamingUpdateSolrServer;
import org.apache.solr.client.solrj.impl.XMLResponseParser;
import org.apache.solr.client.solrj.response.UpdateResponse;
import org.apache.solr.common.SolrInputDocument;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.ContentHandler;

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.sql.*;
import java.util.ArrayList;
import java.util.Collection;

/* Example class showing the skeleton of using Tika and
   Sql on the client to index documents from
   both structured documents and a SQL database.

   NOTE: The SQL example and the Tika example are entirely orthogonal.
   Both are included here to make a
   more interesting example, but you can omit either of them.

*/
public class SqlTikaExample {
  private StreamingUpdateSolrServer _server;
  private long _start = System.currentTimeMillis();
  private AutoDetectParser _autoParser;
  private int _totalTika = 0;
  private int _totalSql = 0;

  private Collection _docs = new ArrayList();

  public static void main(String[] args) {
    try {
      SqlTikaExample idxer = new SqlTikaExample("http://localhost:8983/solr");

      idxer.doTikaDocuments(new File("/Users/Erick/testdocs"));
      idxer.doSqlDocuments();

      idxer.endIndexing();
    } catch (Exception e) {
      e.printStackTrace();
    }
  }

  private SqlTikaExample(String url) throws IOException, SolrServerException {
      // Create a multi-threaded communications channel to the Solr server.
      // Could be CommonsHttpSolrServer as well.
      //
    _server = new StreamingUpdateSolrServer(url, 10, 4);

    _server.setSoTimeout(1000);  // socket read timeout
    _server.setConnectionTimeout(1000);
    _server.setMaxRetries(1); // defaults to 0.  > 1 not recommended.
         // binary parser is used by default for responses
    _server.setParser(new XMLResponseParser());

      // One of the ways Tika can be used to attempt to parse arbitrary files.
    _autoParser = new AutoDetectParser();
  }

    // Just a convenient place to wrap things up.
  private void endIndexing() throws IOException, SolrServerException {
    if (_docs.size() > 0) { // Are there any documents left over?
      _server.add(_docs, 300000); // Commit within 5 minutes
    }
    _server.commit(); // Only needs to be done at the end,
                      // commitWithin should do the rest.
                      // Could even be omitted
                      // assuming commitWithin was specified.
    long endTime = System.currentTimeMillis();
    log("Total Time Taken: " + (endTime - _start) +
         " milliseconds to index " + _totalSql +
        " SQL rows and " + _totalTika + " documents");
  }

  // I hate writing System.out.println() everyplace,
  // besides this gives a central place to convert to true logging
  // in a production system.
  private static void log(String msg) {
    System.out.println(msg);
  }

  /**
   * ***************************Tika processing here
   */
  // Recursively traverse the filesystem, parsing everything found.
  private void doTikaDocuments(File root) throws IOException, SolrServerException {

    // Simple loop for recursively indexing all the files
    // in the root directory passed in.
    for (File file : root.listFiles()) {
      if (file.isDirectory()) {
        doTikaDocuments(file);
        continue;
      }
        // Get ready to parse the file.
      ContentHandler textHandler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      ParseContext context = new ParseContext();

      InputStream input = new FileInputStream(file);

        // Try parsing the file. Note we haven't checked at all to
        // see whether this file is a good candidate.
      try {
        _autoParser.parse(input, textHandler, metadata, context);
      } catch (Exception e) {
          // Needs better logging of what went wrong in order to
          // track down "bad" documents.
        log(String.format("File %s failed", file.getCanonicalPath()));
        e.printStackTrace();
        continue;
      }
      // Just to show how much meta-data and what form it's in.
      dumpMetadata(file.getCanonicalPath(), metadata);

      // Index just a couple of the meta-data fields.
      SolrInputDocument doc = new SolrInputDocument();

      doc.addField("id", file.getCanonicalPath());

      // Crude way to get known meta-data fields.
      // Also possible to write a simple loop to examine all the
      // metadata returned and selectively index it and/or
      // just get a list of them.
      // One can also use the LucidWorks field mapping to
      // accomplish much the same thing.
      String author = metadata.get("Author");

      if (author != null) {
        doc.addField("author", author);
      }

      doc.addField("text", textHandler.toString());

      _docs.add(doc);
      ++_totalTika;

      // Completely arbitrary, just batch up more than one document
      // for throughput!
      if (_docs.size() >= 1000) {
          // Commit within 5 minutes.
        UpdateResponse resp = _server.add(_docs, 300000);
        if (resp.getStatus() != 0) {
          log("Some horrible error has occurred, status is: " +
                  resp.getStatus());
        }
        _docs.clear();
      }
    }
  }

    // Just to show all the metadata that's available.
  private void dumpMetadata(String fileName, Metadata metadata) {
    log("Dumping metadata for file: " + fileName);
    for (String name : metadata.names()) {
      log(name + ":" + metadata.get(name));
    }
    log("\n\n");
  }

  /**
   * ***************************SQL processing here
   */
  private void doSqlDocuments() throws SQLException {
    Connection con = null;
    try {
      Class.forName("com.mysql.jdbc.Driver").newInstance();
      log("Driver Loaded");

      con = DriverManager.getConnection("jdbc:mysql://192.168.1.103:3306/test?"
                + "user=testuser&password=test123");

      Statement st = con.createStatement();
      ResultSet rs = st.executeQuery("select id,title,text from test");

      while (rs.next()) {
        // DO NOT move this outside the while loop
        // or be sure to call doc.clear()
        SolrInputDocument doc = new SolrInputDocument(); 
        String id = rs.getString("id");
        String title = rs.getString("title");
        String text = rs.getString("text");

        doc.addField("id", id);
        doc.addField("title", title);
        doc.addField("text", text);

        _docs.add(doc);
        ++_totalSql;

        // Completely arbitrary, just batch up more than one
        // document for throughput!
        if (_docs.size() > 1000) {
             // Commit within 5 minutes.
          UpdateResponse resp = _server.add(_docs, 300000);
          if (resp.getStatus() != 0) {
            log("Some horrible error has occurred, status is: " +
                  resp.getStatus());
          }
          _docs.clear();
        }
      }
    } catch (Exception ex) {
      ex.printStackTrace();
    } finally {
      if (con != null) {
        con.close();
      }
    }
  }
}

CONAN 2012-05-30 14:43 发表评论

Solr调优参考

CONAN — Wed, 30 May 2012 06:40:00 GMT

转自：http://rdc.taobao.com/team/jm/archives/1753
共整理三部分，第一部分Solr常规处理，第二部分针对性性处理，前者比较通用，后者有局限性。务必根据具体应用特性，具体调节参数，对比性能。第三部分
solr查询相关的

具体应用需要全面去把控，各个因素一起起作用。

第一部分
E文连接 http://wiki.apache.org/solr/SolrPerformanceFactors

Schema Design Considerations

indexed fields

indexed fields 的数量将会影响以下的一些性能：

索引时的时候的内存使用量
索引段的合并时间
优化时间
索引的大小

我们可以通过将omitNorms=“true”来减少indexed fields数量增加所带来的影响。

stored fields

Retrieving the stored fields 确实是一种开销。这个开销，受每个文档所存储的字节影响很大。每个文档的所占用的空间越大，文档就显的更稀疏，这样从硬盘中读取数据，就需要更多的i/o操作（通常，我们在存储比较大的域的时候，就会考虑这样的事情，比如存储一篇文章的文档。）

如果，你并不是总是使用stored fields的话，可以使用stored field的延迟加载，这样可以节省很多的性能，尤其是使用compressed field 的时候。

Configuration Considerations

mergeFactor

这个是合并因子，这个参数大概决定了segment(索引段)的数量。

合并因子这个值告诉lucene，在什么时候，要将几个segment合并成为一个segment, 合并因子就像是一个数字系统的基数一样。

这个值可以在solrconfig.xml 中的
*mainIndex*中设置。（不用管indexDefaults中设置）

mergeFactor Tradeoffs

较高的合并因子

会提高索引速度
较低频率的合并，会导致更多的索引文件，这会降低索引的搜索效率

较低的合并因子

较少数量的索引文件，能加快索引的搜索速度。
较高频率的合并，会降低索引的速度。

HashDocSet Max Size Considerations

hashDocSet是solrconfig.xml中自定义优化选项,
使用在filters(docSets)
中，更小的sets，表明更小的内存消耗、遍历、插入。

hashDocSet参数值最后基于索引文档总数来定，索引集合越大，hashDocSet值也越大。

Calulate 0.005 of the total number of documents that you are going to store. Try values on either ‘side’ of that value to arrive at the best query times.  When query times seem to plateau, and performance doesn’t show much difference between the higher number and the lower, use the higher.

Note: hashDocSet is no longer part of Solr as of version 1.4.0, see SOLR-1169.

Cache autoWarm Count Considerations

当一个新的searcher 打开的时候，它缓存可以被预热，或者说使用从旧的searcher的缓存的数据来“自动加热”。autowarmCount是这样的一个参数，它表示从旧缓存中拷贝到新缓存中的对象数量。autowarmCount这个参数将会影响“自动预热”的时间。有些时候，我们需要一些折中的考虑，seacher启动的时间和缓存加热的程度。当然啦，缓存加热的程度越好，使用的时间就会越长，但往往，我们并不希望过长的seacher启动时间。这个autowarm 参数可以在solrconfig.xml文件中被设置。

详细的配置可以参考solr的wiki。

Cache hit rate（缓存命中率）

我们可以通过solr的admin界面来查看缓存的状态信息。提高solr缓存的大小往往是提高性能的捷径。当你使用面搜索的时候，你或许可以注意一下filterCache,这个是由solr实现的缓存。

详细的内容可以参考solrCaching这篇wiki。

Explicit Warming of Sort Fields

如果你有许多域是基于排序的，那么你可以在“newSearcher”和“firstSearcher”event
listeners中添加一些明显需要预热的查询，这样FieldCache 就会缓存这部分内容。

Optimization Considerations

优化索引，是我们经常会做的事情，比如，当我们建立好索引，然后这个索引不会再变更的情况，我们就会做一次优化了。

但，如果你的索引经常会改变，那么你就需要好好的考虑下面的因素的。

当越来越多的索引段被加进索引，查询的性能就会降低， lucene对索引段的数量有一个上限的限制，当超过这个限制的时候，索引段可以自动合并成为一个。
在同样没有缓存的情况下，一个没有经过优化的索引的性能会比经过优化的索引的性能少10%……
自动加热的时间将会变长，因为它依赖于搜索。
优化将会对索引的分发产生影响。
在优化期间，文件的大小将会是索引的两倍，不过最终将会回到它原来的大小，或者会更小一点。

优化，会将所有的索引段合并成为一个索引段，所以，优化这个操作其实可以帮助避免“too many files”这个问题，这个错误是由文件系统抛出的。

Updates and Commit Frequency Tradeoffs

如果从机经常从主机更新的话，从机的性能是会受到影响的。为了避免，由于这个问题而引起的性能下降，我们还必须了解从机是怎样执行更新的，这样我们才能更准确去调节一些相关的参数（commit的频率，spappullers, autowarming/autocount）,这样，从机的更新才不会太频繁。

执行commit操作会让solr新生成一个snapshot。如果将postCommit参数设成true的话，optimization也会执行snapShot.
slave上的Snappuller程序一般是在crontab上面执行的，它会去master询问，有没有新版的snapshot。一旦发现新的版本，slave就会把它下载下来，然后snapinstall.
每次当一个新的searcher被open的时候，会有一个缓存预热的过程，预热之后，新的索引才会交付使用。

这里讨论三个有关的参数：

number/frequency of snapshots —-snapshot的频率。
snappullers 是在crontab中的，它当然可以每秒一次、每天一次、或者其他的时间间隔一次运行。它运行的时候，只会下载slave上没有的，并且最新的版本。
Cache autowarming 可以在solrconfig.xml文件中配置。

如果，你想要的效果是频繁的更新slave上的索引，以便这样看起来比较像“实时索引”。那么，你就需要让snapshot尽可能频繁的运行，然后也让snappuller频繁的运行。这样，我们或许可以每5分钟更新一次，并且还能取得不错的性能，当然啦，cach的命中率是很重要的，恩，缓存的加热时间也将会影响到更新的频繁度。

cache对性能是很重要的。一方面，新的缓存必须拥有足够的缓存量，这样接下来的的查询才能够从缓存中受益。另一方面，缓存的预热将可能占用很长一段时间，尤其是，它其实是只使用一个线程，和一个cpu在工作。snapinstaller太频繁的话，solr
slave将会处于一个不太理想的状态，可能它还在预热一个新的缓存，然而一个更新的searcher被opern了。

Query Response Compression

在有些情况下，我们可以考虑将solr xml response 压缩后才输出。如果response非常大，就会触及NIc i/o限制。

当然压缩这个操作将会增加cpu的负担，其实，solr一个典型的依赖于cpu处理速度的服务，增加这个压缩的操作，将无疑会降低查询性能。但是，压缩后的数据将会是压缩前的数据的6分之一的大小。然而solr的查询性能也会有15%左右的消耗。

至于怎样配置这个功能，要看你使用的什么服务器而定，可以查阅相关的文档。

Embedded vs HTTP Post

使用embeded 来建立索引，将会比使用xml格式来建立索引快50%。

RAM Usage Considerations（内存方面的考虑）

OutOfMemoryErrors

如果你的solr实例没有被指定足够多的内存的话，java virtual machine也许会抛outof memoryError，这个并不对索引数据产生影响。但是这个时候，任何的adds/deletes/commits操作都是不能够成功的。

Memory allocated to the Java VM

最简单的解决这个方法就是，当然前提是java virtual machine还没有使用掉你全部的内存，增加运行solr的java虚拟机的内存。

Factors affecting memory usage（影响内存使用量的因素）

我想，你或许也会考虑怎样去减少solr的内存使用量。其中的一个因素就是input document的大小。当我们使用xml执行add操作的时候，就会有两个限制。

document中的field都是会被存进内存的，field有个属性叫maxFieldLength，它或许能帮上忙。
每增加一个域，也是会增加内存的使用的。

第二部分

1. 多core的时候

多core 如果同一时间进行core 切换，会导致内存、cpu压力过大，可以扩展Solr代码，限制最多同时core
切换的执行个数。保证不会出现高load或者高cpu 风险

2，应用较高安全

最后不低于2个结点工作，并且最好2个结点是跨机器的。
offline与online切换的时候，如果数据量不是很多，可以考虑index与search合一，如果数据量较大，超过5000w的时候，建议index
offline或者search结点之外的其他结点上执行index

3.cache参数配置

如果更新很频繁，导致commit和reopen频繁，如果可以的话，关闭cache.
如果访问中依赖cache提示性能，那么最好关闭cache warm，no facet 需求
或者开开启cache warm 有facet需要，对fieldvalue cache很依赖的话。
实时更新的话，通常document cache命中率比较低，完全可以不开启这个配置

4.reopen 和commit

如果可以的话，主磁盘索引，不参入segment合并，新的索引段走不同的目录。并且reopen的时候，主索引的不变动。

commit与reopen异步化

5.有一部分数据如果不变动，可以考虑使用memory cache 或者locale cache 平衡性能和空间开销，同时避免FGC

6.中间变量压缩、单例化

所有查询或者建索引过程中，尽量少创建对象，而通过set改变对象值，以及单例化，提升性能。一些较大中间变量，如果可以的话，采取一些整数压缩

7.对象表示重定义
例如日期、地区、url、byte等一些对象，可以考虑差值、区位码、可别部分、压缩等结构，使得内存开销降低间接使得内存使用率提高，获得更好性能。

8.index与store 隔离
就是index发挥它的查询性能，store发挥它的存储、响应性能。
也就是不要将所有的内容都放在index中，尽量使得field的属性stored=false

9. 使用solr、lucene最新版本

10. 共享分词实例
自定义的分词，务必使用单例。千万不要一个document创建一个分词对象

第三部分 Solr查询

1. 对按指定域排序
展示的时候，对于数字的建议，展示最近1或者3个月数据。例如价格，防止作弊
dump或者建索引的时候，对数字加以上下界检测，及早发现数字本身正确，而实际意义不合理的数据

2. 排序可变性
默认的排序务必有自己的相关参数，并且平衡各方面需求。
排序要变，但是不至于大的波动。排序的细节不公开，但是排序的结果可以解释的清楚。

3.线上线下
有些分值可以线下完成，有些分值线上完成。看需求。

4.多域查询
如果默认查询多个域，不妨将多个域合成一个域，只差一个域

5.高亮
高亮可以在solr里面或者外面执行的，不一定在solr里面执行，可以在solr之外执行
同理，分词可以在线下执行好，dump只执行简单的空格分词即可

6.统计
facet统计可以先上与线下相结合，不一定完全依赖线上即时计数。

7.主动搜索
主动搜索查询串务必严格处理，既要去无效查询串，也要适当扩展查询串。
明确查询路径和hit=0的对应处理。

CONAN 2012-05-30 14:40 发表评论

solr学习笔记-linux下配置solr(转)

CONAN — Wed, 30 May 2012 06:38:00 GMT

本文地址：

http://zhoujianghai.iteye.com/blog/1540176

首先介绍一下solr：

Apache Solr (读音: SOLer) 是一个开源、高性能、采用Java开发、基于Lucene的全文搜索服务器，文档通过Http利用XML加到一个搜索集合中，查询该集合也是通过 http收到一个XML/JSON响应来实现。Solr 中存储的资源是以 Document 为对象进行存储的。每个文档由一系列的 Field 构成，每个 Field 表示资源的一个属性。Solr 中的每个 Document 需要有能唯一标识其自身的属性，默认情况下这个属性的名字是 id，在 Schema 配置文件（schema.xml）中使用：id进行描述。solr有两个核心文件，solrconfig.xml和schema.xml。solrconfig.xml是solr的基础文件，里面配置了各种web请求处理器、请求响应处理器、日志、缓存等;schema.xml配置映射了各种数据类型的索引方案，分词器的配置、索引文档中包含的字段也在此配置。

工作中主要用来分词和搜索，简单的工作原理是：利用分词器对数据源进行分词处理，然后根据分词结果建立索引库;查询的时候，利用分词器对查询语句进行分词，根据查询语句分词的结果在索引库中进行匹配，最后返回结果。

废话少说，下面开始solr之旅吧：

一.安装JDK和Tomcat

（1）：安装jdk 下载jdk安装包，解压到jdk-1.x目录

（2）：安装tomcat，下载tomcat安装包，解压到apache-tomcat目录下

修改tomcat安装目录下的conf目录的server.xml

找到，加入URIEncoding="UTF-8"，为了支持中文。

设置Java和tomcat环境变量

上面两步比较简单，这里就只简单描述一下，不明白的可以网上查资料。

二. 安装solr

下载solr包，http://labs.renren.com/apache-mirror/lucene/solr/3.5.0/apache-solr-3.5.0.zip

解压缩到apache-solr目录，把apache-solr/dist目录下的apache-solr-3.5.0.war 复制到$TOMCAT_HOME/webapps目录下，重命名为solr.war

复制apache-solr/example/solr到tomcat根目录下（如果你想配置多core（实例），就复制apache-solr /example/multicore到tomcat根目录下，不用复制solr了），作为solr/home，以后也可以往该目录添加 core，每个core下面都可以有自己的配置文件。

在apache-tomcat/conf/Catalina/localhost/下创建solr.xml（跟webapps下的solr项目同名），指定solr.war和solr/home的位置，让tomcat启动时就自动加载该应用。

solr.xml内容如下：

然后在tomcat的bin目录下执行./startup.sh，启动tomcat

在地址栏访问http://localhost:8080/solr/

将会出现solr欢迎界面和admin入口

注：如果出现org.apache.solr.common.SolrException: Error loading class 'solr.VelocityResponseWriter' 异常，最简单的解决方法：找到$TOMCAT_HOME/solr/conf/solrconfig.xml，把注释掉或者enable:false即可。如果一切顺利的话，现在可以看到solr的web管理界面了。不过要想实现分词的功能，得安装一个中文分词器，这里推荐IKAnalyzer或mmseg4j。

IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包，采用了特有的“正向迭代最细粒度切分算法“，具有60万字/秒的高速处理能力，采用了多子处理器分析模式，支持：英文字母（IP地址、Email、URL）、数字（日期，常用中文数量词，罗马数字，科学计数法），中文词汇（姓名、地名处理）等分词处理。优化的词典存储，更小的内存占用。支持用户词典扩展定。

mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器，并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。MMSeg 算法有两种分词方法：Simple和Complex，都是基于正向最大匹配。Complex 加了四个规则过虑。官方说：词语的正确识别率达到了 98.41%。mmseg4j 已经实现了这两种分词算法。

三. 配置中文分词器

下面分别安装这两个中文分词器，当然选择安装其中一个也是可以的。

（1）安装IKAnalyzer

下载地址： http://code.google.com/p/ik-analyzer/downloads/list

在当前目录下新建IKAnalyzer目录，解压到该目录下：unzip IKAnalyzer2012_u5.zip -d ./IKAnalyzer

把IKAnalyzer目录下的IKAnalyzer2012.jar文件拷贝到 $TOMCAT_HOME/webapps/solr/WEB-INF/lib/下

配置schema.xml，编辑$TOMCAT_HOME/solr/conf/schema.xml，在文件中添加下面这个fieldtype

注：下面的代码中多了很多“<span style="font-size: x-small;">”标签，这个是设置字体时iteye编辑器自己生成的。

<span style="font-size: x-small;"><span style="font-size: x-small;"><span style="font-size: small;"><fieldType name="text" class="solr.TextField" positionIncrementGap="100">
        <analyzer type="index">
            <tokenizer class = "org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false" />
            <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
            <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1" />
            <filter class="solr.LowerCaseFilterFactory" />
            <filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt" />
            <filter class="solr.RemoveDuplicatesTokenFilterFactory" />
        analyzer>
        <analyzer type="query">
            <tokenizer class = "org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="true" />
            <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" />
            <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
            <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1" />
            <filter class="solr.LowerCaseFilterFactory" />
            <filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt" />
            <filter class="solr.RemoveDuplicatesTokenFilterFactory" />
        analyzer>
    fieldType>span>span>span>

添加一个索引字段field，并应用上面配置的fieldtype

然后找到这一句：text把它改成game_name

在浏览器打开http://localhost:8080/solr/admin/analysis.jsp，就可以进行分词处理了。

IKAnalyzer添加自定义分词词典：词典文件格式为无BOM的UTF-8编码的文本文件,文件扩展名不限，一次可以添加多个词库，每个词库以";"分开。把IKAnalyzer 目录下的IKAnalyzer.cfg.xml和stopword.dic拷贝到$TOMCAT_HOME/webapps/solr/WEB_INF /classes目录下，可以自己新建一个mydic.dic文件，然后在IKAnalyzer.cfg.xml里进行配置。

（2）安装mmseg4j

下载地址：http://code.google.com/p/mmseg4j/downloads/list

在当前目录下新建mmseg4j目录，解压到该目录下：unzip mmseg4j-1.8.5.zip -d ./mmseg4j

把mmseg4j目录下的mmseg4j-all-1.8.5.jar文件拷贝到 $TOMCAT_HOME/webapps/solr/WEB-INF/lib/下

配置schema.xml，编辑$TOMCAT_HOME/solr/conf/schema.xml，在文件中添加下面这个fieldtype

<fieldtype name="textComplex" class="solr.TextField" positionIncrementGap="100">
        <analyzer>
            <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="/home/zhoujh/java/apache-tomcat7/solr/dict">
            tokenizer>
        analyzer>
    fieldtype>
    <fieldtype name="textMaxWord" class="solr.TextField" positionIncrementGap="100">
        <analyzer>
            <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="/home/zhoujh/java/apache-tomcat7/solr/dict">
            tokenizer>
        analyzer>
    fieldtype>
    <fieldtype name="textSimple" class="solr.TextField" positionIncrementGap="100">
        <analyzer>
            <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="/home/zhoujh/java/apache-tomcat7/solr/dict">
            tokenizer>
        analyzer>
    fieldtype>

注意：dicPath的值改成你自己机器上相应的目录。

然后修改之前添加的filed，让其使用mmseg4j分词器

配置mmseg4j分词词典：MMSEG4J的词库是可以动态加载的，词库的编码必须是UTF-8，mmseg4j 默认从当前目录下的 data 目录读取上面的文件，当然也可以指定别的目录，比如我就放在自定义的dict目录下。自定义词库文件名必需是 "words" 为前缀和 ".dic" 为后缀。如：/data/words-my.dic。

这里直接把mmseg4j/data目录下的所有.dic文件拷贝到$TOMCAT_HOME/solr/dict目录下。共有：4个dic文件，chars.dic、units.dic、 words.dic、 words-my.dic。下面简单解释一下这几个文件的作用。

1、chars.dic，是单个字，和对应的频率，一行一对，字在全面，频率在后面，中间用空格分开。这个文件的信息是 complex 模式要用到的。在最后一条过虑规则中使用了频率信息。

2、units.dic，是单位的字，如：分、秒、年。

3、words.dic，是核心的词库文件，一行一条，不需要其它任何数据（如词长）。

4、words-my.dic，是自定义词库文件

在浏览器打开http://localhost:8080/solr/admin/analysis.jsp，就可以看到分词效果了。

现在，这两种分词方法都已配置好了，想用哪种就把查询的filed的type设置成哪种。

CONAN 2012-05-30 14:38 发表评论

Solr 创建索引 From DataBase

CONAN — Wed, 30 May 2012 06:33:00 GMT

摘要: The Data Import Handler Framework Solr includes a very popular contrib module for importing data known as the DataImportHandler (DIH in short). It's a data processing pipeline built specificallyfor S... 阅读全文

CONAN 2012-05-30 14:33 发表评论

使用Apache Solr对数据库建立索引（包括处理CLOB、CLOB）

CONAN — Wed, 30 May 2012 06:23:00 GMT

摘要: 以下资料整理自网络，觉的有必要合并在一起，这样方便查看。主要分为两部分，第一部分是对《db-data-config.xml》的配置内容的讲解（属于高级内容），第二部分是DataImportHandler（属于基础）,第三部分是对db-data-config.xml的进阶（这个国内可能还没有人写过啊，我在google、baidu上都没有搜索到，最后可是拔代码，看solr的英文文档找的）第一部分是... 阅读全文

CONAN 2012-05-30 14:23 发表评论

关于solr schema.xml 和solrconfig.xml的解释

CONAN — Wed, 30 May 2012 06:18:00 GMT

一、字段配置（schema）

schema.xml位于solr/conf/目录下，类似于数据表配置文件，

定义了加入索引的数据的数据类型，主要包括type、fields和其他的一些缺省设置。

1、先来看下type节点，这里面定义FieldType子节点，包括name,class,positionIncrementGap等一些参数。

name：就是这个FieldType的名称。
class：指向org.apache.solr.analysis包里面对应的class名称，用来定义这个类型的行为。

< schema name = "example" version = "1.2" >
< types >
< fieldType name = "string" class = "solr.StrField" sortMissingLast = "true" omitNorms = "true" />
< fieldType name = "boolean" class = "solr.BoolField" sortMissingLast = "true" omitNorms = "true" />
< fieldtype name = "binary" class = "solr.BinaryField" />
< fieldType name = "int" class = "solr.TrieIntField" precisionStep = "0" omitNorms = "true"
positionIncrementGap = "0" />
< fieldType name = "float" class = "solr.TrieFloatField" precisionStep = "0" omitNorms = "true"
positionIncrementGap = "0" />
< fieldType name = "long" class = "solr.TrieLongField" precisionStep = "0" omitNorms = "true"
positionIncrementGap = "0" />
< fieldType name = "double" class = "solr.TrieDoubleField" precisionStep = "0" omitNorms = "true"
positionIncrementGap = "0" />
...
types >
...
schema >

必要的时候fieldType还需要自己定义这个类型的数据在建立索引和进行查询的时候要使用的分析器analyzer，包括分词和过滤，如下：

view plain print ?

< fieldType name = "text_ws" class = "solr.TextField" positionIncrementGap = "100" >
< analyzer >
< tokenizer class = "solr.WhitespaceTokenizerFactory" />
analyzer >
fieldType >
< fieldType name = "text" class = "solr.TextField" positionIncrementGap = "100" >
< analyzer type = "index" >
< field name = "all" type = "text" indexed = "true" stored = "false" multiValued = "true" />
fields >

3、建议建立一个拷贝字段，将所有的全文本字段复制到一个字段中，以便进行统一的检索：

以下是拷贝设置：

view plain print ?

< copyField source = "name" dest = "all" />
< copyField source = "summary" dest = "all" />

4、动态字段，没有具体名称的字段，用dynamicField字段

如：name为*_i，定义它的type为int，那么在使用这个字段的时候，任务以_i结果的字段都被认为符合这个定义。如name_i, school_i

view plain print ?

< dynamicField name = "*_i" type = "int" indexed = "true" stored = "true" />
< dynamicField name = "*_s" type = "string" indexed = "true" stored = "true" />
< dynamicField name = "*_l" type = "long" indexed = "true" stored = "true" />
< dynamicField name = "*_t" type = "text" indexed = "true" stored = "true" />
< dynamicField name = "*_b" type = "boolean" indexed = "true" stored = "true" />
< dynamicField name = "*_f" type = "float" indexed = "true" stored = "true" />
< dynamicField name = "*_d" type = "double" indexed = "true" stored = "true" />
< dynamicField name = "*_dt" type = "date" indexed = "true" stored = "true" />

schema.xml文档注释中的信息：

1、为了改进性能，可以采取以下几种措施：

将所有只用于搜索的，而不需要作为结果的field（特别是一些比较大的field）的stored设置为false
将不需要被用于搜索的，而只是作为结果返回的field的indexed设置为false
删除所有不必要的copyField声明
为了索引字段的最小化和搜索的效率，将所有的 text fields的index都设置成field，然后使用copyField将他们都复制到一个总的 text field上，然后对他进行搜索。
为了最大化搜索效率，使用java编写的客户端与solr交互（使用流通信）
在服务器端运行JVM（省去网络通信），使用尽可能高的Log输出等级，减少日志量。

2、< schema name =" example " version =" 1.2 " >

name：标识这个schema的名字
version：现在版本是1.2

3、filedType

< fieldType name =" string " class =" solr.StrField " sortMissingLast =" true " omitNorms =" true " />

name：标识而已。
class和其他属性决定了这个fieldType的实际行为。（class以solr开始的，都是在org.appache.solr.analysis包下）

可选的属性：

sortMissingLast和sortMissingFirst两个属性是用在可以内在使用String排序的类型上（包括：string,boolean,sint,slong,sfloat,sdouble,pdate）。
sortMissingLast="true"，没有该field的数据排在有该field的数据之后，而不管请求时的排序规则。
sortMissingFirst="true"，跟上面倒过来呗。
2个值默认是设置成false

StrField类型不被分析，而是被逐字地索引/存储。

StrField和TextField都有一个可选的属性“compressThreshold”，保证压缩到不小于一个大小（单位：char）

< fieldType name =" text " class =" solr.TextField " positionIncrementGap =" 100 " >

solr.TextField 允许用户通过分析器来定制索引和查询，分析器包括一个分词器（tokenizer）和多个过滤器（filter）

positionIncrementGap：可选属性，定义在同一个文档中此类型数据的空白间隔，避免短语匹配错误。

name:    字段类型名
class:    java类名
indexed:    缺省true。说明这个数据应被搜索和排序，如果数据没有indexed，则stored应是true。
stored:    缺省true。说明这个字段被包含在搜索结果中是合适的。如果数据没有stored,则indexed应是true。
sortMissingLast:    指没有该指定字段数据的document排在有该指定字段数据的document的后面
sortMissingFirst:    指没有该指定字段数据的document排在有该指定字段数据的document的前面
omitNorms:    字段的长度不影响得分和在索引时不做boost时，设置它为true。一般文本字段不设置为true。
termVectors:    如果字段被用来做more like this 和highlight的特性时应设置为true。
compressed:    字段是压缩的。这可能导致索引和搜索变慢，但会减少存储空间，只有StrField和TextField是可以压缩，这通常适合字段的长度超过200个字符。
multiValued:    字段多于一个值的时候，可设置为true。
positionIncrementGap:    和multiValued
一起使用，设置多个值之间的虚拟空白的数量

< tokenizer class =" solr.WhitespaceTokenizerFactory " />

空格分词，精确匹配。

< filter class =" solr.WordDelimiterFilterFactory " generateWordParts =" 1 " generateNumberParts =" 1 " catenateWords =" 1 " catenateNumbers =" 1 " catenateAll =" 0 " splitOnCaseChange =" 1 " />

在分词和匹配时，考虑 "-"连字符，字母数字的界限，非字母数字字符，这样 "wifi"或"wi fi"都能匹配"Wi-Fi"。

< filter class =" solr.SynonymFilterFactory " synonyms =" synonyms.txt " ignoreCase =" true " expand =" true " />

同义词

< filter class =" solr.StopFilterFactory " ignoreCase =" true " words =" stopwords.txt " enablePositionIncrements =" true " />

在禁用字（stopword）删除后，在短语间增加间隔

stopword：即在建立索引过程中（建立索引和搜索）被忽略的词，比如is this等常用词。在conf/stopwords.txt维护。

4、fields

< field name =" id " type =" string " indexed =" true " stored =" true " required =" true " />

name：标识而已。
type：先前定义的类型。
indexed：是否被用来建立索引（关系到搜索和排序）
stored：是否储存
compressed：[false]，是否使用gzip压缩（只有TextField和StrField可以压缩）
mutiValued：是否包含多个值
omitNorms：是否忽略掉Norm，可以节省内存空间，只有全文本field和need an index-time boost的field需要norm。（具体没看懂，注释里有矛盾）
termVectors：[false]，当设置true，会存储 term vector。当使用MoreLikeThis，用来作为相似词的field应该存储起来。
termPositions：存储 term vector中的地址信息，会消耗存储开销。
termOffsets：存储 term vector 的偏移量，会消耗存储开销。
default：如果没有属性需要修改，就可以用这个标识下。

< field name =" text " type =" text " indexed =" true " stored =" false " multiValued =" true " />

包罗万象（有点夸张）的field，包含所有可搜索的text fields，通过copyField实现。

< copyField source =" cat " dest =" text " />

< copyField source =" name " dest =" text " />

< copyField source =" manu " dest =" text " />

< copyField source =" features " dest =" text " />

< copyField source =" includes " dest =" text " />

在添加索引时，将所有被拷贝field（如cat）中的数据拷贝到text field中

作用：

将多个field的数据放在一起同时搜索，提供速度
将一个field的数据拷贝到另一个，可以用2种不同的方式来建立索引。

< dynamicField name =" *_i " type =" int " indexed =" true " stored =" true " />

如果一个field的名字没有匹配到，那么就会用动态field试图匹配定义的各种模式。

"*"只能出现在模式的最前和最后
较长的模式会被先去做匹配
如果2个模式同时匹配上，最先定义的优先

< dynamicField name =" * " type =" ignored " multiValued=" true " />

如果通过上面的匹配都没找到，可以定义这个，然后定义个type，当String处理。（一般不会发生）

但若不定义，找不到匹配会报错。

5、其他一些标签

< uniqueKey > id uniqueKey >

文档的唯一标识，必须填写这个field（除非该field被标记required="false"），否则solr建立索引报错。

< defaultSearchField > text defaultSearchField >

如果搜索参数中没有指定具体的field，那么这是默认的域。

< solrQueryParser defaultOperator =" OR " />

配置搜索参数短语间的逻辑，可以是"AND|OR"。

二、solrconfig.xml

1、索引配置

mainIndex 标记段定义了控制Solr索引处理的一些因素.

useCompoundFile：通过将很多 Lucene 内部文件整合到单一一个文件来减少使用中的文件的数量。这可有助于减少 Solr 使用的文件句柄数目，代价是降低了性能。除非是应用程序用完了文件句柄，否则 false 的默认值应该就已经足够。
useCompoundFile：通过将很多Lucene内部文件整合到一个文件，来减少使用中的文件的数量。这可有助于减少Solr使用的文件句柄的数目，代价是降低了性能。除非是应用程序用完了文件句柄，否则false的默认值应该就已经足够了。
mergeFacor：决定Lucene段被合并的频率。较小的值（最小为2）使用的内存较少但导致的索引时间也更慢。较大的值可使索引时间变快但会牺牲较多的内存。（典型的时间与空间的平衡配置）
maxBufferedDocs：在合并内存中文档和创建新段之前，定义所需索引的最小文档数。段是用来存储索引信息的Lucene文件。较大的值可使索引时间变快但会牺牲较多内存。
maxMergeDocs：控制可由Solr合并的 Document 的最大数。较小的值（<10,000）最适合于具有大量更新的应用程序。
maxFieldLength：对于给定的Document，控制可添加到Field的最大条目数，进而阶段该文档。如果文档可能会很大，就需要增加这个数值。然后，若将这个值设置得过高会导致内存不足错误。
unlockOnStartup：告知Solr忽略在多线程环境中用来保护索引的锁定机制。在某些情况下，索引可能会由于不正确的关机或其他错误而一直处于锁定，这就妨碍了添加和更新。将其设置为true可以禁用启动索引，进而允许进行添加和更新。（锁机制）

2、查询处理配置

query标记段中以下一些与缓存无关的特性：

maxBooleanClauses：定义可组合在一起形成以个查询的字句数量的上限。正常情况1024已经足够。如果应用程序大量使用了通配符或范围查询，增加这个限制将能避免当值超出时，抛出TooMangClausesException。
enableLazyFieldLoading：如果应用程序只会检索Document上少数几个Field，那么可以将这个属性设置为 true。懒散加载的一个常见场景大都发生在应用程序返回一些列搜索结果的时候，用户常常会单击其中的一个来查看存储在此索引中的原始文档。初始的现实常常只需要现实很短的一段信息。若是检索大型的Document，除非必需，否则就应该避免加载整个文档。

query部分负责定义与在Solr中发生的时间相关的几个选项：

概念：Solr（实际上是Lucene）使用称为Searcher的Java类来处理Query实例。Searcher将索引内容相关的数据加载到内存中。根据索引、CPU已经可用内存的大小，这个过程可能需要较长的一段时间。要改进这一设计和显著提高性能，Solr引入了一张“温暖”策略，即把这些新的Searcher联机以便为现场用户提供查询服务之前，先对它们进行“热身”。

newSearcher和firstSearcher事件，可以使用这些事件来制定实例化新Searcher或第一个Searcher时，应该执行哪些查询。如果应用程序期望请求某些特定的查询，那么在创建新Searcher或第一个Searcher时就应该反注释这些部分并执行适当的查询。

query中的智能缓存：

filterCache：通过存储一个匹配给定查询的文档 id 的无序集，过滤器让 Solr 能够有效提高查询的性能。缓存这些过滤器意味着对Solr的重复调用可以导致结果集的快速查找。更常见的场景是缓存一个过滤器，然后再发起后续的精炼查询，这种查询能使用过滤器来限制要搜索的文档数。
queryResultCache：为查询、排序条件和所请求文档的数量缓存文档 id 的有序集合。
documentCache：缓存Lucene Document，使用内部Lucene文档id（以便不与Solr唯一id相混淆）。由于Lucene的内部Document id 可以因索引操作而更改，这种缓存不能自热。
Named caches：命名缓存是用户定义的缓存，可被 Solr定制插件所使用。

其中filterCache、queryResultCache、Named caches（如果实现了org.apache.solr.search.CacheRegenerator）可以自热。

每个缓存声明都接受最多四个属性：

class：是缓存实现的Java名
size：是最大的条目数
initialSize：是缓存的初始大小
autoWarmCount：是取自旧缓存以预热新缓存的条目数。如果条目很多，就意味着缓存的hit会更多，只不过需要花更长的预热时间。

对于所有缓存模式而言，在设置缓存参数时，都有必要在内存、cpu和磁盘访问之间进行均衡。统计信息管理页（管理员界面的Statistics）对于分析缓存的 hit-to-miss 比例以及微调缓存大小的统计数据都非常有用。而且，并非所有应用程序都会从缓存受益。实际上，一些应用程序反而会由于需要将某个永远也用不到的条目存储在缓存中这一额外步骤而受到影响。

CONAN 2012-05-30 14:18 发表评论

DataImportHandler--remove data from index

CONAN — Wed, 30 May 2012 06:11:00 GMT

Deleting data from an index using DIH incremental indexing, on Solr wiki, is residually treated as something that works similarly to update the records. Similarly, in a previous article, I used this shortcut, the more that I have given an example of indexing wikipedia data that does not need to delete data.

Having at hand a sample data of the albums and performers, I decided to show my way of dealing with such cases. For simplicity and clarity, I assume that after the first import, the data can only decrease.

Test data

My test data are located in the PostgreSQL database table defined as follows:

Table "public.albums"
Column |  Type   |                      Modifiers
--------+---------+-----------------------------------------------------
id     | integer | not null default nextval('albums_id_seq'::regclass)
name   | text    | not null
author | text    | not null
Indexes:
"albums_pk" PRIMARY KEY, btree (id)

The table has 825,661 records.

Test installation

For testing purposes I used the Solr instance having the following characteristics:

Definition at schema.xml:

<fields>
<field name="id" type="string" indexed="true" stored="true" required="true" />
<field name="album" type="text" indexed="true" stored="true" multiValued="true"/>
<field name="author" type="text" indexed="true" stored="true" multiValued="true"/>
fields>
<uniqueKey>iduniqueKey>
<defaultSearchField>albumdefaultSearchField>

Definition of DIH in solrconfig.xm

<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
<lst name="defaults">
<str name="config">db-data-config.xmlstr>
lst>
requestHandler>

And the file DIH db-data-config.

<dataConfig>
<dataSource driver="org.postgresql.Driver" url="jdbc:postgresql://localhost:5432/shardtest" user="solr" password="secret" />
<document>
  <entity name="album" query="SELECT * from albums">
   <field column="id" name="id" />
   <field column="name" name="album" />
   <field column="author" name="author" />
  entity>
document>
dataConfig>

Deleting Data

Looking at the table shows that when we remove the record, he is deleted without leaving a trace, and the only way to update our index would be to compare the documents identifiers in the index to the identifiers in the database and deleting those that no longer exist in the database. Slow and cumbersome. Another way is adding a column deleted_at: instead of physically deleting the record, only add information to this column. DIH can then retrieve all records from the set date later than the last crawl. The disadvantage of this solution may be necessary to modify the application to take such information into consideration.

I apply a different solution, transparent to applications. Let’s create a new table:

1
CREATE TABLE deletes

2
(

3
id serial NOT NULL,

4
deleted_id bigint,

5
deleted_at timestamp without time zone NOT NULL,

6
CONSTRAINT deletes_pk PRIMARY KEY (id)

7
);

This table will automagically add an identifier of those items that were removed from the table albums and information when they were removed.

Now we add the function:

01
CREATE OR REPLACE FUNCTION insert_after_delete()

02
RETURNS trigger AS

03
$BODY$BEGIN

04
IF tg_op = 'DELETE' THEN

05
INSERT INTO deletes(deleted_id, deleted_at)

06
VALUES (old.id, now());

07
RETURN old;

08
END IF;

09
END$BODY$

10
LANGUAGE plpgsql VOLATILE;

and a trigger:

1
CREATE TRIGGER deleted_trg

2
BEFORE DELETE

3
ON albums

4
FOR EACH ROW

5
EXECUTE PROCEDURE insert_after_delete();

How it works

Each entry deleted from the albums table should result in addition to the table deletes. Let’s check it out. Remove a few records:

1
=> DELETE FROM albums where id < 37;

2
DELETE 2

3
=> SELECT * from deletes;

4
id | deleted_id |         deleted_at

5
----+------------+----------------------------

6
26 |         35 | 2010-12-23 13:53:18.034612

7
27 |         36 | 2010-12-23 13:53:18.034612

8
(2 rows)

So the database part works.

We fill up the DIH configuration file so that the entity has been defined as follows:

1
<entity name="album" query="SELECT * from albums"

2
  deletedPkQuery="SELECT deleted_id as id FROM deletes WHERE deleted_at > '${dataimporter.last_index_time}'">

This allows the import DIH incremental import to use the deletedPkQuery attribute to get the identifiers of the documents which should be removed.

A clever reader will probably begin to wonder, are you sure we need the column with the date of deletion. We could delete all records that are found in the table deletes and then delete the contents of this table. Theoretically this is true, but in the event of a problem with the Solr indexing server we can easily replace it with another – the degree of synchronization with the database is not very important – just the next incremental imports will sync with the database. If we would delete the contents of the deletes table such possibility does not exist.

We can now do the incremental import by calling the following address: /solr/dataimport?command=delta-import
In the logs you should see a line similar to this:
INFO: {delete=[35, 36],optimize=} 0 2
Which means that DIH properly removed from the index the documents, which were previously removed from the database.

CONAN 2012-05-30 14:11 发表评论

Solr 使用 Log4j

CONAN — Wed, 30 May 2012 06:01:00 GMT

大家知道在解压开solr的web程序（apache-solr-3.2.0.war）时，在其WEB-INF/lib目录下有slf4j- api-1.5.5.jar，slf4j-jdk14-1.5.5.jar这两个jar包，故可知其默认使用的是jdk的日志数据，其日志都是输入到 tomcat的logs中；再看其是结合slf4j进行jdk的日志数据；slf4j并不是一种具体的日志系统，而是一个用户日志系统的facade，允许在部署最终应用时方便的变更其日志系统。故solr使用log4j也是ok的，即采用log4j替换jdk的日志输入；做法如下：
1. 将solr/WINF-WEB/lib中的slf4j-api-1.5.5.jar，slf4j-jdk14-1.5.5.jar删除，新加入 log4j-1.2.15.jar slf4j-api-1.5.0.jar slf4j-log4j12-1.5.0.jar或是其对应的jar包；
2.在solr/WEB-INF/下创建classes目录，因为默认的包中没有该目录，其都是使用jsp操作；
3. 将写好的log4j.properties放到solr/WEB-INF/classes中, 其内容如下，

log4j.rootLogger=INFO
log4j.logger.org.apache.solr=INFO,ROLLING_FILE

log4j.appender.ROLLING_FILE=org.apache.log4j.RollingFileAppender
log4j.appender.ROLLING_FILE.Append=false
log4j.appender.ROLLING_FILE.File=/var/log/solr.log
log4j.appender.ROLLING_FILE.MaxBackupIndex=50
log4j.appender.ROLLING_FILE.MaxFileSize=200MB
log4j.appender.LOGFILE.Threshold=INFO
log4j.appender.ROLLING_FILE.layout=org.apache.log4j.PatternLayout
log4j.appender.ROLLING_FILE.layout.ConversionPattern=%d{yyyy-MM-dd HH\:mm\:ss} %p [%c]\:%L Line – %m%n

4.重启tomcat即可
PS：如果是采用JNDI部署，最好将以上的重新打包war，在替换旧的

CONAN 2012-05-30 14:01 发表评论