Searching - SIMONE - 语源科技BlogJava

http://beijingit.blog.163.com/blog/static/29639092201212145312231/

Solr's XML response format
status：始终为0。除非查询发生错误，将返回错误码
QTime: 查询耗时。由于有内部缓存，所以两个相同的查询的QTime是相同的，但是查询速度更快
numFound: 总共查询到的结果数
start:查询返回结果集的起始数
maxScore:查询结果中所有数据的最高得分，如果查询请求的fl请求参数没有指定score,那么返回结果中doc中是不会有得分字段的
返回的结果中的每一个doc对应的就是一条查询出来的数据，一一对应于索引中的document，数据类型使用solr中的基本数据类型呈现，如果是多值字段，则以排序的多个字段呈现，每个字段同样是简单类型。
result节点之后可能会有facet highlight等

Parsing the URL
url中的文本必须是utf-8编码，

Request handlers
在solrconfig.xml中配置，允许配置两件事情1.配置默认的参数和一些不会改变的常量。2。注册solr查询组件，例如faceting highlighting等
建议在实际应用中针对每一种类型的查询配置单独的request handler，这样做的好处是可以通过配置修改参数，并且对于查询统计提供更好的粒度
qt="handler name";

<requestHandler name="bands" class="solr.SearchHandler">
<lst name="defaults">
<str name="echoParams">none</str>
<int name="rows">20</int>
</lst>
<lst name="appends">
<str name="fq">a_type:group</str>
</lst>
<lst name="invariants">
<str name="facet">false</str>
</lst>
</requestHandler>
1。defaults: 默认参数设置，请求时参数会覆盖此值
2。appends:可以设置多次的参数。像fq,除了请求参数中指定的同时此值也会被设置。
3.invariants:此值是常量值，并且不会被覆盖（此值用于安全目的).
4.first-components, components, last-components:注册当前handler可能会用到的handler。默认情况下已经注册了一些组件，例如faceting highlighting等。设置first-components和last-components会分别前置或追加到这个列表中，设置 components会完全覆盖默认的列表设置。

Query parameters
对于boolean类型的参数，真值可以是true,on,yes，假值可以为false,off,no.

Search criteria related parameters

q: query的简写，指查询字符串，查询语法使用defType的设定

defType：默认是lucene,大多数情况下将会使用dismax 或edismax

dismax和edismax支持许多增强的功能，更少的语法限制可以防止用户得到不希望的结果或者是不小心使用lucene语法时提示出错。

fq：用户查询时过滤条件的范围，类似于sql中的where，此参数不会影响得分(scoring),此参数可以重复。

qt：查询类型。就是前边提到的request handler,一种方法就是用/aaa来命名，然后就可以在url中用aaa?....来访问

Result pagination related parameters

start：默认是0，返回结果集中的起始位置，如果此值大于结果集的总数，那么将不会返回任何document，但是solr也不认为这是一个错误

rows：默认是10，

Output related parameters

fl：返回的字段列表，值用，/ 或空格分格，使用*符号返回所有字段但是不包括score，要想返回此字段必须添加

sort：排序字段，例如r_name asc,score desc，默认是score desc,也可以用function进行排序

wt：返回的格式，在solrconfig.xml中定义，目前支持的有xml（默认的），json,phthon,php,phps,ruby,javabin,csv,xslt,velocity.

version：不是很有用。

Diagnostic related parameters

用于开发调试，

indent：boolean值，用于使输出更容易阅读。

debugQuery：如果为true,那么接下来的查询结果会有<lst name="debug">的调试信息，其中包括转换的查询字符串，score的计算，以及处理faceting所耗时间，explainOther：如果想知道为什么某个document没有被匹配，或者得分不高，那么可以设置此值来进行查询，例如 id:"Release:12345",这样debugQuery的输出肯定会包含第一个匹配此查询的结果。

echoHandler：如果为true，将输出与solr request handler匹配的java 类名。

echoParams：控制是否在response header中包含查询参数，可以用来调试url编码过的查询字符串，none禁用，默认的request handler设置此属性为explicit,可以使用all来包含所有request handler中的配置参数，除了url中的。

timeAllowed：用来指定查询的最长时间，以毫秒为单位。

Query parsers and local-params

solr中默认的query parser是lucene,

Query syntax (the lucene query parser)

solr完整的查询语法是实现的lucene query parser.

lucene不支持查询所有文档，solr使用*:*可以查询所有文档

mandatory(强制性）prohibited(禁止）和优化

mandatory：+aaa:只匹配包含aaa的

prohibited： -aaa：匹配所有的,但是除了包含aaa的

optional: aaa 可选的

如果查询语句至少有一个mandatory，那么optional就是可选的，但是他有一个很有用的功能就是文档得分，会匹配更多的（也就是说文档中可以包含optional也可以没有）

如果查询语句没有mandatory,那么至少要匹配一个optional（也就是说文档中必须要包含optional）。

optional也可以指定一个确定的数或百分比来进行匹配或不匹配，这样的话就必须用dismax的min-should-match功能。

solr4将不再使用这种方法

Boolean operators

AND OR NOT

如果没有明确标记为prohibited，那么AND or && 两边的操作会被认为是mandatory，例如aaa AND bbb 等同于+aaa +bbb

同样的，OR操作会被认为是optional的 NOT等同于prohibited

Sub-queries

(aaa AND bbb) OR (cccc || ddd )

Limitations of prohibited clauses is sub-queries

lucene 不支持纯粹的否定查询，例如-Smashing -Pumpkins。solr对lucene进行增强来支持这种查询，但是仅仅只能在顶层查询，看下面这个例子 Smashing (-Pumpkins),这个查询是在问：那个document包含Smashing或者不包含pumpkins吗？无论怎样，这样写都不会有正确结果的。正确的写法应该是让子表达式只包含否定语句，并且添加查询所有的查询“*:*"就像这样Smashing (-Pumpkins *:*)，这个限制只能应用在edismax查询中。

Field qualifier

member_name:aaa

+member_name:aaa +member_name:bbb 也可以用简写形式+member_name:(+aaa +bbb),圆括号代表的是子查询，这个查询的目标字段都是同一个。

Wildcard queries

要注意的几点

1. 不要对包含通配符的查询字符串应用文本分析，甚至是小写，假如你想查找Sma开头的单词，并且索引中的字段类型包含小写，那么就应该使用sma*而不能用 Sma*。这是SOLR-219中的一个缺点。此外，假如你要使用的字段是应用了文本分析的，那么smashing*是不会匹配到Smashing的，因为文本分析会把Smash转换为smash，因此，不要应用文本分析。

2.通配符查询是很慢的，使用ReversedWildcardFilterFactory可以提高很多，最坏的情况是在单词两端应用*号。

3.起始通配符应用*号的话结果会返回错误，除非使用ReversedWildcardFilterFactory。

例子：sma* ,sma*ing, sma??*(至少后边跟两个或者更多)

每一个匹配项都会得到相同的score，不管他使用那种查询模式。lucene以牺牲性能来支持多种score，不过得进行一些设置让solr来完成

有一个问题只是一个*号会怎么样呢？结果取决于schema文件中是否有任何一个字段类型，即使索引链中没有应用一个ReversedWildcardFilterFactory,*号都会应用所有field，如果不是这样，那么会得到一个”不支持前导通配符“的错误。

Fuzzy queries

例子: Smashing~

波浪号用于模糊查询，可以通过修改相似度（0-1，默认0.5）来进行查询如：Smashing~0.7

就像使用通配符查询一样，如果要使用模糊查询就应该将查询字符串转为小写。

Range queries

例如：a_type:2 AND a_begin_date:[1990-01-01T00:00:00.000Z TO 1999-02-02T22:59:59.999Z]

"[]"包含两端的值，”{}“不包含两端的值，solr3中，要么都包含，要么都不包含。solr4两个都允许。

也可以使用a_duration:[3000 TO *] 此处"*"号的方式lucene是不支持的

范围查询也可用于文本字段（不常用），此时所应用的索引字段只能有一个term 例如:somefield:([B TO C] -C)

Date math

solr 扩展了lucene原始的查询转换器，使date应用范围查询时再加方便，就像数字计算一样。另外还可以通过”NOW“(精确到毫秒级)来获取当前时间，其语法还提供了补充，如减法，四舍五入根据不同的粒度，如年，秒等。操作可以链接到一起，并且从左向右执行，不允许有空格。例

r_event_date:[* TO NOW-2YEAR]

因为NOW是精确到毫秒级的，所以如果只是想到天的话可以用”/"向下舍入（此符号只会向下舍入）

r_event_date:[* To NOW/DAY-2YEAR]

可选的单位有YEAR,MONTH,DAY,DATE(与DAY相同)，HOUR,MINUTE,SECOND,MILISECOND,MILIT(与MILISECOND相同)

DateMath 不只是用于查询，同样用于索引，用于索引时应该使用正确的精度，否则精确到毫秒级的话不仅占用更多的磁盘空间，而且也会降低查询速度，常用的索引日期字段是这样的<field name="indexedAt" type="tdate" default="NOW/SECOND" />

Score boosting

通过添加乘数可以修改查询字符串中的条文贡献给最终得分的程度，这叫做增强，0到1之间的值减少得分，大于1的值增加得分，

例：a_member_name:Billy^2 OR Smashing 或者 +Billy Bob Corgan^0.7

Existence (and non-existence) queries

如果要查询某个字段下的所有文档可以这样a_name:[* TO * ]

也可以查询某个字段下没有值的所有文档，-a_name:[* TO *]

Escaping special characters

+ - && || ! () {} [] ^ '' ~ * ? : \ 要想使用这些字符的原意可以用"\" 例id:artist\:aaa 通过双引号也可以实现同样效果id:"artist:aaa"

如果使用solrj与solr交互，可以使用ClientUtils.escapeQueryChars()进行转义

The Dismax query parser

dismax 是lucene的DisjunctionMaxQuery之后的名字,这个query parser对于scoring 有直接关系.

edismax中的e是extended的意思，这个parser是在solr3.1中增加的，他由dismax的演化而来。

Searching multiple fields

<str name="qf">a_name a_alias^0.7 a_member_name^0.4</str>如果想根据scoring排序，可以将scoring设大一点，这样就会排在最上边

关于schema中定义的stop words的效果，如果qf指定的字段中其中一些字段使用stop words而别一些没有使用，那么查询stop words将不会返回任何结果。edismax把查询字符串中的stop words认为都是可选的（也就是可有可无），除非查询字符串中全部使用stop words，使用dismax 你可以确保查询字段中的查询分板链过滤出相同的stop words值。

Limited query syntax

edismax首先会把用户的查询使用lucene支持的所有语法进行转换，进行两次调整，如果转换失败，它接下来会跳到原始的dismax的语法规则。

or和and还有布尔运算可以用小写形式，并且支持纯否定子查询。

如果使用dismax，对于terms,phrase它都会限制可以使用的语法,并且使用+和-（而不是AND,OR,&&,||）来对条文应用强制应用和禁止应用。

还有就是是否需要对相关查询的有效性进行转义。为了不触发错误，除非使用edismax否则就必须编码来处理某些突出的问题。

Min-should-match

lucene query parser有两种操作，一是默认操作是or,也就是说只要有一个条文匹配就可以，另一个就是使用AND来使所有条文匹配。它不能使用+或-进行明确指定。这是两种极端的情况。dismax有一个方法叫min-should-mathc,它用来指定多少条文必须匹配，或者有多少个是禁止的。这个值可以设置为百分比或确定的数值。在配置文件中可以通过查询参数“mm"来设置。语法也比较简单。

Basic rules

mm参数的四个基本语法如下：

1：3 必须匹配3个条文，其余的是可选的。

2：-2 2个条文是可选的，其余的是必须的。

3：66% 66%的条文是必须的，其余的是可选的。

4：-25% 25%的条文是可选的，其余的是必须的。

注意：-是对必须的除以可选的的逆向取值，它在这儿的定义其实没有否定多少的意思。虽然75%和-25%看起来一样，但是在rounding的时候就不一样了，例如有五个查询条文，第一个条文需要三次，第二个条文需要四次，这也就说明如果要进行rounding计算，那么就需要反转标志再用100减去此值。

另外两点：1.如果mm的值是一个确定的值n，但是查询的条文数小于此值，那么n会减少到查询结果中的条文总数。例如mm值为-5但是查询中的条文一共只有2个，所以结果就是所有条文都是可选的。

2.记住一点,不管是lucene还是solr，在所有查询中，必须有一个条文是匹配的，即使所有条文都是可选的，

Multiple rules

是以空格分隔的一个串，例如number<basicmm ，意思是说如果条文的数量大于number, 那么就应用basicmm规则。（规则的从左向右升序排列的）。只有最右端的规则才会被计算，执行的规则肯定是满足最大的条文总数。如果不满足任何一个规则，那么所有条文都是必须的。例如：

2<75% 9<-3 这个规则的意思是说，如果条文总数大于9，那么其中3个是可选的，其它的都是必须的。如果条文总数大于2，那么75%是必须的。其它情况（也就是条文总数只有1个或2个）那么所有条文都是必须的（这是默认）。

What to choose

Min-should-match的简单配置是使所有terms都是可选的。它的效果相当于默认的Lucene query parser 的OR操作，默认是0%。反过来的另一种极端就是所有terms都是必须的，这个就相当于AND操作，就像100%。

注意：你可能想让所有terms都匹配，实事上这也是默认设置。但是如果有一个term没有找到，那么不会返回任何结果。当你设置一些terms是可选的时候，匹配的结果会以score排序，包含最多terms的结果会排在顶部。还有一方法就是在没有返回结果的时候进行二次查询，但是solr是不支持的，不过可以通过客户端很容易的实现。

A default search

dismax 查询支持一个默认查询。也就是用户没有指定q的时候。参数是q.alt。例如<str name="q.alt">*:*</str>。这个参数通常设置在solrconfig.xml文件的request handler中来查询所有文档。在faceting中会使用到这个设置。如果不想返回任何结果可以设置为-*:*;

Filtering

filter查询不会影响scoring，不像用户查询。要添加一个filter，只要使用fq参数。使用filter可以改进执行效率，因为每一个filter查询都会缓存在solr的filter cache中并且执行速度相当快。

solr 3.4通过本地参数cache来控制是否启用缓存

Sorting

使用sort参数，默认是score desc。例：sort=a_type desc,score desc

进行排序字段的数值类型必须是single valued,indexed,并且是not-tokenized。

另外solr还支持function query ，它通常用来计算空间地理位置的距离，或现在与字段值的时间差等。例sort=sub(begin_time,end_time) desc

posted on 2012-07-09 10:29 SIMONE 阅读(818) 评论(0) 编辑收藏所属分类: solr

常用链接

留言簿(46)

随笔分类(476)

随笔档案(495)

最新随笔

搜索

积分与排名

最新评论

阅读排行榜

评论排行榜


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理
相关文章: Searching 深入剖析SolrCloud（四） Phinecos(洞庭散人) 专注于开源技术的研究与应用深入剖析SolrCloud（三） Phinecos(洞庭散人) 专注于开源技术的研究与应用深入剖析SolrCloud（一）深入剖析SolrCloud（二）