﻿<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:trackback="http://madskills.com/public/xml/rss/module/trackback/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:slash="http://purl.org/rss/1.0/modules/slash/"><channel><title>BlogJava-马可波罗的梦乡-文章分类-Lucene</title><link>http://www.blogjava.net/thinke365/category/41667.html</link><description /><language>zh-cn</language><lastBuildDate>Fri, 02 Oct 2009 18:18:33 GMT</lastBuildDate><pubDate>Fri, 02 Oct 2009 18:18:33 GMT</pubDate><ttl>60</ttl><item><title>Lucene代码</title><link>http://www.blogjava.net/thinke365/articles/296223.html</link><dc:creator>梦回唐朝</dc:creator><author>梦回唐朝</author><pubDate>Wed, 23 Sep 2009 18:06:00 GMT</pubDate><guid>http://www.blogjava.net/thinke365/articles/296223.html</guid><wfw:comment>http://www.blogjava.net/thinke365/comments/296223.html</wfw:comment><comments>http://www.blogjava.net/thinke365/articles/296223.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.blogjava.net/thinke365/comments/commentRss/296223.html</wfw:commentRss><trackback:ping>http://www.blogjava.net/thinke365/services/trackbacks/296223.html</trackback:ping><description><![CDATA[1、分析器，所有分析器继承自抽象类Analyzer。Lucene<span style="font-size: 10pt; color: #0000ff">本身已经提供了一套的分析器</span>，可以处理各种语言。<span style="font-size: 10pt; color: #000080">但都是最基本的方法</span>，<span style="font-size: 10pt; color: #ff0000">如果想使用更复杂的方法</span>(如一些基于统计和机器学习的方法)，<span style="font-size: 10pt; color: #ff0000">可以对这个地方进行扩展的</span>。<br />
<br />
<br />
<img src ="http://www.blogjava.net/thinke365/aggbug/296223.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.blogjava.net/thinke365/" target="_blank">梦回唐朝</a> 2009-09-24 02:06 <a href="http://www.blogjava.net/thinke365/articles/296223.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>搜索引擎</title><link>http://www.blogjava.net/thinke365/articles/295390.html</link><dc:creator>梦回唐朝</dc:creator><author>梦回唐朝</author><pubDate>Wed, 16 Sep 2009 20:05:00 GMT</pubDate><guid>http://www.blogjava.net/thinke365/articles/295390.html</guid><wfw:comment>http://www.blogjava.net/thinke365/comments/295390.html</wfw:comment><comments>http://www.blogjava.net/thinke365/articles/295390.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.blogjava.net/thinke365/comments/commentRss/295390.html</wfw:commentRss><trackback:ping>http://www.blogjava.net/thinke365/services/trackbacks/295390.html</trackback:ping><description><![CDATA[所有SE的核心都是倒排索引。不同之处在于他们额外添加的，用于改善倒排索引结构的技术。<br />
这些技术被作为商业机密而严格地保护起来了。<br />
<br />
<img src ="http://www.blogjava.net/thinke365/aggbug/295390.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.blogjava.net/thinke365/" target="_blank">梦回唐朝</a> 2009-09-17 04:05 <a href="http://www.blogjava.net/thinke365/articles/295390.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>Lucene分词</title><link>http://www.blogjava.net/thinke365/articles/295380.html</link><dc:creator>梦回唐朝</dc:creator><author>梦回唐朝</author><pubDate>Wed, 16 Sep 2009 14:05:00 GMT</pubDate><guid>http://www.blogjava.net/thinke365/articles/295380.html</guid><wfw:comment>http://www.blogjava.net/thinke365/comments/295380.html</wfw:comment><comments>http://www.blogjava.net/thinke365/articles/295380.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.blogjava.net/thinke365/comments/commentRss/295380.html</wfw:commentRss><trackback:ping>http://www.blogjava.net/thinke365/services/trackbacks/295380.html</trackback:ping><description><![CDATA[第一个分词问题，居然是在FTP返回字符串的解析之上，暂时还没有想到解决的办法。<br />
<br />
如&nbsp;&nbsp; /hello/this is directory/IT 类 <br />
IT 类 /civilservant/_Incoming_/公务员/专业课/&nbsp; 这行记录也已经搜到，所以下面的文档搜不到，问题可能出在 爬虫上，下面的文档url没有放到 原始数据中?&nbsp; // <span style="font-size: 10pt; color: red">看了一下原始数据，果然没有包含此url，问题是出在哪里呢</span>?<br />
<br />
但是在测试例子中这样做是可以的啊。。。<br />
<br />
<img src ="http://www.blogjava.net/thinke365/aggbug/295380.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.blogjava.net/thinke365/" target="_blank">梦回唐朝</a> 2009-09-16 22:05 <a href="http://www.blogjava.net/thinke365/articles/295380.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>Lucene索引</title><link>http://www.blogjava.net/thinke365/articles/295138.html</link><dc:creator>梦回唐朝</dc:creator><author>梦回唐朝</author><pubDate>Tue, 15 Sep 2009 05:40:00 GMT</pubDate><guid>http://www.blogjava.net/thinke365/articles/295138.html</guid><wfw:comment>http://www.blogjava.net/thinke365/comments/295138.html</wfw:comment><comments>http://www.blogjava.net/thinke365/articles/295138.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.blogjava.net/thinke365/comments/commentRss/295138.html</wfw:commentRss><trackback:ping>http://www.blogjava.net/thinke365/services/trackbacks/295138.html</trackback:ping><description><![CDATA[1、每个Document可以有多个Field，每个Field可以设置是否存储，和索引方式。<br />
2、2.x的版本API和1.4的接口发生了一些变化。&nbsp; 是一些软件演化的过程?<br />
3、<span style="font-size: 10pt; color: #0000ff">可以设置更复杂的查询条件</span>。 // 布尔查询的API调用<br />
<br />
FSDirectory打开用于搜索的索引。<br />
为了有效地应用Lucene，我们需要<span style="font-size: 10pt; color: red">深入地了解它的工作方式</span>以及在需要的时候如何去扩展它。<br />
<br />
Field是Document的元数据，根据配置的特性不同，有的会被索引，另外的不会被索引。<br />
可以通过设置属性，<span style="font-size: 10pt; color: #ff0000">把Field的内存存到索引文件中</span>。<br />
<br />
<img src ="http://www.blogjava.net/thinke365/aggbug/295138.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.blogjava.net/thinke365/" target="_blank">梦回唐朝</a> 2009-09-15 13:40 <a href="http://www.blogjava.net/thinke365/articles/295138.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>Lucene优缺点</title><link>http://www.blogjava.net/thinke365/articles/295084.html</link><dc:creator>梦回唐朝</dc:creator><author>梦回唐朝</author><pubDate>Mon, 14 Sep 2009 19:38:00 GMT</pubDate><guid>http://www.blogjava.net/thinke365/articles/295084.html</guid><wfw:comment>http://www.blogjava.net/thinke365/comments/295084.html</wfw:comment><comments>http://www.blogjava.net/thinke365/articles/295084.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.blogjava.net/thinke365/comments/commentRss/295084.html</wfw:commentRss><trackback:ping>http://www.blogjava.net/thinke365/services/trackbacks/295084.html</trackback:ping><description><![CDATA[<p>优点：<br />
1、易用性，只需掌握少数几个类。简单的API隐藏了索引建立和搜索实现的复杂过程。<br />
</p>
<img src ="http://www.blogjava.net/thinke365/aggbug/295084.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.blogjava.net/thinke365/" target="_blank">梦回唐朝</a> 2009-09-15 03:38 <a href="http://www.blogjava.net/thinke365/articles/295084.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>Lucene概念</title><link>http://www.blogjava.net/thinke365/articles/294997.html</link><dc:creator>梦回唐朝</dc:creator><author>梦回唐朝</author><pubDate>Mon, 14 Sep 2009 04:01:00 GMT</pubDate><guid>http://www.blogjava.net/thinke365/articles/294997.html</guid><wfw:comment>http://www.blogjava.net/thinke365/comments/294997.html</wfw:comment><comments>http://www.blogjava.net/thinke365/articles/294997.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.blogjava.net/thinke365/comments/commentRss/294997.html</wfw:commentRss><trackback:ping>http://www.blogjava.net/thinke365/services/trackbacks/294997.html</trackback:ping><description><![CDATA[1、分块索引。为新增文件单独创建索引，再合并。 (索引优化技术)<br />
2、只要扩展相应接口，就可以支持新的语言和文件格式。 <br />
3、对每个Lucene例子进行Junit测试，这是一项有意思的测试。 把精力集中到比较小的细节中去，并且可以<span style="font-size: 10pt; color: #0000ff">毫无后顾之忧的修改系统中的部分代码</span>。<br />
4、<span style="font-size: 10pt; color: red">可以通过Lucene官方的PowerBy找到其他一些以Lucene为基础的开源软件</span>。<br />
5、Lucene是Doug妻子的中间名：这也是她祖母的姓。<br />
<br />
<span style="font-size: 10pt; color: #0000ff">Lucene能够对任意可转换为文本格式的数据进行索引和搜索</span>。<br />
<br />
整个Lucene的核心，就是<span style="color: red">索引</span>两个字。<br />
Directory用于指定索引所在的位置，Query对应于多种实现。<br />
<br />
技术：<br />
1、Lucene的一个方便之处在于，它允许用于不同Field的Document在一个索引中共存。<br />
2、一个Document可以有多个Field，而<span style="font-size: 10pt; color: red">多个Field可以对应于同一个域</span>，如"contents"、"title"。<br />
3、没有设置Index的Field是不能设置norm的，<span style="font-size: 10pt; color: #0000ff">Field、Indexed、Norm三者之间的关系是什么</span>?<br />
<br />
索引：<br />
1、索引是Lucene最核心的东西。最简单的索引大致如下：以term为entry，命中该term的所有doc是一个列表。这个列表可以是排序的。Lucene的实际索引实现是否也是这样的。以前在一个IR的ppt中看到，一般的SE索引都是这个结构的，<span style="font-size: 10pt; color: #0000ff">Lucene索引有什么特别之处吗?这个可以深入了解下的</span>。<br />
2、<span style="font-size: 10pt; color: #0000ff">使用Luke时的一个发现</span>。<span style="font-size: 10pt; color: #ff0000"><strong>在Document标签，可以通过Term遍历包含该Term的Document列表</strong></span>。点击show all，这会跳转到Search标签。也可以点击Show Position显示文档的位置信息。 这里的term frequency是指 term在文档中的出现次数。&nbsp;&nbsp; <span style="font-size: 10pt; color: #993366"><strong>Lucene中Term对应Document真的是组织成一个列表吗?或者做过一些优化?<br />
</strong></span>3、 <br />
<br />
关键技术：<br />
1、列举一些重要的类，也是深入了解Lucene的入口：<br />
Analyzer分词器，将文档(<span style="font-size: 10pt; color: #0000ff">索引时</span>)和查询字符(<span style="font-size: 10pt; color: #0000ff">查询时</span>)进行分词<br />
Query 查询条件，可以包含多个Term，进行布尔查询，区间查询等。BooleanQuery本身是布尔查询子句的容器。<br />
Term 分词项，对应于索引中的入口?<br />
Directory 指向索引目录，可以使FS或RAM等，还可以自己做一些实现，哈哈<br />
Similarity <span style="font-size: 10pt; color: #0000ff">用于对词进行评分</span>。<span style="font-size: 10pt; color: #800080"><strong>这个地方有很多工作可以做的</strong></span>。 <br />
<span style="font-size: 10pt; color: red"><strong>查询表达式</strong></span>，通过QueryParser可以将表达式转换为特定的Query对象。<span style="font-size: 10pt; color: #0000ff"><strong>比直接调用API要清晰</strong></span>。NOT操作必须和一个其他操作结合，才能用于查询。<br />
<br />
<img src ="http://www.blogjava.net/thinke365/aggbug/294997.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.blogjava.net/thinke365/" target="_blank">梦回唐朝</a> 2009-09-14 12:01 <a href="http://www.blogjava.net/thinke365/articles/294997.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item></channel></rss>