﻿<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:trackback="http://madskills.com/public/xml/rss/module/trackback/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:slash="http://purl.org/rss/1.0/modules/slash/"><channel><title>BlogJava-走好脚下的路,让别人去说吧!-随笔分类-Java技术-字符串处理</title><link>http://www.blogjava.net/human2008/category/28801.html</link><description /><language>zh-cn</language><lastBuildDate>Fri, 11 Jan 2008 15:15:20 GMT</lastBuildDate><pubDate>Fri, 11 Jan 2008 15:15:20 GMT</pubDate><ttl>60</ttl><item><title>使用Lucene进行全文检索(一)---处理索引 </title><link>http://www.blogjava.net/human2008/archive/2008/01/11/174507.html</link><dc:creator>灵!</dc:creator><author>灵!</author><pubDate>Fri, 11 Jan 2008 01:47:00 GMT</pubDate><guid>http://www.blogjava.net/human2008/archive/2008/01/11/174507.html</guid><wfw:comment>http://www.blogjava.net/human2008/comments/174507.html</wfw:comment><comments>http://www.blogjava.net/human2008/archive/2008/01/11/174507.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.blogjava.net/human2008/comments/commentRss/174507.html</wfw:commentRss><trackback:ping>http://www.blogjava.net/human2008/services/trackbacks/174507.html</trackback:ping><description><![CDATA[&nbsp;Lucene是一个全文检索的引擎,目前有Java和.Net 等几个版本.Java版本的网址是<a href="http://lucene.apache.org/">http://lucene.apache.org</a>.相关的一个项目是车东的WebLucene: <a href="http://sourceforge.net/projects/weblucene">http://sourceforge.net/projects/weblucene</a>.
<p>&nbsp;首先,基于一个简单的新闻系统,要想做全文检索.新闻系统的管理等在这里不在具体提出,下面列出新闻对象的类:<br />
&nbsp;<br />
&nbsp;注:程序用会到一些工具类,不在此列出,用户可以自己实现.<br />
&nbsp;<br />
&nbsp;</p>
<p>
<table class="code" cellspacing="1" cellpadding="1" width="80%" align="center" border="0">
    <tbody>
        <tr>
            <td>&nbsp;&nbsp;package com.jscud.website.newsinfo.bean;<br />
            &nbsp;&nbsp;<br />
            &nbsp;&nbsp;<br />
            &nbsp;&nbsp;import java.sql.Timestamp;<br />
            &nbsp;&nbsp;<br />
            &nbsp;&nbsp;import com.jscud.util.DateTime;<br />
            &nbsp;&nbsp;import com.jscud.util.StringFunc;<br />
            &nbsp;&nbsp;import com.jscud.website.newsinfo.NewsConst;<br />
            &nbsp;&nbsp;<br />
            &nbsp;&nbsp;<br />
            &nbsp;&nbsp;/**<br />
            &nbsp;&nbsp; * 一个新闻.<br />
            &nbsp;&nbsp; * <br />
            &nbsp;&nbsp; * @author scud(飞云小侠) <a href="http://www.jscud.com/">http://www.jscud.com</a><br />
            &nbsp;&nbsp; *&nbsp; <br />
            &nbsp;&nbsp; */<br />
            &nbsp;&nbsp;public class NewsItem<br />
            &nbsp;&nbsp;{<br />
            &nbsp;&nbsp;<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; private int nid; //新闻编号<br />
            &nbsp;&nbsp;<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; private int cid; //类别编号<br />
            &nbsp;&nbsp;<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; private String title;//标题<br />
            &nbsp;&nbsp;<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; private int showtype; //内容类型:目前支持url和html<br />
            &nbsp;&nbsp;<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; private String content;//内容<br />
            &nbsp;&nbsp;<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; private String url;//对应网址,如果内容类型是url的话<br />
            &nbsp;&nbsp; <br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; private Timestamp addtime; //增加时间<br />
            &nbsp;&nbsp;<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; private int click; //点击数<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; //对应的get,set函数,较多不在列出,可以使用工具生成<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; //......<br />
            &nbsp;&nbsp;<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /**<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; * 按照类型格式化<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; */<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; public String getShowContent()<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; String sRes = content;<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; if(showtype == NewsConst.ShowType_HTML)<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; }&nbsp;&nbsp;<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; return sRes;<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; }<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; public String getTarget()<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; if(showtype == NewsConst.ShowType_URL)<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; return "_blank";<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; }<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; else<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; return "";&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; }<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /**<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; * 静态Html文件的路径及其名字<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; */<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; public String getHtmlFileName()<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; int nYear = DateTime.getYear_Date(getAddtime());<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; int nMonth =&nbsp; DateTime.getMonth_Date(getAddtime());<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; String sGeneFileName = <br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; &nbsp;&nbsp;&nbsp;"/news/" + getCid() + "/" + nYear + "/" + nMonth +"/" + getNid() + ".htm";<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; return sGeneFileName;<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; }<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; /**<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; * 静态Html文件的路径<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; */<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; public String getHtmlFilePath()<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; int nYear = DateTime.getYear_Date(getAddtime());<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; int nMonth =&nbsp; DateTime.getMonth_Date(getAddtime());<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; String sGeneFilePath = <br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; &nbsp;&nbsp;&nbsp;getCid() + "_" + nYear + "_" + nMonth;<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; return sGeneFilePath;<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; }&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <br />
            &nbsp;&nbsp;}&nbsp;<br />
            </td>
        </tr>
    </tbody>
</table>
</p>
<p><br />
&nbsp;<br />
&nbsp;可以看到,我们需要对标题和内容进行检索,为了这个目的,我们首先需要来研究一下lucene.<br />
&nbsp;<br />
&nbsp;在Lucene中,如果要进行全文检索,必须要先建立索引然后才能进行检索,当然实际工作中还会有删除索引和更新索引的工作.<br />
&nbsp;<br />
&nbsp;在此之前,介绍一个最基本的类(摘抄自<a href="http://www.blogjava.net/cap/archive/2005/07/17/7849.html">http://www.blogjava.net/cap/archive/2005/07/17/7849.html</a>):<br />
&nbsp;<br />
&nbsp;Analyzer 文件的分析器（听起来别扭，还是叫Analyzer好了)的抽象，这个类用来处理分词(对中文尤其重要，转换大小写(Computer-&gt;computer,实现查询大小写无关)，转换词根(computers-&gt;computer),消除stop words等,还负责把其他格式文档转换为纯文本等.<br />
&nbsp;<br />
&nbsp;在lucene中,一般会使用StandardAnalyzer来分析内容,它支持中文等多字节语言,当然可以自己实现特殊的解析器.StandardAnalyzer目前对中文的处理是按照单字来处理的,这是最简单的办法,但是也有缺点,会组合出一些没有意义的结果来.&nbsp;<br />
&nbsp;<br />
&nbsp;<br />
&nbsp;首先我们来了解建立索引,建立索引包含2种情况,一种是给一条新闻建立索引,另外的情况是在开始或者一定的时间给批量的新闻建立索引,所以为了通用,我们写一个通用的建立索引的函数:<br />
&nbsp;<br />
&nbsp;(一般一类的索引都放在一个目录下,这个配置可以在函数中定义,也可以写在配置文件中,通过参数传递给函数.)<br />
</p>
<p>
<table class="code" cellspacing="1" cellpadding="1" width="80%" align="center" border="0">
    <tbody>
        <tr>
            <td>&nbsp;&nbsp;&nbsp; /**<br />
            &nbsp;&nbsp;&nbsp;&nbsp; * 生成索引.<br />
            &nbsp;&nbsp;&nbsp;&nbsp; * <br />
            &nbsp;&nbsp;&nbsp;&nbsp; * @param doc 目标文档<br />
            &nbsp;&nbsp;&nbsp;&nbsp; * @param indexDir 索引目录<br />
            &nbsp;&nbsp;&nbsp;&nbsp; */<br />
            &nbsp;&nbsp;&nbsp; public static void makeIndex(Document doc, String indexDir)<br />
            &nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; List aList = new ArrayList();<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; aList.add(doc);<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; makeIndex(aList, indexDir);<br />
            &nbsp;&nbsp;&nbsp; }<br />
            &nbsp;<br />
            &nbsp;&nbsp;&nbsp; /**<br />
            &nbsp;&nbsp;&nbsp;&nbsp; * 生成索引.<br />
            &nbsp;&nbsp;&nbsp;&nbsp; * <br />
            &nbsp;&nbsp;&nbsp;&nbsp; * @param doc 生成的document.<br />
            &nbsp;&nbsp;&nbsp;&nbsp; * @param indexDir 索引目录<br />
            &nbsp;&nbsp;&nbsp;&nbsp; */<br />
            &nbsp;&nbsp;&nbsp; public static void makeIndex(List docs, String indexDir)<br />
            &nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; if (null == docs)<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; return;<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; }&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; boolean indexExist = indexExist(indexDir);
            <p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; IndexWriter writer = null;<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; try<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; StandardAnalyzer analyzer = new StandardAnalyzer();<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; //如果索引存在,就追加.如果不存在,就建立新的索引.lucene要是自动判决就好了.<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; if(indexExist) <br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; writer = new IndexWriter(indexDir, analyzer, false);<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; }<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; else<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; writer = new IndexWriter(indexDir, analyzer, true);<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; }</p>
            <p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; //添加一条文档<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; for (int i = 0; i &lt; docs.size(); i++)<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Document doc = (Document) docs.get(i);<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; if (null != doc)<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; writer.addDocument(doc);<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; }<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; }</p>
            <p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; //索引完成后的处理<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; writer.optimize();<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; }<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; catch (IOException e)<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; LogMan.warn("Error in Make Index", e);<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; }<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; finally<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; try<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; if (null != writer)<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; writer.close();<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; }<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; }<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; catch (IOException e)<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; LogMan.warn("Close writer Error");<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; }<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; }<br />
            &nbsp;&nbsp;&nbsp; }<br />
            </p>
            </td>
        </tr>
    </tbody>
</table>
</p>
<p><br />
<br />
&nbsp;可以看到,建立索引用到类是IndexWrite,它可以新建索引或者追加索引,但是需要自己判断.判断是通过IndexReader这个类来实现的,函数如下:</p>
<p>&nbsp;</p>
<p>
<table class="code" cellspacing="1" cellpadding="1" width="80%" align="center" border="0">
    <tbody>
        <tr>
            <td>&nbsp; /**<br />
            &nbsp;&nbsp;&nbsp;&nbsp; * 检查索引是否存在.<br />
            &nbsp;&nbsp;&nbsp;&nbsp; * @param indexDir<br />
            &nbsp;&nbsp;&nbsp;&nbsp; * @return<br />
            &nbsp;&nbsp;&nbsp;&nbsp; */<br />
            &nbsp;&nbsp;&nbsp; public static boolean indexExist(String indexDir)<br />
            &nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; return IndexReader.indexExists(indexDir);<br />
            &nbsp;&nbsp;&nbsp; }<br />
            &nbsp;</td>
        </tr>
    </tbody>
</table>
</p>
<p><br />
&nbsp;如果每次都是新建索引的话,会把原来的记录删除,我在使用的时候一开始就没有注意到,后来观察了一下索引文件,才发现这个问题.<br />
&nbsp;<br />
&nbsp;<br />
&nbsp;还可以看到,建立索引是给用户的Document对象建立索引,Document表示索引中的一条文档记录.那么我们如何建立一个文档那?以新闻系统为例,代码如下:<br />
&nbsp;</p>
<p>
<table class="code" cellspacing="1" cellpadding="1" width="80%" align="center" border="0">
    <tbody>
        <tr>
            <td>&nbsp;&nbsp;&nbsp;&nbsp; /**<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; * 生成新闻的Document.<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; * <br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; * @param aNews 一条新闻.<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; * <br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; * @return lucene的文档对象<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; */<br />
            &nbsp;&nbsp;&nbsp;&nbsp; public static Document makeNewsSearchDocument(NewsItem aNews)<br />
            &nbsp;&nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Document doc = new Document();<br />
            &nbsp;<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; doc.add(Field.Keyword("nid", String.valueOf(aNews.getNid())));<br />
            &nbsp;<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; doc.add(Field.Text("title", aNews.getTitle()));<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; //对Html进行解析,如果不是html,则不需要解析.或者根据格式调用自己的解析方法<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; String content = parseHtmlContent(aNews.getContent());<br />
            &nbsp;<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; doc.add(Field.UnStored("content", content));<br />
            &nbsp;<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; doc.add(Field.Keyword("addtime", aNews.getAddtime()));<br />
            &nbsp;<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; //可以加入其他的内容:例如新闻的评论等<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; doc.add(Field.UnStored("other", ""));<br />
            &nbsp;<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; //访问url<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; String newsUrl = "/srun/news/viewhtml/" + aNews.getHtmlFilePath() + "/" + aNews.getNid()<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; + ".htm";<br />
            &nbsp;<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; doc.add(Field.UnIndexed("visiturl", newsUrl));<br />
            &nbsp;<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; return doc;<br />
            &nbsp;&nbsp;&nbsp;&nbsp; }<br />
            </td>
        </tr>
    </tbody>
</table>
</p>
<p><br />
&nbsp;<br />
&nbsp;通过上面的代码,我们把一条新闻转换为lucene的Document对象,从而进行索引工作.在上面的代码中,我们又引入了lucene中的Field(字段)类.Document文档就像数据库中的一条记录,它有很多字段,每个字段是一个Field对象.<br />
&nbsp;<br />
&nbsp;从别的文章摘抄一段关于Field的说明(摘抄自<a href="http://www.blogjava.net/cap/archive/2005/07/17/7849.html">http://www.blogjava.net/cap/archive/2005/07/17/7849.html</a>):<br />
&nbsp;[quote]<br />
&nbsp;&nbsp;&nbsp; 类型&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Analyzed Indexed Stored 说明 <br />
&nbsp;&nbsp;&nbsp; Field.Keyword(String,String/Date)&nbsp; N Y Y&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 这个Field用来储存会直接用来检索的比如(编号,姓名,日期等) <br />
&nbsp;&nbsp;&nbsp; Field.UnIndexed(String,String)&nbsp;&nbsp;&nbsp;&nbsp; N N Y&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 不会用来检索的信息,但是检索后需要显示的,比如,硬件序列号,文档的url地址 <br />
&nbsp;&nbsp;&nbsp; Field.UnStored(String,String)&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Y Y N&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 大段文本内容,会用来检索,但是检索后不需要从index中取内容,可以根据url去load真实的内容 <br />
&nbsp;&nbsp;&nbsp; Field.Text(String,String)&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Y Y Y&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 检索,获取都需要的内容,直接放index中,不过这样会增大index <br />
&nbsp;&nbsp;&nbsp; Field.Text(String,Reader)&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Y Y N&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 如果是一个Reader, lucene猜测内容比较多,会采用Unstored的策略. <br />
&nbsp;[/quote]<br />
&nbsp;<br />
&nbsp;我们可以看到新闻的编号是直接用来检索的,所以是Keyword类型的字段,新闻的标题是需要检索和显示用的,所以是Text类型,而新闻的内容因为是Html格式的,所以在经过解析器的处理用,使用的UnStored的格式,而新闻的时间是直接用来检索的,所以是KeyWord类型.为了在新闻索引后用户可以访问到完整的新闻页面,还设置了一个UnIndexed类型的访问地址字段.<br />
&nbsp;<br />
&nbsp;(对Html进行解析的处理稍后在进行讲解)<br />
&nbsp;<br />
&nbsp;为一条新闻建立索引需要两个步骤:获取Document,传给makeIndex函数,代码如下:<br />
</p>
<p>
<table class="code" cellspacing="1" cellpadding="1" width="80%" align="center" border="0">
    <tbody>
        <tr>
            <td>&nbsp;&nbsp;&nbsp; public static void makeNewsInfoIndex(NewsItem aNews)<br />
            &nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; if (null == aNews)<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; return;<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; }<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; makeIndex(makeNewsSearchDocument(aNews),indexDir);<br />
            &nbsp;&nbsp;&nbsp; }&nbsp;&nbsp;</td>
        </tr>
    </tbody>
</table>
</p>
<p><br />
&nbsp;<br />
<br />
&nbsp;<br />
&nbsp;<br />
&nbsp;建立索引的工作就进行完了,只要在增加新闻后调用 makeNewsInfoIndex(newsitem); 就可以建立索引了.<br />
&nbsp;<br />
&nbsp;如果需要删除新闻,那么也要删除对应的索引,删除索引是通过IndexReader类来完成的:<br />
&nbsp;<br />
</p>
<p>
<table class="code" cellspacing="1" cellpadding="1" width="80%" align="center" border="0">
    <tbody>
        <tr>
            <td><br />
            &nbsp;&nbsp;&nbsp; /**<br />
            &nbsp;&nbsp;&nbsp;&nbsp; * 删除索引.<br />
            &nbsp;&nbsp;&nbsp;&nbsp; * @param aTerm 索引删除条件<br />
            &nbsp;&nbsp;&nbsp;&nbsp; * @param indexDir 索引目录<br />
            &nbsp;&nbsp;&nbsp;&nbsp; */<br />
            &nbsp;&nbsp;&nbsp; public static void deleteIndex(Term aTerm, String indexDir)<br />
            &nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; List aList = new ArrayList();<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; aList.add(aTerm);<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; deleteIndex(aList, indexDir);<br />
            &nbsp;&nbsp;&nbsp; }
            <p>&nbsp;&nbsp;&nbsp; /**<br />
            &nbsp;&nbsp;&nbsp;&nbsp; * 删除索引.<br />
            &nbsp;&nbsp;&nbsp;&nbsp; * <br />
            &nbsp;&nbsp;&nbsp;&nbsp; * @param aTerm 索引删除条件.<br />
            &nbsp;&nbsp;&nbsp;&nbsp; * @param indexDir 索引目录<br />
            &nbsp;&nbsp;&nbsp;&nbsp; *&nbsp; <br />
            &nbsp;&nbsp;&nbsp;&nbsp; */<br />
            &nbsp;&nbsp;&nbsp; public static void deleteIndex(List terms, String indexDir)<br />
            &nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; if (null == terms)<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; return;<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; }<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; if(!indexExist(indexDir)) { return; }</p>
            <p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; IndexReader reader = null;<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; try<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; reader = IndexReader.open(indexDir);<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; for (int i = 0; i &lt; terms.size(); i++)<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Term aTerm = (Term) terms.get(i);<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; if (null != aTerm)<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; reader.delete(aTerm);<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; }<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; }<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; }<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; catch (IOException e)<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; LogMan.warn("Error in Delete Index", e);<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; }<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; finally<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; try<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; if (null != reader)<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; reader.close();<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; }<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; }<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; catch (IOException e)<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; LogMan.warn("Close reader Error");<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; }<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; }<br />
            &nbsp;&nbsp;&nbsp; }&nbsp;<br />
            </p>
            </td>
        </tr>
    </tbody>
</table>
</p>
<p><br />
&nbsp;<br />
&nbsp;删除索引需要一个条件,类似数据库中的字段条件,例如删除一条新闻的代码如下:<br />
&nbsp;<br />
</p>
<p>
<table class="code" cellspacing="1" cellpadding="1" width="80%" align="center" border="0">
    <tbody>
        <tr>
            <td>&nbsp;&nbsp;&nbsp;&nbsp; public static void deleteNewsInfoIndex(int nid)<br />
            &nbsp;&nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Term aTerm = new Term("nid", String.valueOf(nid));<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; deleteIndex(aTerm,indexDir);<br />
            &nbsp;&nbsp;&nbsp;&nbsp; }&nbsp;&nbsp;&nbsp;</td>
        </tr>
    </tbody>
</table>
</p>
<p><br />
<br />
<br />
&nbsp;通过新闻的ID,就可以删除一条新闻.<br />
&nbsp;<br />
&nbsp;如果需要更新新闻,如何更新索引哪? 更新索引需要先删除索引然后新建索引2个步骤,其实就是把上面的代码组合起来,例如更新一条新闻:</p>
<p>
<table class="code" cellspacing="1" cellpadding="1" width="80%" align="center" border="0">
    <tbody>
        <tr>
            <td>&nbsp;&nbsp;&nbsp;&nbsp; public static void updateNewsInfoIndex(NewsItem aNews)<br />
            &nbsp;&nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; if (null == aNews)<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; return;<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; }<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; deleteNewsInfoIndex(aNews.getNid());<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; makeNewsInfoIndex(aNews);<br />
            &nbsp;&nbsp;&nbsp;&nbsp; }&nbsp;<br />
            &nbsp;</td>
        </tr>
    </tbody>
</table>
</p>
<p><br />
<br />
&nbsp;<br />
&nbsp;至此,索引的建立更新和删除就告一段落了.其中批量更新新闻的代码如下:<br />
&nbsp;(批量更新应该在访问人数少或者后台程序在夜间执行)</p>
<p>
<table class="code" cellspacing="1" cellpadding="1" width="80%" align="center" border="0">
    <tbody>
        <tr>
            <td>&nbsp;&nbsp;&nbsp; public static void makeAllNewsInfoIndex(List newsList)<br />
            &nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; List terms = new ArrayList();<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; List docs = new ArrayList();
            <p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; for (int i = 0; i &lt; newsList.size(); i++)<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; NewsItem aitem = (NewsItem) newsList.get(i);<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; if (null != aitem)<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; {<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; terms.add(new Term("nid", String.valueOf(aitem.getNid())));<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; docs.add(makeNewsSearchDocument(aitem));<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; }<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; }</p>
            <p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; deleteIndex(terms,indexDir);<br />
            &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; makeIndex(docs,indexDir);<br />
            &nbsp;&nbsp;&nbsp; }&nbsp;</p>
            </td>
        </tr>
    </tbody>
</table>
</p>
<img src ="http://www.blogjava.net/human2008/aggbug/174507.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.blogjava.net/human2008/" target="_blank">灵!</a> 2008-01-11 09:47 <a href="http://www.blogjava.net/human2008/archive/2008/01/11/174507.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>汉字编码转换 </title><link>http://www.blogjava.net/human2008/archive/2008/01/10/174233.html</link><dc:creator>灵!</dc:creator><author>灵!</author><pubDate>Thu, 10 Jan 2008 03:46:00 GMT</pubDate><guid>http://www.blogjava.net/human2008/archive/2008/01/10/174233.html</guid><wfw:comment>http://www.blogjava.net/human2008/comments/174233.html</wfw:comment><comments>http://www.blogjava.net/human2008/archive/2008/01/10/174233.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.blogjava.net/human2008/comments/commentRss/174233.html</wfw:commentRss><trackback:ping>http://www.blogjava.net/human2008/services/trackbacks/174233.html</trackback:ping><description><![CDATA[<div>
<p style="margin: 0cm 0cm 0pt"><font size="2"><span style="font-family: 宋体">汉字编码转换</span> </font></p>
<p style="margin: 0cm 0cm 0pt"><font size="2"><span style="font-family: 宋体">相关：</span> </font></p>
<div style="border-right: medium none; padding-right: 0cm; border-top: medium none; padding-left: 0cm; background: #f7f7f7; padding-bottom: 3pt; margin-left: 1.5pt; border-left: medium none; margin-right: 10.5pt; padding-top: 0cm; border-bottom: #ecf1f7 1pt solid">
<p style="border-right: medium none; padding-right: 0cm; border-top: medium none; padding-left: 0cm; background: #f7f7f7; padding-bottom: 0cm; margin: 0cm 0cm 0pt; border-left: medium none; word-break: break-all; line-height: 20.4pt; padding-top: 0cm; border-bottom: medium none; text-align: left" align="left"><font size="2"><span style="color: #339966; font-family: 宋体">UNICODE</span> <span style="color: #339966; font-family: 宋体">是为了处理包括中文，日文等字符而提出的一种通用的字符集。最初的UNICODE为双字节字符集，即16位编码，能够包括65，536个字符。但这样的容量并不能满足所有需要，因此，现在的UNICODE已经扩展到4个字节，能够容纳1,112,064 个字符，而这些在16位之后的扩展背称为增补字符。</span> </font></p>
</div>
<p style="margin: 0cm 0cm 0pt"><font size="2"><span style="color: #339966"><font face="Times New Roman">UTF-32</font> </span><span style="color: #339966; font-family: 宋体">、</span> <span style="color: #339966"><font face="Times New Roman">UTF-16 </font></span><span style="color: #339966; font-family: 宋体">和</span> <span style="color: #339966"><font face="Times New Roman">UTF-8 </font></span><span style="color: #339966; font-family: 宋体">是</span> <span style="color: #339966"><font face="Times New Roman">Unicode </font></span><span style="color: #339966; font-family: 宋体">标准的编码字符集的字符编码方案。</span> </font></p>
<p style="margin: 0cm 0cm 0pt"><font size="2"><span style="color: #339966"><font face="Times New Roman">UTF-8 </font></span><span style="color: #339966; font-family: 宋体">使用一至四个字节的序列对编码</span> <span style="color: #339966"><font face="Times New Roman">Unicode </font></span><span style="color: #339966; font-family: 宋体">代码点进行编码</span> </font></p>
<div style="border-right: medium none; padding-right: 0cm; border-top: medium none; padding-left: 0cm; background: #f7f7f7; padding-bottom: 3pt; margin-left: 1.5pt; border-left: medium none; margin-right: 10.5pt; padding-top: 0cm; border-bottom: #ecf1f7 1pt solid">
<p style="border-right: medium none; padding-right: 0cm; border-top: medium none; padding-left: 0cm; background: #f7f7f7; padding-bottom: 0cm; margin: 0cm 0cm 0pt; border-left: medium none; word-break: break-all; line-height: 20.4pt; padding-top: 0cm; border-bottom: medium none; text-align: left" align="left"><font size="2"><span style="color: #339966; font-family: 宋体">UTF-8 </span><span style="color: #339966; font-family: 宋体">使用一至四个字节的序列对编码 Unicode 代码点进行编码。U+0000 至 U+007F 使用一个字节编码，U+0080 至 U+07FF 使用两个字节，U+0800 至 U+FFFF 使用三个字节，而 U+10000 至 U+10FFFF 使用四个字节。UTF-8 设计原理为：字节值 0x00 至 0x7F 始终表示代码点 U+0000 至 U+007F（Basic Latin 字符子集，它对应 ASCII 字符集）。这些字节值永远不会表示其他代码点，这一特性使 UTF-8 可以很方便地在软件中将特殊的含义赋予某些 ASCII 字符。</span> </font></p>
</div>
<div style="border-right: medium none; padding-right: 0cm; border-top: medium none; padding-left: 0cm; background: #f7f7f7; padding-bottom: 3pt; margin-left: 0cm; border-left: medium none; margin-right: 10.5pt; padding-top: 0cm; border-bottom: #ecf1f7 1pt solid"></div>
<p style="margin: 0cm 0cm 0pt"><font size="2"><span style="color: #339966; font-family: 宋体">　</span> <span style="color: #339966"><font face="Times New Roman">GB2312(1980</font> </span><span style="color: #339966; font-family: 宋体">年</span> <span style="color: #339966"><font face="Times New Roman">)</font> </span><span style="color: #339966; font-family: 宋体">一共收录了</span> <span style="color: #339966"><font face="Times New Roman">7445</font> </span><span style="color: #339966; font-family: 宋体">个字符，包括</span> <span style="color: #339966"><font face="Times New Roman">6763</font> </span><span style="color: #339966; font-family: 宋体">个汉字和</span> <span style="color: #339966"><font face="Times New Roman">682</font> </span><span style="color: #339966; font-family: 宋体">个其它符号。汉字区的内码范围高字节从</span> <span style="color: #339966"><font face="Times New Roman">B0-F7</font> </span><span style="color: #339966; font-family: 宋体">，低字节从</span> <span style="color: #339966"><font face="Times New Roman">A1-FE</font> </span><span style="color: #339966; font-family: 宋体">，占用的码位是</span> <span style="color: #339966"><font face="Times New Roman">72*94=6768</font> </span><span style="color: #339966; font-family: 宋体">。其中有</span> <span style="color: #339966"><font face="Times New Roman">5</font> </span><span style="color: #339966; font-family: 宋体">个空位是</span> <span style="color: #339966"><font face="Times New Roman">D7FA-D7FE</font> </span><span style="color: #339966; font-family: 宋体">。当然也可以表示数字和字符（一个字节，与</span> <span style="color: #339966"><font face="Times New Roman">ASCII</font> </span><span style="color: #339966; font-family: 宋体">表示相同）。</span> </font></p>
<p style="margin: 0cm 0cm 0pt"><font size="2"><span style="font-family: 宋体">要读取一个以</span> <font face="Times New Roman">GB2312</font> <span style="font-family: 宋体">编码的包含汉字、数字、字母的二进制文件。</span> </font></p>
<p style="margin: 0cm 0cm 0pt"><span style="font-family: 新宋体"><font size="2">String strName =Encoding.GetEncoding("gb2312").GetString(name,0,i) ;</font> </span></p>
<p style="margin: 0cm 0cm 0pt"><font size="2"><span style="font-family: 新宋体">// name</span> <span style="font-family: 新宋体">是读取的二进制数组。</span> </font></p>
<p style="margin: 0cm 0cm 0pt"><font size="2"><span style="font-family: 新宋体">这样就能将二进制数组转换为</span> <span style="font-family: 宋体">汉字、数字或字母</span> </font></p>
<p style="margin: 0cm 0cm 0pt"><font size="2"><span style="font-family: 宋体">同样：也可以将包含汉字、数字、字母的字符串转换为</span> <span style="font-family: 新宋体">二进制数组保存到</span> <span style="font-family: 宋体">二进制文件。</span> </font></p>
<p style="margin: 0cm 0cm 0pt"><font size="2"><span style="font-family: 新宋体">String unicodeString =&nbsp;&nbsp; "</span> <span style="font-family: 新宋体">备用43E";</span> </font></p>
<p style="margin: 0cm 0cm 0pt"><span style="font-family: 新宋体"><font size="2">Byte[] encodedBytes = Encoding.GetEncoding("gb2312").GetBytes(unicodeString);</font> </span></p>
<p style="margin: 0cm 0cm 0pt"><span style="font-family: 新宋体"><font size="2">当然也可以进行二进制数组与UNICODE，UTF-8等编码方式的转换</font> </span></p>
<p style="margin: 0cm 0cm 0pt"><span style="font-family: 新宋体"><font size="2">Byte[] encodedBytes = utf8.GetBytes(unicodeString);</font> </span></p>
<p style="margin: 0cm 0cm 0pt"><span style="font-family: 新宋体"><font size="2">String decodedString = utf8.GetString(encodedBytes);</font> </span></p>
<p style="margin: 0cm 0cm 0pt"><span style="font-family: 新宋体"><font size="2">UnicodeEncoding unicode = <span style="color: blue">new</span> UnicodeEncoding();</font> </span></p>
<p style="margin: 0cm 0cm 0pt"><span style="font-family: 新宋体"><font size="2">Byte[] encodedBytes = unicode.GetBytes(unicodeString);</font> </span></p>
<p style="margin: 0cm 0cm 0pt"><font size="2"><span style="font-family: 新宋体">String decodedString = unicode.GetString(encodedBytes);</span> </font></p>
</div>
<img src ="http://www.blogjava.net/human2008/aggbug/174233.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.blogjava.net/human2008/" target="_blank">灵!</a> 2008-01-10 11:46 <a href="http://www.blogjava.net/human2008/archive/2008/01/10/174233.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>JAVA数据类型转换 </title><link>http://www.blogjava.net/human2008/archive/2008/01/10/174224.html</link><dc:creator>灵!</dc:creator><author>灵!</author><pubDate>Thu, 10 Jan 2008 03:38:00 GMT</pubDate><guid>http://www.blogjava.net/human2008/archive/2008/01/10/174224.html</guid><wfw:comment>http://www.blogjava.net/human2008/comments/174224.html</wfw:comment><comments>http://www.blogjava.net/human2008/archive/2008/01/10/174224.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.blogjava.net/human2008/comments/commentRss/174224.html</wfw:commentRss><trackback:ping>http://www.blogjava.net/human2008/services/trackbacks/174224.html</trackback:ping><description><![CDATA[<p>基本类型有以下四种：<br />
int长度数据类型有：byte(8bits)、short(16bits)、int(32bits)、long(64bits)、<br />
float长度数据类型有：单精度（32bits float）、双精度（64bits double）<br />
boolean类型变量的取值有：ture、false<br />
char数据类型有：unicode字符,16位<br />
对应的类类型：<br />
Integer、Float、Boolean、Character、Double、Short、Byte、Long</p>
<p><br />
转换原则：<br />
从低精度向高精度转换<br />
byte 、short、int、long、float、double、char<br />
注：两个char型运算时，自动转换为int型；当char与别的类型运算时，也会先自动转换为int型的，再做其它类型的自动转换 </p>
<p>基本类型向类类型转换</p>
<p>正向转换：<br />
通过类包装器来new出一个新的类类型的变量<br />
Integer a= new Integer(2);</p>
<p>反向转换：<br />
通过类包装器来转换<br />
int b=a.intValue();<br />
类类型向字符串转换</p>
<p><br />
正向转换：<br />
因为每个类都是object类的子类，而所有的object类都有一个toString()函数，所以通过toString()函数来转换即可</p>
<p>反向转换：<br />
通过类包装器new出一个新的类类型的变量<br />
eg1: int i=Integer.valueOf(&#8220;123&#8221;).intValue()<br />
说明：上例是将一个字符串转化成一个Integer对象，然后再调用这个对象的intValue()方法返回其对应的int数值。<br />
eg2: float f=Float.valueOf(&#8220;123&#8221;).floatValue()<br />
说明：上例是将一个字符串转化成一个Float对象，然后再调用这个对象的floatValue()方法返回其对应的float数值。<br />
eg3: boolean b=Boolean.valueOf(&#8220;123&#8221;).booleanValue()<br />
说明：上例是将一个字符串转化成一个Boolean对象，然后再调用这个对象的booleanValue()方法返回其对应的boolean数值。<br />
eg4:Double d=Double.valueOf(&#8220;123&#8221;).doubleValue()<br />
说明：上例是将一个字符串转化成一个Double对象，然后再调用这个对象的doubleValue()方法返回其对应的double数值。<br />
eg5: long l=Long.valueOf(&#8220;123&#8221;).longValue()<br />
说明：上例是将一个字符串转化成一个Long对象，然后再调用这个对象的longValue()方法返回其对应的long数值。<br />
eg6: char=Character.valueOf(&#8220;123&#8221;).charValue()<br />
说明：上例是将一个字符串转化成一个Character对象，然后再调用这个对象的charValue()方法返回其对应的char数值。</p>
<p><br />
基本类型向字符串的转换</p>
<p>正向转换：<br />
如：int a=12;<br />
String b;<br />
b=a+&#8221;&#8221;;</p>
<p>反向转换：<br />
通过类包装器<br />
eg1:<br />
int i=Integer.parseInt(&#8220;123&#8221;)<br />
说明：此方法只能适用于字符串转化成整型变量<br />
eg2: float f=Float.valueOf(&#8220;123&#8221;).floatValue()<br />
说明：上例是将一个字符串转化成一个Float对象，然后再调用这个对象的floatValue()方法返回其对应的float数值。<br />
eg3: boolean b=Boolean.valueOf(&#8220;123&#8221;).booleanValue()<br />
说明：上例是将一个字符串转化成一个Boolean对象，然后再调用这个对象的booleanValue()方法返回其对应的boolean数值。<br />
eg4:Double d=Double.valueOf(&#8220;123&#8221;).doubleValue()<br />
说明：上例是将一个字符串转化成一个Double对象，然后再调用这个对象的doubleValue()方法返回其对应的double数值。<br />
eg5: long l=Long.valueOf(&#8220;123&#8221;).longValue()<br />
说明：上例是将一个字符串转化成一个Long对象，然后再调用这个对象的longValue()方法返回其对应的long数值。<br />
eg6: char=Character.valueOf(&#8220;123&#8221;).charValue()<br />
说明：上例是将一个字符串转化成一个Character对象，然后再调用这个对象的charValue()方法返回其对应的char数值。</p>
<img src ="http://www.blogjava.net/human2008/aggbug/174224.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.blogjava.net/human2008/" target="_blank">灵!</a> 2008-01-10 11:38 <a href="http://www.blogjava.net/human2008/archive/2008/01/10/174224.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item></channel></rss>